This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
docs/
6
AMDGPUUsage.rst
-
include/llvm/IR/
-
llvm/
-
IR/
1/7
IntrinsicsAMDGPU.td
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
1
AMDGPURegisterBankInfo.cpp
21
SIISelLowering.cpp
1
SIInstructions.td
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
3
llvm.amdgcn.reduce.umax.ll
2
llvm.amdgcn.reduce.umin.ll
-
llvm.amdgcn.wave.reduce.umax.mir
-
llvm.amdgcn.wave.reduce.umin.mir

Differential D154858

[AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic.
ClosedPublic

Authored by pravinjagtap on Jul 10 2023, 9:05 AM.

Download Raw Diff

Details

Reviewers

arsenm
yassingh
b-sumner
foad
cdevadas

Group Reviewers

Restricted Project

Commits

rGc48ed93cf8c9: [AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic.

Summary

When input to intrinsic is uniform value, reduced value is
same as input whereas if input value is divergent we need
to iterate over all the active lane to perform the reduction.

The control flow for a loop has been set up, which
iterates over only active lanes to perform reduction.

Introduced WAVE_REDUCE_UMIN_PSEUDO_U32 and
WAVE_REDUCE_UMAX_PSEUDO_U32 Pseudos which
are lowered Post-ISel (in EmitInstrWithCustomInserter ).

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

pravinjagtap created this revision.Jul 10 2023, 9:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 10 2023, 9:05 AM

Herald added subscribers: foad, kerbowa, hiraditya and 6 others. · View Herald Transcript

pravinjagtap requested review of this revision.Jul 10 2023, 9:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 10 2023, 9:05 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

pravinjagtap added reviewers: arsenm, yassingh, b-sumner, foad.Jul 10 2023, 9:06 AM

Herald added a subscriber: StephenFan. · View Herald TranscriptJul 10 2023, 9:06 AM

I was thinking an IR expansion would be easier, but it's good to have a machine one (at least for umin)

llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1928	Should have a mangled type. I also think it should have an immarg operand for the preferred lowering strategy to use. Also, wave_reduce? Also umin would be a better choice for a first one, given that we want it for dynamic alloca handling
llvm/lib/Target/AMDGPU/SILowerReduceAndScanPseudo.cpp
1 ↗	(On Diff #538679)	Missing header
87 ↗	(On Diff #538679)	There's supposed to be a getWaveRegClass to go through
172 ↗	(On Diff #538679)	This doesn't need to be a separate pass, can be a post isel hook
llvm/test/CodeGen/AMDGPU/llvm.amdgpu.reduce.ll
2 ↗	(On Diff #538679)	test with -global-isel=1/0
19 ↗	(On Diff #538679)	Also add poison and constant tests
25 ↗	(On Diff #538679)	Also add a test where this is under divergent control flow
52 ↗	(On Diff #538679)	Should strip out most of this test
73 ↗	(On Diff #538679)	Drop this, it's redundant with the run line target and breaks adding multiple run targets

Can add MIR tests.

llvm/lib/Target/AMDGPU/SILowerReduceAndScanPseudo.cpp
8 ↗	(On Diff #538679)	Some description about what the pass will do? Or function comment if this is not implemented as a pass.
45–48 ↗	(On Diff #538679)	INITIALIZE_PASS(SIExpandReduceAndScanPseudo, DEBUG_TYPE, "Expand Reduction and Scan Pseudos", false, false)

Harbormaster completed remote builds in B244169: Diff 538679.Jul 10 2023, 10:34 AM

pravinjagtap added inline comments.Jul 10 2023, 11:44 PM

llvm/lib/Target/AMDGPU/SILowerReduceAndScanPseudo.cpp
172 ↗	(On Diff #538679)	Are you referring to `EmitInstrWithCustomInserter` API where other PSEUDOs are expanded ?

arsenm added inline comments.Jul 11 2023, 5:58 PM

llvm/lib/Target/AMDGPU/SILowerReduceAndScanPseudo.cpp
172 ↗	(On Diff #538679)	Yes, that's generally where the pseudos to hack around the DAG not handling control flow go

Addressed review comments @arsenm.

Implemented umin using post isel hook

pravinjagtap added inline comments.Jul 12 2023, 4:07 AM

llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1928	I also think it should have an immarg operand for the preferred lowering strategy to use In that case, we need to create two different intrinsics and two pesudo operations, one for immediate operand and other for non-immediate operand. Also, reduction of scalar value of immediate value is that value itself, so do we really need lowering for this ?

foad added inline comments.Jul 12 2023, 4:45 AM

llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1928	I think @arsenm meant that the intrinsic should take an extra `immarg i32 %strategy` argument.

In D154858#4492965, @pravinjagtap wrote:

Addressed review comments @arsenm.

Implemented umin using post isel hook

Sorry, I meant umax. We need umax for alloca, not umin

arsenm added inline comments.Jul 12 2023, 4:47 AM

llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1928	Yes, so you have a way of requesting the DPP or WWM lowering etc. It doesn't change the main operand

Harbormaster completed remote builds in B244739: Diff 539486.Jul 12 2023, 7:03 AM

Added support for umax

arsenm added inline comments.Jul 12 2023, 7:51 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4091	I was envisioning this as just a hint, and if unimplemented (or the target doesn't support the version), it would just fallback to one that works. Should also add some intrinsic documentation to AMDGPUUsage with the values for this
llvm/lib/Target/AMDGPU/SIInstructions.td
267	These need _U32/_B32 suffixes
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umax.ll
3	Should test with both wave sizes, and test for every generation, with global-isel=0 and 1
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umin.ll
5	Put the immarg on the declarations
127	Use named values

arsenm added inline comments.Jul 12 2023, 7:58 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4091	Also split the argument to strategy decision to a separate function

Harbormaster completed remote builds in B244789: Diff 539555.Jul 12 2023, 11:37 AM

Addressed review comments of @arsenm

Extended support global isel
Updated test

arsenm added inline comments.Jul 13 2023, 6:19 AM

llvm/docs/AMDGPUUsage.rst
998	Elaborate that it should work if the target doesn't support the mode (e.g. gfx6/7 have no DPP)
llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1932–1936	Define an intrinsic class for these to avoid repeating the signautre each time. Also you still should use a type mangled argument instead of hardcoded i32.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4070	static, start with lowercase
4081	static, start with lowercase

arsenm requested changes to this revision.Jul 13 2023, 6:38 AM

This revision now requires changes to proceed.Jul 13 2023, 6:38 AM

pravinjagtap retitled this revision from [WIP] [AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic. to [AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic..Jul 13 2023, 6:38 AM

pravinjagtap edited the summary of this revision. (Show Details)

pravinjagtap added a reviewer: Restricted Project.

Harbormaster completed remote builds in B245074: Diff 539969.Jul 13 2023, 7:43 AM

arsenm added inline comments.Jul 13 2023, 12:20 PM

llvm/docs/AMDGPUUsage.rst
998	The default 0 should mean target default preference. The higher values should request a specific strategy

Need MIR tests for pseudo expansion

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
4521–4528
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4115	typo `iterative`
4117	same
4152	ExecReg

Addressed review commnets.

Harbormaster completed remote builds in B245311: Diff 540307.Jul 14 2023, 2:04 AM

Added MIR tests

Harbormaster completed remote builds in B245340: Diff 540341.Jul 14 2023, 4:05 AM

arsenm added inline comments.Jul 17 2023, 4:39 PM

llvm/docs/AMDGPUUsage.rst
996	Missing wave from the name. Also, probably should spell out each one individually rather than putting a / in the names
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4083	See my above comment, 0 should be auto

Addressed reveiw comments

Harbormaster completed remote builds in B246076: Diff 541326.Jul 18 2023, 2:33 AM

pravinjagtap added a reviewer: cdevadas.Jul 19 2023, 9:25 PM

arsenm added inline comments.Jul 20 2023, 4:25 PM

llvm/docs/AMDGPUUsage.rst
996	unsigned minimum
1005	unsigned maximum
llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1935	Comment doesn't match the description now
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4071	No point in this wrapper, whenever the new implementation arrives it will add the check
4089	Just return true/false?
4094	Just use the default 0

Addressed review commnets.

For now, for all the cases (default, Iterative and DPP) we use
iterative approach by default. When DPP arrives, strategy
switch needs to be added to decide which implemenation to use.

Harbormaster completed remote builds in B247109: Diff 542773.Jul 21 2023, 1:08 AM

Mostly lgtm with a few more cleanups

llvm/docs/AMDGPUUsage.rst
1014	Probably should mention it's currently only implemented for i32
llvm/include/llvm/IR/IntrinsicsAMDGPU.td
1931	llvm_anyint_ty
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4108	ST.getWaveMaskRegClass
4131	uint32_t? std::numeric_limits<uint32_t>::max()?
4132	No & on the result of any BuildMI
4151	No &
4153	No &
4165	No &
4184	Could have just use the original register to begin with?
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umax.ll
8	don't specify the wavefrontsize features twice, just use the wave64 override and assume wave32 by default
314	In a follow up commit, AMDGPUInstCombineIntrinsic should also fold these constant cases out

Addressed review comments. Mostly, Code cleanup.

arsenm accepted this revision.Jul 21 2023, 11:54 AM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
4070	lowerWaveReduce?
4100–4105	Can use C++17 binding
4121	Reuse the same getRegClass call

This revision is now accepted and ready to land.Jul 21 2023, 11:54 AM

As a follow up please do the constant folds in AMDGPUInstCombine. Also can you prepare another to introduce this in the lowering of divergent dynamic alloca?

Harbormaster completed remote builds in B247296: Diff 543018.Jul 21 2023, 6:55 PM

Addressed comments

Harbormaster completed remote builds in B247375: Diff 543145.Jul 22 2023, 5:12 AM

This revision was landed with ongoing or failed builds.Jul 23 2023, 9:11 PM

Closed by commit rGc48ed93cf8c9: [AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic. (authored by pravinjagtap). · Explain Why

This revision was automatically updated to reflect the committed changes.

pravinjagtap added a commit: rGc48ed93cf8c9: [AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic..

In D154858#4523488, @arsenm wrote:

As a follow up please do the constant folds in AMDGPUInstCombine. Also can you prepare another to introduce this in the lowering of divergent dynamic alloca?

Constant folds: D156077. Will start looking into the lowering of divergent dynamic alloca.

I think this breaks the expensive-checks CI:
https://lab.llvm.org/buildbot/#/builders/16/builds/51955

In D154858#4527008, @steakhal wrote:

I think this breaks the expensive-checks CI:
https://lab.llvm.org/buildbot/#/builders/16/builds/51955

Hello @steakhal, I am looking into it.

In D154858#4527185, @pravinjagtap wrote:

In D154858#4527008, @steakhal wrote:

I think this breaks the expensive-checks CI:
https://lab.llvm.org/buildbot/#/builders/16/builds/51955

Hello @steakhal, I am looking into it.

Unless you think you've almost got it solved, can you revert the changes so the bots go back to green?

In D154858#4527699, @aaron.ballman wrote:

In D154858#4527185, @pravinjagtap wrote:

In D154858#4527008, @steakhal wrote:

I think this breaks the expensive-checks CI:
https://lab.llvm.org/buildbot/#/builders/16/builds/51955

Hello @steakhal, I am looking into it.

Unless you think you've almost got it solved, can you revert the changes so the bots go back to green?

Fix : https://reviews.llvm.org/rGd163b76ce348516db7abe3a462ae4cb78f922c75

CC: @steakhal, @aaron.ballman

In D154858#4528245, @pravinjagtap wrote:

In D154858#4527699, @aaron.ballman wrote:

In D154858#4527185, @pravinjagtap wrote:

In D154858#4527008, @steakhal wrote:

I think this breaks the expensive-checks CI:
https://lab.llvm.org/buildbot/#/builders/16/builds/51955

Hello @steakhal, I am looking into it.

Unless you think you've almost got it solved, can you revert the changes so the bots go back to green?

Fix : https://reviews.llvm.org/rGd163b76ce348516db7abe3a462ae4cb78f922c75

CC: @steakhal, @aaron.ballman

Thank you! I can confirm this resolved the issues I was seeing.

Revision Contents

Path

Size

llvm/

docs/

AMDGPUUsage.rst

20 lines

include/

llvm/

IR/

IntrinsicsAMDGPU.td

13 lines

lib/

Target/

AMDGPU/

AMDGPURegisterBankInfo.cpp

10 lines

SIISelLowering.cpp

118 lines

SIInstructions.td

12 lines

test/

CodeGen/

AMDGPU/

llvm.amdgcn.reduce.umax.ll

1016 lines

llvm.amdgcn.reduce.umin.ll

1017 lines

llvm.amdgcn.wave.reduce.umax.mir

80 lines

llvm.amdgcn.wave.reduce.umin.mir

80 lines

Diff 543364

llvm/docs/AMDGPUUsage.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 987 Lines • ▼ Show 20 Lines	.. table:: AMDGPU LLVM IR Intrinsics

:ref:`llvm.exp2 <int_exp2>` Implemented for float and half (and vectors of float or		:ref:`llvm.exp2 <int_exp2>` Implemented for float and half (and vectors of float or
half). Not implemented for double. Hardware provides		half). Not implemented for double. Hardware provides
1ULP accuracy for float, and 0.51ULP for half. Float		1ULP accuracy for float, and 0.51ULP for half. Float
instruction does not natively support denormal		instruction does not natively support denormal
inputs. Backend will optimize out denormal scaling if		inputs. Backend will optimize out denormal scaling if
marked with the :ref:`afn <fastmath_afn>` flag.		marked with the :ref:`afn <fastmath_afn>` flag.

		llvm.amdgcn.wave.reduce.umin Performs an arithmetic unsigned min reduction on the unsigned values
		arsenmUnsubmitted Not Done Reply Inline Actions Missing wave from the name. Also, probably should spell out each one individually rather than putting a / in the names arsenm: Missing wave from the name. Also, probably should spell out each one individually rather than…
		arsenmUnsubmitted Not Done Reply Inline Actions unsigned minimum arsenm: unsigned minimum
		provided by each lane in the wavefront.
		Intrinsic takes a hint for reduction strategy using second operand
		arsenmUnsubmitted Not Done Reply Inline Actions Elaborate that it should work if the target doesn't support the mode (e.g. gfx6/7 have no DPP) arsenm: Elaborate that it should work if the target doesn't support the mode (e.g. gfx6/7 have no DPP)
		arsenmUnsubmitted Not Done Reply Inline Actions The default 0 should mean target default preference. The higher values should request a specific strategy arsenm: The default 0 should mean target default preference. The higher values should request a…
		0: Target default preference,
		1: `Iterative strategy`, and
		2: `DPP`.
		If target does not support the DPP operations (e.g. gfx6/7),
		reduction will be performed using default iterative strategy.
		Intrinsic is currently only implemented for i32.

		arsenmUnsubmitted Not Done Reply Inline Actions unsigned maximum arsenm: unsigned maximum
		llvm.amdgcn.wave.reduce.umax Performs an arithmetic unsigned max reduction on the unsigned values
		provided by each lane in the wavefront.
		Intrinsic takes a hint for reduction strategy using second operand
		0: Target default preference,
		1: `Iterative strategy`, and
		2: `DPP`.
		If target does not support the DPP operations (e.g. gfx6/7),
		reduction will be performed using default iterative strategy.
		Intrinsic is currently only implemented for i32.
		arsenmUnsubmitted Not Done Reply Inline Actions Probably should mention it's currently only implemented for i32 arsenm: Probably should mention it's currently only implemented for i32

========================================= ==========================================================		========================================= ==========================================================

.. TODO::		.. TODO::

List AMDGPU intrinsics.		List AMDGPU intrinsics.

LLVM IR Attributes		LLVM IR Attributes
------------------		------------------
▲ Show 20 Lines • Show All 14,416 Lines • Show Last 20 Lines

llvm/include/llvm/IR/IntrinsicsAMDGPU.td

Show First 20 Lines • Show All 1,919 Lines • ▼ Show 20 Lines	Intrinsic<[llvm_anyint_ty], [llvm_anyfloat_ty, LLVMMatchType<1>, llvm_i32_ty],
[IntrNoMem, IntrConvergent,		[IntrNoMem, IntrConvergent,
ImmArg<ArgIndex<2>>, IntrWillReturn, IntrNoCallback, IntrNoFree]>;		ImmArg<ArgIndex<2>>, IntrWillReturn, IntrNoCallback, IntrNoFree]>;

def int_amdgcn_ballot :		def int_amdgcn_ballot :
Intrinsic<[llvm_anyint_ty], [llvm_i1_ty],		Intrinsic<[llvm_anyint_ty], [llvm_i1_ty],
[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;		[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;

def int_amdgcn_inverse_ballot :		def int_amdgcn_inverse_ballot :
Intrinsic<[llvm_i1_ty], [llvm_anyint_ty],		Intrinsic<[llvm_i1_ty], [llvm_anyint_ty],
		arsenmUnsubmitted Not Done Reply Inline Actions Should have a mangled type. I also think it should have an immarg operand for the preferred lowering strategy to use. Also, wave_reduce? Also umin would be a better choice for a first one, given that we want it for dynamic alloca handling arsenm: Should have a mangled type. I also think it should have an immarg operand for the preferred…
		pravinjagtapAuthorUnsubmitted Done Reply Inline Actions I also think it should have an immarg operand for the preferred lowering strategy to use In that case, we need to create two different intrinsics and two pesudo operations, one for immediate operand and other for non-immediate operand. Also, reduction of scalar value of immediate value is that value itself, so do we really need lowering for this ? pravinjagtap: > I also think it should have an immarg operand for the preferred lowering strategy to use In…
		foadUnsubmitted Not Done Reply Inline Actions I think @arsenm meant that the intrinsic should take an extra `immarg i32 %strategy` argument. foad: I think @arsenm meant that the intrinsic should take an //extra// `immarg i32 %strategy`…
		arsenmUnsubmitted Not Done Reply Inline Actions Yes, so you have a way of requesting the DPP or WWM lowering etc. It doesn't change the main operand arsenm: Yes, so you have a way of requesting the DPP or WWM lowering etc. It doesn't change the main…
[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;		[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;

		class AMDGPUWaveReduce<LLVMType data_ty = llvm_anyint_ty> : Intrinsic<
		arsenmUnsubmitted Not Done Reply Inline Actions llvm_anyint_ty arsenm: llvm_anyint_ty
		[data_ty],
		[
		LLVMMatchType<0>, // llvm value to reduce (SGPR/VGPR)
		llvm_i32_ty // Reduction Strategy Switch for lowering ( 0: Default,
		arsenmUnsubmitted Not Done Reply Inline Actions Comment doesn't match the description now arsenm: Comment doesn't match the description now
		// 1: Iterative strategy, and
		arsenmUnsubmitted Not Done Reply Inline Actions Define an intrinsic class for these to avoid repeating the signautre each time. Also you still should use a type mangled argument instead of hardcoded i32. arsenm: Define an intrinsic class for these to avoid repeating the signautre each time. Also you still…
		// 2. DPP)
		],
		[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree, ImmArg<ArgIndex<1>>]>;

		def int_amdgcn_wave_reduce_umin : AMDGPUWaveReduce;
		def int_amdgcn_wave_reduce_umax : AMDGPUWaveReduce;

def int_amdgcn_readfirstlane :		def int_amdgcn_readfirstlane :
ClangBuiltin<"__builtin_amdgcn_readfirstlane">,		ClangBuiltin<"__builtin_amdgcn_readfirstlane">,
Intrinsic<[llvm_i32_ty], [llvm_i32_ty],		Intrinsic<[llvm_i32_ty], [llvm_i32_ty],
[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;		[IntrNoMem, IntrConvergent, IntrWillReturn, IntrNoCallback, IntrNoFree]>;

// The lane argument must be uniform across the currently active threads of the		// The lane argument must be uniform across the currently active threads of the
// current wave. Otherwise, the result is undefined.		// current wave. Otherwise, the result is undefined.
def int_amdgcn_readlane :		def int_amdgcn_readlane :
▲ Show 20 Lines • Show All 826 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 4,508 Lines • ▼ Show 20 Lines

case Intrinsic::amdgcn_inverse_ballot: {

// This must be an SGPR, but accept a VGPR.

unsigned MaskSize = MRI.getType(MaskReg).getSizeInBits();

unsigned MaskBank = getRegBankID(MaskReg, MRI, AMDGPU::SGPRRegBankID);

OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VCCRegBankID, 1);

OpdsMapping[2] = AMDGPU::getValueMapping(MaskBank, MaskSize);

break;

}

case Intrinsic::amdgcn_wave_reduce_umin:

case Intrinsic::amdgcn_wave_reduce_umax: {

unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();

OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, DstSize);

unsigned OpSize = MRI.getType(MI.getOperand(2).getReg()).getSizeInBits();

auto regBankID =

isSALUMapping(MI) ? AMDGPU::SGPRRegBankID : AMDGPU::VGPRRegBankID;

OpdsMapping[2] = AMDGPU::getValueMapping(regBankID, OpSize);

break;

}

break;

yassinghUnsubmitted

Not Done

unsigned OpSize = MRI.getType(MI.getOperand(2).getReg()).getSizeInBits();

OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, DstSize);

- if (isSALUMapping(MI))

- OpdsMapping[2] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, OpSize);

- else {

- OpdsMapping[2] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, OpSize);

- }

+ auto regBankID = isSALUMapping(MI) ? AMDGPU::SGPRRegBankID : AMDGPU::VGPRRegBankID;

+ OpdsMapping[2] = AMDGPU::getValueMapping(regBankID, OpSize);

break;

}

break;

yassingh:

}

case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD:

case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD_D16:

case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE:

case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16: {

auto IntrID = MI.getIntrinsicID();

const AMDGPU::RsrcIntrinsic *RSrcIntrin = AMDGPU::lookupRsrcIntrinsic(IntrID);

assert(RSrcIntrin && "missing RsrcIntrinsic for image intrinsic");

▲ Show 20 Lines • Show All 359 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,061 Lines • ▼ Show 20 Lines BuildMI(*LoopBB, InsPt, DL, MovRelDesc, Dst)

.add(*Val) .add(*Val)

.addImm(AMDGPU::sub0); .addImm(AMDGPU::sub0);

} }

MI.eraseFromParent(); MI.eraseFromParent();

return LoopBB; return LoopBB;

} }

static MachineBasicBlock *lowerWaveReduce(MachineInstr &MI,

arsenmUnsubmitted

Not Done

static, start with lowercase

arsenm: static, start with lowercase

arsenmUnsubmitted

Not Done

lowerWaveReduce?

arsenm: lowerWaveReduce?

MachineBasicBlock &BB,

arsenmUnsubmitted

Not Done

No point in this wrapper, whenever the new implementation arrives it will add the check

arsenm: No point in this wrapper, whenever the new implementation arrives it will add the check

const GCNSubtarget &ST,

unsigned Opc) {

MachineRegisterInfo &MRI = BB.getParent()->getRegInfo();

const SIRegisterInfo *TRI = ST.getRegisterInfo();

const DebugLoc &DL = MI.getDebugLoc();

const SIInstrInfo *TII = ST.getInstrInfo();

// Reduction operations depend on whether the input operand is SGPR or VGPR.

bool isSGPR = TRI->isSGPRClass(MRI.getRegClass(SrcReg));

arsenmUnsubmitted

Not Done

static, start with lowercase

arsenm: static, start with lowercase

MachineBasicBlock *RetBB = nullptr;

arsenmUnsubmitted

Not Done

See my above comment, 0 should be auto

arsenm: See my above comment, 0 should be auto

if (isSGPR) {

// These operations with a uniform value i.e. SGPR are idempotent.

// Reduced value will be same as given sgpr.

BuildMI(BB, MI, DL, TII->get(AMDGPU::S_MOV_B32), DstReg).addReg(SrcReg);

RetBB = &BB;

} else {

arsenmUnsubmitted

Not Done

Just return true/false?

arsenm: Just return true/false?

// TODO: Implement DPP Strategy and switch based on immediate strategy

// operand. For now, for all the cases (default, Iterative and DPP we use

arsenmUnsubmitted

Not Done

I was envisioning this as just a hint, and if unimplemented (or the target doesn't support the version), it would just fallback to one that works.

Should also add some intrinsic documentation to AMDGPUUsage with the values for this

arsenm: I was envisioning this as just a hint, and if unimplemented (or the target doesn't support the…

arsenmUnsubmitted

Not Done

Also split the argument to strategy decision to a separate function

arsenm: Also split the argument to strategy decision to a separate function

// iterative approach by default.)

// To reduce the VGPR using iterative approach, we need to iterate

arsenmUnsubmitted

Not Done

Just use the default 0

arsenm: Just use the default 0

// over all the active lanes. Lowering consists of ComputeLoop,

// which iterate over only active lanes. We use copy of EXEC register

// as induction variable and every active lane modifies it using bitset0

// so that we will get the next active lane for next iteration.

MachineBasicBlock::iterator I = BB.end();

// Create Control flow for loop

// Split MI's Machine Basic block into For loop

auto [ComputeLoop, ComputeEnd] = splitBlockForLoop(MI, BB, true);

arsenmUnsubmitted

Not Done

- // Create Control flow for loop

- MachineBasicBlock *ComputeLoop;

- MachineBasicBlock *ComputeEnd;

// Split MI's Machine Basic block into For loop

- std::tie(ComputeLoop, ComputeEnd) = splitBlockForLoop(MI, BB, true);

+ auto [ComputeLoop, ComputeEnd] = splitBlockForLoop(MI, BB, true);

bool IsWave32 = ST.isWave32();

Can use C++17 binding

arsenm: Can use C++17 binding

// Create virtual registers required for lowering.

const TargetRegisterClass *WaveMaskRegClass = TRI->getWaveMaskRegClass();

const TargetRegisterClass *DstRegClass = MRI.getRegClass(DstReg);

arsenmUnsubmitted

Not Done

ST.getWaveMaskRegClass

arsenm: ST.getWaveMaskRegClass

yassinghUnsubmitted

Not Done

typo iterative

yassingh: typo `iterative`

yassinghUnsubmitted

Not Done

same

yassingh: same

bool IsWave32 = ST.isWave32();

unsigned MovOpc = IsWave32 ? AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;

unsigned ExecReg = IsWave32 ? AMDGPU::EXEC_LO : AMDGPU::EXEC;

arsenmUnsubmitted

Not Done

Reuse the same getRegClass call

arsenm: Reuse the same getRegClass call

// Create initail values of induction variable from Exec, Accumulator and

// insert branch instr to newly created ComputeBlockk

uint32_t InitalValue =

(Opc == AMDGPU::S_MIN_U32) ? std::numeric_limits<uint32_t>::max() : 0;

auto TmpSReg =

BuildMI(BB, I, DL, TII->get(MovOpc), LoopIterator).addReg(ExecReg);

BuildMI(BB, I, DL, TII->get(AMDGPU::S_MOV_B32), InitalValReg)

.addImm(InitalValue);

BuildMI(BB, I, DL, TII->get(AMDGPU::S_BRANCH)).addMBB(ComputeLoop);

arsenmUnsubmitted

Not Done

uint32_t? std::numeric_limits<uint32_t>::max()?

arsenm: uint32_t? std::numeric_limits<uint32_t>::max()?

arsenmUnsubmitted

Not Done

No & on the result of any BuildMI

arsenm: No & on the result of any BuildMI

// Start constructing ComputeLoop

I = ComputeLoop->end();

auto Accumulator =

BuildMI(*ComputeLoop, I, DL, TII->get(AMDGPU::PHI), AccumulatorReg)

.addReg(InitalValReg)

.addMBB(&BB);

auto ActiveBits =

BuildMI(*ComputeLoop, I, DL, TII->get(AMDGPU::PHI), ActiveBitsReg)

.addReg(TmpSReg->getOperand(0).getReg())

.addMBB(&BB);

// Perform the computations

unsigned SFFOpc = IsWave32 ? AMDGPU::S_FF1_I32_B32 : AMDGPU::S_FF1_I32_B64;

auto FF1 = BuildMI(*ComputeLoop, I, DL, TII->get(SFFOpc), FF1Reg)

.addReg(ActiveBits->getOperand(0).getReg());

auto LaneValue = BuildMI(*ComputeLoop, I, DL,

TII->get(AMDGPU::V_READLANE_B32), LaneValueReg)

.addReg(SrcReg)

.addReg(FF1->getOperand(0).getReg());

arsenmUnsubmitted

Not Done

No &

arsenm: No &

auto NewAccumulator = BuildMI(*ComputeLoop, I, DL, TII->get(Opc), DstReg)

yassinghUnsubmitted

Not Done

ExecReg

yassingh: ExecReg

.addReg(Accumulator->getOperand(0).getReg())

arsenmUnsubmitted

Not Done

No &

arsenm: No &

.addReg(LaneValue->getOperand(0).getReg());

// Manipulate the iterator to get the next active lane

unsigned BITSETOpc =

IsWave32 ? AMDGPU::S_BITSET0_B32 : AMDGPU::S_BITSET0_B64;

auto NewActiveBits =

BuildMI(*ComputeLoop, I, DL, TII->get(BITSETOpc), NewActiveBitsReg)

.addReg(FF1->getOperand(0).getReg())

.addReg(ActiveBits->getOperand(0).getReg());

// Add phi nodes

Accumulator.addReg(NewAccumulator->getOperand(0).getReg())

arsenmUnsubmitted

Not Done

No &

arsenm: No &

.addMBB(ComputeLoop);

ActiveBits.addReg(NewActiveBits->getOperand(0).getReg())

.addMBB(ComputeLoop);

// Creating branching

unsigned CMPOpc = IsWave32 ? AMDGPU::S_CMP_LG_U32 : AMDGPU::S_CMP_LG_U64;

BuildMI(*ComputeLoop, I, DL, TII->get(CMPOpc))

.addReg(NewActiveBits->getOperand(0).getReg())

.addImm(0);

BuildMI(*ComputeLoop, I, DL, TII->get(AMDGPU::S_CBRANCH_SCC1))

.addMBB(ComputeLoop);

RetBB = ComputeEnd;

}

MI.eraseFromParent();

return RetBB;

}

MachineBasicBlock *SITargetLowering::EmitInstrWithCustomInserter( MachineBasicBlock *SITargetLowering::EmitInstrWithCustomInserter(

arsenmUnsubmitted

Not Done

Could have just use the original register to begin with?

arsenm: Could have just use the original register to begin with?

MachineInstr &MI, MachineBasicBlock *BB) const { MachineInstr &MI, MachineBasicBlock *BB) const {

const SIInstrInfo *TII = getSubtarget()->getInstrInfo(); const SIInstrInfo *TII = getSubtarget()->getInstrInfo();

MachineFunction *MF = BB->getParent(); MachineFunction *MF = BB->getParent();

SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>(); SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();

switch (MI.getOpcode()) { switch (MI.getOpcode()) {

case AMDGPU::WAVE_REDUCE_UMIN_PSEUDO_U32:

return lowerWaveReduce(MI, *BB, *getSubtarget(), AMDGPU::S_MIN_U32);

case AMDGPU::WAVE_REDUCE_UMAX_PSEUDO_U32:

return lowerWaveReduce(MI, *BB, *getSubtarget(), AMDGPU::S_MAX_U32);

case AMDGPU::S_UADDO_PSEUDO: case AMDGPU::S_UADDO_PSEUDO:

case AMDGPU::S_USUBO_PSEUDO: { case AMDGPU::S_USUBO_PSEUDO: {

const DebugLoc &DL = MI.getDebugLoc(); const DebugLoc &DL = MI.getDebugLoc();

MachineOperand &Dest0 = MI.getOperand(0); MachineOperand &Dest0 = MI.getOperand(0);

MachineOperand &Dest1 = MI.getOperand(1); MachineOperand &Dest1 = MI.getOperand(1);

MachineOperand &Src0 = MI.getOperand(2); MachineOperand &Src0 = MI.getOperand(2);

MachineOperand &Src1 = MI.getOperand(3); MachineOperand &Src1 = MI.getOperand(3);

▲ Show 20 Lines • Show All 10,205 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	}			}

	def V_SET_INACTIVE_B64 : VPseudoInstSI <(outs VReg_64:$vdst),			def V_SET_INACTIVE_B64 : VPseudoInstSI <(outs VReg_64:$vdst),
	(ins VSrc_b64: $src, VSrc_b64:$inactive),			(ins VSrc_b64: $src, VSrc_b64:$inactive),
	[(set i64:$vdst, (int_amdgcn_set_inactive i64:$src, i64:$inactive))]> {			[(set i64:$vdst, (int_amdgcn_set_inactive i64:$src, i64:$inactive))]> {
	}			}
	} // End Defs = [SCC]			} // End Defs = [SCC]

				let usesCustomInserter = 1, hasSideEffects = 0, mayLoad = 0, mayStore = 0, Uses = [EXEC] in {
				def WAVE_REDUCE_UMIN_PSEUDO_U32 : VPseudoInstSI <(outs SGPR_32:$sdst),
				(ins VSrc_b32: $src, VSrc_b32:$strategy),
				[(set i32:$sdst, (int_amdgcn_wave_reduce_umin i32:$src, i32:$strategy))]> {
				}

				def WAVE_REDUCE_UMAX_PSEUDO_U32 : VPseudoInstSI <(outs SGPR_32:$sdst),
				arsenmUnsubmitted Not Done Reply Inline Actions These need _U32/_B32 suffixes arsenm: These need _U32/_B32 suffixes
				(ins VSrc_b32: $src, VSrc_b32:$strategy),
				[(set i32:$sdst, (int_amdgcn_wave_reduce_umax i32:$src, i32:$strategy))]> {
				}
				}

	let usesCustomInserter = 1, Defs = [VCC, EXEC] in {			let usesCustomInserter = 1, Defs = [VCC, EXEC] in {
	def V_ADD_U64_PSEUDO : VPseudoInstSI <			def V_ADD_U64_PSEUDO : VPseudoInstSI <
	(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),			(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),
	[(set VReg_64:$vdst, (DivergentBinFrag<add> i64:$src0, i64:$src1))]			[(set VReg_64:$vdst, (DivergentBinFrag<add> i64:$src0, i64:$src1))]
	>;			>;

	def V_SUB_U64_PSEUDO : VPseudoInstSI <			def V_SUB_U64_PSEUDO : VPseudoInstSI <
	(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),			(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),
	▲ Show 20 Lines • Show All 3,336 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umax.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 3
				; RUN: llc -march=amdgcn -mcpu=tonga -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=tonga -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8GISEL %s
				arsenmUnsubmitted Not Done Reply Inline Actions Should test with both wave sizes, and test for every generation, with global-isel=0 and 1 arsenm: Should test with both wave sizes, and test for every generation, with global-isel=0 and 1
				; RUN: llc -march=amdgcn -mcpu=gfx900 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx900 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=0 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10DAGISEL,GFX1064DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=1 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL,GFX1064GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10DAGISEL,GFX1032DAGISEL %s
				arsenmUnsubmitted Not Done Reply Inline Actions don't specify the wavefrontsize features twice, just use the wave64 override and assume wave32 by default arsenm: don't specify the wavefrontsize features twice, just use the wave64 override and assume wave32…
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL,GFX1032GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=0 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11DAGISEL,GFX1164DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=1 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11GISEL,GFX1164GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11DAGISEL,GFX1132DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11GISEL,GFX1132GISEL %s

				declare i32 @llvm.amdgcn.wave.reduce.umax.i32(i32, i32 immarg)
				declare i32 @llvm.amdgcn.workitem.id.x()

				define amdgpu_kernel void @uniform_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: uniform_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_load_dword s0, s[0:1], 0x2c
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s0
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: uniform_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dword s2, s[0:1], 0x2c
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s2
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: uniform_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[2:3]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: uniform_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9GISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[2:3]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: uniform_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_clause 0x1
				; GFX10DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX10DAGISEL-NEXT: global_store_dword v0, v1, s[2:3]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: uniform_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_clause 0x1
				; GFX10GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX10GISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX10GISEL-NEXT: global_store_dword v1, v0, s[2:3]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: uniform_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_clause 0x1
				; GFX1164DAGISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s2
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: uniform_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_clause 0x1
				; GFX1164GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: uniform_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_clause 0x1
				; GFX1132DAGISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, s2
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: uniform_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_clause 0x1
				; GFX1132GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mov_b32 v0, s2
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 %in, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @const_value(ptr addrspace(1) %out) {
				; GFX8DAGISEL-LABEL: const_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, 0x7b
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: const_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, 0x7b
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: const_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: const_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: const_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: const_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX10GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: const_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: const_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: const_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 0x7b
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: const_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, 0x7b :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 123, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @poison_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: poison_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v0
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: poison_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v0
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: poison_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: poison_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: poison_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: poison_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX11DAGISEL-LABEL: poison_value:
				; GFX11DAGISEL: ; %bb.0: ; %entry
				; GFX11DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX11DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX11DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX11DAGISEL-NEXT: global_store_b32 v0, v0, s[0:1]
				; GFX11DAGISEL-NEXT: s_nop 0
				; GFX11DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX11DAGISEL-NEXT: s_endpgm
				;
				; GFX11GISEL-LABEL: poison_value:
				; GFX11GISEL: ; %bb.0: ; %entry
				; GFX11GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX11GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX11GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX11GISEL-NEXT: global_store_b32 v0, v0, s[0:1]
				; GFX11GISEL-NEXT: s_nop 0
				; GFX11GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX11GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 poison, i32 1)
				store i32 %result, ptr addrspace(1) %out
				arsenmUnsubmitted Not Done Reply Inline Actions In a follow up commit, AMDGPUInstCombineIntrinsic should also fold these constant cases out arsenm: In a follow up commit, AMDGPUInstCombineIntrinsic should also fold these constant cases out
				ret void
				}

				define amdgpu_kernel void @divergent_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: divergent_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX8DAGISEL-NEXT: s_mov_b32 s4, 0
				; GFX8DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX8DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX8DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX8DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX8DAGISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX8DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX8DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX8DAGISEL-NEXT: ; %bb.2:
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s4
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: divergent_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX8GISEL-NEXT: s_mov_b32 s4, 0
				; GFX8GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX8GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX8GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX8GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX8GISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX8GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX8GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX8GISEL-NEXT: ; %bb.2:
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s4
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: divergent_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX9DAGISEL-NEXT: s_mov_b32 s4, 0
				; GFX9DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX9DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX9DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX9DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX9DAGISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX9DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX9DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX9DAGISEL-NEXT: ; %bb.2:
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: divergent_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX9GISEL-NEXT: s_mov_b32 s4, 0
				; GFX9GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX9GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX9GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX9GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX9GISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX9GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX9GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX9GISEL-NEXT: ; %bb.2:
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX1064DAGISEL-LABEL: divergent_value:
				; GFX1064DAGISEL: ; %bb.0: ; %entry
				; GFX1064DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1064DAGISEL-NEXT: s_mov_b32 s4, 0
				; GFX1064DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1064DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX1064DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1064DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1064DAGISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX1064DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1064DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1064DAGISEL-NEXT: ; %bb.2:
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064DAGISEL-NEXT: s_endpgm
				;
				; GFX1064GISEL-LABEL: divergent_value:
				; GFX1064GISEL: ; %bb.0: ; %entry
				; GFX1064GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1064GISEL-NEXT: s_mov_b32 s4, 0
				; GFX1064GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1064GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX1064GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1064GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1064GISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX1064GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1064GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1064GISEL-NEXT: ; %bb.2:
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064GISEL-NEXT: s_endpgm
				;
				; GFX1032DAGISEL-LABEL: divergent_value:
				; GFX1032DAGISEL: ; %bb.0: ; %entry
				; GFX1032DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032DAGISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1032DAGISEL-NEXT: s_mov_b32 s2, 0
				; GFX1032DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1032DAGISEL-NEXT: s_ff1_i32_b32 s4, s3
				; GFX1032DAGISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1032DAGISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1032DAGISEL-NEXT: s_max_u32 s2, s2, s5
				; GFX1032DAGISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1032DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1032DAGISEL-NEXT: ; %bb.2:
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032DAGISEL-NEXT: s_endpgm
				;
				; GFX1032GISEL-LABEL: divergent_value:
				; GFX1032GISEL: ; %bb.0: ; %entry
				; GFX1032GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1032GISEL-NEXT: s_mov_b32 s2, 0
				; GFX1032GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1032GISEL-NEXT: s_ff1_i32_b32 s4, s3
				; GFX1032GISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1032GISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1032GISEL-NEXT: s_max_u32 s2, s2, s5
				; GFX1032GISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1032GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1032GISEL-NEXT: ; %bb.2:
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: divergent_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164DAGISEL-NEXT: s_mov_b32 s4, 0
				; GFX1164DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1164DAGISEL-NEXT: s_ctz_i32_b64 s5, s[2:3]
				; GFX1164DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1164DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1164DAGISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX1164DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1164DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1164DAGISEL-NEXT: ; %bb.2:
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: divergent_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164GISEL-NEXT: s_mov_b32 s4, 0
				; GFX1164GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1164GISEL-NEXT: s_ctz_i32_b64 s5, s[2:3]
				; GFX1164GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1164GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1164GISEL-NEXT: s_max_u32 s4, s4, s6
				; GFX1164GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1164GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1164GISEL-NEXT: ; %bb.2:
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: divergent_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1132DAGISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132DAGISEL-NEXT: s_mov_b32 s2, 0
				; GFX1132DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1132DAGISEL-NEXT: s_ctz_i32_b32 s4, s3
				; GFX1132DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132DAGISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1132DAGISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1132DAGISEL-NEXT: s_max_u32 s2, s2, s5
				; GFX1132DAGISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1132DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1132DAGISEL-NEXT: ; %bb.2:
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: divergent_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132GISEL-NEXT: s_mov_b32 s2, 0
				; GFX1132GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1132GISEL-NEXT: s_ctz_i32_b32 s4, s3
				; GFX1132GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132GISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1132GISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1132GISEL-NEXT: s_max_u32 s2, s2, s5
				; GFX1132GISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1132GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1132GISEL-NEXT: ; %bb.2:
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, s2 :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%id.x = call i32 @llvm.amdgcn.workitem.id.x()
				%result = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 %id.x, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @divergent_cfg(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: divergent_cfg:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX8DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX8DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX8DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX8DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX8DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX8DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX8DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX8DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX8DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX8DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX8DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX8DAGISEL-NEXT: s_mov_b32 s6, 0
				; GFX8DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX8DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX8DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX8DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX8DAGISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX8DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX8DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX8DAGISEL-NEXT: ; %bb.5:
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX8DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX8DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v3, s1
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s0
				; GFX8DAGISEL-NEXT: flat_store_dword v[2:3], v1
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: divergent_cfg:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX8GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX8GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX8GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX8GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX8GISEL-NEXT: ; %bb.1: ; %else
				; GFX8GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX8GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: s_mov_b32 s6, s4
				; GFX8GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX8GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX8GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX8GISEL-NEXT: ; %bb.3: ; %if
				; GFX8GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX8GISEL-NEXT: s_mov_b32 s6, 0
				; GFX8GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX8GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX8GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX8GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX8GISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX8GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX8GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX8GISEL-NEXT: .LBB4_5: ; %endif
				; GFX8GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s6
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: divergent_cfg:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX9DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX9DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX9DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX9DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX9DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX9DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX9DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX9DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX9DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX9DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX9DAGISEL-NEXT: s_mov_b32 s6, 0
				; GFX9DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX9DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX9DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX9DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX9DAGISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX9DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX9DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX9DAGISEL-NEXT: ; %bb.5:
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX9DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX9DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: divergent_cfg:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX9GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX9GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX9GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX9GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX9GISEL-NEXT: ; %bb.1: ; %else
				; GFX9GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: s_mov_b32 s6, s4
				; GFX9GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX9GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX9GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX9GISEL-NEXT: ; %bb.3: ; %if
				; GFX9GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX9GISEL-NEXT: s_mov_b32 s6, 0
				; GFX9GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX9GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX9GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX9GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX9GISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX9GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX9GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX9GISEL-NEXT: .LBB4_5: ; %endif
				; GFX9GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX1064DAGISEL-LABEL: divergent_cfg:
				; GFX1064DAGISEL: ; %bb.0: ; %entry
				; GFX1064DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX1064DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX1064DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX1064DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1064DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1064DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX1064DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1064DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1064DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX1064DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1064DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1064DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1064DAGISEL-NEXT: s_mov_b32 s6, 0
				; GFX1064DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1064DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX1064DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1064DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1064DAGISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX1064DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1064DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1064DAGISEL-NEXT: ; %bb.5:
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX1064DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1064DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX1064DAGISEL-NEXT: s_endpgm
				;
				; GFX1064GISEL-LABEL: divergent_cfg:
				; GFX1064GISEL: ; %bb.0: ; %entry
				; GFX1064GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX1064GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX1064GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX1064GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1064GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1064GISEL-NEXT: ; %bb.1: ; %else
				; GFX1064GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX1064GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: s_mov_b32 s6, s4
				; GFX1064GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1064GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX1064GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1064GISEL-NEXT: ; %bb.3: ; %if
				; GFX1064GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1064GISEL-NEXT: s_mov_b32 s6, 0
				; GFX1064GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1064GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX1064GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1064GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1064GISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX1064GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1064GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1064GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1064GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1064GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064GISEL-NEXT: s_endpgm
				;
				; GFX1032DAGISEL-LABEL: divergent_cfg:
				; GFX1032DAGISEL: ; %bb.0: ; %entry
				; GFX1032DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc_lo, 15, v0
				; GFX1032DAGISEL-NEXT: ; implicit-def: $sgpr3
				; GFX1032DAGISEL-NEXT: s_and_saveexec_b32 s2, vcc_lo
				; GFX1032DAGISEL-NEXT: s_xor_b32 s2, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1032DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1032DAGISEL-NEXT: s_load_dword s3, s[0:1], 0x2c
				; GFX1032DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1032DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1032DAGISEL-NEXT: s_or_saveexec_b32 s2, s2
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1032DAGISEL-NEXT: s_xor_b32 exec_lo, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1032DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1032DAGISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1032DAGISEL-NEXT: s_mov_b32 s3, 0
				; GFX1032DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1032DAGISEL-NEXT: s_ff1_i32_b32 s5, s4
				; GFX1032DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1032DAGISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1032DAGISEL-NEXT: s_max_u32 s3, s3, s6
				; GFX1032DAGISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1032DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1032DAGISEL-NEXT: ; %bb.5:
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1032DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1032DAGISEL-NEXT: s_or_b32 exec_lo, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX1032DAGISEL-NEXT: s_endpgm
				;
				; GFX1032GISEL-LABEL: divergent_cfg:
				; GFX1032GISEL: ; %bb.0: ; %entry
				; GFX1032GISEL-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v0
				; GFX1032GISEL-NEXT: ; implicit-def: $sgpr2
				; GFX1032GISEL-NEXT: s_and_saveexec_b32 s3, vcc_lo
				; GFX1032GISEL-NEXT: s_xor_b32 s3, exec_lo, s3
				; GFX1032GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1032GISEL-NEXT: ; %bb.1: ; %else
				; GFX1032GISEL-NEXT: s_load_dword s2, s[0:1], 0x2c
				; GFX1032GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: s_mov_b32 s2, s2
				; GFX1032GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1032GISEL-NEXT: s_andn2_saveexec_b32 s3, s3
				; GFX1032GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1032GISEL-NEXT: ; %bb.3: ; %if
				; GFX1032GISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1032GISEL-NEXT: s_mov_b32 s2, 0
				; GFX1032GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1032GISEL-NEXT: s_ff1_i32_b32 s5, s4
				; GFX1032GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1032GISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1032GISEL-NEXT: s_max_u32 s2, s2, s6
				; GFX1032GISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1032GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1032GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1032GISEL-NEXT: s_or_b32 exec_lo, exec_lo, s3
				; GFX1032GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: divergent_cfg:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX1164DAGISEL-NEXT: v_cmpx_lt_u32_e32 15, v0
				; GFX1164DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1164DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1164DAGISEL-NEXT: s_load_b32 s4, s[0:1], 0x2c
				; GFX1164DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1164DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1164DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX1164DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1164DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164DAGISEL-NEXT: s_mov_b32 s6, 0
				; GFX1164DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1164DAGISEL-NEXT: s_ctz_i32_b64 s7, s[4:5]
				; GFX1164DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1164DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1164DAGISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX1164DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1164DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1164DAGISEL-NEXT: ; %bb.5:
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX1164DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1164DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: divergent_cfg:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX1164GISEL-NEXT: v_cmpx_le_u32_e32 16, v0
				; GFX1164GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1164GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1164GISEL-NEXT: ; %bb.1: ; %else
				; GFX1164GISEL-NEXT: s_load_b32 s4, s[0:1], 0x2c
				; GFX1164GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: s_mov_b32 s6, s4
				; GFX1164GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1164GISEL-NEXT: s_and_not1_saveexec_b64 s[2:3], s[2:3]
				; GFX1164GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1164GISEL-NEXT: ; %bb.3: ; %if
				; GFX1164GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164GISEL-NEXT: s_mov_b32 s6, 0
				; GFX1164GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1164GISEL-NEXT: s_ctz_i32_b64 s7, s[4:5]
				; GFX1164GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1164GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1164GISEL-NEXT: s_max_u32 s6, s6, s8
				; GFX1164GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1164GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1164GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1164GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: divergent_cfg:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132DAGISEL-NEXT: ; implicit-def: $sgpr3
				; GFX1132DAGISEL-NEXT: v_cmpx_lt_u32_e32 15, v0
				; GFX1132DAGISEL-NEXT: s_xor_b32 s2, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1132DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1132DAGISEL-NEXT: s_load_b32 s3, s[0:1], 0x2c
				; GFX1132DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1132DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1132DAGISEL-NEXT: s_or_saveexec_b32 s2, s2
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1132DAGISEL-NEXT: s_xor_b32 exec_lo, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1132DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1132DAGISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132DAGISEL-NEXT: s_mov_b32 s3, 0
				; GFX1132DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1132DAGISEL-NEXT: s_ctz_i32_b32 s5, s4
				; GFX1132DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1132DAGISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1132DAGISEL-NEXT: s_max_u32 s3, s3, s6
				; GFX1132DAGISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1132DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1132DAGISEL-NEXT: ; %bb.5:
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1132DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1132DAGISEL-NEXT: s_or_b32 exec_lo, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: divergent_cfg:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132GISEL-NEXT: ; implicit-def: $sgpr2
				; GFX1132GISEL-NEXT: v_cmpx_le_u32_e32 16, v0
				; GFX1132GISEL-NEXT: s_xor_b32 s3, exec_lo, s3
				; GFX1132GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1132GISEL-NEXT: ; %bb.1: ; %else
				; GFX1132GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: s_mov_b32 s2, s2
				; GFX1132GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1132GISEL-NEXT: s_and_not1_saveexec_b32 s3, s3
				; GFX1132GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1132GISEL-NEXT: ; %bb.3: ; %if
				; GFX1132GISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132GISEL-NEXT: s_mov_b32 s2, 0
				; GFX1132GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1132GISEL-NEXT: s_ctz_i32_b32 s5, s4
				; GFX1132GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1132GISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1132GISEL-NEXT: s_max_u32 s2, s2, s6
				; GFX1132GISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1132GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1132GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1132GISEL-NEXT: s_or_b32 exec_lo, exec_lo, s3
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, s2 :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%tid = call i32 @llvm.amdgcn.workitem.id.x()
				%d_cmp = icmp ult i32 %tid, 16
				br i1 %d_cmp, label %if, label %else

				if:
				%reducedValTid = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 %tid, i32 1)
				br label %endif

				else:
				%reducedValIn = call i32 @llvm.amdgcn.wave.reduce.umax.i32(i32 %in, i32 1)
				br label %endif

				endif:
				%combine = phi i32 [%reducedValTid, %if], [%reducedValIn, %else]
				store i32 %combine, ptr addrspace(1) %out
				ret void
				}

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umin.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 3
				; RUN: llc -march=amdgcn -mcpu=tonga -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=tonga -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx900 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx900 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9GISEL %s
				arsenmUnsubmitted Not Done Reply Inline Actions Put the immarg on the declarations arsenm: Put the immarg on the declarations
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=0 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10DAGISEL,GFX1064DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=1 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL,GFX1064GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10DAGISEL,GFX1032DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL,GFX1032GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=0 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11DAGISEL,GFX1164DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=1 -mattr=+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11GISEL,GFX1164GISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=0 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11DAGISEL,GFX1132DAGISEL %s
				; RUN: llc -march=amdgcn -mcpu=gfx1100 -global-isel=1 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11GISEL,GFX1132GISEL %s


				declare i32 @llvm.amdgcn.wave.reduce.umin.i32(i32, i32 immarg)
				declare i32 @llvm.amdgcn.workitem.id.x()

				define amdgpu_kernel void @uniform_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: uniform_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_load_dword s0, s[0:1], 0x2c
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s0
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: uniform_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dword s2, s[0:1], 0x2c
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s2
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: uniform_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[2:3]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: uniform_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9GISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[2:3]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: uniform_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_clause 0x1
				; GFX10DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX10DAGISEL-NEXT: global_store_dword v0, v1, s[2:3]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: uniform_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_clause 0x1
				; GFX10GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX10GISEL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX10GISEL-NEXT: global_store_dword v1, v0, s[2:3]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: uniform_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_clause 0x1
				; GFX1164DAGISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s2
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: uniform_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_clause 0x1
				; GFX1164GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: uniform_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_clause 0x1
				; GFX1132DAGISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, s2
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: uniform_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_clause 0x1
				; GFX1132GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				arsenmUnsubmitted Not Done Reply Inline Actions Use named values arsenm: Use named values
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mov_b32 v0, s2
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 %in, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @const_value(ptr addrspace(1) %out) {
				; GFX8DAGISEL-LABEL: const_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, 0x7b
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: const_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, 0x7b
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: const_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: const_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: const_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: const_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX10GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: const_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, 0x7b
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: const_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, 0x7b
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: const_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 0x7b
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: const_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, 0x7b :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 123, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @poison_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: poison_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v0
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: poison_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v0
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: poison_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: poison_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX10DAGISEL-LABEL: poison_value:
				; GFX10DAGISEL: ; %bb.0: ; %entry
				; GFX10DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10DAGISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX10DAGISEL-NEXT: s_endpgm
				;
				; GFX10GISEL-LABEL: poison_value:
				; GFX10GISEL: ; %bb.0: ; %entry
				; GFX10GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX10GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX10GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10GISEL-NEXT: global_store_dword v0, v0, s[0:1]
				; GFX10GISEL-NEXT: s_endpgm
				;
				; GFX11DAGISEL-LABEL: poison_value:
				; GFX11DAGISEL: ; %bb.0: ; %entry
				; GFX11DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX11DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX11DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX11DAGISEL-NEXT: global_store_b32 v0, v0, s[0:1]
				; GFX11DAGISEL-NEXT: s_nop 0
				; GFX11DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX11DAGISEL-NEXT: s_endpgm
				;
				; GFX11GISEL-LABEL: poison_value:
				; GFX11GISEL: ; %bb.0: ; %entry
				; GFX11GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX11GISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX11GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX11GISEL-NEXT: global_store_b32 v0, v0, s[0:1]
				; GFX11GISEL-NEXT: s_nop 0
				; GFX11GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX11GISEL-NEXT: s_endpgm
				entry:
				%result = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 poison, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @divergent_value(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: divergent_value:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX8DAGISEL-NEXT: s_mov_b32 s4, -1
				; GFX8DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX8DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX8DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX8DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX8DAGISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX8DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX8DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX8DAGISEL-NEXT: ; %bb.2:
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s4
				; GFX8DAGISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: divergent_value:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX8GISEL-NEXT: s_mov_b32 s4, -1
				; GFX8GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX8GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX8GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX8GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX8GISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX8GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX8GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX8GISEL-NEXT: ; %bb.2:
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s4
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: divergent_value:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX9DAGISEL-NEXT: s_mov_b32 s4, -1
				; GFX9DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX9DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX9DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX9DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX9DAGISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX9DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX9DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX9DAGISEL-NEXT: ; %bb.2:
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: divergent_value:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX9GISEL-NEXT: s_mov_b32 s4, -1
				; GFX9GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX9GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX9GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX9GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX9GISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX9GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX9GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX9GISEL-NEXT: ; %bb.2:
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX1064DAGISEL-LABEL: divergent_value:
				; GFX1064DAGISEL: ; %bb.0: ; %entry
				; GFX1064DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1064DAGISEL-NEXT: s_mov_b32 s4, -1
				; GFX1064DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1064DAGISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX1064DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1064DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1064DAGISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX1064DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1064DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1064DAGISEL-NEXT: ; %bb.2:
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064DAGISEL-NEXT: s_endpgm
				;
				; GFX1064GISEL-LABEL: divergent_value:
				; GFX1064GISEL: ; %bb.0: ; %entry
				; GFX1064GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1064GISEL-NEXT: s_mov_b32 s4, -1
				; GFX1064GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1064GISEL-NEXT: s_ff1_i32_b64 s5, s[2:3]
				; GFX1064GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1064GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1064GISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX1064GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1064GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1064GISEL-NEXT: ; %bb.2:
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064GISEL-NEXT: s_endpgm
				;
				; GFX1032DAGISEL-LABEL: divergent_value:
				; GFX1032DAGISEL: ; %bb.0: ; %entry
				; GFX1032DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032DAGISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1032DAGISEL-NEXT: s_mov_b32 s2, -1
				; GFX1032DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1032DAGISEL-NEXT: s_ff1_i32_b32 s4, s3
				; GFX1032DAGISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1032DAGISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1032DAGISEL-NEXT: s_min_u32 s2, s2, s5
				; GFX1032DAGISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1032DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1032DAGISEL-NEXT: ; %bb.2:
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032DAGISEL-NEXT: s_endpgm
				;
				; GFX1032GISEL-LABEL: divergent_value:
				; GFX1032GISEL: ; %bb.0: ; %entry
				; GFX1032GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1032GISEL-NEXT: s_mov_b32 s2, -1
				; GFX1032GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1032GISEL-NEXT: s_ff1_i32_b32 s4, s3
				; GFX1032GISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1032GISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1032GISEL-NEXT: s_min_u32 s2, s2, s5
				; GFX1032GISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1032GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1032GISEL-NEXT: ; %bb.2:
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: divergent_value:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164DAGISEL-NEXT: s_mov_b32 s4, -1
				; GFX1164DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1164DAGISEL-NEXT: s_ctz_i32_b64 s5, s[2:3]
				; GFX1164DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1164DAGISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1164DAGISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX1164DAGISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1164DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1164DAGISEL-NEXT: ; %bb.2:
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: divergent_value:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164GISEL-NEXT: s_mov_b32 s4, -1
				; GFX1164GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1164GISEL-NEXT: s_ctz_i32_b64 s5, s[2:3]
				; GFX1164GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1164GISEL-NEXT: s_bitset0_b64 s[2:3], s5
				; GFX1164GISEL-NEXT: s_min_u32 s4, s4, s6
				; GFX1164GISEL-NEXT: s_cmp_lg_u64 s[2:3], 0
				; GFX1164GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1164GISEL-NEXT: ; %bb.2:
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s4
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: divergent_value:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1132DAGISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132DAGISEL-NEXT: s_mov_b32 s2, -1
				; GFX1132DAGISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1132DAGISEL-NEXT: s_ctz_i32_b32 s4, s3
				; GFX1132DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132DAGISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1132DAGISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1132DAGISEL-NEXT: s_min_u32 s2, s2, s5
				; GFX1132DAGISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1132DAGISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1132DAGISEL-NEXT: ; %bb.2:
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: divergent_value:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132GISEL-NEXT: s_mov_b32 s2, -1
				; GFX1132GISEL-NEXT: .LBB3_1: ; =>This Inner Loop Header: Depth=1
				; GFX1132GISEL-NEXT: s_ctz_i32_b32 s4, s3
				; GFX1132GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132GISEL-NEXT: v_readlane_b32 s5, v0, s4
				; GFX1132GISEL-NEXT: s_bitset0_b32 s3, s4
				; GFX1132GISEL-NEXT: s_min_u32 s2, s2, s5
				; GFX1132GISEL-NEXT: s_cmp_lg_u32 s3, 0
				; GFX1132GISEL-NEXT: s_cbranch_scc1 .LBB3_1
				; GFX1132GISEL-NEXT: ; %bb.2:
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, s2 :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%id.x = call i32 @llvm.amdgcn.workitem.id.x()
				%result = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 %id.x, i32 1)
				store i32 %result, ptr addrspace(1) %out
				ret void
				}

				define amdgpu_kernel void @divergent_cfg(ptr addrspace(1) %out, i32 %in) {
				; GFX8DAGISEL-LABEL: divergent_cfg:
				; GFX8DAGISEL: ; %bb.0: ; %entry
				; GFX8DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX8DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX8DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX8DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX8DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX8DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX8DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX8DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX8DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX8DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX8DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX8DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX8DAGISEL-NEXT: s_mov_b32 s6, -1
				; GFX8DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX8DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX8DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX8DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX8DAGISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX8DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX8DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX8DAGISEL-NEXT: ; %bb.5:
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX8DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX8DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX8DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v3, s1
				; GFX8DAGISEL-NEXT: v_mov_b32_e32 v2, s0
				; GFX8DAGISEL-NEXT: flat_store_dword v[2:3], v1
				; GFX8DAGISEL-NEXT: s_endpgm
				;
				; GFX8GISEL-LABEL: divergent_cfg:
				; GFX8GISEL: ; %bb.0: ; %entry
				; GFX8GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX8GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX8GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX8GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX8GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX8GISEL-NEXT: ; %bb.1: ; %else
				; GFX8GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX8GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: s_mov_b32 s6, s4
				; GFX8GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX8GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX8GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX8GISEL-NEXT: ; %bb.3: ; %if
				; GFX8GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX8GISEL-NEXT: s_mov_b32 s6, -1
				; GFX8GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX8GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX8GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX8GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX8GISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX8GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX8GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX8GISEL-NEXT: .LBB4_5: ; %endif
				; GFX8GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX8GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX8GISEL-NEXT: v_mov_b32_e32 v2, s6
				; GFX8GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8GISEL-NEXT: v_mov_b32_e32 v0, s0
				; GFX8GISEL-NEXT: v_mov_b32_e32 v1, s1
				; GFX8GISEL-NEXT: flat_store_dword v[0:1], v2
				; GFX8GISEL-NEXT: s_endpgm
				;
				; GFX9DAGISEL-LABEL: divergent_cfg:
				; GFX9DAGISEL: ; %bb.0: ; %entry
				; GFX9DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX9DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX9DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX9DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX9DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX9DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX9DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX9DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX9DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX9DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX9DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX9DAGISEL-NEXT: s_mov_b32 s6, -1
				; GFX9DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX9DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX9DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX9DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX9DAGISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX9DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX9DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX9DAGISEL-NEXT: ; %bb.5:
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX9DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX9DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX9DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX9DAGISEL-NEXT: s_endpgm
				;
				; GFX9GISEL-LABEL: divergent_cfg:
				; GFX9GISEL: ; %bb.0: ; %entry
				; GFX9GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX9GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX9GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX9GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX9GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX9GISEL-NEXT: ; %bb.1: ; %else
				; GFX9GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX9GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: s_mov_b32 s6, s4
				; GFX9GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX9GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX9GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX9GISEL-NEXT: ; %bb.3: ; %if
				; GFX9GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX9GISEL-NEXT: s_mov_b32 s6, -1
				; GFX9GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX9GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX9GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX9GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX9GISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX9GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX9GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX9GISEL-NEXT: .LBB4_5: ; %endif
				; GFX9GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX9GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX9GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX9GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX9GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX9GISEL-NEXT: s_endpgm
				;
				; GFX1064DAGISEL-LABEL: divergent_cfg:
				; GFX1064DAGISEL: ; %bb.0: ; %entry
				; GFX1064DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc, 15, v0
				; GFX1064DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX1064DAGISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX1064DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1064DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1064DAGISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX1064DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1064DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1064DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX1064DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1064DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1064DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1064DAGISEL-NEXT: s_mov_b32 s6, -1
				; GFX1064DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1064DAGISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX1064DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1064DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1064DAGISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX1064DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1064DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1064DAGISEL-NEXT: ; %bb.5:
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX1064DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1064DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1064DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1064DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX1064DAGISEL-NEXT: s_endpgm
				;
				; GFX1064GISEL-LABEL: divergent_cfg:
				; GFX1064GISEL: ; %bb.0: ; %entry
				; GFX1064GISEL-NEXT: v_cmp_le_u32_e32 vcc, 16, v0
				; GFX1064GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX1064GISEL-NEXT: s_and_saveexec_b64 s[2:3], vcc
				; GFX1064GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1064GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1064GISEL-NEXT: ; %bb.1: ; %else
				; GFX1064GISEL-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX1064GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: s_mov_b32 s6, s4
				; GFX1064GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1064GISEL-NEXT: s_andn2_saveexec_b64 s[2:3], s[2:3]
				; GFX1064GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1064GISEL-NEXT: ; %bb.3: ; %if
				; GFX1064GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1064GISEL-NEXT: s_mov_b32 s6, -1
				; GFX1064GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1064GISEL-NEXT: s_ff1_i32_b64 s7, s[4:5]
				; GFX1064GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1064GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1064GISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX1064GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1064GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1064GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1064GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1064GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX1064GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1064GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1064GISEL-NEXT: s_endpgm
				;
				; GFX1032DAGISEL-LABEL: divergent_cfg:
				; GFX1032DAGISEL: ; %bb.0: ; %entry
				; GFX1032DAGISEL-NEXT: v_cmp_lt_u32_e32 vcc_lo, 15, v0
				; GFX1032DAGISEL-NEXT: ; implicit-def: $sgpr3
				; GFX1032DAGISEL-NEXT: s_and_saveexec_b32 s2, vcc_lo
				; GFX1032DAGISEL-NEXT: s_xor_b32 s2, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1032DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1032DAGISEL-NEXT: s_load_dword s3, s[0:1], 0x2c
				; GFX1032DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1032DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1032DAGISEL-NEXT: s_or_saveexec_b32 s2, s2
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1032DAGISEL-NEXT: s_xor_b32 exec_lo, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1032DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1032DAGISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1032DAGISEL-NEXT: s_mov_b32 s3, -1
				; GFX1032DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1032DAGISEL-NEXT: s_ff1_i32_b32 s5, s4
				; GFX1032DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1032DAGISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1032DAGISEL-NEXT: s_min_u32 s3, s3, s6
				; GFX1032DAGISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1032DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1032DAGISEL-NEXT: ; %bb.5:
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1032DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1032DAGISEL-NEXT: s_or_b32 exec_lo, exec_lo, s2
				; GFX1032DAGISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1032DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032DAGISEL-NEXT: global_store_dword v0, v1, s[0:1]
				; GFX1032DAGISEL-NEXT: s_endpgm
				;
				; GFX1032GISEL-LABEL: divergent_cfg:
				; GFX1032GISEL: ; %bb.0: ; %entry
				; GFX1032GISEL-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v0
				; GFX1032GISEL-NEXT: ; implicit-def: $sgpr2
				; GFX1032GISEL-NEXT: s_and_saveexec_b32 s3, vcc_lo
				; GFX1032GISEL-NEXT: s_xor_b32 s3, exec_lo, s3
				; GFX1032GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1032GISEL-NEXT: ; %bb.1: ; %else
				; GFX1032GISEL-NEXT: s_load_dword s2, s[0:1], 0x2c
				; GFX1032GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: s_mov_b32 s2, s2
				; GFX1032GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1032GISEL-NEXT: s_andn2_saveexec_b32 s3, s3
				; GFX1032GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1032GISEL-NEXT: ; %bb.3: ; %if
				; GFX1032GISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1032GISEL-NEXT: s_mov_b32 s2, -1
				; GFX1032GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1032GISEL-NEXT: s_ff1_i32_b32 s5, s4
				; GFX1032GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1032GISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1032GISEL-NEXT: s_min_u32 s2, s2, s6
				; GFX1032GISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1032GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1032GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1032GISEL-NEXT: s_or_b32 exec_lo, exec_lo, s3
				; GFX1032GISEL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v0, s2
				; GFX1032GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1032GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032GISEL-NEXT: global_store_dword v1, v0, s[0:1]
				; GFX1032GISEL-NEXT: s_endpgm
				;
				; GFX1164DAGISEL-LABEL: divergent_cfg:
				; GFX1164DAGISEL: ; %bb.0: ; %entry
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164DAGISEL-NEXT: ; implicit-def: $sgpr4
				; GFX1164DAGISEL-NEXT: v_cmpx_lt_u32_e32 15, v0
				; GFX1164DAGISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1164DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1164DAGISEL-NEXT: s_load_b32 s4, s[0:1], 0x2c
				; GFX1164DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1164DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1164DAGISEL-NEXT: s_or_saveexec_b64 s[2:3], s[2:3]
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s4
				; GFX1164DAGISEL-NEXT: s_xor_b64 exec, exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1164DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1164DAGISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164DAGISEL-NEXT: s_mov_b32 s6, -1
				; GFX1164DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1164DAGISEL-NEXT: s_ctz_i32_b64 s7, s[4:5]
				; GFX1164DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164DAGISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1164DAGISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1164DAGISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX1164DAGISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1164DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1164DAGISEL-NEXT: ; %bb.5:
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v1, s6
				; GFX1164DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1164DAGISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1164DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1164DAGISEL-NEXT: s_nop 0
				; GFX1164DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164DAGISEL-NEXT: s_endpgm
				;
				; GFX1164GISEL-LABEL: divergent_cfg:
				; GFX1164GISEL: ; %bb.0: ; %entry
				; GFX1164GISEL-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164GISEL-NEXT: ; implicit-def: $sgpr6
				; GFX1164GISEL-NEXT: v_cmpx_le_u32_e32 16, v0
				; GFX1164GISEL-NEXT: s_xor_b64 s[2:3], exec, s[2:3]
				; GFX1164GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1164GISEL-NEXT: ; %bb.1: ; %else
				; GFX1164GISEL-NEXT: s_load_b32 s4, s[0:1], 0x2c
				; GFX1164GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: s_mov_b32 s6, s4
				; GFX1164GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1164GISEL-NEXT: s_and_not1_saveexec_b64 s[2:3], s[2:3]
				; GFX1164GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1164GISEL-NEXT: ; %bb.3: ; %if
				; GFX1164GISEL-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164GISEL-NEXT: s_mov_b32 s6, -1
				; GFX1164GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1164GISEL-NEXT: s_ctz_i32_b64 s7, s[4:5]
				; GFX1164GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1164GISEL-NEXT: v_readlane_b32 s8, v0, s7
				; GFX1164GISEL-NEXT: s_bitset0_b64 s[4:5], s7
				; GFX1164GISEL-NEXT: s_min_u32 s6, s6, s8
				; GFX1164GISEL-NEXT: s_cmp_lg_u64 s[4:5], 0
				; GFX1164GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1164GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1164GISEL-NEXT: s_or_b64 exec, exec, s[2:3]
				; GFX1164GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v0, s6
				; GFX1164GISEL-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1164GISEL-NEXT: s_nop 0
				; GFX1164GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1164GISEL-NEXT: s_endpgm
				;
				; GFX1132DAGISEL-LABEL: divergent_cfg:
				; GFX1132DAGISEL: ; %bb.0: ; %entry
				; GFX1132DAGISEL-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132DAGISEL-NEXT: ; implicit-def: $sgpr3
				; GFX1132DAGISEL-NEXT: v_cmpx_lt_u32_e32 15, v0
				; GFX1132DAGISEL-NEXT: s_xor_b32 s2, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1132DAGISEL-NEXT: ; %bb.1: ; %else
				; GFX1132DAGISEL-NEXT: s_load_b32 s3, s[0:1], 0x2c
				; GFX1132DAGISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1132DAGISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1132DAGISEL-NEXT: s_or_saveexec_b32 s2, s2
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1132DAGISEL-NEXT: s_xor_b32 exec_lo, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_cbranch_execz .LBB4_6
				; GFX1132DAGISEL-NEXT: ; %bb.3: ; %if
				; GFX1132DAGISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132DAGISEL-NEXT: s_mov_b32 s3, -1
				; GFX1132DAGISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1132DAGISEL-NEXT: s_ctz_i32_b32 s5, s4
				; GFX1132DAGISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132DAGISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1132DAGISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1132DAGISEL-NEXT: s_min_u32 s3, s3, s6
				; GFX1132DAGISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1132DAGISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1132DAGISEL-NEXT: ; %bb.5:
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v1, s3
				; GFX1132DAGISEL-NEXT: .LBB4_6: ; %endif
				; GFX1132DAGISEL-NEXT: s_or_b32 exec_lo, exec_lo, s2
				; GFX1132DAGISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132DAGISEL-NEXT: v_mov_b32_e32 v0, 0
				; GFX1132DAGISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132DAGISEL-NEXT: global_store_b32 v0, v1, s[0:1]
				; GFX1132DAGISEL-NEXT: s_nop 0
				; GFX1132DAGISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132DAGISEL-NEXT: s_endpgm
				;
				; GFX1132GISEL-LABEL: divergent_cfg:
				; GFX1132GISEL: ; %bb.0: ; %entry
				; GFX1132GISEL-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132GISEL-NEXT: ; implicit-def: $sgpr2
				; GFX1132GISEL-NEXT: v_cmpx_le_u32_e32 16, v0
				; GFX1132GISEL-NEXT: s_xor_b32 s3, exec_lo, s3
				; GFX1132GISEL-NEXT: s_cbranch_execz .LBB4_2
				; GFX1132GISEL-NEXT: ; %bb.1: ; %else
				; GFX1132GISEL-NEXT: s_load_b32 s2, s[0:1], 0x2c
				; GFX1132GISEL-NEXT: ; implicit-def: $vgpr0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: s_mov_b32 s2, s2
				; GFX1132GISEL-NEXT: .LBB4_2: ; %Flow
				; GFX1132GISEL-NEXT: s_and_not1_saveexec_b32 s3, s3
				; GFX1132GISEL-NEXT: s_cbranch_execz .LBB4_5
				; GFX1132GISEL-NEXT: ; %bb.3: ; %if
				; GFX1132GISEL-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132GISEL-NEXT: s_mov_b32 s2, -1
				; GFX1132GISEL-NEXT: .LBB4_4: ; =>This Inner Loop Header: Depth=1
				; GFX1132GISEL-NEXT: s_ctz_i32_b32 s5, s4
				; GFX1132GISEL-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
				; GFX1132GISEL-NEXT: v_readlane_b32 s6, v0, s5
				; GFX1132GISEL-NEXT: s_bitset0_b32 s4, s5
				; GFX1132GISEL-NEXT: s_min_u32 s2, s2, s6
				; GFX1132GISEL-NEXT: s_cmp_lg_u32 s4, 0
				; GFX1132GISEL-NEXT: s_cbranch_scc1 .LBB4_4
				; GFX1132GISEL-NEXT: .LBB4_5: ; %endif
				; GFX1132GISEL-NEXT: s_or_b32 exec_lo, exec_lo, s3
				; GFX1132GISEL-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
				; GFX1132GISEL-NEXT: v_dual_mov_b32 v0, s2 :: v_dual_mov_b32 v1, 0
				; GFX1132GISEL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132GISEL-NEXT: global_store_b32 v1, v0, s[0:1]
				; GFX1132GISEL-NEXT: s_nop 0
				; GFX1132GISEL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				; GFX1132GISEL-NEXT: s_endpgm
				entry:
				%tid = call i32 @llvm.amdgcn.workitem.id.x()
				%d_cmp = icmp ult i32 %tid, 16
				br i1 %d_cmp, label %if, label %else

				if:
				%reducedValTid = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 %tid, i32 1)
				br label %endif

				else:
				%reducedValIn = call i32 @llvm.amdgcn.wave.reduce.umin.i32(i32 %in, i32 1)
				br label %endif

				endif:
				%combine = phi i32 [%reducedValTid, %if], [%reducedValIn, %else]
				store i32 %combine, ptr addrspace(1) %out
				ret void
				}

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wave.reduce.umax.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 3
				# RUN: llc -march=amdgcn -run-pass=finalize-isel %s -o - \| FileCheck -check-prefix=GCN %s

				---
				name: uniform_value
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1

				; GCN-LABEL: name: uniform_value
				; GCN: liveins: $sgpr0_sgpr1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr_64(p4) = COPY $sgpr0_sgpr1
				; GCN-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GCN-NEXT: [[S_LOAD_DWORDX2_IMM:%[0-9]+]]:sreg_64_xexec = S_LOAD_DWORDX2_IMM [[COPY]](p4), 36, 0
				; GCN-NEXT: [[S_LOAD_DWORD_IMM:%[0-9]+]]:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM [[COPY]](p4), 44, 0
				; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sgpr_32 = S_MOV_B32 [[S_LOAD_DWORD_IMM]]
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
				; GCN-NEXT: GLOBAL_STORE_DWORD_SADDR killed [[V_MOV_B32_e32_]], killed [[COPY1]], killed [[S_LOAD_DWORDX2_IMM]], 0, 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0
				%1:sgpr_64(p4) = COPY $sgpr0_sgpr1
				%4:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%5:sreg_64_xexec = S_LOAD_DWORDX2_IMM %1(p4), 36, 0
				%6:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM %1(p4), 44, 0
				%7:sgpr_32 = WAVE_REDUCE_UMAX_PSEUDO_U32 killed %6, 1, implicit $exec
				%8:vgpr_32 = COPY %7
				GLOBAL_STORE_DWORD_SADDR killed %4, killed %8, killed %5, 0, 0, implicit $exec
				S_ENDPGM 0

				...

				---
				name: divergent_value
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $sgpr0_sgpr1

				; GCN-LABEL: name: divergent_value
				; GCN: successors: %bb.1(0x80000000)
				; GCN-NEXT: liveins: $vgpr0, $sgpr0_sgpr1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr_64(p4) = COPY $sgpr0_sgpr1
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GCN-NEXT: [[S_LOAD_DWORDX2_IMM:%[0-9]+]]:sreg_64_xexec = S_LOAD_DWORDX2_IMM [[COPY]](p4), 36, 0
				; GCN-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GCN-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec = S_MOV_B64 $exec
				; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sgpr_32 = S_MOV_B32 0
				; GCN-NEXT: S_BRANCH %bb.1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: .1:
				; GCN-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[PHI:%[0-9]+]]:sgpr_32 = PHI [[S_MOV_B32_]], %bb.0, %4, %bb.1
				; GCN-NEXT: [[PHI1:%[0-9]+]]:sreg_64_xexec = PHI [[S_MOV_B64_]], %bb.0, %10, %bb.1
				; GCN-NEXT: [[S_FF1_I32_B64_:%[0-9]+]]:sgpr_32 = S_FF1_I32_B64 [[PHI1]]
				; GCN-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sgpr_32 = V_READLANE_B32 [[COPY1]], [[S_FF1_I32_B64_]]
				; GCN-NEXT: [[S_MAX_U32_:%[0-9]+]]:sgpr_32 = S_MAX_U32 [[PHI]], [[V_READLANE_B32_]], implicit-def $scc
				; GCN-NEXT: [[S_BITSET0_B64_:%[0-9]+]]:sreg_64_xexec = S_BITSET0_B64 [[S_FF1_I32_B64_]], [[PHI1]]
				; GCN-NEXT: S_CMP_LG_U64 [[S_BITSET0_B64_]], 0, implicit-def $scc
				; GCN-NEXT: S_CBRANCH_SCC1 %bb.1, implicit $scc
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: .2:
				; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[S_MAX_U32_]]
				; GCN-NEXT: GLOBAL_STORE_DWORD_SADDR killed [[V_MOV_B32_e32_]], killed [[COPY2]], killed [[S_LOAD_DWORDX2_IMM]], 0, 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0
				%1:sgpr_64(p4) = COPY $sgpr0_sgpr1
				%0:vgpr_32 = COPY $vgpr0
				%4:sreg_64_xexec = S_LOAD_DWORDX2_IMM %1(p4), 36, 0
				%5:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%6:sgpr_32 = WAVE_REDUCE_UMAX_PSEUDO_U32 %0, 1, implicit $exec
				%7:vgpr_32 = COPY %6
				GLOBAL_STORE_DWORD_SADDR killed %5, killed %7, killed %4, 0, 0, implicit $exec
				S_ENDPGM 0

				...

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wave.reduce.umin.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 3
				# RUN: llc -march=amdgcn -run-pass=finalize-isel %s -o - \| FileCheck -check-prefix=GCN %s

				---
				name: uniform_value
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1

				; GCN-LABEL: name: uniform_value
				; GCN: liveins: $sgpr0_sgpr1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr_64(p4) = COPY $sgpr0_sgpr1
				; GCN-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GCN-NEXT: [[S_LOAD_DWORDX2_IMM:%[0-9]+]]:sreg_64_xexec = S_LOAD_DWORDX2_IMM [[COPY]](p4), 36, 0
				; GCN-NEXT: [[S_LOAD_DWORD_IMM:%[0-9]+]]:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM [[COPY]](p4), 44, 0
				; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sgpr_32 = S_MOV_B32 [[S_LOAD_DWORD_IMM]]
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
				; GCN-NEXT: GLOBAL_STORE_DWORD_SADDR killed [[V_MOV_B32_e32_]], killed [[COPY1]], killed [[S_LOAD_DWORDX2_IMM]], 0, 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0
				%1:sgpr_64(p4) = COPY $sgpr0_sgpr1
				%4:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%5:sreg_64_xexec = S_LOAD_DWORDX2_IMM %1(p4), 36, 0
				%6:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM %1(p4), 44, 0
				%7:sgpr_32 = WAVE_REDUCE_UMIN_PSEUDO_U32 killed %6, 1, implicit $exec
				%8:vgpr_32 = COPY %7
				GLOBAL_STORE_DWORD_SADDR killed %4, killed %8, killed %5, 0, 0, implicit $exec
				S_ENDPGM 0

				...

				---
				name: divergent_value
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $sgpr0_sgpr1

				; GCN-LABEL: name: divergent_value
				; GCN: successors: %bb.1(0x80000000)
				; GCN-NEXT: liveins: $vgpr0, $sgpr0_sgpr1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr_64(p4) = COPY $sgpr0_sgpr1
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GCN-NEXT: [[S_LOAD_DWORDX2_IMM:%[0-9]+]]:sreg_64_xexec = S_LOAD_DWORDX2_IMM [[COPY]](p4), 36, 0
				; GCN-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GCN-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec = S_MOV_B64 $exec
				; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sgpr_32 = S_MOV_B32 4294967295
				; GCN-NEXT: S_BRANCH %bb.1
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: .1:
				; GCN-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: [[PHI:%[0-9]+]]:sgpr_32 = PHI [[S_MOV_B32_]], %bb.0, %4, %bb.1
				; GCN-NEXT: [[PHI1:%[0-9]+]]:sreg_64_xexec = PHI [[S_MOV_B64_]], %bb.0, %10, %bb.1
				; GCN-NEXT: [[S_FF1_I32_B64_:%[0-9]+]]:sgpr_32 = S_FF1_I32_B64 [[PHI1]]
				; GCN-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sgpr_32 = V_READLANE_B32 [[COPY1]], [[S_FF1_I32_B64_]]
				; GCN-NEXT: [[S_MIN_U32_:%[0-9]+]]:sgpr_32 = S_MIN_U32 [[PHI]], [[V_READLANE_B32_]], implicit-def $scc
				; GCN-NEXT: [[S_BITSET0_B64_:%[0-9]+]]:sreg_64_xexec = S_BITSET0_B64 [[S_FF1_I32_B64_]], [[PHI1]]
				; GCN-NEXT: S_CMP_LG_U64 [[S_BITSET0_B64_]], 0, implicit-def $scc
				; GCN-NEXT: S_CBRANCH_SCC1 %bb.1, implicit $scc
				; GCN-NEXT: {{ $}}
				; GCN-NEXT: .2:
				; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[S_MIN_U32_]]
				; GCN-NEXT: GLOBAL_STORE_DWORD_SADDR killed [[V_MOV_B32_e32_]], killed [[COPY2]], killed [[S_LOAD_DWORDX2_IMM]], 0, 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0
				%1:sgpr_64(p4) = COPY $sgpr0_sgpr1
				%0:vgpr_32 = COPY $vgpr0
				%4:sreg_64_xexec = S_LOAD_DWORDX2_IMM %1(p4), 36, 0
				%5:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%6:sgpr_32 = WAVE_REDUCE_UMIN_PSEUDO_U32 %0, 1, implicit $exec
				%7:vgpr_32 = COPY %6
				GLOBAL_STORE_DWORD_SADDR killed %5, killed %7, killed %4, 0, 0, implicit $exec
				S_ENDPGM 0

				...

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 543364

llvm/docs/AMDGPUUsage.rst

llvm/include/llvm/IR/IntrinsicsAMDGPU.td

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umax.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.reduce.umin.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wave.reduce.umax.mir

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wave.reduce.umin.mir

[AMDGPU] Add llvm.amdgcn.wave.reduce.umin/umax Intrinsic.
ClosedPublic