This is an archive of the discontinued LLVM Phabricator instance.

This should also apply to conditional branches, but the user doesn't actually matter. This is really a generic combine for (trunc (bool_ext_type bool_producer))

llvm/lib/Target/AMDGPU/AMDGPUCombine.td
44	The select part here isn't essential, but the matcher here wants a specific opcode. I guess you could bypass the generated combine matcher and just call this combine in a switch, or at least add the relevant G_BRCOND user
llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
90 ↗	(On Diff #319258)	Changing the instruction without notifying the observer
llvm/test/CodeGen/AMDGPU/GlobalISel/combine-uniform-icmp-select.mir
37–62 ↗	(On Diff #319258)	Most of these instructions aren't relevant to the combine. You can also directly emit copies from 64-bit SGPRs even though we emit them normally as separate 32-bit copies
116–142 ↗	(On Diff #319258)	Ditto

foad added inline comments.Jan 26 2021, 8:10 AM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
86 ↗	(On Diff #319258)	Can you call the variable ICmp instead of ICMP?

foad added inline comments.Jan 29 2021, 3:02 AM

llvm/lib/Target/AMDGPU/AMDGPUCombine.td
40	You don't need AMDGPURegBankCombinerHelper::UniformICmpSelectMatchInfo at all. You can just use Register. See D95645 for an example.

Addressed review comments.

arsenm added inline comments.Feb 1 2021, 3:58 PM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
76–77 ↗	(On Diff #320478)	I don't think this really needs a one use check. Consider the case where another use already exists without the intermediate casts: %x:s32 = G_ICMP %y:s1 = G_TRUNC %x %z:s32 = G_ZEXT %y %select0 = G_SELECT %x %select1 = G_SELECT %z

I don't understand why this needs to be AMDGPU-specific, and why it only works for uniform values, and why it only works inside G_SELECT and G_BRCOND.

Can't you have a generic combine that simplifies (zext (trunc x)) -> x if the types match and the high bits of x are known to be zero?

Petar.Avramovic added inline comments.Feb 2 2021, 4:40 AM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
76–77 ↗	(On Diff #320478)	I wanted to keep this as simple as possible and cover most common case (single use). Can we get mir like that? Regbankselect independently legalizes sgpr icmp and select. ICMP gets followed by G_TRUNC and G_SELECT has to G_ZEXT input condition. I would expect something like this: %x:s32 = G_ICMP %y:s1 = G_TRUNC %x ... %z:s32 = G_ZEXT %y %select1 = G_SELECT %z ... %w:s32 = G_ZEXT %y %select0 = G_SELECT %w Maybe we could cover this case for select, are there more? Afaik only trunc can end up having multiple uses. So we have to check G_TRUNC uses and find the one that Helper.dominates other uses. If this happens to be our G_ZEXT then move icmp before select and trunc after select, like this: ... %z:s32 = G_ZEXT %y //dead %x:s32 = G_ICMP %select1 = G_SELECT %x %y:s1 = G_TRUNC %x ... %w:s32 = G_ZEXT %y %select0 = G_SELECT %w
llvm/test/CodeGen/AMDGPU/GlobalISel/combine-move-uniform-icmp-with-one-use.mir
34–35 ↗	(On Diff #320478)	Combine targets specific case when there are instructions between uniform G_ICMP and G_SELECT/G_BRCOND. Zext and trunc are there but combining them has no effect on having to temporary save scc. We have to move icmp. Also since Zext and trunc have no effect on selected instruction we don't move them and just leave them to be removed as dead instructions.

arsenm added inline comments.Feb 2 2021, 7:07 AM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
76–77 ↗	(On Diff #320478)	If the builder is CSEing, you could end up with the same trunc used multiple times

Handle some cases with many uses. Adding icmp fold without move for the case when we can't move icmp because code looks nicer in the case with more than one use.

Petar.Avramovic added inline comments.Feb 2 2021, 8:06 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/move-uniform-icmp.ll
24–26 ↗	(On Diff #320792)	This looks pretty much same as before without uniform_icmp combine.

arsenm added inline comments.Feb 3 2021, 10:13 AM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
123–126 ↗	(On Diff #320792)	I don't think this should be trying to find defs and move them. If we're CSEing, just creating the instruction you need would get the desired result

Use zext_trunc_fold from generic combiner to separately fold all cases of zext(trunc x) -> x made by regbankselect.
icmp move before select/brcond has to be aware of current state of MF since we run combines top-down and instructions (trunc) can be left without uses (zext was deleted by zext_trunc_fold)

Petar.Avramovic added a parent revision: D96031: [GlobalISel] Combine zext(trunc x) to x.Feb 8 2021, 5:14 AM

arsenm added inline comments.Feb 11 2021, 3:24 PM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
72 ↗	(On Diff #322084)	Opcode check first?
92 ↗	(On Diff #322084)	You shouldn't need to check dominance (and I don't see how this would ever not be the case)
103 ↗	(On Diff #322084)	This isn't changing the operands anymore? (I also think just creating the new instruction with the new operand is cleaner than modifying in place, doing it that way should fix the multiple use case too)
103–107 ↗	(On Diff #322084)	This really shouldn't be trying to move instructions. Do you even really need to erase the trunc? If it's dead it will be removed already

Petar.Avramovic added inline comments.Feb 18 2021, 3:54 AM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
92 ↗	(On Diff #322084)	Trunc could have a use before the MI so we cant move icmp and trunc past that use.
103 ↗	(On Diff #322084)	zext_trunc_fold changes operands. This now only moves icmp (and trunc for multiple use).
103–107 ↗	(On Diff #322084)	Do you even really need to erase the trunc? ICmp move breaks ssa in mir, trunc uses icmp before it is defined. I meant to delete trunc because this is the place we broke ssa, and we are aware of it. Leaving it to be deleted by something that eliminates dead instructions should work fine (I don't expect anything else to check where uses of this trunc are defined). This really shouldn't be trying to move instructions. What do you suggest, making new icmp (and trunc) or something else?
llvm/test/CodeGen/AMDGPU/GlobalISel/combine-move-uniform-icmp.mir
203 ↗	(On Diff #322084)	Trunc use before select.
213 ↗	(On Diff #322084)	After zext_trunc fold this select uses `%17 G_ICMP` instead of `%22 G_ZEXT` but we can't move icmp because `%11:sgpr(s1) = G_TRUNC %17(s32)` uses icmp and `%18:sgpr(s32) = G_ANYEXT %11(s1)` above uses trunc.

arsenm added inline comments.Feb 18 2021, 3:20 PM

llvm/lib/Target/AMDGPU/AMDGPURegBankCombiner.cpp
103–107 ↗	(On Diff #322084)	Yes, if you recreate the desired instruction it should automatically CSE as you need by the builder

Actually, why is this patch necessary? The ZEXT+TRUNC handling takes care of this already?

In D95432#2573420, @arsenm wrote:

Actually, why is this patch necessary? The ZEXT+TRUNC handling takes care of this already?

Oh right, the problem here is actually the intermediate SCC copies produced as a selection artifact.

I'm not sure treating this as a combine is the correct way to go about this. The DAG handles this with a scheduler to minimize physical register liveranges. We might be better treating this off as a scheduling issue for after selection, when we directly see the SCC defs.

In D95432#2573444, @arsenm wrote:

In D95432#2573420, @arsenm wrote:

Actually, why is this patch necessary? The ZEXT+TRUNC handling takes care of this already?

Oh right, the problem here is actually the intermediate SCC copies produced as a selection artifact.

I'm not sure treating this as a combine is the correct way to go about this. The DAG handles this with a scheduler to minimize physical register liveranges. We might be better treating this off as a scheduling issue for after selection, when we directly see the SCC defs.

For the case I looked at (test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i64.ll) just running zext_trunc_fold as a post-regbankselect combine was enough to get rid of the SCC copies. So perhaps we should commit that first, and then worry about how to handle the remaining cases?

In D95432#2581586, @foad wrote:

In D95432#2573444, @arsenm wrote:

In D95432#2573420, @arsenm wrote:

Actually, why is this patch necessary? The ZEXT+TRUNC handling takes care of this already?

Oh right, the problem here is actually the intermediate SCC copies produced as a selection artifact.

I'm not sure treating this as a combine is the correct way to go about this. The DAG handles this with a scheduler to minimize physical register liveranges. We might be better treating this off as a scheduling issue for after selection, when we directly see the SCC defs.

For the case I looked at (test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i64.ll) just running zext_trunc_fold as a post-regbankselect combine was enough to get rid of the SCC copies. So perhaps we should commit that first, and then worry about how to handle the remaining cases?

Yes, these are unrelated problems

Dropping icmp move for from this patch. Leaving zext_trunc_fold.
Zext is selected into AND with 1. zext_trunc_fold results in getting rid of the SCC copies when zext was the only instruction between icmp and select/branch.

Looks good. I'm not sure we actually need to introduce the helper state class in this patch, do we? But I'll guess we'll need it later.

There is no need for helper state class.

foad accepted this revision.Feb 23 2021, 8:14 AM

This revision is now accepted and ready to land.Feb 23 2021, 8:14 AM

Harbormaster completed remote builds in B90399: Diff 325790.Feb 23 2021, 8:52 AM

Harbormaster completed remote builds in B90407: Diff 325800.Feb 23 2021, 9:12 AM

This revision was landed with ongoing or failed builds.Mar 4 2021, 6:06 AM

Closed by commit rGbf5a58265047: AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelect (authored by Petar.Avramovic). · Explain Why

This revision was automatically updated to reflect the committed changes.

Petar.Avramovic added a commit: rGbf5a58265047: AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelect.

thakis added a reverting change: rGe68de60bc4f4: Revert "AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelect".Mar 4 2021, 7:16 AM

thakis mentioned this in D96122: [GlobalISel] Start using vectors in GISelKnownBits.Mar 4 2021, 7:17 AM

Petar.Avramovic added a commit: rG36beaa3ba3b3: Reland AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelect.Mar 5 2021, 2:11 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUCombine.td

2 lines

AMDGPUTargetMachine.cpp

7 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

divergent-control-flow.ll

6 lines

llvm.amdgcn.end.cf.i32.ll

3 lines

llvm.amdgcn.end.cf.i64.ll

3 lines

llvm.amdgcn.is.private.ll

6 lines

llvm.amdgcn.is.shared.ll

6 lines

llvm.amdgcn.set.inactive.ll

9 lines

non-entry-alloca.ll

9 lines

saddsat.ll

260 lines

ssubsat.ll

260 lines

Diff 328148

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

Show All 31 Lines	def cvt_f32_ubyteN : GICombineRule<
(defs root:$cvt_f32_ubyteN, cvt_f32_ubyteN_matchdata:$matchinfo),		(defs root:$cvt_f32_ubyteN, cvt_f32_ubyteN_matchdata:$matchinfo),
(match (wip_match_opcode G_AMDGPU_CVT_F32_UBYTE0,		(match (wip_match_opcode G_AMDGPU_CVT_F32_UBYTE0,
G_AMDGPU_CVT_F32_UBYTE1,		G_AMDGPU_CVT_F32_UBYTE1,
G_AMDGPU_CVT_F32_UBYTE2,		G_AMDGPU_CVT_F32_UBYTE2,
G_AMDGPU_CVT_F32_UBYTE3):$cvt_f32_ubyteN,		G_AMDGPU_CVT_F32_UBYTE3):$cvt_f32_ubyteN,
[{ return PostLegalizerHelper.matchCvtF32UByteN(*${cvt_f32_ubyteN}, ${matchinfo}); }]),		[{ return PostLegalizerHelper.matchCvtF32UByteN(*${cvt_f32_ubyteN}, ${matchinfo}); }]),
(apply [{ PostLegalizerHelper.applyCvtF32UByteN(*${cvt_f32_ubyteN}, ${matchinfo}); }])>;		(apply [{ PostLegalizerHelper.applyCvtF32UByteN(*${cvt_f32_ubyteN}, ${matchinfo}); }])>;

def clamp_i64_to_i16_matchdata : GIDefMatchData<"AMDGPUPreLegalizerCombinerHelper::ClampI64ToI16MatchInfo">;		def clamp_i64_to_i16_matchdata : GIDefMatchData<"AMDGPUPreLegalizerCombinerHelper::ClampI64ToI16MatchInfo">;
		foadUnsubmitted Not Done Reply Inline Actions You don't need AMDGPURegBankCombinerHelper::UniformICmpSelectMatchInfo at all. You can just use Register. See D95645 for an example. foad: You don't need AMDGPURegBankCombinerHelper::UniformICmpSelectMatchInfo at all. You can just use…

def clamp_i64_to_i16 : GICombineRule<		def clamp_i64_to_i16 : GICombineRule<
(defs root:$clamp_i64_to_i16, clamp_i64_to_i16_matchdata:$matchinfo),		(defs root:$clamp_i64_to_i16, clamp_i64_to_i16_matchdata:$matchinfo),
(match (wip_match_opcode G_TRUNC):$clamp_i64_to_i16,		(match (wip_match_opcode G_TRUNC):$clamp_i64_to_i16,
		arsenmUnsubmitted Not Done Reply Inline Actions The select part here isn't essential, but the matcher here wants a specific opcode. I guess you could bypass the generated combine matcher and just call this combine in a switch, or at least add the relevant G_BRCOND user arsenm: The select part here isn't essential, but the matcher here wants a specific opcode. I guess you…
[{ return PreLegalizerHelper.matchClampI64ToI16(${clamp_i64_to_i16}, MRI, MF, ${matchinfo}); }]),		[{ return PreLegalizerHelper.matchClampI64ToI16(${clamp_i64_to_i16}, MRI, MF, ${matchinfo}); }]),
(apply [{ PreLegalizerHelper.applyClampI64ToI16(*${clamp_i64_to_i16}, ${matchinfo}); }])>;		(apply [{ PreLegalizerHelper.applyClampI64ToI16(*${clamp_i64_to_i16}, ${matchinfo}); }])>;

// Combines which should only apply on SI/VI		// Combines which should only apply on SI/VI
def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;		def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;

def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<		def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<
"AMDGPUGenPreLegalizerCombinerHelper", [all_combines, clamp_i64_to_i16]> {		"AMDGPUGenPreLegalizerCombinerHelper", [all_combines, clamp_i64_to_i16]> {
let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";		let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";
let StateClass = "AMDGPUPreLegalizerCombinerHelperState";		let StateClass = "AMDGPUPreLegalizerCombinerHelperState";
}		}

def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<		def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<
"AMDGPUGenPostLegalizerCombinerHelper",		"AMDGPUGenPostLegalizerCombinerHelper",
[all_combines, gfx6gfx7_combines,		[all_combines, gfx6gfx7_combines,
uchar_to_float, cvt_f32_ubyteN]> {		uchar_to_float, cvt_f32_ubyteN]> {
let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";		let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";
let StateClass = "AMDGPUPostLegalizerCombinerHelperState";		let StateClass = "AMDGPUPostLegalizerCombinerHelperState";
let AdditionalArguments = [];		let AdditionalArguments = [];
}		}

def AMDGPURegBankCombinerHelper : GICombinerHelper<		def AMDGPURegBankCombinerHelper : GICombinerHelper<
"AMDGPUGenRegBankCombinerHelper", []> {		"AMDGPUGenRegBankCombinerHelper", [zext_trunc_fold]> {
let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";		let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";
}		}

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	extern "C" LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget() {
initializeAMDGPUArgumentUsageInfoPass(*PR);		initializeAMDGPUArgumentUsageInfoPass(*PR);
initializeAMDGPUAtomicOptimizerPass(*PR);		initializeAMDGPUAtomicOptimizerPass(*PR);
initializeAMDGPULowerKernelArgumentsPass(*PR);		initializeAMDGPULowerKernelArgumentsPass(*PR);
initializeAMDGPULowerKernelAttributesPass(*PR);		initializeAMDGPULowerKernelAttributesPass(*PR);
initializeAMDGPULowerIntrinsicsPass(*PR);		initializeAMDGPULowerIntrinsicsPass(*PR);
initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);		initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);
initializeAMDGPUPostLegalizerCombinerPass(*PR);		initializeAMDGPUPostLegalizerCombinerPass(*PR);
initializeAMDGPUPreLegalizerCombinerPass(*PR);		initializeAMDGPUPreLegalizerCombinerPass(*PR);
		initializeAMDGPURegBankCombinerPass(*PR);
initializeAMDGPUPromoteAllocaPass(*PR);		initializeAMDGPUPromoteAllocaPass(*PR);
initializeAMDGPUPromoteAllocaToVectorPass(*PR);		initializeAMDGPUPromoteAllocaToVectorPass(*PR);
initializeAMDGPUCodeGenPreparePass(*PR);		initializeAMDGPUCodeGenPreparePass(*PR);
initializeAMDGPULateCodeGenPreparePass(*PR);		initializeAMDGPULateCodeGenPreparePass(*PR);
initializeAMDGPUPropagateAttributesEarlyPass(*PR);		initializeAMDGPUPropagateAttributesEarlyPass(*PR);
initializeAMDGPUPropagateAttributesLatePass(*PR);		initializeAMDGPUPropagateAttributesLatePass(*PR);
initializeAMDGPURewriteOutArgumentsPass(*PR);		initializeAMDGPURewriteOutArgumentsPass(*PR);
initializeAMDGPUUnifyMetadataPass(*PR);		initializeAMDGPUUnifyMetadataPass(*PR);
▲ Show 20 Lines • Show All 563 Lines • ▼ Show 20 Lines	public:
void addMachineSSAOptimization() override;		void addMachineSSAOptimization() override;
bool addILPOpts() override;		bool addILPOpts() override;
bool addInstSelector() override;		bool addInstSelector() override;
bool addIRTranslator() override;		bool addIRTranslator() override;
void addPreLegalizeMachineIR() override;		void addPreLegalizeMachineIR() override;
bool addLegalizeMachineIR() override;		bool addLegalizeMachineIR() override;
void addPreRegBankSelect() override;		void addPreRegBankSelect() override;
bool addRegBankSelect() override;		bool addRegBankSelect() override;
		void addPreGlobalInstructionSelect() override;
bool addGlobalInstructionSelect() override;		bool addGlobalInstructionSelect() override;
void addFastRegAlloc() override;		void addFastRegAlloc() override;
void addOptimizedRegAlloc() override;		void addOptimizedRegAlloc() override;
void addPreRegAlloc() override;		void addPreRegAlloc() override;
bool addPreRewrite() override;		bool addPreRewrite() override;
void addPostRegAlloc() override;		void addPostRegAlloc() override;
void addPreSched2() override;		void addPreSched2() override;
void addPreEmitPass() override;		void addPreEmitPass() override;
▲ Show 20 Lines • Show All 290 Lines • ▼ Show 20 Lines	void GCNPassConfig::addPreRegBankSelect() {
addPass(createAMDGPUPostLegalizeCombiner(IsOptNone));		addPass(createAMDGPUPostLegalizeCombiner(IsOptNone));
}		}

bool GCNPassConfig::addRegBankSelect() {		bool GCNPassConfig::addRegBankSelect() {
addPass(new RegBankSelect());		addPass(new RegBankSelect());
return false;		return false;
}		}

		void GCNPassConfig::addPreGlobalInstructionSelect() {
		bool IsOptNone = getOptLevel() == CodeGenOpt::None;
		addPass(createAMDGPURegBankCombiner(IsOptNone));
		}

bool GCNPassConfig::addGlobalInstructionSelect() {		bool GCNPassConfig::addGlobalInstructionSelect() {
addPass(new InstructionSelect(getOptLevel()));		addPass(new InstructionSelect(getOptLevel()));
// TODO: Fix instruction selection to do the right thing for image		// TODO: Fix instruction selection to do the right thing for image
// instructions with tfe or lwe in the first place, instead of running a		// instructions with tfe or lwe in the first place, instead of running a
// separate pass to fix them up?		// separate pass to fix them up?
addPass(createSIAddIMGInitPass());		addPass(createSIAddIMGInitPass());
return false;		return false;
}		}
▲ Show 20 Lines • Show All 253 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/divergent-control-flow.ll

	Show First 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: s_getpc_b64 s[4:5]			; CHECK-NEXT: s_getpc_b64 s[4:5]
	; CHECK-NEXT: s_add_u32 s4, s4, external_constant@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s4, s4, external_constant@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s5, s5, external_constant@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s5, s5, external_constant@gotpcrel32@hi+12
	; CHECK-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0			; CHECK-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: s_load_dword s4, s[4:5], 0x0			; CHECK-NEXT: s_load_dword s4, s[4:5], 0x0
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: s_cmp_lg_u32 s4, 0			; CHECK-NEXT: s_cmp_lg_u32 s4, 0
	; CHECK-NEXT: s_cselect_b32 s4, 1, 0
	; CHECK-NEXT: s_and_b32 s4, s4, 1
	; CHECK-NEXT: s_cmp_lg_u32 s4, 0
	; CHECK-NEXT: s_cbranch_scc1 BB4_4			; CHECK-NEXT: s_cbranch_scc1 BB4_4
	; CHECK-NEXT: ; %bb.1: ; %bb2			; CHECK-NEXT: ; %bb.1: ; %bb2
	; CHECK-NEXT: s_getpc_b64 s[6:7]			; CHECK-NEXT: s_getpc_b64 s[6:7]
	; CHECK-NEXT: s_add_u32 s6, s6, const.ptr@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s6, s6, const.ptr@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s7, s7, const.ptr@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s7, s7, const.ptr@gotpcrel32@hi+12
	; CHECK-NEXT: s_load_dwordx2 s[6:7], s[6:7], 0x0			; CHECK-NEXT: s_load_dwordx2 s[6:7], s[6:7], 0x0
	; CHECK-NEXT: v_mov_b32_e32 v0, 0			; CHECK-NEXT: v_mov_b32_e32 v0, 0
	; CHECK-NEXT: s_mov_b32 s4, -1			; CHECK-NEXT: s_mov_b32 s4, -1
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: s_load_dwordx2 s[6:7], s[6:7], 0x0			; CHECK-NEXT: s_load_dwordx2 s[6:7], s[6:7], 0x0
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: global_load_dword v0, v0, s[6:7]			; CHECK-NEXT: global_load_dword v0, v0, s[6:7]
	; CHECK-NEXT: s_waitcnt vmcnt(0)			; CHECK-NEXT: s_waitcnt vmcnt(0)
	; CHECK-NEXT: v_cmp_gt_f32_e32 vcc, 1.0, v0			; CHECK-NEXT: v_cmp_gt_f32_e32 vcc, 1.0, v0
	; CHECK-NEXT: s_cbranch_vccnz BB4_3			; CHECK-NEXT: s_cbranch_vccnz BB4_3
	; CHECK-NEXT: ; %bb.2: ; %bb7			; CHECK-NEXT: ; %bb.2: ; %bb7
	; CHECK-NEXT: s_mov_b32 s4, 0			; CHECK-NEXT: s_mov_b32 s4, 0
	; CHECK-NEXT: BB4_3: ; %bb8			; CHECK-NEXT: BB4_3: ; %bb8
	; CHECK-NEXT: s_cmp_lg_u32 s4, 0			; CHECK-NEXT: s_cmp_lg_u32 s4, 0
	; CHECK-NEXT: s_cselect_b32 s4, 1, 0
	; CHECK-NEXT: s_and_b32 s4, s4, 1
	; CHECK-NEXT: s_cmp_lg_u32 s4, 0
	; CHECK-NEXT: s_cbranch_scc0 BB4_5			; CHECK-NEXT: s_cbranch_scc0 BB4_5
	; CHECK-NEXT: BB4_4: ; %bb12			; CHECK-NEXT: BB4_4: ; %bb12
	; CHECK-NEXT: s_setpc_b64 s[30:31]			; CHECK-NEXT: s_setpc_b64 s[30:31]
	; CHECK-NEXT: BB4_5: ; %bb11			; CHECK-NEXT: BB4_5: ; %bb11
	; CHECK-NEXT: v_mov_b32_e32 v0, 4.0			; CHECK-NEXT: v_mov_b32_e32 v0, 4.0
	; CHECK-NEXT: buffer_store_dword v0, v0, s[0:3], 0 offen			; CHECK-NEXT: buffer_store_dword v0, v0, s[0:3], 0 offen
	; CHECK-NEXT: s_waitcnt vmcnt(0)			; CHECK-NEXT: s_waitcnt vmcnt(0)
	; CHECK-NEXT: s_setpc_b64 s[30:31]			; CHECK-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn--amdhsa -mcpu=gfx1010 -mattr=+wavefrontsize32,-wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -global-isel -mtriple=amdgcn--amdhsa -mcpu=gfx1010 -mattr=+wavefrontsize32,-wavefrontsize64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	define amdgpu_kernel void @test_wave32(i32 %arg0, [8 x i32], i32 %saved) {			define amdgpu_kernel void @test_wave32(i32 %arg0, [8 x i32], i32 %saved) {
	; GCN-LABEL: test_wave32:			; GCN-LABEL: test_wave32:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_clause 0x1			; GCN-NEXT: s_clause 0x1
	; GCN-NEXT: s_load_dword s1, s[4:5], 0x0			; GCN-NEXT: s_load_dword s1, s[4:5], 0x0
	; GCN-NEXT: s_load_dword s0, s[4:5], 0x24			; GCN-NEXT: s_load_dword s0, s[4:5], 0x24
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s1, 0			; GCN-NEXT: s_cmp_lg_u32 s1, 0
	; GCN-NEXT: s_cselect_b32 s1, 1, 0
	; GCN-NEXT: s_and_b32 s1, s1, 1
	; GCN-NEXT: s_cmp_lg_u32 s1, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_2			; GCN-NEXT: s_cbranch_scc1 BB0_2
	; GCN-NEXT: ; %bb.1: ; %mid			; GCN-NEXT: ; %bb.1: ; %mid
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: global_store_dword v[0:1], v0, off			; GCN-NEXT: global_store_dword v[0:1], v0, off
	; GCN-NEXT: s_waitcnt_vscnt null, 0x0			; GCN-NEXT: s_waitcnt_vscnt null, 0x0
	; GCN-NEXT: BB0_2: ; %bb			; GCN-NEXT: BB0_2: ; %bb
	; GCN-NEXT: s_waitcnt_depctr 0xffe3			; GCN-NEXT: s_waitcnt_depctr 0xffe3
	; GCN-NEXT: s_or_b32 exec_lo, exec_lo, s0			; GCN-NEXT: s_or_b32 exec_lo, exec_lo, s0
	Show All 19 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i64.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -global-isel -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	define amdgpu_kernel void @test_wave64(i32 %arg0, i64 %saved) {			define amdgpu_kernel void @test_wave64(i32 %arg0, i64 %saved) {
	; GCN-LABEL: test_wave64:			; GCN-LABEL: test_wave64:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_load_dword s2, s[4:5], 0x0			; GCN-NEXT: s_load_dword s2, s[4:5], 0x0
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; GCN-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s2, 0			; GCN-NEXT: s_cmp_lg_u32 s2, 0
	; GCN-NEXT: s_cselect_b32 s2, 1, 0
	; GCN-NEXT: s_and_b32 s2, s2, 1
	; GCN-NEXT: s_cmp_lg_u32 s2, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_2			; GCN-NEXT: s_cbranch_scc1 BB0_2
	; GCN-NEXT: ; %bb.1: ; %mid			; GCN-NEXT: ; %bb.1: ; %mid
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: global_store_dword v[0:1], v0, off			; GCN-NEXT: global_store_dword v[0:1], v0, off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: BB0_2: ; %bb			; GCN-NEXT: BB0_2: ; %bb
	; GCN-NEXT: s_or_b64 exec, exec, s[0:1]			; GCN-NEXT: s_or_b64 exec, exec, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	Show All 18 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.private.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @is_private_sgpr(i8* %ptr) {			define amdgpu_kernel void @is_private_sgpr(i8* %ptr) {
	; CI-LABEL: is_private_sgpr:			; CI-LABEL: is_private_sgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; CI-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_load_dword s0, s[4:5], 0x11			; CI-NEXT: s_load_dword s0, s[4:5], 0x11
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_cmp_lg_u32 s1, s0			; CI-NEXT: s_cmp_lg_u32 s1, s0
	; CI-NEXT: s_cselect_b32 s0, 1, 0
	; CI-NEXT: s_and_b32 s0, s0, 1
	; CI-NEXT: s_cmp_lg_u32 s0, 0
	; CI-NEXT: s_cbranch_scc1 BB1_2			; CI-NEXT: s_cbranch_scc1 BB1_2
	; CI-NEXT: ; %bb.1: ; %bb0			; CI-NEXT: ; %bb.1: ; %bb0
	; CI-NEXT: v_mov_b32_e32 v0, 0			; CI-NEXT: v_mov_b32_e32 v0, 0
	; CI-NEXT: flat_store_dword v[0:1], v0			; CI-NEXT: flat_store_dword v[0:1], v0
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: BB1_2: ; %bb1			; CI-NEXT: BB1_2: ; %bb1
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: is_private_sgpr:			; GFX9-LABEL: is_private_sgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_cmp_lg_u32 s1, s0			; GFX9-NEXT: s_cmp_lg_u32 s1, s0
	; GFX9-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9-NEXT: s_and_b32 s0, s0, 1
	; GFX9-NEXT: s_cmp_lg_u32 s0, 0
	; GFX9-NEXT: s_cbranch_scc1 BB1_2			; GFX9-NEXT: s_cbranch_scc1 BB1_2
	; GFX9-NEXT: ; %bb.1: ; %bb0			; GFX9-NEXT: ; %bb.1: ; %bb0
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: BB1_2: ; %bb1			; GFX9-NEXT: BB1_2: ; %bb1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.shared.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @is_local_sgpr(i8* %ptr) {			define amdgpu_kernel void @is_local_sgpr(i8* %ptr) {
	; CI-LABEL: is_local_sgpr:			; CI-LABEL: is_local_sgpr:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; CI-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_load_dword s0, s[4:5], 0x10			; CI-NEXT: s_load_dword s0, s[4:5], 0x10
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_cmp_lg_u32 s1, s0			; CI-NEXT: s_cmp_lg_u32 s1, s0
	; CI-NEXT: s_cselect_b32 s0, 1, 0
	; CI-NEXT: s_and_b32 s0, s0, 1
	; CI-NEXT: s_cmp_lg_u32 s0, 0
	; CI-NEXT: s_cbranch_scc1 BB1_2			; CI-NEXT: s_cbranch_scc1 BB1_2
	; CI-NEXT: ; %bb.1: ; %bb0			; CI-NEXT: ; %bb.1: ; %bb0
	; CI-NEXT: v_mov_b32_e32 v0, 0			; CI-NEXT: v_mov_b32_e32 v0, 0
	; CI-NEXT: flat_store_dword v[0:1], v0			; CI-NEXT: flat_store_dword v[0:1], v0
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: BB1_2: ; %bb1			; CI-NEXT: BB1_2: ; %bb1
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: is_local_sgpr:			; GFX9-LABEL: is_local_sgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_cmp_lg_u32 s1, s0			; GFX9-NEXT: s_cmp_lg_u32 s1, s0
	; GFX9-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9-NEXT: s_and_b32 s0, s0, 1
	; GFX9-NEXT: s_cmp_lg_u32 s0, 0
	; GFX9-NEXT: s_cbranch_scc1 BB1_2			; GFX9-NEXT: s_cbranch_scc1 BB1_2
	; GFX9-NEXT: ; %bb.1: ; %bb0			; GFX9-NEXT: ; %bb.1: ; %bb0
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: BB1_2: ; %bb1			; GFX9-NEXT: BB1_2: ; %bb1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.set.inactive.ll

Show All 37 Lines	; GCN-NEXT: s_endpgm
%tmp = call i64 @llvm.amdgcn.set.inactive.i64(i64 %in, i64 0) #0		%tmp = call i64 @llvm.amdgcn.set.inactive.i64(i64 %in, i64 0) #0
store i64 %tmp, i64 addrspace(1)* %out		store i64 %tmp, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @set_inactive_scc(i32 addrspace(1)* %out, i32 %in, <4 x i32> inreg %desc) {		define amdgpu_kernel void @set_inactive_scc(i32 addrspace(1)* %out, i32 %in, <4 x i32> inreg %desc) {
; GCN-LABEL: set_inactive_scc:		; GCN-LABEL: set_inactive_scc:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x34
; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_buffer_load_dword s2, s[4:7], 0x0
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; GCN-NEXT: s_load_dword s0, s[0:1], 0x2c		; GCN-NEXT: s_load_dword s0, s[0:1], 0x2c
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_cmp_lg_u32 s2, 56		; GCN-NEXT: s_buffer_load_dword s1, s[8:11], 0x0
; GCN-NEXT: v_mov_b32_e32 v0, s0		; GCN-NEXT: v_mov_b32_e32 v0, s0
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: s_cmp_lg_u32 s1, 56
; GCN-NEXT: s_cselect_b32 s0, 1, 0		; GCN-NEXT: s_cselect_b32 s0, 1, 0
; GCN-NEXT: s_not_b64 exec, exec		; GCN-NEXT: s_not_b64 exec, exec
; GCN-NEXT: v_mov_b32_e32 v0, 42		; GCN-NEXT: v_mov_b32_e32 v0, 42
; GCN-NEXT: s_not_b64 exec, exec		; GCN-NEXT: s_not_b64 exec, exec
; GCN-NEXT: s_and_b32 s0, s0, 1
; GCN-NEXT: s_cmp_lg_u32 s0, 0		; GCN-NEXT: s_cmp_lg_u32 s0, 0
; GCN-NEXT: s_cbranch_scc0 BB2_2		; GCN-NEXT: s_cbranch_scc0 BB2_2
; GCN-NEXT: ; %bb.1: ; %.one		; GCN-NEXT: ; %bb.1: ; %.one
; GCN-NEXT: v_add_u32_e32 v1, vcc, 1, v0		; GCN-NEXT: v_add_u32_e32 v1, vcc, 1, v0
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s0, 0		; GCN-NEXT: s_mov_b32 s0, 0
; GCN-NEXT: buffer_store_dword v1, off, s[4:7], 0		; GCN-NEXT: buffer_store_dword v1, off, s[4:7], 0
Show All 37 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/non-entry-alloca.ll

	Show All 15 Lines
	; GCN-NEXT: s_add_u32 flat_scratch_lo, s6, s9			; GCN-NEXT: s_add_u32 flat_scratch_lo, s6, s9
	; GCN-NEXT: s_load_dword s6, s[4:5], 0x8			; GCN-NEXT: s_load_dword s6, s[4:5], 0x8
	; GCN-NEXT: s_addc_u32 flat_scratch_hi, s7, 0			; GCN-NEXT: s_addc_u32 flat_scratch_hi, s7, 0
	; GCN-NEXT: s_add_u32 s0, s0, s9			; GCN-NEXT: s_add_u32 s0, s0, s9
	; GCN-NEXT: s_addc_u32 s1, s1, 0			; GCN-NEXT: s_addc_u32 s1, s1, 0
	; GCN-NEXT: s_movk_i32 s32, 0x400			; GCN-NEXT: s_movk_i32 s32, 0x400
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s6, 0			; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_cselect_b32 s6, 1, 0
	; GCN-NEXT: s_and_b32 s6, s6, 1
	; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_mov_b32 s33, 0			; GCN-NEXT: s_mov_b32 s33, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_3			; GCN-NEXT: s_cbranch_scc1 BB0_3
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: s_load_dword s6, s[4:5], 0xc			; GCN-NEXT: s_load_dword s6, s[4:5], 0xc
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s6, 0			; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_cselect_b32 s6, 1, 0
	; GCN-NEXT: s_and_b32 s6, s6, 1
	; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_3			; GCN-NEXT: s_cbranch_scc1 BB0_3
	; GCN-NEXT: ; %bb.2: ; %bb.1			; GCN-NEXT: ; %bb.2: ; %bb.1
	; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x0
	; GCN-NEXT: s_load_dword s8, s[4:5], 0x10			; GCN-NEXT: s_load_dword s8, s[4:5], 0x10
	; GCN-NEXT: s_add_u32 s4, s32, 0x1000			; GCN-NEXT: s_add_u32 s4, s32, 0x1000
	; GCN-NEXT: s_add_u32 s5, s4, 4			; GCN-NEXT: s_add_u32 s5, s4, 4
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_add_u32 flat_scratch_lo, s6, s9			; GCN-NEXT: s_add_u32 flat_scratch_lo, s6, s9
	; GCN-NEXT: s_load_dword s6, s[4:5], 0x8			; GCN-NEXT: s_load_dword s6, s[4:5], 0x8
	; GCN-NEXT: s_addc_u32 flat_scratch_hi, s7, 0			; GCN-NEXT: s_addc_u32 flat_scratch_hi, s7, 0
	; GCN-NEXT: s_add_u32 s0, s0, s9			; GCN-NEXT: s_add_u32 s0, s0, s9
	; GCN-NEXT: s_addc_u32 s1, s1, 0			; GCN-NEXT: s_addc_u32 s1, s1, 0
	; GCN-NEXT: s_movk_i32 s32, 0x1000			; GCN-NEXT: s_movk_i32 s32, 0x1000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s6, 0			; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_cselect_b32 s6, 1, 0
	; GCN-NEXT: s_and_b32 s6, s6, 1
	; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_mov_b32 s33, 0			; GCN-NEXT: s_mov_b32 s33, 0
	; GCN-NEXT: s_cbranch_scc1 BB1_2			; GCN-NEXT: s_cbranch_scc1 BB1_2
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x0
	; GCN-NEXT: s_load_dword s8, s[4:5], 0xc			; GCN-NEXT: s_load_dword s8, s[4:5], 0xc
	; GCN-NEXT: s_add_u32 s4, s32, 0x1000			; GCN-NEXT: s_add_u32 s4, s32, 0x1000
	; GCN-NEXT: s_and_b32 s4, s4, 0xfffff000			; GCN-NEXT: s_and_b32 s4, s4, 0xfffff000
	; GCN-NEXT: s_add_u32 s5, s4, 4			; GCN-NEXT: s_add_u32 s5, s4, 4
	▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,818 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_cselect_b32 s13, 1, 0			; GFX6-NEXT: s_cselect_b32 s13, 1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]
	; GFX6-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX6-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX6-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX6-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX6-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX6-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX6-NEXT: s_ashr_i32 s4, s11, 31			; GFX6-NEXT: s_ashr_i32 s4, s11, 31
	; GFX6-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX6-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX6-NEXT: s_and_b32 s12, s12, 1
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX6-NEXT: s_and_b32 s6, s13, 1			; GFX6-NEXT: s_cmp_lg_u32 s13, 0
	; GFX6-NEXT: s_cmp_lg_u32 s6, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX6-NEXT: s_mov_b32 s5, s4			; GFX6-NEXT: s_mov_b32 s5, s4
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX6-NEXT: s_add_u32 s2, s2, 0			; GFX6-NEXT: s_add_u32 s2, s2, 0
	; GFX6-NEXT: s_cselect_b32 s4, 1, 0			; GFX6-NEXT: s_cselect_b32 s4, 1, 0
	; GFX6-NEXT: s_and_b32 s4, s4, 1			; GFX6-NEXT: s_and_b32 s4, s4, 1
	; GFX6-NEXT: s_cmp_lg_u32 s4, 0			; GFX6-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s13, 1, 0			; GFX8-NEXT: s_cselect_b32 s13, 1, 0
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX8-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX8-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX8-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX8-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX8-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX8-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX8-NEXT: s_ashr_i32 s4, s11, 31			; GFX8-NEXT: s_ashr_i32 s4, s11, 31
	; GFX8-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX8-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX8-NEXT: s_and_b32 s12, s12, 1
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX8-NEXT: s_and_b32 s6, s13, 1			; GFX8-NEXT: s_cmp_lg_u32 s13, 0
	; GFX8-NEXT: s_cmp_lg_u32 s6, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX8-NEXT: s_mov_b32 s5, s4			; GFX8-NEXT: s_mov_b32 s5, s4
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX8-NEXT: s_add_u32 s2, s2, 0			; GFX8-NEXT: s_add_u32 s2, s2, 0
	; GFX8-NEXT: s_cselect_b32 s4, 1, 0			; GFX8-NEXT: s_cselect_b32 s4, 1, 0
	; GFX8-NEXT: s_and_b32 s4, s4, 1			; GFX8-NEXT: s_and_b32 s4, s4, 1
	; GFX8-NEXT: s_cmp_lg_u32 s4, 0			; GFX8-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s13, 1, 0			; GFX9-NEXT: s_cselect_b32 s13, 1, 0
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX9-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX9-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX9-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX9-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX9-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX9-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: s_ashr_i32 s4, s11, 31			; GFX9-NEXT: s_ashr_i32 s4, s11, 31
	; GFX9-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX9-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX9-NEXT: s_and_b32 s12, s12, 1
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX9-NEXT: s_and_b32 s6, s13, 1			; GFX9-NEXT: s_cmp_lg_u32 s13, 0
	; GFX9-NEXT: s_cmp_lg_u32 s6, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX9-NEXT: s_add_u32 s2, s2, 0			; GFX9-NEXT: s_add_u32 s2, s2, 0
	; GFX9-NEXT: s_cselect_b32 s4, 1, 0			; GFX9-NEXT: s_cselect_b32 s4, 1, 0
	; GFX9-NEXT: s_and_b32 s4, s4, 1			; GFX9-NEXT: s_and_b32 s4, s4, 1
	; GFX9-NEXT: s_cmp_lg_u32 s4, 0			; GFX9-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_and_b32 s0, 1, s0			; GFX10-NEXT: s_and_b32 s0, 1, s0
	; GFX10-NEXT: s_cmp_eq_u64 s[6:7], 0			; GFX10-NEXT: s_cmp_eq_u64 s[6:7], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[4:5], 0			; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[4:5], 0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s1			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s1
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: s_sub_i32 s13, s12, 64			; GFX10-NEXT: s_sub_i32 s13, s12, 64
	; GFX10-NEXT: s_and_b32 s14, 1, s1			; GFX10-NEXT: s_and_b32 s14, 1, s1
	; GFX10-NEXT: s_sub_i32 s2, 64, s12			; GFX10-NEXT: s_sub_i32 s15, 64, s12
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
				; GFX10-NEXT: s_cmp_lt_u32 s12, 64
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0
	; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[6:7], 0			; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[6:7], 0
	; GFX10-NEXT: s_cmp_lt_u32 s12, 64
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s14
	; GFX10-NEXT: s_cselect_b32 s15, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s12, 0
	; GFX10-NEXT: s_cselect_b32 s16, 1, 0			; GFX10-NEXT: s_cselect_b32 s16, 1, 0
				; GFX10-NEXT: s_cmp_eq_u32 s12, 0
				; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s14
				; GFX10-NEXT: s_cselect_b32 s17, 1, 0
				; GFX10-NEXT: s_lshr_b64 s[2:3], s[8:9], s12
				; GFX10-NEXT: s_lshl_b64 s[4:5], s[10:11], s15
	; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s0
	; GFX10-NEXT: s_lshr_b64 s[0:1], s[8:9], s12			; GFX10-NEXT: s_ashr_i32 s6, s11, 31
	; GFX10-NEXT: s_lshl_b64 s[2:3], s[10:11], s2			; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX10-NEXT: s_ashr_i64 s[4:5], s[10:11], s12			; GFX10-NEXT: s_ashr_i64 s[0:1], s[10:11], s12
	; GFX10-NEXT: s_and_b32 s12, s15, 1			; GFX10-NEXT: s_ashr_i64 s[4:5], s[10:11], s13
	; GFX10-NEXT: s_or_b64 s[0:1], s[0:1], s[2:3]			; GFX10-NEXT: s_cmp_lg_u32 s16, 0
	; GFX10-NEXT: s_ashr_i32 s2, s11, 31			; GFX10-NEXT: s_mov_b32 s7, s6
	; GFX10-NEXT: s_ashr_i64 s[6:7], s[10:11], s13			; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[4:5]
	; GFX10-NEXT: s_cmp_lg_u32 s12, 0			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_mov_b32 s3, s2
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[6:7]
	; GFX10-NEXT: s_and_b32 s6, s16, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
				; GFX10-NEXT: s_cmp_lg_u32 s16, 0
	; GFX10-NEXT: v_mov_b32_e32 v2, s9			; GFX10-NEXT: v_mov_b32_e32 v2, s9
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[8:9], s[0:1]			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[6:7]
	; GFX10-NEXT: s_cmp_lg_u32 s12, 0			; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[4:5], s[2:3]
	; GFX10-NEXT: s_add_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s8			; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, s8
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s3, s3, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_addc_u32 s2, s2, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, s2, vcc_lo			; GFX10-NEXT: s_addc_u32 s1, s1, 0x80000000
	; GFX10-NEXT: s_addc_u32 s3, s3, 0x80000000			; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s2, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, s0, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v3, v4, s1, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v4, s3, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s1, v1			; GFX10-NEXT: v_readfirstlane_b32 s1, v1
	; GFX10-NEXT: v_readfirstlane_b32 s2, v2			; GFX10-NEXT: v_readfirstlane_b32 s2, v2
	; GFX10-NEXT: v_readfirstlane_b32 s3, v3			; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call i128 @llvm.sadd.sat.i128(i128 %lhs, i128 %rhs)			%result = call i128 @llvm.sadd.sat.i128(i128 %lhs, i128 %rhs)
	ret i128 %result			ret i128 %result
	}			}

	▲ Show 20 Lines • Show All 973 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX6-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u64_e64 vcc, s[10:11], 0			; GFX6-NEXT: v_cmp_eq_u64_e64 vcc, s[10:11], 0
	; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: s_ashr_i32 s8, s19, 31			; GFX6-NEXT: s_ashr_i32 s8, s19, 31
	; GFX6-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX6-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX6-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX6-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX6-NEXT: s_and_b32 s23, s23, 1
	; GFX6-NEXT: s_cmp_lg_u32 s23, 0			; GFX6-NEXT: s_cmp_lg_u32 s23, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX6-NEXT: s_and_b32 s10, s24, 1			; GFX6-NEXT: s_cmp_lg_u32 s24, 0
	; GFX6-NEXT: s_cmp_lg_u32 s10, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX6-NEXT: s_cmp_lg_u32 s23, 0			; GFX6-NEXT: s_cmp_lg_u32 s23, 0
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX6-NEXT: s_add_u32 s2, s2, 0			; GFX6-NEXT: s_add_u32 s2, s2, 0
	; GFX6-NEXT: s_cselect_b32 s8, 1, 0			; GFX6-NEXT: s_cselect_b32 s8, 1, 0
	; GFX6-NEXT: s_and_b32 s8, s8, 1			; GFX6-NEXT: s_and_b32 s8, s8, 1
	; GFX6-NEXT: s_cmp_lg_u32 s8, 0			; GFX6-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX6-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX6-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]
	; GFX6-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX6-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX6-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX6-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX6-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX6-NEXT: s_and_b32 s12, s12, 1
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX6-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX6-NEXT: s_and_b32 s10, s13, 1			; GFX6-NEXT: s_cmp_lg_u32 s13, 0
	; GFX6-NEXT: s_cmp_lg_u32 s10, 0
	; GFX6-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX6-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX6-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX6-NEXT: s_add_u32 s6, s6, 0			; GFX6-NEXT: s_add_u32 s6, s6, 0
	; GFX6-NEXT: s_cselect_b32 s8, 1, 0			; GFX6-NEXT: s_cselect_b32 s8, 1, 0
	; GFX6-NEXT: s_and_b32 s8, s8, 1			; GFX6-NEXT: s_and_b32 s8, s8, 1
	; GFX6-NEXT: s_cmp_lg_u32 s8, 0			; GFX6-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s24, 1, 0			; GFX8-NEXT: s_cselect_b32 s24, 1, 0
	; GFX8-NEXT: s_lshr_b64 s[2:3], s[16:17], s20			; GFX8-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
	; GFX8-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX8-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX8-NEXT: s_ashr_i32 s8, s19, 31			; GFX8-NEXT: s_ashr_i32 s8, s19, 31
	; GFX8-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX8-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX8-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX8-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX8-NEXT: s_and_b32 s23, s23, 1
	; GFX8-NEXT: s_cmp_lg_u32 s23, 0			; GFX8-NEXT: s_cmp_lg_u32 s23, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX8-NEXT: s_and_b32 s10, s24, 1			; GFX8-NEXT: s_cmp_lg_u32 s24, 0
	; GFX8-NEXT: s_cmp_lg_u32 s10, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX8-NEXT: s_cmp_lg_u32 s23, 0			; GFX8-NEXT: s_cmp_lg_u32 s23, 0
	; GFX8-NEXT: s_mov_b32 s9, s8			; GFX8-NEXT: s_mov_b32 s9, s8
	; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX8-NEXT: s_add_u32 s2, s2, 0			; GFX8-NEXT: s_add_u32 s2, s2, 0
	; GFX8-NEXT: s_cselect_b32 s8, 1, 0			; GFX8-NEXT: s_cselect_b32 s8, 1, 0
	; GFX8-NEXT: s_and_b32 s8, s8, 1			; GFX8-NEXT: s_and_b32 s8, s8, 1
	; GFX8-NEXT: s_cmp_lg_u32 s8, 0			; GFX8-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s13, 1, 0			; GFX8-NEXT: s_cselect_b32 s13, 1, 0
	; GFX8-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX8-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX8-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX8-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4
	; GFX8-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX8-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX8-NEXT: s_ashr_i32 s8, s3, 31			; GFX8-NEXT: s_ashr_i32 s8, s3, 31
	; GFX8-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX8-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX8-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX8-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX8-NEXT: s_and_b32 s12, s12, 1
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX8-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX8-NEXT: s_and_b32 s10, s13, 1			; GFX8-NEXT: s_cmp_lg_u32 s13, 0
	; GFX8-NEXT: s_cmp_lg_u32 s10, 0
	; GFX8-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX8-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX8-NEXT: s_mov_b32 s9, s8			; GFX8-NEXT: s_mov_b32 s9, s8
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX8-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX8-NEXT: s_add_u32 s6, s6, 0			; GFX8-NEXT: s_add_u32 s6, s6, 0
	; GFX8-NEXT: s_cselect_b32 s8, 1, 0			; GFX8-NEXT: s_cselect_b32 s8, 1, 0
	; GFX8-NEXT: s_and_b32 s8, s8, 1			; GFX8-NEXT: s_and_b32 s8, s8, 1
	; GFX8-NEXT: s_cmp_lg_u32 s8, 0			; GFX8-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s24, 1, 0			; GFX9-NEXT: s_cselect_b32 s24, 1, 0
	; GFX9-NEXT: s_lshr_b64 s[2:3], s[16:17], s20			; GFX9-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
	; GFX9-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX9-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s8, s19, 31			; GFX9-NEXT: s_ashr_i32 s8, s19, 31
	; GFX9-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX9-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX9-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX9-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX9-NEXT: s_and_b32 s23, s23, 1
	; GFX9-NEXT: s_cmp_lg_u32 s23, 0			; GFX9-NEXT: s_cmp_lg_u32 s23, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX9-NEXT: s_and_b32 s10, s24, 1			; GFX9-NEXT: s_cmp_lg_u32 s24, 0
	; GFX9-NEXT: s_cmp_lg_u32 s10, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX9-NEXT: s_cmp_lg_u32 s23, 0			; GFX9-NEXT: s_cmp_lg_u32 s23, 0
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX9-NEXT: s_add_u32 s2, s2, 0			; GFX9-NEXT: s_add_u32 s2, s2, 0
	; GFX9-NEXT: s_cselect_b32 s8, 1, 0			; GFX9-NEXT: s_cselect_b32 s8, 1, 0
	; GFX9-NEXT: s_and_b32 s8, s8, 1			; GFX9-NEXT: s_and_b32 s8, s8, 1
	; GFX9-NEXT: s_cmp_lg_u32 s8, 0			; GFX9-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s13, 1, 0			; GFX9-NEXT: s_cselect_b32 s13, 1, 0
	; GFX9-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX9-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4
	; GFX9-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX9-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s8, s3, 31			; GFX9-NEXT: s_ashr_i32 s8, s3, 31
	; GFX9-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX9-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX9-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX9-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX9-NEXT: s_and_b32 s12, s12, 1
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX9-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX9-NEXT: s_and_b32 s10, s13, 1			; GFX9-NEXT: s_cmp_lg_u32 s13, 0
	; GFX9-NEXT: s_cmp_lg_u32 s10, 0
	; GFX9-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX9-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX9-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX9-NEXT: s_add_u32 s6, s6, 0			; GFX9-NEXT: s_add_u32 s6, s6, 0
	; GFX9-NEXT: s_cselect_b32 s8, 1, 0			; GFX9-NEXT: s_cselect_b32 s8, 1, 0
	; GFX9-NEXT: s_and_b32 s8, s8, 1			; GFX9-NEXT: s_and_b32 s8, s8, 1
	; GFX9-NEXT: s_cmp_lg_u32 s8, 0			; GFX9-NEXT: s_cmp_lg_u32 s8, 0
	Show All 29 Lines
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: v_readfirstlane_b32 s5, v1			; GFX9-NEXT: v_readfirstlane_b32 s5, v1
	; GFX9-NEXT: v_readfirstlane_b32 s6, v2			; GFX9-NEXT: v_readfirstlane_b32 s6, v2
	; GFX9-NEXT: v_readfirstlane_b32 s7, v3			; GFX9-NEXT: v_readfirstlane_b32 s7, v3
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_saddsat_v2i128:			; GFX10-LABEL: s_saddsat_v2i128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_add_u32 s28, s0, s8			; GFX10-NEXT: s_add_u32 s16, s0, s8
	; GFX10-NEXT: s_cselect_b32 s17, 1, 0			; GFX10-NEXT: s_cselect_b32 s17, 1, 0
	; GFX10-NEXT: s_mov_b32 s46, s0			; GFX10-NEXT: s_mov_b32 s46, s0
	; GFX10-NEXT: s_and_b32 s17, s17, 1			; GFX10-NEXT: s_and_b32 s17, s17, 1
	; GFX10-NEXT: s_mov_b32 s47, s1			; GFX10-NEXT: s_mov_b32 s47, s1
	; GFX10-NEXT: s_cmp_lg_u32 s17, 0			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_addc_u32 s29, s1, s9			; GFX10-NEXT: s_addc_u32 s17, s1, s9
	; GFX10-NEXT: s_cselect_b32 s18, 1, 0			; GFX10-NEXT: s_cselect_b32 s18, 1, 0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[28:29], s[46:47]			; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[16:17], s[46:47]
	; GFX10-NEXT: s_and_b32 s18, s18, 1			; GFX10-NEXT: s_and_b32 s18, s18, 1
	; GFX10-NEXT: s_cmp_lg_u32 s18, 0			; GFX10-NEXT: s_cmp_lg_u32 s18, 0
	; GFX10-NEXT: s_addc_u32 s30, s2, s10			; GFX10-NEXT: s_addc_u32 s30, s2, s10
	; GFX10-NEXT: s_cselect_b32 s19, 1, 0			; GFX10-NEXT: s_cselect_b32 s19, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s19, s19, 1			; GFX10-NEXT: s_and_b32 s19, s19, 1
	; GFX10-NEXT: s_cmp_lg_u32 s19, 0			; GFX10-NEXT: s_cmp_lg_u32 s19, 0
	; GFX10-NEXT: s_addc_u32 s31, s3, s11			; GFX10-NEXT: s_addc_u32 s31, s3, s11
	; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[30:31], s[2:3]			; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[30:31], s[2:3]
	; GFX10-NEXT: s_cmp_eq_u64 s[30:31], s[2:3]			; GFX10-NEXT: s_cmp_eq_u64 s[30:31], s[2:3]
	; GFX10-NEXT: v_cmp_lt_u64_e64 s2, s[8:9], 0			; GFX10-NEXT: v_cmp_lt_u64_e64 s2, s[8:9], 0
	; GFX10-NEXT: s_cselect_b32 s20, 1, 0			; GFX10-NEXT: s_cselect_b32 s20, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s0, 1, s20			; GFX10-NEXT: s_and_b32 s0, 1, s20
	; GFX10-NEXT: s_cmp_eq_u64 s[10:11], 0			; GFX10-NEXT: s_cmp_eq_u64 s[10:11], 0
	; GFX10-NEXT: s_movk_i32 s20, 0x7f			; GFX10-NEXT: s_movk_i32 s20, 0x7f
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s2
	; GFX10-NEXT: v_cmp_lt_i64_e64 s2, s[10:11], 0			; GFX10-NEXT: v_cmp_lt_i64_e64 s2, s[10:11], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: s_and_b32 s1, 1, s1			; GFX10-NEXT: s_and_b32 s1, 1, s1
	; GFX10-NEXT: s_sub_i32 s21, s20, 64			; GFX10-NEXT: s_sub_i32 s21, s20, 64
	; GFX10-NEXT: s_sub_i32 s22, 64, s20			; GFX10-NEXT: s_sub_i32 s22, 64, s20
	; GFX10-NEXT: s_cmp_lt_u32 s20, 64			; GFX10-NEXT: s_cmp_lt_u32 s20, 64
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: s_cselect_b32 s10, 1, 0			; GFX10-NEXT: s_cselect_b32 s23, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s20, 0			; GFX10-NEXT: s_cmp_eq_u32 s20, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v3, 0, 1, s2
	; GFX10-NEXT: s_cselect_b32 s23, 1, 0			; GFX10-NEXT: s_cselect_b32 s24, 1, 0
				; GFX10-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
				; GFX10-NEXT: s_lshl_b64 s[8:9], s[30:31], s22
				; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s1			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s1
	; GFX10-NEXT: s_lshr_b64 s[0:1], s[28:29], s20			; GFX10-NEXT: s_ashr_i32 s10, s31, 31
	; GFX10-NEXT: s_lshl_b64 s[2:3], s[30:31], s22			; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX10-NEXT: s_and_b32 s24, s10, 1			; GFX10-NEXT: s_ashr_i64 s[0:1], s[30:31], s20
	; GFX10-NEXT: s_or_b64 s[0:1], s[0:1], s[2:3]			; GFX10-NEXT: s_ashr_i64 s[8:9], s[30:31], s21
	; GFX10-NEXT: s_ashr_i32 s2, s31, 31			; GFX10-NEXT: s_cmp_lg_u32 s23, 0
	; GFX10-NEXT: s_ashr_i64 s[8:9], s[30:31], s20			; GFX10-NEXT: s_mov_b32 s11, s10
	; GFX10-NEXT: s_ashr_i64 s[10:11], s[30:31], s21			; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[8:9]
	; GFX10-NEXT: s_cmp_lg_u32 s24, 0			; GFX10-NEXT: s_cmp_lg_u32 s24, 0
	; GFX10-NEXT: s_mov_b32 s3, s2
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: s_and_b32 s10, s23, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s10, 0			; GFX10-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX10-NEXT: v_mov_b32_e32 v2, s29			; GFX10-NEXT: s_cmp_lg_u32 s23, 0
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[28:29], s[0:1]			; GFX10-NEXT: v_mov_b32_e32 v2, s17
	; GFX10-NEXT: s_cmp_lg_u32 s24, 0			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0			; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX10-NEXT: s_add_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s28			; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, s16
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_brev_b32 s23, 1			; GFX10-NEXT: s_brev_b32 s23, 1
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s3, s3, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_mov_b32_e32 v3, s31			; GFX10-NEXT: v_mov_b32_e32 v3, s31
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_addc_u32 s2, s2, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
				; GFX10-NEXT: s_addc_u32 s1, s1, s23
				; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s2, vcc_lo
				; GFX10-NEXT: s_add_u32 s2, s4, s12
				; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo
				; GFX10-NEXT: s_cselect_b32 s3, 1, 0
				; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, s1, vcc_lo
				; GFX10-NEXT: s_and_b32 s3, s3, 1
	; GFX10-NEXT: v_mov_b32_e32 v2, s30			; GFX10-NEXT: v_mov_b32_e32 v2, s30
	; GFX10-NEXT: s_addc_u32 s3, s3, s23			; GFX10-NEXT: s_cmp_lg_u32 s3, 0
	; GFX10-NEXT: s_add_u32 s0, s4, s12			; GFX10-NEXT: s_addc_u32 s3, s5, s13
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, s3, vcc_lo
	; GFX10-NEXT: s_and_b32 s1, s1, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s2, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s1, 0
	; GFX10-NEXT: s_addc_u32 s1, s5, s13
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s3, s[0:1], s[4:5]			; GFX10-NEXT: v_cmp_lt_u64_e64 s1, s[2:3], s[4:5]
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
				; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s0, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_addc_u32 s8, s6, s14			; GFX10-NEXT: s_addc_u32 s8, s6, s14
	; GFX10-NEXT: s_cselect_b32 s9, 1, 0			; GFX10-NEXT: s_cselect_b32 s9, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v4, 0, 1, s3			; GFX10-NEXT: v_cndmask_b32_e64 v4, 0, 1, s1
	; GFX10-NEXT: s_and_b32 s9, s9, 1			; GFX10-NEXT: s_and_b32 s9, s9, 1
	; GFX10-NEXT: v_mov_b32_e32 v7, s8			; GFX10-NEXT: v_mov_b32_e32 v7, s8
	; GFX10-NEXT: s_cmp_lg_u32 s9, 0			; GFX10-NEXT: s_cmp_lg_u32 s9, 0
	; GFX10-NEXT: s_addc_u32 s9, s7, s15			; GFX10-NEXT: s_addc_u32 s9, s7, s15
	; GFX10-NEXT: s_cmp_eq_u64 s[8:9], s[6:7]			; GFX10-NEXT: s_cmp_eq_u64 s[8:9], s[6:7]
	; GFX10-NEXT: v_cmp_lt_i64_e64 s3, s[8:9], s[6:7]			; GFX10-NEXT: v_cmp_lt_i64_e64 s1, s[8:9], s[6:7]
	; GFX10-NEXT: s_cselect_b32 s2, 1, 0			; GFX10-NEXT: s_cselect_b32 s0, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v8, s9			; GFX10-NEXT: v_mov_b32_e32 v8, s9
	; GFX10-NEXT: s_and_b32 s2, 1, s2			; GFX10-NEXT: s_and_b32 s0, 1, s0
	; GFX10-NEXT: s_cmp_eq_u64 s[14:15], 0			; GFX10-NEXT: s_cmp_eq_u64 s[14:15], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s2			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s2, s[12:13], 0			; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[12:13], 0
	; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s3			; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s1
	; GFX10-NEXT: s_cselect_b32 s3, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: s_and_b32 s16, 1, s3			; GFX10-NEXT: s_and_b32 s16, 1, s1
	; GFX10-NEXT: s_cmp_lt_u32 s20, 64			; GFX10-NEXT: s_cmp_lt_u32 s20, 64
	; GFX10-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s0
	; GFX10-NEXT: v_cmp_lt_i64_e64 s2, s[14:15], 0			; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[14:15], 0
	; GFX10-NEXT: s_cselect_b32 s10, 1, 0			; GFX10-NEXT: s_cselect_b32 s17, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s20, 0			; GFX10-NEXT: s_cmp_eq_u32 s20, 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s16			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s16
	; GFX10-NEXT: s_cselect_b32 s12, 1, 0			; GFX10-NEXT: s_cselect_b32 s12, 1, 0
	; GFX10-NEXT: s_lshl_b64 s[4:5], s[8:9], s22			; GFX10-NEXT: s_lshr_b64 s[4:5], s[2:3], s20
	; GFX10-NEXT: v_cndmask_b32_e64 v6, 0, 1, s2			; GFX10-NEXT: s_lshl_b64 s[6:7], s[8:9], s22
	; GFX10-NEXT: s_lshr_b64 s[2:3], s[0:1], s20			; GFX10-NEXT: v_cndmask_b32_e64 v6, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s13, s10, 1			; GFX10-NEXT: s_ashr_i32 s10, s9, 31
	; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX10-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
	; GFX10-NEXT: s_ashr_i32 s4, s9, 31			; GFX10-NEXT: s_ashr_i64 s[0:1], s[8:9], s20
	; GFX10-NEXT: s_ashr_i64 s[6:7], s[8:9], s20			; GFX10-NEXT: s_ashr_i64 s[6:7], s[8:9], s21
	; GFX10-NEXT: s_ashr_i64 s[10:11], s[8:9], s21			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_cmp_lg_u32 s13, 0			; GFX10-NEXT: s_mov_b32 s11, s10
	; GFX10-NEXT: s_mov_b32 s5, s4			; GFX10-NEXT: s_cselect_b64 s[4:5], s[4:5], s[6:7]
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX10-NEXT: s_cmp_lg_u32 s12, 0
	; GFX10-NEXT: s_and_b32 s10, s12, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s10, 0			; GFX10-NEXT: s_cselect_b64 s[4:5], s[2:3], s[4:5]
	; GFX10-NEXT: v_mov_b32_e32 v6, s1			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[0:1], s[2:3]			; GFX10-NEXT: v_mov_b32_e32 v6, s3
	; GFX10-NEXT: s_cmp_lg_u32 s13, 0			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: v_xor_b32_e32 v4, v5, v4			; GFX10-NEXT: s_add_u32 s4, s4, 0
	; GFX10-NEXT: s_cselect_b64 s[4:5], s[6:7], s[4:5]
	; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v5, s0			; GFX10-NEXT: v_xor_b32_e32 v4, v5, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
	; GFX10-NEXT: v_and_b32_e32 v4, 1, v4			; GFX10-NEXT: v_mov_b32_e32 v5, s2
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s2, v2
	; GFX10-NEXT: s_addc_u32 s3, s3, 0			; GFX10-NEXT: s_addc_u32 s5, s5, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v4			; GFX10-NEXT: v_and_b32_e32 v4, 1, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
				; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: s_addc_u32 s4, s4, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, s2, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v6, s3, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v6, v7, s4, vcc_lo			; GFX10-NEXT: s_addc_u32 s1, s1, s23
	; GFX10-NEXT: s_addc_u32 s1, s5, s23			; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, s4, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s2, v2			; GFX10-NEXT: v_cndmask_b32_e64 v5, v6, s5, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v6, v7, s0, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v7, v8, s1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v7, v8, s1, vcc_lo
				; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s1, v1			; GFX10-NEXT: v_readfirstlane_b32 s1, v1
	; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: v_readfirstlane_b32 s4, v4			; GFX10-NEXT: v_readfirstlane_b32 s4, v4
	; GFX10-NEXT: v_readfirstlane_b32 s5, v5			; GFX10-NEXT: v_readfirstlane_b32 s5, v5
	; GFX10-NEXT: v_readfirstlane_b32 s6, v6			; GFX10-NEXT: v_readfirstlane_b32 s6, v6
	; GFX10-NEXT: v_readfirstlane_b32 s7, v7			; GFX10-NEXT: v_readfirstlane_b32 s7, v7
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call <2 x i128> @llvm.sadd.sat.v2i128(<2 x i128> %lhs, <2 x i128> %rhs)			%result = call <2 x i128> @llvm.sadd.sat.v2i128(<2 x i128> %lhs, <2 x i128> %rhs)
	ret <2 x i128> %result			ret <2 x i128> %result
	}			}
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,804 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_cselect_b32 s13, 1, 0			; GFX6-NEXT: s_cselect_b32 s13, 1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]
	; GFX6-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX6-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX6-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX6-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX6-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX6-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX6-NEXT: s_ashr_i32 s4, s11, 31			; GFX6-NEXT: s_ashr_i32 s4, s11, 31
	; GFX6-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX6-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX6-NEXT: s_and_b32 s12, s12, 1
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX6-NEXT: s_and_b32 s6, s13, 1			; GFX6-NEXT: s_cmp_lg_u32 s13, 0
	; GFX6-NEXT: s_cmp_lg_u32 s6, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX6-NEXT: s_mov_b32 s5, s4			; GFX6-NEXT: s_mov_b32 s5, s4
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX6-NEXT: s_add_u32 s2, s2, 0			; GFX6-NEXT: s_add_u32 s2, s2, 0
	; GFX6-NEXT: s_cselect_b32 s4, 1, 0			; GFX6-NEXT: s_cselect_b32 s4, 1, 0
	; GFX6-NEXT: s_and_b32 s4, s4, 1			; GFX6-NEXT: s_and_b32 s4, s4, 1
	; GFX6-NEXT: s_cmp_lg_u32 s4, 0			; GFX6-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s13, 1, 0			; GFX8-NEXT: s_cselect_b32 s13, 1, 0
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX8-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX8-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX8-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX8-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX8-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX8-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX8-NEXT: s_ashr_i32 s4, s11, 31			; GFX8-NEXT: s_ashr_i32 s4, s11, 31
	; GFX8-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX8-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX8-NEXT: s_and_b32 s12, s12, 1
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX8-NEXT: s_and_b32 s6, s13, 1			; GFX8-NEXT: s_cmp_lg_u32 s13, 0
	; GFX8-NEXT: s_cmp_lg_u32 s6, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX8-NEXT: s_mov_b32 s5, s4			; GFX8-NEXT: s_mov_b32 s5, s4
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX8-NEXT: s_add_u32 s2, s2, 0			; GFX8-NEXT: s_add_u32 s2, s2, 0
	; GFX8-NEXT: s_cselect_b32 s4, 1, 0			; GFX8-NEXT: s_cselect_b32 s4, 1, 0
	; GFX8-NEXT: s_and_b32 s4, s4, 1			; GFX8-NEXT: s_and_b32 s4, s4, 1
	; GFX8-NEXT: s_cmp_lg_u32 s4, 0			; GFX8-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s13, 1, 0			; GFX9-NEXT: s_cselect_b32 s13, 1, 0
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX9-NEXT: s_ashr_i64 s[0:1], s[10:11], s2			; GFX9-NEXT: s_ashr_i64 s[0:1], s[10:11], s2
	; GFX9-NEXT: s_lshr_b64 s[2:3], s[8:9], s2			; GFX9-NEXT: s_lshr_b64 s[2:3], s[8:9], s2
	; GFX9-NEXT: s_lshl_b64 s[4:5], s[10:11], s4			; GFX9-NEXT: s_lshl_b64 s[4:5], s[10:11], s4
	; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: s_ashr_i32 s4, s11, 31			; GFX9-NEXT: s_ashr_i32 s4, s11, 31
	; GFX9-NEXT: s_ashr_i64 s[6:7], s[10:11], s6			; GFX9-NEXT: s_ashr_i64 s[6:7], s[10:11], s6
	; GFX9-NEXT: s_and_b32 s12, s12, 1
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[6:7]
	; GFX9-NEXT: s_and_b32 s6, s13, 1			; GFX9-NEXT: s_cmp_lg_u32 s13, 0
	; GFX9-NEXT: s_cmp_lg_u32 s6, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]			; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[4:5]
	; GFX9-NEXT: s_add_u32 s2, s2, 0			; GFX9-NEXT: s_add_u32 s2, s2, 0
	; GFX9-NEXT: s_cselect_b32 s4, 1, 0			; GFX9-NEXT: s_cselect_b32 s4, 1, 0
	; GFX9-NEXT: s_and_b32 s4, s4, 1			; GFX9-NEXT: s_and_b32 s4, s4, 1
	; GFX9-NEXT: s_cmp_lg_u32 s4, 0			; GFX9-NEXT: s_cmp_lg_u32 s4, 0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_and_b32 s0, 1, s0			; GFX10-NEXT: s_and_b32 s0, 1, s0
	; GFX10-NEXT: s_cmp_eq_u64 s[6:7], 0			; GFX10-NEXT: s_cmp_eq_u64 s[6:7], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: v_cmp_gt_u64_e64 s0, s[4:5], 0			; GFX10-NEXT: v_cmp_gt_u64_e64 s0, s[4:5], 0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s1			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s1
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: s_sub_i32 s13, s12, 64			; GFX10-NEXT: s_sub_i32 s13, s12, 64
	; GFX10-NEXT: s_and_b32 s14, 1, s1			; GFX10-NEXT: s_and_b32 s14, 1, s1
	; GFX10-NEXT: s_sub_i32 s2, 64, s12			; GFX10-NEXT: s_sub_i32 s15, 64, s12
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
				; GFX10-NEXT: s_cmp_lt_u32 s12, 64
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0
	; GFX10-NEXT: v_cmp_gt_i64_e64 s0, s[6:7], 0			; GFX10-NEXT: v_cmp_gt_i64_e64 s0, s[6:7], 0
	; GFX10-NEXT: s_cmp_lt_u32 s12, 64
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s14
	; GFX10-NEXT: s_cselect_b32 s15, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s12, 0
	; GFX10-NEXT: s_cselect_b32 s16, 1, 0			; GFX10-NEXT: s_cselect_b32 s16, 1, 0
				; GFX10-NEXT: s_cmp_eq_u32 s12, 0
				; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s14
				; GFX10-NEXT: s_cselect_b32 s17, 1, 0
				; GFX10-NEXT: s_lshr_b64 s[2:3], s[8:9], s12
				; GFX10-NEXT: s_lshl_b64 s[4:5], s[10:11], s15
	; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s0
	; GFX10-NEXT: s_lshr_b64 s[0:1], s[8:9], s12			; GFX10-NEXT: s_ashr_i32 s6, s11, 31
	; GFX10-NEXT: s_lshl_b64 s[2:3], s[10:11], s2			; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]
	; GFX10-NEXT: s_ashr_i64 s[4:5], s[10:11], s12			; GFX10-NEXT: s_ashr_i64 s[0:1], s[10:11], s12
	; GFX10-NEXT: s_and_b32 s12, s15, 1			; GFX10-NEXT: s_ashr_i64 s[4:5], s[10:11], s13
	; GFX10-NEXT: s_or_b64 s[0:1], s[0:1], s[2:3]			; GFX10-NEXT: s_cmp_lg_u32 s16, 0
	; GFX10-NEXT: s_ashr_i32 s2, s11, 31			; GFX10-NEXT: s_mov_b32 s7, s6
	; GFX10-NEXT: s_ashr_i64 s[6:7], s[10:11], s13			; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[4:5]
	; GFX10-NEXT: s_cmp_lg_u32 s12, 0			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_mov_b32 s3, s2
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[6:7]
	; GFX10-NEXT: s_and_b32 s6, s16, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
				; GFX10-NEXT: s_cmp_lg_u32 s16, 0
	; GFX10-NEXT: v_mov_b32_e32 v2, s9			; GFX10-NEXT: v_mov_b32_e32 v2, s9
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[8:9], s[0:1]			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[6:7]
	; GFX10-NEXT: s_cmp_lg_u32 s12, 0			; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[4:5], s[2:3]
	; GFX10-NEXT: s_add_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s8			; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, s8
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s3, s3, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_addc_u32 s2, s2, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s4, 1, 0			; GFX10-NEXT: s_cselect_b32 s4, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_and_b32 s4, s4, 1			; GFX10-NEXT: s_and_b32 s4, s4, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, s2, vcc_lo			; GFX10-NEXT: s_addc_u32 s1, s1, 0x80000000
	; GFX10-NEXT: s_addc_u32 s3, s3, 0x80000000			; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s2, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, s0, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v3, v4, s1, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v4, s3, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s1, v1			; GFX10-NEXT: v_readfirstlane_b32 s1, v1
	; GFX10-NEXT: v_readfirstlane_b32 s2, v2			; GFX10-NEXT: v_readfirstlane_b32 s2, v2
	; GFX10-NEXT: v_readfirstlane_b32 s3, v3			; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call i128 @llvm.ssub.sat.i128(i128 %lhs, i128 %rhs)			%result = call i128 @llvm.ssub.sat.i128(i128 %lhs, i128 %rhs)
	ret i128 %result			ret i128 %result
	}			}

	▲ Show 20 Lines • Show All 973 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX6-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u64_e64 vcc, s[10:11], 0			; GFX6-NEXT: v_cmp_eq_u64_e64 vcc, s[10:11], 0
	; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX6-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: s_ashr_i32 s8, s19, 31			; GFX6-NEXT: s_ashr_i32 s8, s19, 31
	; GFX6-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX6-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX6-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX6-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX6-NEXT: s_and_b32 s23, s23, 1
	; GFX6-NEXT: s_cmp_lg_u32 s23, 0			; GFX6-NEXT: s_cmp_lg_u32 s23, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX6-NEXT: s_and_b32 s10, s24, 1			; GFX6-NEXT: s_cmp_lg_u32 s24, 0
	; GFX6-NEXT: s_cmp_lg_u32 s10, 0
	; GFX6-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX6-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX6-NEXT: s_cmp_lg_u32 s23, 0			; GFX6-NEXT: s_cmp_lg_u32 s23, 0
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX6-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX6-NEXT: s_add_u32 s2, s2, 0			; GFX6-NEXT: s_add_u32 s2, s2, 0
	; GFX6-NEXT: s_cselect_b32 s8, 1, 0			; GFX6-NEXT: s_cselect_b32 s8, 1, 0
	; GFX6-NEXT: s_and_b32 s8, s8, 1			; GFX6-NEXT: s_and_b32 s8, s8, 1
	; GFX6-NEXT: s_cmp_lg_u32 s8, 0			; GFX6-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX6-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX6-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]
	; GFX6-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX6-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX6-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX6-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX6-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX6-NEXT: s_and_b32 s12, s12, 1
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX6-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX6-NEXT: s_and_b32 s10, s13, 1			; GFX6-NEXT: s_cmp_lg_u32 s13, 0
	; GFX6-NEXT: s_cmp_lg_u32 s10, 0
	; GFX6-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX6-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_cmp_lg_u32 s12, 0			; GFX6-NEXT: s_cmp_lg_u32 s12, 0
	; GFX6-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX6-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX6-NEXT: s_add_u32 s6, s6, 0			; GFX6-NEXT: s_add_u32 s6, s6, 0
	; GFX6-NEXT: s_cselect_b32 s8, 1, 0			; GFX6-NEXT: s_cselect_b32 s8, 1, 0
	; GFX6-NEXT: s_and_b32 s8, s8, 1			; GFX6-NEXT: s_and_b32 s8, s8, 1
	; GFX6-NEXT: s_cmp_lg_u32 s8, 0			; GFX6-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s24, 1, 0			; GFX8-NEXT: s_cselect_b32 s24, 1, 0
	; GFX8-NEXT: s_lshr_b64 s[2:3], s[16:17], s20			; GFX8-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
	; GFX8-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX8-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX8-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX8-NEXT: s_ashr_i32 s8, s19, 31			; GFX8-NEXT: s_ashr_i32 s8, s19, 31
	; GFX8-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX8-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX8-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX8-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX8-NEXT: s_and_b32 s23, s23, 1
	; GFX8-NEXT: s_cmp_lg_u32 s23, 0			; GFX8-NEXT: s_cmp_lg_u32 s23, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX8-NEXT: s_and_b32 s10, s24, 1			; GFX8-NEXT: s_cmp_lg_u32 s24, 0
	; GFX8-NEXT: s_cmp_lg_u32 s10, 0
	; GFX8-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX8-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX8-NEXT: s_cmp_lg_u32 s23, 0			; GFX8-NEXT: s_cmp_lg_u32 s23, 0
	; GFX8-NEXT: s_mov_b32 s9, s8			; GFX8-NEXT: s_mov_b32 s9, s8
	; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX8-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX8-NEXT: s_add_u32 s2, s2, 0			; GFX8-NEXT: s_add_u32 s2, s2, 0
	; GFX8-NEXT: s_cselect_b32 s8, 1, 0			; GFX8-NEXT: s_cselect_b32 s8, 1, 0
	; GFX8-NEXT: s_and_b32 s8, s8, 1			; GFX8-NEXT: s_and_b32 s8, s8, 1
	; GFX8-NEXT: s_cmp_lg_u32 s8, 0			; GFX8-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_cselect_b32 s13, 1, 0			; GFX8-NEXT: s_cselect_b32 s13, 1, 0
	; GFX8-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX8-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX8-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX8-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4
	; GFX8-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX8-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX8-NEXT: s_ashr_i32 s8, s3, 31			; GFX8-NEXT: s_ashr_i32 s8, s3, 31
	; GFX8-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX8-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX8-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX8-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX8-NEXT: s_and_b32 s12, s12, 1
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX8-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX8-NEXT: s_and_b32 s10, s13, 1			; GFX8-NEXT: s_cmp_lg_u32 s13, 0
	; GFX8-NEXT: s_cmp_lg_u32 s10, 0
	; GFX8-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX8-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX8-NEXT: s_mov_b32 s9, s8			; GFX8-NEXT: s_mov_b32 s9, s8
	; GFX8-NEXT: s_cmp_lg_u32 s12, 0			; GFX8-NEXT: s_cmp_lg_u32 s12, 0
	; GFX8-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX8-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX8-NEXT: s_add_u32 s6, s6, 0			; GFX8-NEXT: s_add_u32 s6, s6, 0
	; GFX8-NEXT: s_cselect_b32 s8, 1, 0			; GFX8-NEXT: s_cselect_b32 s8, 1, 0
	; GFX8-NEXT: s_and_b32 s8, s8, 1			; GFX8-NEXT: s_and_b32 s8, s8, 1
	; GFX8-NEXT: s_cmp_lg_u32 s8, 0			; GFX8-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s24, 1, 0			; GFX9-NEXT: s_cselect_b32 s24, 1, 0
	; GFX9-NEXT: s_lshr_b64 s[2:3], s[16:17], s20			; GFX9-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
	; GFX9-NEXT: s_lshl_b64 s[8:9], s[18:19], s22			; GFX9-NEXT: s_lshl_b64 s[8:9], s[18:19], s22
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]			; GFX9-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s8, s19, 31			; GFX9-NEXT: s_ashr_i32 s8, s19, 31
	; GFX9-NEXT: s_ashr_i64 s[0:1], s[18:19], s20			; GFX9-NEXT: s_ashr_i64 s[0:1], s[18:19], s20
	; GFX9-NEXT: s_ashr_i64 s[10:11], s[18:19], s21			; GFX9-NEXT: s_ashr_i64 s[10:11], s[18:19], s21
	; GFX9-NEXT: s_and_b32 s23, s23, 1
	; GFX9-NEXT: s_cmp_lg_u32 s23, 0			; GFX9-NEXT: s_cmp_lg_u32 s23, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]
	; GFX9-NEXT: s_and_b32 s10, s24, 1			; GFX9-NEXT: s_cmp_lg_u32 s24, 0
	; GFX9-NEXT: s_cmp_lg_u32 s10, 0
	; GFX9-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]			; GFX9-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX9-NEXT: s_cmp_lg_u32 s23, 0			; GFX9-NEXT: s_cmp_lg_u32 s23, 0
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]			; GFX9-NEXT: s_cselect_b64 s[0:1], s[0:1], s[8:9]
	; GFX9-NEXT: s_add_u32 s2, s2, 0			; GFX9-NEXT: s_add_u32 s2, s2, 0
	; GFX9-NEXT: s_cselect_b32 s8, 1, 0			; GFX9-NEXT: s_cselect_b32 s8, 1, 0
	; GFX9-NEXT: s_and_b32 s8, s8, 1			; GFX9-NEXT: s_and_b32 s8, s8, 1
	; GFX9-NEXT: s_cmp_lg_u32 s8, 0			; GFX9-NEXT: s_cmp_lg_u32 s8, 0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cselect_b32 s13, 1, 0			; GFX9-NEXT: s_cselect_b32 s13, 1, 0
	; GFX9-NEXT: s_lshr_b64 s[6:7], s[0:1], s20			; GFX9-NEXT: s_lshr_b64 s[6:7], s[0:1], s20
	; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], s22			; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], s22
	; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4			; GFX9-NEXT: v_cmp_ne_u32_e64 vcc, 0, s4
	; GFX9-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GFX9-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s8, s3, 31			; GFX9-NEXT: s_ashr_i32 s8, s3, 31
	; GFX9-NEXT: s_ashr_i64 s[4:5], s[2:3], s20			; GFX9-NEXT: s_ashr_i64 s[4:5], s[2:3], s20
	; GFX9-NEXT: s_ashr_i64 s[10:11], s[2:3], s21			; GFX9-NEXT: s_ashr_i64 s[10:11], s[2:3], s21
	; GFX9-NEXT: s_and_b32 s12, s12, 1
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]			; GFX9-NEXT: s_cselect_b64 s[6:7], s[6:7], s[10:11]
	; GFX9-NEXT: s_and_b32 s10, s13, 1			; GFX9-NEXT: s_cmp_lg_u32 s13, 0
	; GFX9-NEXT: s_cmp_lg_u32 s10, 0
	; GFX9-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]			; GFX9-NEXT: s_cselect_b64 s[6:7], s[0:1], s[6:7]
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_cmp_lg_u32 s12, 0			; GFX9-NEXT: s_cmp_lg_u32 s12, 0
	; GFX9-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]			; GFX9-NEXT: s_cselect_b64 s[4:5], s[4:5], s[8:9]
	; GFX9-NEXT: s_add_u32 s6, s6, 0			; GFX9-NEXT: s_add_u32 s6, s6, 0
	; GFX9-NEXT: s_cselect_b32 s8, 1, 0			; GFX9-NEXT: s_cselect_b32 s8, 1, 0
	; GFX9-NEXT: s_and_b32 s8, s8, 1			; GFX9-NEXT: s_and_b32 s8, s8, 1
	; GFX9-NEXT: s_cmp_lg_u32 s8, 0			; GFX9-NEXT: s_cmp_lg_u32 s8, 0
	Show All 29 Lines
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: v_readfirstlane_b32 s5, v1			; GFX9-NEXT: v_readfirstlane_b32 s5, v1
	; GFX9-NEXT: v_readfirstlane_b32 s6, v2			; GFX9-NEXT: v_readfirstlane_b32 s6, v2
	; GFX9-NEXT: v_readfirstlane_b32 s7, v3			; GFX9-NEXT: v_readfirstlane_b32 s7, v3
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_ssubsat_v2i128:			; GFX10-LABEL: s_ssubsat_v2i128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_sub_u32 s28, s0, s8			; GFX10-NEXT: s_sub_u32 s16, s0, s8
	; GFX10-NEXT: s_cselect_b32 s17, 1, 0			; GFX10-NEXT: s_cselect_b32 s17, 1, 0
	; GFX10-NEXT: s_mov_b32 s46, s0			; GFX10-NEXT: s_mov_b32 s46, s0
	; GFX10-NEXT: s_and_b32 s17, s17, 1			; GFX10-NEXT: s_and_b32 s17, s17, 1
	; GFX10-NEXT: s_mov_b32 s47, s1			; GFX10-NEXT: s_mov_b32 s47, s1
	; GFX10-NEXT: s_cmp_lg_u32 s17, 0			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_subb_u32 s29, s1, s9			; GFX10-NEXT: s_subb_u32 s17, s1, s9
	; GFX10-NEXT: s_cselect_b32 s18, 1, 0			; GFX10-NEXT: s_cselect_b32 s18, 1, 0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[28:29], s[46:47]			; GFX10-NEXT: v_cmp_lt_u64_e64 s0, s[16:17], s[46:47]
	; GFX10-NEXT: s_and_b32 s18, s18, 1			; GFX10-NEXT: s_and_b32 s18, s18, 1
	; GFX10-NEXT: s_cmp_lg_u32 s18, 0			; GFX10-NEXT: s_cmp_lg_u32 s18, 0
	; GFX10-NEXT: s_subb_u32 s30, s2, s10			; GFX10-NEXT: s_subb_u32 s30, s2, s10
	; GFX10-NEXT: s_cselect_b32 s19, 1, 0			; GFX10-NEXT: s_cselect_b32 s19, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s19, s19, 1			; GFX10-NEXT: s_and_b32 s19, s19, 1
	; GFX10-NEXT: s_cmp_lg_u32 s19, 0			; GFX10-NEXT: s_cmp_lg_u32 s19, 0
	; GFX10-NEXT: s_subb_u32 s31, s3, s11			; GFX10-NEXT: s_subb_u32 s31, s3, s11
	; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[30:31], s[2:3]			; GFX10-NEXT: v_cmp_lt_i64_e64 s0, s[30:31], s[2:3]
	; GFX10-NEXT: s_cmp_eq_u64 s[30:31], s[2:3]			; GFX10-NEXT: s_cmp_eq_u64 s[30:31], s[2:3]
	; GFX10-NEXT: v_cmp_gt_u64_e64 s2, s[8:9], 0			; GFX10-NEXT: v_cmp_gt_u64_e64 s2, s[8:9], 0
	; GFX10-NEXT: s_cselect_b32 s20, 1, 0			; GFX10-NEXT: s_cselect_b32 s20, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0			; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s0, 1, s20			; GFX10-NEXT: s_and_b32 s0, 1, s20
	; GFX10-NEXT: s_cmp_eq_u64 s[10:11], 0			; GFX10-NEXT: s_cmp_eq_u64 s[10:11], 0
	; GFX10-NEXT: s_movk_i32 s20, 0x7f			; GFX10-NEXT: s_movk_i32 s20, 0x7f
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, s2
	; GFX10-NEXT: v_cmp_gt_i64_e64 s2, s[10:11], 0			; GFX10-NEXT: v_cmp_gt_i64_e64 s2, s[10:11], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: s_and_b32 s1, 1, s1			; GFX10-NEXT: s_and_b32 s1, 1, s1
	; GFX10-NEXT: s_sub_i32 s21, s20, 64			; GFX10-NEXT: s_sub_i32 s21, s20, 64
	; GFX10-NEXT: s_sub_i32 s22, 64, s20			; GFX10-NEXT: s_sub_i32 s22, 64, s20
	; GFX10-NEXT: s_cmp_lt_u32 s20, 64			; GFX10-NEXT: s_cmp_lt_u32 s20, 64
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: s_cselect_b32 s10, 1, 0			; GFX10-NEXT: s_cselect_b32 s23, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s20, 0			; GFX10-NEXT: s_cmp_eq_u32 s20, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v3, 0, 1, s2
	; GFX10-NEXT: s_cselect_b32 s23, 1, 0			; GFX10-NEXT: s_cselect_b32 s24, 1, 0
				; GFX10-NEXT: s_lshr_b64 s[2:3], s[16:17], s20
				; GFX10-NEXT: s_lshl_b64 s[8:9], s[30:31], s22
				; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s1			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s1
	; GFX10-NEXT: s_lshr_b64 s[0:1], s[28:29], s20			; GFX10-NEXT: s_ashr_i32 s10, s31, 31
	; GFX10-NEXT: s_lshl_b64 s[2:3], s[30:31], s22			; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[8:9]
	; GFX10-NEXT: s_and_b32 s24, s10, 1			; GFX10-NEXT: s_ashr_i64 s[0:1], s[30:31], s20
	; GFX10-NEXT: s_or_b64 s[0:1], s[0:1], s[2:3]			; GFX10-NEXT: s_ashr_i64 s[8:9], s[30:31], s21
	; GFX10-NEXT: s_ashr_i32 s2, s31, 31			; GFX10-NEXT: s_cmp_lg_u32 s23, 0
	; GFX10-NEXT: s_ashr_i64 s[8:9], s[30:31], s20			; GFX10-NEXT: s_mov_b32 s11, s10
	; GFX10-NEXT: s_ashr_i64 s[10:11], s[30:31], s21			; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[8:9]
	; GFX10-NEXT: s_cmp_lg_u32 s24, 0			; GFX10-NEXT: s_cmp_lg_u32 s24, 0
	; GFX10-NEXT: s_mov_b32 s3, s2
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: s_and_b32 s10, s23, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s10, 0			; GFX10-NEXT: s_cselect_b64 s[2:3], s[16:17], s[2:3]
	; GFX10-NEXT: v_mov_b32_e32 v2, s29			; GFX10-NEXT: s_cmp_lg_u32 s23, 0
	; GFX10-NEXT: s_cselect_b64 s[0:1], s[28:29], s[0:1]			; GFX10-NEXT: v_mov_b32_e32 v2, s17
	; GFX10-NEXT: s_cmp_lg_u32 s24, 0			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0			; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[8:9], s[2:3]
	; GFX10-NEXT: s_add_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s28			; GFX10-NEXT: v_xor_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, s16
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_brev_b32 s23, 1			; GFX10-NEXT: s_brev_b32 s23, 1
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s3, s3, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_mov_b32_e32 v3, s31			; GFX10-NEXT: v_mov_b32_e32 v3, s31
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_addc_u32 s2, s2, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s1, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
				; GFX10-NEXT: s_addc_u32 s1, s1, s23
				; GFX10-NEXT: v_cndmask_b32_e64 v0, v1, s2, vcc_lo
				; GFX10-NEXT: s_sub_u32 s2, s4, s12
				; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo
				; GFX10-NEXT: s_cselect_b32 s3, 1, 0
				; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, s1, vcc_lo
				; GFX10-NEXT: s_and_b32 s3, s3, 1
	; GFX10-NEXT: v_mov_b32_e32 v2, s30			; GFX10-NEXT: v_mov_b32_e32 v2, s30
	; GFX10-NEXT: s_addc_u32 s3, s3, s23			; GFX10-NEXT: s_cmp_lg_u32 s3, 0
	; GFX10-NEXT: s_sub_u32 s0, s4, s12			; GFX10-NEXT: s_subb_u32 s3, s5, s13
	; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, s3, vcc_lo
	; GFX10-NEXT: s_and_b32 s1, s1, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s2, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s1, 0
	; GFX10-NEXT: s_subb_u32 s1, s5, s13
	; GFX10-NEXT: s_cselect_b32 s8, 1, 0			; GFX10-NEXT: s_cselect_b32 s8, 1, 0
	; GFX10-NEXT: v_cmp_lt_u64_e64 s3, s[0:1], s[4:5]			; GFX10-NEXT: v_cmp_lt_u64_e64 s1, s[2:3], s[4:5]
	; GFX10-NEXT: s_and_b32 s8, s8, 1			; GFX10-NEXT: s_and_b32 s8, s8, 1
				; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s0, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s8, 0			; GFX10-NEXT: s_cmp_lg_u32 s8, 0
	; GFX10-NEXT: s_subb_u32 s8, s6, s14			; GFX10-NEXT: s_subb_u32 s8, s6, s14
	; GFX10-NEXT: s_cselect_b32 s9, 1, 0			; GFX10-NEXT: s_cselect_b32 s9, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v4, 0, 1, s3			; GFX10-NEXT: v_cndmask_b32_e64 v4, 0, 1, s1
	; GFX10-NEXT: s_and_b32 s9, s9, 1			; GFX10-NEXT: s_and_b32 s9, s9, 1
	; GFX10-NEXT: v_mov_b32_e32 v7, s8			; GFX10-NEXT: v_mov_b32_e32 v7, s8
	; GFX10-NEXT: s_cmp_lg_u32 s9, 0			; GFX10-NEXT: s_cmp_lg_u32 s9, 0
	; GFX10-NEXT: s_subb_u32 s9, s7, s15			; GFX10-NEXT: s_subb_u32 s9, s7, s15
	; GFX10-NEXT: s_cmp_eq_u64 s[8:9], s[6:7]			; GFX10-NEXT: s_cmp_eq_u64 s[8:9], s[6:7]
	; GFX10-NEXT: v_cmp_lt_i64_e64 s3, s[8:9], s[6:7]			; GFX10-NEXT: v_cmp_lt_i64_e64 s1, s[8:9], s[6:7]
	; GFX10-NEXT: s_cselect_b32 s2, 1, 0			; GFX10-NEXT: s_cselect_b32 s0, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v8, s9			; GFX10-NEXT: v_mov_b32_e32 v8, s9
	; GFX10-NEXT: s_and_b32 s2, 1, s2			; GFX10-NEXT: s_and_b32 s0, 1, s0
	; GFX10-NEXT: s_cmp_eq_u64 s[14:15], 0			; GFX10-NEXT: s_cmp_eq_u64 s[14:15], 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s2			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s0
	; GFX10-NEXT: v_cmp_gt_u64_e64 s2, s[12:13], 0			; GFX10-NEXT: v_cmp_gt_u64_e64 s0, s[12:13], 0
	; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s3			; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s1
	; GFX10-NEXT: s_cselect_b32 s3, 1, 0			; GFX10-NEXT: s_cselect_b32 s1, 1, 0
	; GFX10-NEXT: s_and_b32 s16, 1, s3			; GFX10-NEXT: s_and_b32 s16, 1, s1
	; GFX10-NEXT: s_cmp_lt_u32 s20, 64			; GFX10-NEXT: s_cmp_lt_u32 s20, 64
	; GFX10-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s2			; GFX10-NEXT: v_cndmask_b32_e64 v5, 0, 1, s0
	; GFX10-NEXT: v_cmp_gt_i64_e64 s2, s[14:15], 0			; GFX10-NEXT: v_cmp_gt_i64_e64 s0, s[14:15], 0
	; GFX10-NEXT: s_cselect_b32 s10, 1, 0			; GFX10-NEXT: s_cselect_b32 s17, 1, 0
	; GFX10-NEXT: s_cmp_eq_u32 s20, 0			; GFX10-NEXT: s_cmp_eq_u32 s20, 0
	; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s16			; GFX10-NEXT: v_cmp_ne_u32_e64 vcc_lo, 0, s16
	; GFX10-NEXT: s_cselect_b32 s12, 1, 0			; GFX10-NEXT: s_cselect_b32 s12, 1, 0
	; GFX10-NEXT: s_lshl_b64 s[4:5], s[8:9], s22			; GFX10-NEXT: s_lshr_b64 s[4:5], s[2:3], s20
	; GFX10-NEXT: v_cndmask_b32_e64 v6, 0, 1, s2			; GFX10-NEXT: s_lshl_b64 s[6:7], s[8:9], s22
	; GFX10-NEXT: s_lshr_b64 s[2:3], s[0:1], s20			; GFX10-NEXT: v_cndmask_b32_e64 v6, 0, 1, s0
	; GFX10-NEXT: s_and_b32 s13, s10, 1			; GFX10-NEXT: s_ashr_i32 s10, s9, 31
	; GFX10-NEXT: s_or_b64 s[2:3], s[2:3], s[4:5]			; GFX10-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
	; GFX10-NEXT: s_ashr_i32 s4, s9, 31			; GFX10-NEXT: s_ashr_i64 s[0:1], s[8:9], s20
	; GFX10-NEXT: s_ashr_i64 s[6:7], s[8:9], s20			; GFX10-NEXT: s_ashr_i64 s[6:7], s[8:9], s21
	; GFX10-NEXT: s_ashr_i64 s[10:11], s[8:9], s21			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_cmp_lg_u32 s13, 0			; GFX10-NEXT: s_mov_b32 s11, s10
	; GFX10-NEXT: s_mov_b32 s5, s4			; GFX10-NEXT: s_cselect_b64 s[4:5], s[4:5], s[6:7]
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[2:3], s[10:11]			; GFX10-NEXT: s_cmp_lg_u32 s12, 0
	; GFX10-NEXT: s_and_b32 s10, s12, 1
	; GFX10-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s10, 0			; GFX10-NEXT: s_cselect_b64 s[4:5], s[2:3], s[4:5]
	; GFX10-NEXT: v_mov_b32_e32 v6, s1			; GFX10-NEXT: s_cmp_lg_u32 s17, 0
	; GFX10-NEXT: s_cselect_b64 s[2:3], s[0:1], s[2:3]			; GFX10-NEXT: v_mov_b32_e32 v6, s3
	; GFX10-NEXT: s_cmp_lg_u32 s13, 0			; GFX10-NEXT: s_cselect_b64 s[0:1], s[0:1], s[10:11]
	; GFX10-NEXT: v_xor_b32_e32 v4, v5, v4			; GFX10-NEXT: s_add_u32 s4, s4, 0
	; GFX10-NEXT: s_cselect_b64 s[4:5], s[6:7], s[4:5]
	; GFX10-NEXT: s_add_u32 s2, s2, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_mov_b32_e32 v5, s0			; GFX10-NEXT: v_xor_b32_e32 v4, v5, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
	; GFX10-NEXT: v_and_b32_e32 v4, 1, v4			; GFX10-NEXT: v_mov_b32_e32 v5, s2
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s2, v2
	; GFX10-NEXT: s_addc_u32 s3, s3, 0			; GFX10-NEXT: s_addc_u32 s5, s5, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v4			; GFX10-NEXT: v_and_b32_e32 v4, 1, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
				; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: s_addc_u32 s4, s4, 0			; GFX10-NEXT: s_addc_u32 s0, s0, 0
	; GFX10-NEXT: s_cselect_b32 s6, 1, 0			; GFX10-NEXT: s_cselect_b32 s6, 1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, s2, vcc_lo			; GFX10-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v4
	; GFX10-NEXT: s_and_b32 s6, s6, 1			; GFX10-NEXT: s_and_b32 s6, s6, 1
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v6, s3, vcc_lo
	; GFX10-NEXT: s_cmp_lg_u32 s6, 0			; GFX10-NEXT: s_cmp_lg_u32 s6, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v6, v7, s4, vcc_lo			; GFX10-NEXT: s_addc_u32 s1, s1, s23
	; GFX10-NEXT: s_addc_u32 s1, s5, s23			; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, s4, vcc_lo
	; GFX10-NEXT: v_readfirstlane_b32 s2, v2			; GFX10-NEXT: v_cndmask_b32_e64 v5, v6, s5, vcc_lo
				; GFX10-NEXT: v_cndmask_b32_e64 v6, v7, s0, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v7, v8, s1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v7, v8, s1, vcc_lo
				; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s1, v1			; GFX10-NEXT: v_readfirstlane_b32 s1, v1
	; GFX10-NEXT: v_readfirstlane_b32 s3, v3
	; GFX10-NEXT: v_readfirstlane_b32 s4, v4			; GFX10-NEXT: v_readfirstlane_b32 s4, v4
	; GFX10-NEXT: v_readfirstlane_b32 s5, v5			; GFX10-NEXT: v_readfirstlane_b32 s5, v5
	; GFX10-NEXT: v_readfirstlane_b32 s6, v6			; GFX10-NEXT: v_readfirstlane_b32 s6, v6
	; GFX10-NEXT: v_readfirstlane_b32 s7, v7			; GFX10-NEXT: v_readfirstlane_b32 s7, v7
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call <2 x i128> @llvm.ssub.sat.v2i128(<2 x i128> %lhs, <2 x i128> %rhs)			%result = call <2 x i128> @llvm.ssub.sat.v2i128(<2 x i128> %lhs, <2 x i128> %rhs)
	ret <2 x i128> %result			ret <2 x i128> %result
	}			}
	Show All 32 Lines

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelectClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 328148

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/divergent-control-flow.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.end.cf.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.private.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.shared.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.set.inactive.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/non-entry-alloca.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

AMDGPU/GlobalISel: Combine zext(trunc x) to x after RegBankSelect
ClosedPublic