This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
2/5
SIISelLowering.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
llvm.set.rounding.ll

Differential D153258

AMDGPU: Optimize set_rounding if input is known to fit in 2 bits
Needs ReviewPublic

Authored by arsenm on Jun 19 2023, 3:29 AM.

Download Raw Diff

Details

Reviewers

foad
rampitec
jhuber6
Pierre-vh
b-sumner

Group Reviewers

Restricted Project

Summary

We don't need to figure out the weird extended rounding modes or
handle offsets to keep the lookup table in 64-bits.

Diff Detail

Event Timeline

arsenm created this revision.Jun 19 2023, 3:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 3:29 AM

Herald added subscribers: StephenFan, kerbowa, hiraditya and 5 others. · View Herald Transcript

arsenm requested review of this revision.Jun 19 2023, 3:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 3:29 AM

Herald added a subscriber: wdng. · View Herald Transcript

arsenm added a parent revision: D153257: AMDGPU: Implement llvm.set.rounding.Jun 19 2023, 3:29 AM

Harbormaster completed remote builds in B239758: Diff 532587.Jun 19 2023, 3:30 AM

Code LGTM but I'm not well-versed in this kind of floating point magic so I will leave it up to someone that knows more to approve :)

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3639–3641	nit: inline `UseReducedTable`?

arsenm added inline comments.Jul 11 2023, 1:36 PM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3639–3641	Then you lose the name-as-comment?

Rebase

Herald added a subscriber: jdoerfert. · View Herald TranscriptJul 11 2023, 1:36 PM

Did you run adequate testing on this (OCL conformance maybe?) ? If so then I can approve it I think

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3657–3670	Does that take a lot of effort to add? Why not add it now?

foad added inline comments.Jul 27 2023, 3:57 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3646	This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth having all the boilerplate in `SIModeRegisterDefaults.cpp` to define another table.

In D153258#4537739, @Pierre-vh wrote:

Did you run adequate testing on this (OCL conformance maybe?) ? If so then I can approve it I think

There's no wired up user of this

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3657–3670	There are enough cases to think about in one patch as it is

Use one table and rebase

Harbormaster completed remote builds in B256091: Diff 555136.Aug 31 2023, 12:13 PM

ping

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIISelLowering.cpp

63 lines

test/

CodeGen/

AMDGPU/

llvm.set.rounding.ll

412 lines

Diff 555136

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,628 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::lowerSET_ROUNDING(SDValue Op,
// hardware MODE.fp_round values.		// hardware MODE.fp_round values.
if (auto *ConstMode = dyn_cast<ConstantSDNode>(NewMode)) {		if (auto *ConstMode = dyn_cast<ConstantSDNode>(NewMode)) {
uint32_t ClampedVal = std::min(		uint32_t ClampedVal = std::min(
static_cast<uint32_t>(ConstMode->getZExtValue()),		static_cast<uint32_t>(ConstMode->getZExtValue()),
static_cast<uint32_t>(AMDGPU::TowardZeroF32_TowardNegativeF64));		static_cast<uint32_t>(AMDGPU::TowardZeroF32_TowardNegativeF64));
NewMode = DAG.getConstant(		NewMode = DAG.getConstant(
AMDGPU::decodeFltRoundToHWConversionTable(ClampedVal), SL, MVT::i32);		AMDGPU::decodeFltRoundToHWConversionTable(ClampedVal), SL, MVT::i32);
} else {		} else {
SDValue BitTable =		// If we know the input can only be one of the supported standard modes in
DAG.getConstant(AMDGPU::FltRoundToHWConversionTable, SL, MVT::i64);		// the range 0-3, we can use a simplified mapping to hardware values.
		KnownBits KB = DAG.computeKnownBits(NewMode);
		const bool UseReducedTable = KB.countMinLeadingZeros() >= 30;
// The supported standard values are 0-3. The extended values start at 8. We		// The supported standard values are 0-3. The extended values start at 8. We
		Pierre-vhUnsubmitted Not Done Reply Inline Actions nit: inline `UseReducedTable`? Pierre-vh: nit: inline `UseReducedTable`?
		arsenmAuthorUnsubmitted Done Reply Inline Actions Then you lose the name-as-comment? arsenm: Then you lose the name-as-comment?
// need to offset by 4 if the value is in the extended range.		// need to offset by 4 if the value is in the extended range.

		if (UseReducedTable) {
		// Truncate to the low 32-bits.
		SDValue BitTable = DAG.getConstant(
		foadUnsubmitted Not Done Reply Inline Actions This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth having all the boilerplate in `SIModeRegisterDefaults.cpp` to define another table. foad: This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth…
		AMDGPU::FltRoundToHWConversionTable & 0xffff, SL, MVT::i32);

		SDValue Two = DAG.getConstant(2, SL, MVT::i32);
		SDValue RoundModeTimesNumBits =
		DAG.getNode(ISD::SHL, SL, MVT::i32, NewMode, Two);

		SDValue TableValue =
		DAG.getNode(ISD::SRL, SL, MVT::i32, BitTable, RoundModeTimesNumBits);
		NewMode = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);

		// TODO: SimplifyDemandedBits on the setreg source here can likely reduce
		// the table extracted bits into inline immediates.
		} else {
// is_standard = value < 4;		// is_standard = value < 4;
// table_index = is_standard ? value : (value - 4)		// table_index = is_standard ? value : (value - 4)
// MODE.fp_round = (bit_table >> table_index) & 0xf		// MODE.fp_round = (bit_table >> table_index) & 0xf
		SDValue BitTable =
		DAG.getConstant(AMDGPU::FltRoundToHWConversionTable, SL, MVT::i64);

SDValue Four = DAG.getConstant(4, SL, MVT::i32);		SDValue Four = DAG.getConstant(4, SL, MVT::i32);
SDValue IsStandardValue =		SDValue IsStandardValue =
DAG.getSetCC(SL, MVT::i1, NewMode, Four, ISD::SETULT);		DAG.getSetCC(SL, MVT::i1, NewMode, Four, ISD::SETULT);
SDValue OffsetEnum = DAG.getNode(ISD::SUB, SL, MVT::i32, NewMode, Four);		SDValue OffsetEnum = DAG.getNode(ISD::SUB, SL, MVT::i32, NewMode, Four);

		Pierre-vhUnsubmitted Not Done Reply Inline Actions Does that take a lot of effort to add? Why not add it now? Pierre-vh: Does that take a lot of effort to add? Why not add it now?
		arsenmAuthorUnsubmitted Done Reply Inline Actions There are enough cases to think about in one patch as it is arsenm: There are enough cases to think about in one patch as it is
SDValue IndexVal = DAG.getNode(ISD::SELECT, SL, MVT::i32, IsStandardValue,		SDValue IndexVal = DAG.getNode(ISD::SELECT, SL, MVT::i32, IsStandardValue,
NewMode, OffsetEnum);		NewMode, OffsetEnum);

SDValue Two = DAG.getConstant(2, SL, MVT::i32);		SDValue Two = DAG.getConstant(2, SL, MVT::i32);
SDValue RoundModeTimesNumBits =		SDValue RoundModeTimesNumBits =
DAG.getNode(ISD::SHL, SL, MVT::i32, IndexVal, Two);		DAG.getNode(ISD::SHL, SL, MVT::i32, IndexVal, Two);

SDValue TableValue =		SDValue TableValue =
DAG.getNode(ISD::SRL, SL, MVT::i64, BitTable, RoundModeTimesNumBits);		DAG.getNode(ISD::SRL, SL, MVT::i64, BitTable, RoundModeTimesNumBits);
SDValue TruncTable = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);		SDValue TruncTable = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);

// No need to mask out the high bits since the setreg will ignore them		// No need to mask out the high bits since the setreg will ignore them
// anyway.		// anyway.
NewMode = TruncTable;		NewMode = TruncTable;
		}

// Insert a readfirstlane in case the value is a VGPR. We could do this		// Insert a readfirstlane in case the value is a VGPR. We could do this
// earlier and keep more operations scalar, but that interferes with		// earlier and keep more operations scalar, but that interferes with
// combining the source.		// combining the source.
SDValue ReadFirstLaneID =		SDValue ReadFirstLaneID =
DAG.getTargetConstant(Intrinsic::amdgcn_readfirstlane, SL, MVT::i32);		DAG.getTargetConstant(Intrinsic::amdgcn_readfirstlane, SL, MVT::i32);
NewMode = DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SL, MVT::i32,		NewMode = DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SL, MVT::i32,
ReadFirstLaneID, NewMode);		ReadFirstLaneID, NewMode);
▲ Show 20 Lines • Show All 11,084 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.set.rounding.ll

	Show First 20 Lines • Show All 879 Lines • ▼ Show 20 Lines
	; Test optimization knowing the value can only be in the standard			; Test optimization knowing the value can only be in the standard
	; range			; range
	; --------------------------------------------------------------------			; --------------------------------------------------------------------

	define amdgpu_gfx void @s_set_rounding_i2_zeroext(i2 zeroext inreg %rounding) {			define amdgpu_gfx void @s_set_rounding_i2_zeroext(i2 zeroext inreg %rounding) {
	; GFX6-LABEL: s_set_rounding_i2_zeroext:			; GFX6-LABEL: s_set_rounding_i2_zeroext:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_or_b32 s34, s4, -4			; GFX6-NEXT: s_lshl_b32 s34, s4, 2
	; GFX6-NEXT: s_cmp_lt_u32 s4, 4			; GFX6-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX6-NEXT: s_cselect_b32 s34, s4, s34
	; GFX6-NEXT: s_lshl_b32 s36, s34, 2
	; GFX6-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX6-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX6-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: s_set_rounding_i2_zeroext:			; GFX7-LABEL: s_set_rounding_i2_zeroext:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_or_b32 s34, s4, -4			; GFX7-NEXT: s_lshl_b32 s34, s4, 2
	; GFX7-NEXT: s_cmp_lt_u32 s4, 4			; GFX7-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX7-NEXT: s_cselect_b32 s34, s4, s34
	; GFX7-NEXT: s_lshl_b32 s36, s34, 2
	; GFX7-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX7-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX7-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: s_set_rounding_i2_zeroext:			; GFX8-LABEL: s_set_rounding_i2_zeroext:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_and_b32 s36, 0xffff, s4			; GFX8-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX8-NEXT: v_cmp_lt_u16_e64 s[34:35], s4, 4			; GFX8-NEXT: s_lshl_b32 s34, s34, 2
	; GFX8-NEXT: s_or_b32 s37, s36, -4			; GFX8-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX8-NEXT: s_and_b64 s[34:35], s[34:35], exec
	; GFX8-NEXT: s_cselect_b32 s34, s36, s37
	; GFX8-NEXT: s_lshl_b32 s36, s34, 2
	; GFX8-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX8-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX8-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_i2_zeroext:			; GFX9-LABEL: s_set_rounding_i2_zeroext:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_and_b32 s36, 0xffff, s4			; GFX9-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX9-NEXT: v_cmp_lt_u16_e64 s[34:35], s4, 4			; GFX9-NEXT: s_lshl_b32 s34, s34, 2
	; GFX9-NEXT: s_or_b32 s37, s36, -4			; GFX9-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX9-NEXT: s_and_b64 s[34:35], s[34:35], exec
	; GFX9-NEXT: s_cselect_b32 s34, s36, s37
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_i2_zeroext:			; GFX10-LABEL: s_set_rounding_i2_zeroext:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cmp_lt_u16_e64 s34, s4, 4			; GFX10-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX10-NEXT: s_and_b32 s35, 0xffff, s4			; GFX10-NEXT: s_lshl_b32 s34, s34, 2
	; GFX10-NEXT: s_or_b32 s36, s35, -4			; GFX10-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX10-NEXT: s_and_b32 s34, s34, exec_lo
	; GFX10-NEXT: s_cselect_b32 s34, s35, s36
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_i2_zeroext:			; GFX11-LABEL: s_set_rounding_i2_zeroext:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cmp_lt_u16_e64 s0, s4, 4			; GFX11-NEXT: s_and_b32 s0, 0xffff, s4
	; GFX11-NEXT: s_and_b32 s1, 0xffff, s4			; GFX11-NEXT: s_lshl_b32 s0, s0, 2
	; GFX11-NEXT: s_or_b32 s2, s1, -4			; GFX11-NEXT: s_lshr_b32 s0, 0xa50f, s0
	; GFX11-NEXT: s_and_b32 s0, s0, exec_lo
	; GFX11-NEXT: s_cselect_b32 s0, s1, s2
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%zext.rounding = zext i2 %rounding to i32			%zext.rounding = zext i2 %rounding to i32
	call void @llvm.set.rounding(i32 %zext.rounding)			call void @llvm.set.rounding(i32 %zext.rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_i2_signext(i2 signext inreg %rounding) {			define amdgpu_gfx void @s_set_rounding_i2_signext(i2 signext inreg %rounding) {
	▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines

	define amdgpu_gfx void @s_set_rounding_select_0_1(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_0_1(i32 inreg %cond) {
	; GFX6-LABEL: s_set_rounding_select_0_1:			; GFX6-LABEL: s_set_rounding_select_0_1:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_cmp_lg_u32 s4, 0			; GFX6-NEXT: s_cmp_lg_u32 s4, 0
	; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX6-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX6-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX6-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX6-NEXT: v_lshr_b64 v[0:1], s[34:35], v0
	; GFX6-NEXT: v_readfirstlane_b32 s34, v0			; GFX6-NEXT: v_readfirstlane_b32 s34, v0
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: s_set_rounding_select_0_1:			; GFX7-LABEL: s_set_rounding_select_0_1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_cmp_lg_u32 s4, 0			; GFX7-NEXT: s_cmp_lg_u32 s4, 0
	; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX7-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX7-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX7-NEXT: v_lshr_b64 v[0:1], s[34:35], v0
	; GFX7-NEXT: v_readfirstlane_b32 s34, v0			; GFX7-NEXT: v_readfirstlane_b32 s34, v0
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: s_set_rounding_select_0_1:			; GFX8-LABEL: s_set_rounding_select_0_1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_cmp_lg_u32 s4, 0			; GFX8-NEXT: s_cmp_lg_u32 s4, 0
	; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX8-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX8-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX8-NEXT: s_mov_b32 s34, 0xa50f
	; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX8-NEXT: v_readfirstlane_b32 s34, v0			; GFX8-NEXT: v_readfirstlane_b32 s34, v0
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_0_1:			; GFX9-LABEL: s_set_rounding_select_0_1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_lg_u32 s4, 0			; GFX9-NEXT: s_cmp_lg_u32 s4, 0
	; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX9-NEXT: s_mov_b32 s34, 0xa50f
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX9-NEXT: v_readfirstlane_b32 s34, v0			; GFX9-NEXT: v_readfirstlane_b32 s34, v0
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_0_1:			; GFX10-LABEL: s_set_rounding_select_0_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, -1, 0			; GFX10-NEXT: s_cselect_b32 s34, -1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX10-NEXT: v_readfirstlane_b32 s34, v0			; GFX10-NEXT: v_readfirstlane_b32 s34, v0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_0_1:			; GFX11-LABEL: s_set_rounding_select_0_1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_lg_u32 s4, 0			; GFX11-NEXT: s_cmp_lg_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, -1, 0			; GFX11-NEXT: s_cselect_b32 s0, -1, 0
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]			; GFX11-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 0, i32 1			%rounding = select i1 %cmp, i32 0, i32 1
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_1_3(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_1_3(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_1_3:			; GFX678-LABEL: s_set_rounding_select_1_3:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 1, 3			; GFX678-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX678-NEXT: s_or_b32 s35, s34, -4
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_1_3:			; GFX9-LABEL: s_set_rounding_select_1_3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 1, 3			; GFX9-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_1_3:			; GFX10-LABEL: s_set_rounding_select_1_3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 1, 3			; GFX10-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_1_3:			; GFX11-LABEL: s_set_rounding_select_1_3:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 1, 3			; GFX11-NEXT: s_cselect_b32 s0, 0xa50, 10
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 3			%rounding = select i1 %cmp, i32 1, i32 3
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define void @v_set_rounding_select_1_3(i32 %cond) {			define void @v_set_rounding_select_1_3(i32 %cond) {
	; GFX6-LABEL: v_set_rounding_select_1_3:			; GFX678-LABEL: v_set_rounding_select_1_3:
	; GFX6: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX678-NEXT: v_mov_b32_e32 v1, 0xa50
	; GFX6-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc			; GFX678-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX6-NEXT: v_or_b32_e32 v1, -4, v0			; GFX678-NEXT: v_cndmask_b32_e32 v0, 10, v1, vcc
	; GFX6-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0			; GFX678-NEXT: v_readfirstlane_b32 s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX6-NEXT: s_mov_b32 s4, 0x1c84a50f			; GFX678-NEXT: s_setpc_b64 s[30:31]
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX6-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX6-NEXT: v_lshr_b64 v[0:1], s[4:5], v0
	; GFX6-NEXT: v_readfirstlane_b32 s4, v0
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX6-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX7-LABEL: v_set_rounding_select_1_3:
	; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc
	; GFX7-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX7-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX7-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX7-NEXT: v_lshr_b64 v[0:1], s[4:5], v0
	; GFX7-NEXT: v_readfirstlane_b32 s4, v0
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX7-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX8-LABEL: v_set_rounding_select_1_3:
	; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc
	; GFX8-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX8-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX8-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX8-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_set_rounding_select_1_3:			; GFX9-LABEL: v_set_rounding_select_1_3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mov_b32_e32 v1, 0xa50
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, 10, v1, vcc
	; GFX9-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_set_rounding_select_1_3:			; GFX10-LABEL: v_set_rounding_select_1_3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_mov_b32 s4, 0x1c84a50f			; GFX10-NEXT: v_cndmask_b32_e64 v0, 10, 0xa50, vcc_lo
	; GFX10-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc_lo
	; GFX10-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX10-NEXT: v_cmp_gt_u32_e32 vcc_lo, 4, v0
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX10-NEXT: v_readfirstlane_b32 s4, v0			; GFX10-NEXT: v_readfirstlane_b32 s4, v0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_set_rounding_select_1_3:			; GFX11-LABEL: v_set_rounding_select_1_3:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f			; GFX11-NEXT: v_cndmask_b32_e64 v0, 10, 0xa50, vcc_lo
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc_lo
	; GFX11-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX11-NEXT: v_cmp_gt_u32_e32 vcc_lo, 4, v0
	; GFX11-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 3			%rounding = select i1 %cmp, i32 1, i32 3
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_2_0(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_2_0(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_2_0:			; GFX6-LABEL: s_set_rounding_select_2_0:
	; GFX678: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX6-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX678-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX678-NEXT: v_readfirstlane_b32 s34, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX678-NEXT: s_lshl_b32 s34, s34, 1			; GFX6-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX6-NEXT: v_readfirstlane_b32 s34, v0
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35			; GFX6-NEXT: s_setpc_b64 s[30:31]
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2			;
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f			; GFX7-LABEL: s_set_rounding_select_2_0:
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX7: ; %bb.0:
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0
				; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX7-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
				; GFX7-NEXT: v_readfirstlane_b32 s34, v0
				; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
				; GFX7-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: s_set_rounding_select_2_0:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: s_cmp_eq_u32 s4, 0
				; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0
				; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX8-NEXT: s_mov_b32 s34, 0xa50f
				; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s34
				; GFX8-NEXT: v_readfirstlane_b32 s34, v0
				; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
				; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_2_0:			; GFX9-LABEL: s_set_rounding_select_2_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX9-NEXT: s_mov_b32 s34, 0xa50f
				; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX9-NEXT: v_readfirstlane_b32 s34, v0			; GFX9-NEXT: v_readfirstlane_b32 s34, v0
	; GFX9-NEXT: s_lshl_b32 s34, s34, 1
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_2_0:			; GFX10-LABEL: s_set_rounding_select_2_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, -1, 0			; GFX10-NEXT: s_cselect_b32 s34, -1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34
				; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX10-NEXT: v_readfirstlane_b32 s34, v0			; GFX10-NEXT: v_readfirstlane_b32 s34, v0
	; GFX10-NEXT: s_lshl_b32 s34, s34, 1
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_2_0:			; GFX11-LABEL: s_set_rounding_select_2_0:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, -1, 0			; GFX11-NEXT: s_cselect_b32 s0, -1, 0
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
				; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX11-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_lshl_b32 s0, s0, 1
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 2, i32 0			%rounding = select i1 %cmp, i32 2, i32 0
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_2_1(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_2_1(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_2_1:			; GFX678-LABEL: s_set_rounding_select_2_1:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 2, 1			; GFX678-NEXT: s_movk_i32 s34, 0xa5
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX678-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_2_1:			; GFX9-LABEL: s_set_rounding_select_2_1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 2, 1			; GFX9-NEXT: s_movk_i32 s34, 0xa5
	; GFX9-NEXT: s_or_b32 s35, s34, -4			; GFX9-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_2_1:			; GFX10-LABEL: s_set_rounding_select_2_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 2, 1			; GFX10-NEXT: s_movk_i32 s34, 0xa5
	; GFX10-NEXT: s_or_b32 s35, s34, -4			; GFX10-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_2_1:			; GFX11-LABEL: s_set_rounding_select_2_1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 2, 1			; GFX11-NEXT: s_movk_i32 s0, 0xa5
	; GFX11-NEXT: s_or_b32 s1, s0, -4			; GFX11-NEXT: s_cselect_b32 s0, s0, 0xa50
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 2, i32 1			%rounding = select i1 %cmp, i32 2, i32 1
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_1_2(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_1_2(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_1_2:			; GFX678-LABEL: s_set_rounding_select_1_2:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 1, 2			; GFX678-NEXT: s_movk_i32 s34, 0xa50
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX678-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_1_2:			; GFX9-LABEL: s_set_rounding_select_1_2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 1, 2			; GFX9-NEXT: s_movk_i32 s34, 0xa50
	; GFX9-NEXT: s_or_b32 s35, s34, -4			; GFX9-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_1_2:			; GFX10-LABEL: s_set_rounding_select_1_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 1, 2			; GFX10-NEXT: s_movk_i32 s34, 0xa50
	; GFX10-NEXT: s_or_b32 s35, s34, -4			; GFX10-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_1_2:			; GFX11-LABEL: s_set_rounding_select_1_2:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 1, 2			; GFX11-NEXT: s_movk_i32 s0, 0xa50
	; GFX11-NEXT: s_or_b32 s1, s0, -4			; GFX11-NEXT: s_cselect_b32 s0, s0, 0xa5
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 2			%rounding = select i1 %cmp, i32 1, i32 2
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_3_0(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_3_0(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_3_0:			; GFX678-LABEL: s_set_rounding_select_3_0:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 3, 0			; GFX678-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX678-NEXT: s_or_b32 s35, s34, -4
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_3_0:			; GFX9-LABEL: s_set_rounding_select_3_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 3, 0			; GFX9-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_3_0:			; GFX10-LABEL: s_set_rounding_select_3_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 3, 0			; GFX10-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_3_0:			; GFX11-LABEL: s_set_rounding_select_3_0:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 3, 0			; GFX11-NEXT: s_cselect_b32 s0, 10, 0xa50f
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 3, i32 0			%rounding = select i1 %cmp, i32 3, i32 0
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines