This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
docs/
-
AMDGPUUsage.rst
-
LangRef.rst
-
ReleaseNotes.rst
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
SIISelLowering.h
2/5
SIISelLowering.cpp
-
SIModeRegisterDefaults.h
-
SIModeRegisterDefaults.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
llvm.set.rounding.ll

Differential D153258

AMDGPU: Optimize set_rounding if input is known to fit in 2 bits
Needs ReviewPublic

Authored by arsenm on Jun 19 2023, 3:29 AM.

Download Raw Diff

Details

Reviewers

foad
rampitec
jhuber6
Pierre-vh
b-sumner

Group Reviewers

Restricted Project

Summary

We don't need to figure out the weird extended rounding modes or
handle offsets to keep the lookup table in 64-bits.

Diff Detail

Event Timeline

arsenm created this revision.Jun 19 2023, 3:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 3:29 AM

Herald added subscribers: StephenFan, kerbowa, hiraditya and 5 others. · View Herald Transcript

arsenm requested review of this revision.Jun 19 2023, 3:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 3:29 AM

Herald added a subscriber: wdng. · View Herald Transcript

arsenm added a parent revision: D153257: AMDGPU: Implement llvm.set.rounding.Jun 19 2023, 3:29 AM

Harbormaster completed remote builds in B239758: Diff 532587.Jun 19 2023, 3:30 AM

Code LGTM but I'm not well-versed in this kind of floating point magic so I will leave it up to someone that knows more to approve :)

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3611–3613	nit: inline `UseReducedTable`?

arsenm added inline comments.Jul 11 2023, 1:36 PM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3611–3613	Then you lose the name-as-comment?

Rebase

Herald added a subscriber: jdoerfert. · View Herald TranscriptJul 11 2023, 1:36 PM

Did you run adequate testing on this (OCL conformance maybe?) ? If so then I can approve it I think

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3628–3629	Does that take a lot of effort to add? Why not add it now?

foad added inline comments.Jul 27 2023, 3:57 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3618	This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth having all the boilerplate in `SIModeRegisterDefaults.cpp` to define another table.

In D153258#4537739, @Pierre-vh wrote:

Did you run adequate testing on this (OCL conformance maybe?) ? If so then I can approve it I think

There's no wired up user of this

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3628–3629	There are enough cases to think about in one patch as it is

Use one table and rebase

Harbormaster completed remote builds in B256091: Diff 555136.Aug 31 2023, 12:13 PM

ping

Revision Contents

Path

Size

llvm/

docs/

AMDGPUUsage.rst

6 lines

LangRef.rst

2 lines

ReleaseNotes.rst

2 lines

lib/

Target/

AMDGPU/

SIISelLowering.h

1 line

SIISelLowering.cpp

62 lines

SIModeRegisterDefaults.h

3 lines

SIModeRegisterDefaults.cpp

25 lines

test/

CodeGen/

AMDGPU/

llvm.set.rounding.ll

412 lines

Diff 539276

llvm/docs/AMDGPUUsage.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 991 Lines • ▼ Show 20 Lines	:ref:`llvm.get.rounding<int_get_rounding>` AMDGPU supports two separately controllable rounding
<amdgpu-rounding-mode-enumeration-values-table>`		<amdgpu-rounding-mode-enumeration-values-table>`
describing the two modes.		describing the two modes.

To nearest, ties away from zero is not a supported		To nearest, ties away from zero is not a supported
mode. The raw rounding mode values in the MODE		mode. The raw rounding mode values in the MODE
register do not exactly match the FLT_ROUNDS values,		register do not exactly match the FLT_ROUNDS values,
so a conversion is performed.		so a conversion is performed.

		:ref:`llvm.set.rounding<int_set_rounding>` Input value expected to be one of the valid results
		from '``llvm.get.rounding``'. Rounding mode is
		undefined if not passed a valid input. This should be
		a wave uniform value. In case of a divergent input
		value, the first active lane's value will be used.

========================================== ==========================================================		========================================== ==========================================================

>>>>>>> e4b497627ee6 (AMDGPU: Implement llvm.get.rounding)		>>>>>>> e4b497627ee6 (AMDGPU: Implement llvm.get.rounding)

.. TODO::		.. TODO::

List AMDGPU intrinsics.		List AMDGPU intrinsics.

▲ Show 20 Lines • Show All 14,426 Lines • Show Last 20 Lines

llvm/docs/LangRef.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 25,428 Lines • ▼ Show 20 Lines	::
1 - to nearest, ties to even		1 - to nearest, ties to even
2 - toward positive infinity		2 - toward positive infinity
3 - toward negative infinity		3 - toward negative infinity
4 - to nearest, ties away from zero		4 - to nearest, ties away from zero

Other values may be used to represent additional rounding modes, supported by a		Other values may be used to represent additional rounding modes, supported by a
target. These values are target-specific.		target. These values are target-specific.

		.. _int_set_rounding:

'``llvm.set.rounding``' Intrinsic		'``llvm.set.rounding``' Intrinsic
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^		^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

Syntax:		Syntax:
"""""""		"""""""

::		::

▲ Show 20 Lines • Show All 1,938 Lines • Show Last 20 Lines

llvm/docs/ReleaseNotes.rst

	Show First 20 Lines • Show All 152 Lines • ▼ Show 20 Lines

	* llvm.log2.f32, llvm.log10.f32, and llvm.log.f32 are now lowered			* llvm.log2.f32, llvm.log10.f32, and llvm.log.f32 are now lowered
	accurately. Use llvm.amdgcn.log.f32 to access the old behavior for			accurately. Use llvm.amdgcn.log.f32 to access the old behavior for
	llvm.log2.f32.			llvm.log2.f32.

	* llvm.exp2.f32 and llvm.exp.f32 are now lowered accurately. Use			* llvm.exp2.f32 and llvm.exp.f32 are now lowered accurately. Use
	llvm.amdgcn.exp2.f32 to access the old behavior for llvm.exp2.f32.			llvm.amdgcn.exp2.f32 to access the old behavior for llvm.exp2.f32.

	* Implemented :ref:`llvm.get.rounding <int_get_rounding>`			* Implemented :ref:`llvm.get.rounding <int_get_rounding>` and :ref:`llvm.set.rounding <int_set_rounding>`

	Changes to the ARM Backend			Changes to the ARM Backend
	--------------------------			--------------------------

	- The hard-float ABI is now available in Armv8.1-M configurations that			- The hard-float ABI is now available in Armv8.1-M configurations that
	have integer MVE instructions (and therefore have FP registers) but			have integer MVE instructions (and therefore have FP registers) but
	no scalar or vector floating point computation.			no scalar or vector floating point computation.

	▲ Show 20 Lines • Show All 241 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 397 Lines • ▼ Show 20 Lines	bool isEligibleForTailCallOptimization(
const SmallVectorImpl<ISD::InputArg> &Ins, SelectionDAG &DAG) const;		const SmallVectorImpl<ISD::InputArg> &Ins, SelectionDAG &DAG) const;

SDValue LowerCall(CallLoweringInfo &CLI,		SDValue LowerCall(CallLoweringInfo &CLI,
SmallVectorImpl<SDValue> &InVals) const override;		SmallVectorImpl<SDValue> &InVals) const override;

SDValue lowerDYNAMIC_STACKALLOCImpl(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerDYNAMIC_STACKALLOCImpl(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerDYNAMIC_STACKALLOC(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerDYNAMIC_STACKALLOC(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerGET_ROUNDING(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerGET_ROUNDING(SDValue Op, SelectionDAG &DAG) const;
		SDValue lowerSET_ROUNDING(SDValue Op, SelectionDAG &DAG) const;

Register getRegisterByName(const char* RegName, LLT VT,		Register getRegisterByName(const char* RegName, LLT VT,
const MachineFunction &MF) const override;		const MachineFunction &MF) const override;

MachineBasicBlock *splitKillBlock(MachineInstr &MI,		MachineBasicBlock *splitKillBlock(MachineInstr &MI,
MachineBasicBlock *BB) const;		MachineBasicBlock *BB) const;

void bundleInstWithWaitcnt(MachineInstr &MI) const;		void bundleInstWithWaitcnt(MachineInstr &MI) const;
▲ Show 20 Lines • Show All 158 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,600 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::lowerSET_ROUNDING(SDValue Op,
// hardware MODE.fp_round values.		// hardware MODE.fp_round values.
if (auto *ConstMode = dyn_cast<ConstantSDNode>(NewMode)) {		if (auto *ConstMode = dyn_cast<ConstantSDNode>(NewMode)) {
uint32_t ClampedVal = std::min(		uint32_t ClampedVal = std::min(
static_cast<uint32_t>(ConstMode->getZExtValue()),		static_cast<uint32_t>(ConstMode->getZExtValue()),
static_cast<uint32_t>(AMDGPU::TowardZeroF32_TowardNegativeF64));		static_cast<uint32_t>(AMDGPU::TowardZeroF32_TowardNegativeF64));
NewMode = DAG.getConstant(		NewMode = DAG.getConstant(
AMDGPU::decodeFltRoundToHWConversionTable(ClampedVal), SL, MVT::i32);		AMDGPU::decodeFltRoundToHWConversionTable(ClampedVal), SL, MVT::i32);
} else {		} else {
SDValue BitTable =		// If we know the input can only be one of the supported standard modes in
DAG.getConstant(AMDGPU::FltRoundToHWConversionTable, SL, MVT::i64);		// the range 0-3, we can use a simplified mapping to hardware values.
		KnownBits KB = DAG.computeKnownBits(NewMode);
		const bool UseReducedTable = KB.countMinLeadingZeros() >= 30;
// The supported standard values are 0-3. The extended values start at 8. We		// The supported standard values are 0-3. The extended values start at 8. We
		Pierre-vhUnsubmitted Not Done Reply Inline Actions nit: inline `UseReducedTable`? Pierre-vh: nit: inline `UseReducedTable`?
		arsenmAuthorUnsubmitted Done Reply Inline Actions Then you lose the name-as-comment? arsenm: Then you lose the name-as-comment?
// need to offset by 4 if the value is in the extended range.		// need to offset by 4 if the value is in the extended range.

		if (UseReducedTable) {
		SDValue BitTable = DAG.getConstant(
		AMDGPU::FltRoundToHWConversionTableStandardOnly, SL, MVT::i32);
		foadUnsubmitted Not Done Reply Inline Actions This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth having all the boilerplate in `SIModeRegisterDefaults.cpp` to define another table. foad: This is just `AMDGPU::FltRoundToHWConversionTable & 0xFFFF` isn't it? I'm not sure it's worth…

		SDValue Two = DAG.getConstant(2, SL, MVT::i32);
		SDValue RoundModeTimesNumBits =
		DAG.getNode(ISD::SHL, SL, MVT::i32, NewMode, Two);

		SDValue TableValue =
		DAG.getNode(ISD::SRL, SL, MVT::i32, BitTable, RoundModeTimesNumBits);
		NewMode = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);

		// TODO: SimplifyDemandedBits on the setreg source here can likely reduce
		// the table extracted bits into inline immediates.
		Pierre-vhUnsubmitted Not Done Reply Inline Actions Does that take a lot of effort to add? Why not add it now? Pierre-vh: Does that take a lot of effort to add? Why not add it now?
		arsenmAuthorUnsubmitted Done Reply Inline Actions There are enough cases to think about in one patch as it is arsenm: There are enough cases to think about in one patch as it is
		} else {
// is_standard = value < 4;		// is_standard = value < 4;
// table_index = is_standard ? value : (value - 4)		// table_index = is_standard ? value : (value - 4)
// MODE.fp_round = (bit_table >> table_index) & 0xf		// MODE.fp_round = (bit_table >> table_index) & 0xf
		SDValue BitTable =
		DAG.getConstant(AMDGPU::FltRoundToHWConversionTable, SL, MVT::i64);

SDValue Four = DAG.getConstant(4, SL, MVT::i32);		SDValue Four = DAG.getConstant(4, SL, MVT::i32);
SDValue IsStandardValue =		SDValue IsStandardValue =
DAG.getSetCC(SL, MVT::i1, NewMode, Four, ISD::SETULT);		DAG.getSetCC(SL, MVT::i1, NewMode, Four, ISD::SETULT);
SDValue OffsetEnum = DAG.getNode(ISD::SUB, SL, MVT::i32, NewMode, Four);		SDValue OffsetEnum = DAG.getNode(ISD::SUB, SL, MVT::i32, NewMode, Four);

SDValue IndexVal = DAG.getNode(ISD::SELECT, SL, MVT::i32, IsStandardValue,		SDValue IndexVal = DAG.getNode(ISD::SELECT, SL, MVT::i32, IsStandardValue,
NewMode, OffsetEnum);		NewMode, OffsetEnum);

SDValue Two = DAG.getConstant(2, SL, MVT::i32);		SDValue Two = DAG.getConstant(2, SL, MVT::i32);
SDValue RoundModeTimesNumBits =		SDValue RoundModeTimesNumBits =
DAG.getNode(ISD::SHL, SL, MVT::i32, IndexVal, Two);		DAG.getNode(ISD::SHL, SL, MVT::i32, IndexVal, Two);

SDValue TableValue =		SDValue TableValue =
DAG.getNode(ISD::SRL, SL, MVT::i64, BitTable, RoundModeTimesNumBits);		DAG.getNode(ISD::SRL, SL, MVT::i64, BitTable, RoundModeTimesNumBits);
SDValue TruncTable = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);		SDValue TruncTable = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, TableValue);

// No need to mask out the high bits since the setreg will ignore them		// No need to mask out the high bits since the setreg will ignore them
// anyway.		// anyway.
NewMode = TruncTable;		NewMode = TruncTable;
		}

// Insert a readfirstlane in case the value is a VGPR. We could do this		// Insert a readfirstlane in case the value is a VGPR. We could do this
// earlier and keep more operations scalar, but that interferes with		// earlier and keep more operations scalar, but that interferes with
// combining the source.		// combining the source.
SDValue ReadFirstLaneID =		SDValue ReadFirstLaneID =
DAG.getTargetConstant(Intrinsic::amdgcn_readfirstlane, SL, MVT::i32);		DAG.getTargetConstant(Intrinsic::amdgcn_readfirstlane, SL, MVT::i32);
NewMode = DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SL, MVT::i32,		NewMode = DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SL, MVT::i32,
ReadFirstLaneID, NewMode);		ReadFirstLaneID, NewMode);
▲ Show 20 Lines • Show All 10,777 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIModeRegisterDefaults.h

	Show First 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	// Bit indexed table to convert from hardware rounding mode values to FLT_ROUNDS			// Bit indexed table to convert from hardware rounding mode values to FLT_ROUNDS
	// values.			// values.
	extern const uint64_t FltRoundConversionTable;			extern const uint64_t FltRoundConversionTable;

	// Bit indexed table to convert from FLT_ROUNDS values to hardware rounding mode			// Bit indexed table to convert from FLT_ROUNDS values to hardware rounding mode
	// values			// values
	extern const uint64_t FltRoundToHWConversionTable;			extern const uint64_t FltRoundToHWConversionTable;

				// Reduced version of FltRoundToHWConversionTable that only works for 0-3.
				extern const uint32_t FltRoundToHWConversionTableStandardOnly;

	/// Read the hardware rounding mode equivalent of a AMDGPUFltRounds value.			/// Read the hardware rounding mode equivalent of a AMDGPUFltRounds value.
	constexpr uint32_t decodeFltRoundToHWConversionTable(uint32_t FltRounds) {			constexpr uint32_t decodeFltRoundToHWConversionTable(uint32_t FltRounds) {
	uint32_t IndexVal = FltRounds;			uint32_t IndexVal = FltRounds;
	if (IndexVal > TowardNegative)			if (IndexVal > TowardNegative)
	IndexVal -= ExtendedFltRoundOffset;			IndexVal -= ExtendedFltRoundOffset;
	return (FltRoundToHWConversionTable >> (IndexVal << 2)) & 0xf;			return (FltRoundToHWConversionTable >> (IndexVal << 2)) & 0xf;
	}			}

	} // end namespace AMDGPU			} // end namespace AMDGPU

	} // end namespace llvm			} // end namespace llvm

	#endif // LLVM_LIB_TARGET_AMDGPU_SIMODEREGISTERDEFAULTS_H			#endif // LLVM_LIB_TARGET_AMDGPU_SIMODEREGISTERDEFAULTS_H

llvm/lib/Target/AMDGPU/SIModeRegisterDefaults.cpp

Show First 20 Lines • Show All 275 Lines • ▼ Show 20 Lines	static_assert(
decodeFltRoundToHWConversionTable(TowardZeroF32_NearestTiesToEvenF64) ==		decodeFltRoundToHWConversionTable(TowardZeroF32_NearestTiesToEvenF64) ==
getModeRegisterRoundMode(HWTowardZero, HWNearestTiesToEven));		getModeRegisterRoundMode(HWTowardZero, HWNearestTiesToEven));
static_assert(		static_assert(
decodeFltRoundToHWConversionTable(TowardZeroF32_TowardPositiveF64) ==		decodeFltRoundToHWConversionTable(TowardZeroF32_TowardPositiveF64) ==
getModeRegisterRoundMode(HWTowardZero, HWTowardPositive));		getModeRegisterRoundMode(HWTowardZero, HWTowardPositive));
static_assert(		static_assert(
decodeFltRoundToHWConversionTable(TowardZeroF32_TowardNegativeF64) ==		decodeFltRoundToHWConversionTable(TowardZeroF32_TowardNegativeF64) ==
getModeRegisterRoundMode(HWTowardZero, HWTowardNegative));		getModeRegisterRoundMode(HWTowardZero, HWTowardNegative));

		static constexpr uint32_t
		encodeFltRoundsToHWTableReduced(uint32_t HWVal, uint32_t FltRoundsVal) {
		return getModeRegisterRoundMode(HWVal, HWVal) << (FltRoundsVal << 2);
		}

		static constexpr uint32_t decodeFltRoundsToHWTableReduced(uint32_t HWMode) {
		return (FltRoundToHWConversionTableStandardOnly >> (HWMode << 2)) & 0xf;
		}

		constexpr uint32_t AMDGPU::FltRoundToHWConversionTableStandardOnly =
		encodeFltRoundsToHWTableReduced(HWTowardZero, TowardZero) \|
		encodeFltRoundsToHWTableReduced(HWNearestTiesToEven, NearestTiesToEven) \|
		encodeFltRoundsToHWTableReduced(HWTowardPositive, TowardPositive) \|
		encodeFltRoundsToHWTableReduced(HWTowardNegative, TowardNegative);

		static_assert(decodeFltRoundsToHWTableReduced(TowardZero) ==
		getModeRegisterRoundMode(HWTowardZero, HWTowardZero));
		static_assert(decodeFltRoundsToHWTableReduced(NearestTiesToEven) ==
		getModeRegisterRoundMode(HWNearestTiesToEven,
		HWNearestTiesToEven));
		static_assert(decodeFltRoundsToHWTableReduced(TowardPositive) ==
		getModeRegisterRoundMode(HWTowardPositive, HWTowardPositive));
		static_assert(decodeFltRoundsToHWTableReduced(TowardNegative) ==
		getModeRegisterRoundMode(HWTowardNegative, HWTowardNegative));

llvm/test/CodeGen/AMDGPU/llvm.set.rounding.ll

This file was added.

	Show First 20 Lines • Show All 879 Lines • ▼ Show 20 Lines
	; Test optimization knowing the value can only be in the standard			; Test optimization knowing the value can only be in the standard
	; range			; range
	; --------------------------------------------------------------------			; --------------------------------------------------------------------

	define amdgpu_gfx void @s_set_rounding_i2_zeroext(i2 zeroext inreg %rounding) {			define amdgpu_gfx void @s_set_rounding_i2_zeroext(i2 zeroext inreg %rounding) {
	; GFX6-LABEL: s_set_rounding_i2_zeroext:			; GFX6-LABEL: s_set_rounding_i2_zeroext:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_or_b32 s34, s4, -4			; GFX6-NEXT: s_lshl_b32 s34, s4, 2
	; GFX6-NEXT: s_cmp_lt_u32 s4, 4			; GFX6-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX6-NEXT: s_cselect_b32 s34, s4, s34
	; GFX6-NEXT: s_lshl_b32 s36, s34, 2
	; GFX6-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX6-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX6-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: s_set_rounding_i2_zeroext:			; GFX7-LABEL: s_set_rounding_i2_zeroext:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_or_b32 s34, s4, -4			; GFX7-NEXT: s_lshl_b32 s34, s4, 2
	; GFX7-NEXT: s_cmp_lt_u32 s4, 4			; GFX7-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX7-NEXT: s_cselect_b32 s34, s4, s34
	; GFX7-NEXT: s_lshl_b32 s36, s34, 2
	; GFX7-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX7-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX7-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: s_set_rounding_i2_zeroext:			; GFX8-LABEL: s_set_rounding_i2_zeroext:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_and_b32 s36, 0xffff, s4			; GFX8-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX8-NEXT: v_cmp_lt_u16_e64 s[34:35], s4, 4			; GFX8-NEXT: s_lshl_b32 s34, s34, 2
	; GFX8-NEXT: s_or_b32 s37, s36, -4			; GFX8-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX8-NEXT: s_and_b64 s[34:35], s[34:35], exec
	; GFX8-NEXT: s_cselect_b32 s34, s36, s37
	; GFX8-NEXT: s_lshl_b32 s36, s34, 2
	; GFX8-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX8-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX8-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_i2_zeroext:			; GFX9-LABEL: s_set_rounding_i2_zeroext:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_and_b32 s36, 0xffff, s4			; GFX9-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX9-NEXT: v_cmp_lt_u16_e64 s[34:35], s4, 4			; GFX9-NEXT: s_lshl_b32 s34, s34, 2
	; GFX9-NEXT: s_or_b32 s37, s36, -4			; GFX9-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX9-NEXT: s_and_b64 s[34:35], s[34:35], exec
	; GFX9-NEXT: s_cselect_b32 s34, s36, s37
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_i2_zeroext:			; GFX10-LABEL: s_set_rounding_i2_zeroext:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cmp_lt_u16_e64 s34, s4, 4			; GFX10-NEXT: s_and_b32 s34, 0xffff, s4
	; GFX10-NEXT: s_and_b32 s35, 0xffff, s4			; GFX10-NEXT: s_lshl_b32 s34, s34, 2
	; GFX10-NEXT: s_or_b32 s36, s35, -4			; GFX10-NEXT: s_lshr_b32 s34, 0xa50f, s34
	; GFX10-NEXT: s_and_b32 s34, s34, exec_lo
	; GFX10-NEXT: s_cselect_b32 s34, s35, s36
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_i2_zeroext:			; GFX11-LABEL: s_set_rounding_i2_zeroext:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cmp_lt_u16_e64 s0, s4, 4			; GFX11-NEXT: s_and_b32 s0, 0xffff, s4
	; GFX11-NEXT: s_and_b32 s1, 0xffff, s4			; GFX11-NEXT: s_lshl_b32 s0, s0, 2
	; GFX11-NEXT: s_or_b32 s2, s1, -4			; GFX11-NEXT: s_lshr_b32 s0, 0xa50f, s0
	; GFX11-NEXT: s_and_b32 s0, s0, exec_lo
	; GFX11-NEXT: s_cselect_b32 s0, s1, s2
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%zext.rounding = zext i2 %rounding to i32			%zext.rounding = zext i2 %rounding to i32
	call void @llvm.set.rounding(i32 %zext.rounding)			call void @llvm.set.rounding(i32 %zext.rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_i2_signext(i2 signext inreg %rounding) {			define amdgpu_gfx void @s_set_rounding_i2_signext(i2 signext inreg %rounding) {
	▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines

	define amdgpu_gfx void @s_set_rounding_select_0_1(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_0_1(i32 inreg %cond) {
	; GFX6-LABEL: s_set_rounding_select_0_1:			; GFX6-LABEL: s_set_rounding_select_0_1:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: s_cmp_lg_u32 s4, 0			; GFX6-NEXT: s_cmp_lg_u32 s4, 0
	; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX6-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX6-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX6-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX6-NEXT: v_lshr_b64 v[0:1], s[34:35], v0
	; GFX6-NEXT: v_readfirstlane_b32 s34, v0			; GFX6-NEXT: v_readfirstlane_b32 s34, v0
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: s_set_rounding_select_0_1:			; GFX7-LABEL: s_set_rounding_select_0_1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_cmp_lg_u32 s4, 0			; GFX7-NEXT: s_cmp_lg_u32 s4, 0
	; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX7-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX7-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX7-NEXT: v_lshr_b64 v[0:1], s[34:35], v0
	; GFX7-NEXT: v_readfirstlane_b32 s34, v0			; GFX7-NEXT: v_readfirstlane_b32 s34, v0
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: s_set_rounding_select_0_1:			; GFX8-LABEL: s_set_rounding_select_0_1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_cmp_lg_u32 s4, 0			; GFX8-NEXT: s_cmp_lg_u32 s4, 0
	; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX8-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX8-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX8-NEXT: s_mov_b32 s34, 0xa50f
	; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX8-NEXT: v_readfirstlane_b32 s34, v0			; GFX8-NEXT: v_readfirstlane_b32 s34, v0
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_0_1:			; GFX9-LABEL: s_set_rounding_select_0_1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_lg_u32 s4, 0			; GFX9-NEXT: s_cmp_lg_u32 s4, 0
	; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX9-NEXT: s_mov_b32 s34, 0xa50f
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX9-NEXT: v_readfirstlane_b32 s34, v0			; GFX9-NEXT: v_readfirstlane_b32 s34, v0
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_0_1:			; GFX10-LABEL: s_set_rounding_select_0_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_lg_u32 s4, 0			; GFX10-NEXT: s_cmp_lg_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, -1, 0			; GFX10-NEXT: s_cselect_b32 s34, -1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_lshrrev_b64 v[0:1], v0, s[34:35]			; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX10-NEXT: v_readfirstlane_b32 s34, v0			; GFX10-NEXT: v_readfirstlane_b32 s34, v0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_0_1:			; GFX11-LABEL: s_set_rounding_select_0_1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_lg_u32 s4, 0			; GFX11-NEXT: s_cmp_lg_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, -1, 0			; GFX11-NEXT: s_cselect_b32 s0, -1, 0
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]			; GFX11-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 0, i32 1			%rounding = select i1 %cmp, i32 0, i32 1
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_1_3(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_1_3(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_1_3:			; GFX678-LABEL: s_set_rounding_select_1_3:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 1, 3			; GFX678-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX678-NEXT: s_or_b32 s35, s34, -4
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_1_3:			; GFX9-LABEL: s_set_rounding_select_1_3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 1, 3			; GFX9-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_1_3:			; GFX10-LABEL: s_set_rounding_select_1_3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 1, 3			; GFX10-NEXT: s_cselect_b32 s34, 0xa50, 10
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_1_3:			; GFX11-LABEL: s_set_rounding_select_1_3:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 1, 3			; GFX11-NEXT: s_cselect_b32 s0, 0xa50, 10
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 3			%rounding = select i1 %cmp, i32 1, i32 3
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define void @v_set_rounding_select_1_3(i32 %cond) {			define void @v_set_rounding_select_1_3(i32 %cond) {
	; GFX6-LABEL: v_set_rounding_select_1_3:			; GFX678-LABEL: v_set_rounding_select_1_3:
	; GFX6: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX678-NEXT: v_mov_b32_e32 v1, 0xa50
	; GFX6-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc			; GFX678-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX6-NEXT: v_or_b32_e32 v1, -4, v0			; GFX678-NEXT: v_cndmask_b32_e32 v0, 10, v1, vcc
	; GFX6-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0			; GFX678-NEXT: v_readfirstlane_b32 s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX6-NEXT: s_mov_b32 s4, 0x1c84a50f			; GFX678-NEXT: s_setpc_b64 s[30:31]
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX6-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX6-NEXT: v_lshr_b64 v[0:1], s[4:5], v0
	; GFX6-NEXT: v_readfirstlane_b32 s4, v0
	; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX6-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX7-LABEL: v_set_rounding_select_1_3:
	; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc
	; GFX7-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX7-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX7-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX7-NEXT: v_lshr_b64 v[0:1], s[4:5], v0
	; GFX7-NEXT: v_readfirstlane_b32 s4, v0
	; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX7-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX8-LABEL: v_set_rounding_select_1_3:
	; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc
	; GFX8-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX8-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX8-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX8-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_set_rounding_select_1_3:			; GFX9-LABEL: v_set_rounding_select_1_3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mov_b32_e32 v1, 0xa50
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, 10, v1, vcc
	; GFX9-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 4, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-NEXT: s_mov_b32 s4, 0x1c84a50f
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_set_rounding_select_1_3:			; GFX10-LABEL: v_set_rounding_select_1_3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX10-NEXT: s_mov_b32 s4, 0x1c84a50f			; GFX10-NEXT: v_cndmask_b32_e64 v0, 10, 0xa50, vcc_lo
	; GFX10-NEXT: s_mov_b32 s5, 0xb73e62d9
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc_lo
	; GFX10-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX10-NEXT: v_cmp_gt_u32_e32 vcc_lo, 4, v0
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_lshrrev_b64 v[0:1], v0, s[4:5]
	; GFX10-NEXT: v_readfirstlane_b32 s4, v0			; GFX10-NEXT: v_readfirstlane_b32 s4, v0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s4
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_set_rounding_select_1_3:			; GFX11-LABEL: v_set_rounding_select_1_3:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f			; GFX11-NEXT: v_cndmask_b32_e64 v0, 10, 0xa50, vcc_lo
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 3, 1, vcc_lo
	; GFX11-NEXT: v_or_b32_e32 v1, -4, v0
	; GFX11-NEXT: v_cmp_gt_u32_e32 vcc_lo, 4, v0
	; GFX11-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 3			%rounding = select i1 %cmp, i32 1, i32 3
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_2_0(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_2_0(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_2_0:			; GFX6-LABEL: s_set_rounding_select_2_0:
	; GFX678: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX6-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX6-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX678-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX678-NEXT: v_readfirstlane_b32 s34, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX678-NEXT: s_lshl_b32 s34, s34, 1			; GFX6-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX6-NEXT: v_readfirstlane_b32 s34, v0
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4			; GFX6-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35			; GFX6-NEXT: s_setpc_b64 s[30:31]
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2			;
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f			; GFX7-LABEL: s_set_rounding_select_2_0:
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9			; GFX7: ; %bb.0:
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX7-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_cselect_b64 s[34:35], -1, 0
				; GFX7-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX7-NEXT: v_lshr_b32_e32 v0, 0xa50f, v0
				; GFX7-NEXT: v_readfirstlane_b32 s34, v0
				; GFX7-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
				; GFX7-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: s_set_rounding_select_2_0:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: s_cmp_eq_u32 s4, 0
				; GFX8-NEXT: s_cselect_b64 s[34:35], -1, 0
				; GFX8-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX8-NEXT: s_mov_b32 s34, 0xa50f
				; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s34
				; GFX8-NEXT: v_readfirstlane_b32 s34, v0
				; GFX8-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
				; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_2_0:			; GFX9-LABEL: s_set_rounding_select_2_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0			; GFX9-NEXT: s_cselect_b64 s[34:35], -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
				; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX9-NEXT: s_mov_b32 s34, 0xa50f
				; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s34
	; GFX9-NEXT: v_readfirstlane_b32 s34, v0			; GFX9-NEXT: v_readfirstlane_b32 s34, v0
	; GFX9-NEXT: s_lshl_b32 s34, s34, 1
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_2_0:			; GFX10-LABEL: s_set_rounding_select_2_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, -1, 0			; GFX10-NEXT: s_cselect_b32 s34, -1, 0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, s34
				; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX10-NEXT: v_readfirstlane_b32 s34, v0			; GFX10-NEXT: v_readfirstlane_b32 s34, v0
	; GFX10-NEXT: s_lshl_b32 s34, s34, 1
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_2_0:			; GFX11-LABEL: s_set_rounding_select_2_0:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, -1, 0			; GFX11-NEXT: s_cselect_b32 s0, -1, 0
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, s0
				; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0
				; GFX11-NEXT: v_lshrrev_b32_e64 v0, v0, 0xa50f
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: s_lshl_b32 s0, s0, 1
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 2, i32 0			%rounding = select i1 %cmp, i32 2, i32 0
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_2_1(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_2_1(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_2_1:			; GFX678-LABEL: s_set_rounding_select_2_1:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 2, 1			; GFX678-NEXT: s_movk_i32 s34, 0xa5
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX678-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_2_1:			; GFX9-LABEL: s_set_rounding_select_2_1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 2, 1			; GFX9-NEXT: s_movk_i32 s34, 0xa5
	; GFX9-NEXT: s_or_b32 s35, s34, -4			; GFX9-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_2_1:			; GFX10-LABEL: s_set_rounding_select_2_1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 2, 1			; GFX10-NEXT: s_movk_i32 s34, 0xa5
	; GFX10-NEXT: s_or_b32 s35, s34, -4			; GFX10-NEXT: s_cselect_b32 s34, s34, 0xa50
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_2_1:			; GFX11-LABEL: s_set_rounding_select_2_1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 2, 1			; GFX11-NEXT: s_movk_i32 s0, 0xa5
	; GFX11-NEXT: s_or_b32 s1, s0, -4			; GFX11-NEXT: s_cselect_b32 s0, s0, 0xa50
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 2, i32 1			%rounding = select i1 %cmp, i32 2, i32 1
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_1_2(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_1_2(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_1_2:			; GFX678-LABEL: s_set_rounding_select_1_2:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 1, 2			; GFX678-NEXT: s_movk_i32 s34, 0xa50
	; GFX678-NEXT: s_or_b32 s35, s34, -4			; GFX678-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_1_2:			; GFX9-LABEL: s_set_rounding_select_1_2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 1, 2			; GFX9-NEXT: s_movk_i32 s34, 0xa50
	; GFX9-NEXT: s_or_b32 s35, s34, -4			; GFX9-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_1_2:			; GFX10-LABEL: s_set_rounding_select_1_2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 1, 2			; GFX10-NEXT: s_movk_i32 s34, 0xa50
	; GFX10-NEXT: s_or_b32 s35, s34, -4			; GFX10-NEXT: s_cselect_b32 s34, s34, 0xa5
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_1_2:			; GFX11-LABEL: s_set_rounding_select_1_2:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 1, 2			; GFX11-NEXT: s_movk_i32 s0, 0xa50
	; GFX11-NEXT: s_or_b32 s1, s0, -4			; GFX11-NEXT: s_cselect_b32 s0, s0, 0xa5
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 1, i32 2			%rounding = select i1 %cmp, i32 1, i32 2
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	define amdgpu_gfx void @s_set_rounding_select_3_0(i32 inreg %cond) {			define amdgpu_gfx void @s_set_rounding_select_3_0(i32 inreg %cond) {
	; GFX678-LABEL: s_set_rounding_select_3_0:			; GFX678-LABEL: s_set_rounding_select_3_0:
	; GFX678: ; %bb.0:			; GFX678: ; %bb.0:
	; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX678-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX678-NEXT: s_cmp_eq_u32 s4, 0			; GFX678-NEXT: s_cmp_eq_u32 s4, 0
	; GFX678-NEXT: s_cselect_b32 s34, 3, 0			; GFX678-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX678-NEXT: s_or_b32 s35, s34, -4
	; GFX678-NEXT: s_cmp_lt_u32 s34, 4
	; GFX678-NEXT: s_cselect_b32 s34, s34, s35
	; GFX678-NEXT: s_lshl_b32 s36, s34, 2
	; GFX678-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX678-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX678-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX678-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX678-NEXT: s_setpc_b64 s[30:31]			; GFX678-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_set_rounding_select_3_0:			; GFX9-LABEL: s_set_rounding_select_3_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_cmp_eq_u32 s4, 0			; GFX9-NEXT: s_cmp_eq_u32 s4, 0
	; GFX9-NEXT: s_cselect_b32 s34, 3, 0			; GFX9-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX9-NEXT: s_or_b32 s35, s34, -4
	; GFX9-NEXT: s_cmp_lt_u32 s34, 4
	; GFX9-NEXT: s_cselect_b32 s34, s34, s35
	; GFX9-NEXT: s_lshl_b32 s36, s34, 2
	; GFX9-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX9-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX9-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX9-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_set_rounding_select_3_0:			; GFX10-LABEL: s_set_rounding_select_3_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_cmp_eq_u32 s4, 0			; GFX10-NEXT: s_cmp_eq_u32 s4, 0
	; GFX10-NEXT: s_cselect_b32 s34, 3, 0			; GFX10-NEXT: s_cselect_b32 s34, 10, 0xa50f
	; GFX10-NEXT: s_or_b32 s35, s34, -4
	; GFX10-NEXT: s_cmp_lt_u32 s34, 4
	; GFX10-NEXT: s_cselect_b32 s34, s34, s35
	; GFX10-NEXT: s_lshl_b32 s36, s34, 2
	; GFX10-NEXT: s_mov_b32 s34, 0x1c84a50f
	; GFX10-NEXT: s_mov_b32 s35, 0xb73e62d9
	; GFX10-NEXT: s_lshr_b64 s[34:35], s[34:35], s36
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s34
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_set_rounding_select_3_0:			; GFX11-LABEL: s_set_rounding_select_3_0:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_cmp_eq_u32 s4, 0			; GFX11-NEXT: s_cmp_eq_u32 s4, 0
	; GFX11-NEXT: s_cselect_b32 s0, 3, 0			; GFX11-NEXT: s_cselect_b32 s0, 10, 0xa50f
	; GFX11-NEXT: s_or_b32 s1, s0, -4
	; GFX11-NEXT: s_cmp_lt_u32 s0, 4
	; GFX11-NEXT: s_cselect_b32 s0, s0, s1
	; GFX11-NEXT: s_lshl_b32 s2, s0, 2
	; GFX11-NEXT: s_mov_b32 s0, 0x1c84a50f
	; GFX11-NEXT: s_mov_b32 s1, 0xb73e62d9
	; GFX11-NEXT: s_lshr_b64 s[0:1], s[0:1], s2
	; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0			; GFX11-NEXT: s_setreg_b32 hwreg(HW_REG_MODE, 0, 4), s0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%cmp = icmp eq i32 %cond, 0			%cmp = icmp eq i32 %cond, 0
	%rounding = select i1 %cmp, i32 3, i32 0			%rounding = select i1 %cmp, i32 3, i32 0
	call void @llvm.set.rounding(i32 %rounding)			call void @llvm.set.rounding(i32 %rounding)
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines