Diff 459130

llvm/include/llvm/CodeGen/TargetLowering.h

Show First 20 Lines • Show All 3,993 Lines • ▼ Show 20 Lines	public:
/// storing a legal type		/// storing a legal type
virtual bool splitValueIntoRegisterParts(SelectionDAG &DAG, const SDLoc &DL,		virtual bool splitValueIntoRegisterParts(SelectionDAG &DAG, const SDLoc &DL,
SDValue Val, SDValue *Parts,		SDValue Val, SDValue *Parts,
unsigned NumParts, MVT PartVT,		unsigned NumParts, MVT PartVT,
Optional<CallingConv::ID> CC) const {		Optional<CallingConv::ID> CC) const {
return false;		return false;
}		}

		virtual bool checkForPhysRegDependency(SDNode Def, SDNode User, unsigned Op,
		rampitecUnsubmitted Done Reply Inline Actions Need a description of the function. rampitec: Need a description of the function.
		rampitecUnsubmitted Done Reply Inline Actions Could you please use the same comment style as the rest of the code? rampitec: Could you please use the same comment style as the rest of the code?
		const TargetRegisterInfo *TRI,
		rampitecUnsubmitted Done Reply Inline Actions Alignment is off. rampitec: Alignment is off.
		const TargetInstrInfo *TII,
		unsigned &PhysReg, int &Cost) const {
		return false;
		}

/// Target-specific combining of register parts into its original value		/// Target-specific combining of register parts into its original value
virtual SDValue		virtual SDValue
joinRegisterPartsIntoValue(SelectionDAG &DAG, const SDLoc &DL,		joinRegisterPartsIntoValue(SelectionDAG &DAG, const SDLoc &DL,
const SDValue *Parts, unsigned NumParts,		const SDValue *Parts, unsigned NumParts,
MVT PartVT, EVT ValueVT,		MVT PartVT, EVT ValueVT,
Optional<CallingConv::ID> CC) const {		Optional<CallingConv::ID> CC) const {
return SDValue();		return SDValue();
}		}
▲ Show 20 Lines • Show All 1,013 Lines • Show Last 20 Lines

llvm/lib/CodeGen/MachineRegisterInfo.cpp

Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	constrainRegClass(MachineRegisterInfo &MRI, Register Reg,
MRI.setRegClass(Reg, NewRC);		MRI.setRegClass(Reg, NewRC);
return NewRC;		return NewRC;
}		}

const TargetRegisterClass *		const TargetRegisterClass *
MachineRegisterInfo::constrainRegClass(Register Reg,		MachineRegisterInfo::constrainRegClass(Register Reg,
const TargetRegisterClass *RC,		const TargetRegisterClass *RC,
unsigned MinNumRegs) {		unsigned MinNumRegs) {
		if (Reg.isPhysical())
		vpykhtinUnsubmitted Done Reply Inline Actions formatting: 2 spaces vpykhtin: formatting: 2 spaces
		return nullptr;
return ::constrainRegClass(*this, Reg, getRegClass(Reg), RC, MinNumRegs);		return ::constrainRegClass(*this, Reg, getRegClass(Reg), RC, MinNumRegs);
}		}

bool		bool
MachineRegisterInfo::constrainRegAttrs(Register Reg,		MachineRegisterInfo::constrainRegAttrs(Register Reg,
Register ConstrainingReg,		Register ConstrainingReg,
unsigned MinNumRegs) {		unsigned MinNumRegs) {
const LLT RegTy = getType(Reg);		const LLT RegTy = getType(Reg);
▲ Show 20 Lines • Show All 580 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/ScheduleDAGSDNodes.cpp

Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
}		}

/// CheckForPhysRegDependency - Check if the dependency between def and use of		/// CheckForPhysRegDependency - Check if the dependency between def and use of
/// a specified operand is a physical register dependency. If so, returns the		/// a specified operand is a physical register dependency. If so, returns the
/// register and the cost of copying the register.		/// register and the cost of copying the register.
static void CheckForPhysRegDependency(SDNode Def, SDNode User, unsigned Op,		static void CheckForPhysRegDependency(SDNode Def, SDNode User, unsigned Op,
const TargetRegisterInfo *TRI,		const TargetRegisterInfo *TRI,
const TargetInstrInfo *TII,		const TargetInstrInfo *TII,
		const TargetLowering &TLI,
unsigned &PhysReg, int &Cost) {		unsigned &PhysReg, int &Cost) {
if (Op != 2 \|\| User->getOpcode() != ISD::CopyToReg)		if (Op != 2 \|\| User->getOpcode() != ISD::CopyToReg)
return;		return;

unsigned Reg = cast<RegisterSDNode>(User->getOperand(1))->getReg();		unsigned Reg = cast<RegisterSDNode>(User->getOperand(1))->getReg();
		if (TLI.checkForPhysRegDependency(Def, User, Op, TRI, TII, PhysReg, Cost))
		rampitecUnsubmitted Done Reply Inline Actions Place it after the check for isVirtualRegister below? rampitec: Place it after the check for isVirtualRegister below?
		alex-tAuthorUnsubmitted Done Reply Inline Actions It is deliberately here. In case we have a cross-BB SCC-carried dependency it is CopyToReg with the VReg as an operand 1. CopyToReg chain, VregN, SCC def and in successor BB: CopyFromReg SCC, VregN This is really SCC-carried dependency but it implemented via virtual register copy alex-t: It is deliberately here. In case we have a cross-BB SCC-carried dependency it is CopyToReg with…
		return;

if (Register::isVirtualRegister(Reg))		if (Register::isVirtualRegister(Reg))
return;		return;

unsigned ResNo = User->getOperand(2).getResNo();		unsigned ResNo = User->getOperand(2).getResNo();
if (Def->getOpcode() == ISD::CopyFromReg &&		if (Def->getOpcode() == ISD::CopyFromReg &&
cast<RegisterSDNode>(Def->getOperand(1))->getReg() == Reg) {		cast<RegisterSDNode>(Def->getOperand(1))->getReg() == Reg) {
PhysReg = Reg;		PhysReg = Reg;
} else if (Def->isMachineOpcode()) {		} else if (Def->isMachineOpcode()) {
▲ Show 20 Lines • Show All 354 Lines • ▼ Show 20 Lines	for (SDNode *N = SU.getNode(); N; N = N->getGluedNode()) {

EVT OpVT = N->getOperand(i).getValueType();		EVT OpVT = N->getOperand(i).getValueType();
assert(OpVT != MVT::Glue && "Glued nodes should be in same sunit!");		assert(OpVT != MVT::Glue && "Glued nodes should be in same sunit!");
bool isChain = OpVT == MVT::Other;		bool isChain = OpVT == MVT::Other;

unsigned PhysReg = 0;		unsigned PhysReg = 0;
int Cost = 1;		int Cost = 1;
// Determine if this is a physical register dependency.		// Determine if this is a physical register dependency.
CheckForPhysRegDependency(OpN, N, i, TRI, TII, PhysReg, Cost);		const TargetLowering &TLI = DAG->getTargetLoweringInfo();
		CheckForPhysRegDependency(OpN, N, i, TRI, TII, TLI, PhysReg, Cost);
assert((PhysReg == 0 \|\| !isChain) &&		assert((PhysReg == 0 \|\| !isChain) &&
"Chain dependence via physreg data?");		"Chain dependence via physreg data?");
// FIXME: See ScheduleDAGSDNodes::EmitCopyFromReg. For now, scheduler		// FIXME: See ScheduleDAGSDNodes::EmitCopyFromReg. For now, scheduler
// emits a copy from the physical register to a virtual register unless		// emits a copy from the physical register to a virtual register unless
// it requires a cross class copy (cost < 0). That means we are only		// it requires a cross class copy (cost < 0). That means we are only
// treating "expensive to copy" register dependency as physical register		// treating "expensive to copy" register dependency as physical register
// dependency. This may change in the future though.		// dependency. This may change in the future though.
if (Cost >= 0 && !StressSched)		if (Cost >= 0 && !StressSched)
▲ Show 20 Lines • Show All 586 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines	public:

bool isCanonicalized(SelectionDAG &DAG, SDValue Op,		bool isCanonicalized(SelectionDAG &DAG, SDValue Op,
unsigned MaxDepth = 5) const;		unsigned MaxDepth = 5) const;
bool isCanonicalized(Register Reg, MachineFunction &MF,		bool isCanonicalized(Register Reg, MachineFunction &MF,
unsigned MaxDepth = 5) const;		unsigned MaxDepth = 5) const;
bool denormalsEnabledForType(const SelectionDAG &DAG, EVT VT) const;		bool denormalsEnabledForType(const SelectionDAG &DAG, EVT VT) const;
bool denormalsEnabledForType(LLT Ty, MachineFunction &MF) const;		bool denormalsEnabledForType(LLT Ty, MachineFunction &MF) const;

		bool checkForPhysRegDependency(SDNode Def, SDNode User, unsigned Op,
		const TargetRegisterInfo *TRI,
		rampitecUnsubmitted Done Reply Inline Actions Alignment. rampitec: Alignment.
		const TargetInstrInfo *TII,
		unsigned &PhysReg, int &Cost) const override;

bool isKnownNeverNaNForTargetNode(SDValue Op,		bool isKnownNeverNaNForTargetNode(SDValue Op,
const SelectionDAG &DAG,		const SelectionDAG &DAG,
bool SNaN = false,		bool SNaN = false,
unsigned Depth = 0) const override;		unsigned Depth = 0) const override;
AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;		AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;
AtomicExpansionKind shouldExpandAtomicLoadInIR(LoadInst *LI) const override;		AtomicExpansionKind shouldExpandAtomicLoadInIR(LoadInst *LI) const override;
AtomicExpansionKind shouldExpandAtomicStoreInIR(StoreInst *SI) const override;		AtomicExpansionKind shouldExpandAtomicStoreInIR(StoreInst *SI) const override;
AtomicExpansionKind		AtomicExpansionKind
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 12,972 Lines • ▼ Show 20 Lines

	MachineMemOperand::Flags			MachineMemOperand::Flags
	SITargetLowering::getTargetMMOFlags(const Instruction &I) const {			SITargetLowering::getTargetMMOFlags(const Instruction &I) const {
	// Propagate metadata set by AMDGPUAnnotateUniformValues to the MMO of a load.			// Propagate metadata set by AMDGPUAnnotateUniformValues to the MMO of a load.
	if (I.getMetadata("amdgpu.noclobber"))			if (I.getMetadata("amdgpu.noclobber"))
	return MONoClobber;			return MONoClobber;
	return MachineMemOperand::MONone;			return MachineMemOperand::MONone;
	}			}

				bool SITargetLowering::checkForPhysRegDependency(SDNode Def, SDNode User, unsigned Op,
				const TargetRegisterInfo *TRI,
				rampitecUnsubmitted Done Reply Inline Actions Alignment. rampitec: Alignment.
				const TargetInstrInfo *TII,
				unsigned &PhysReg, int &Cost) const{
				if (User->getOpcode() != ISD::CopyToReg)
				return false;
				if (!Def->isMachineOpcode())
				return false;
				MachineSDNode *MDef = dyn_cast<MachineSDNode>(Def);
				if (!MDef)
				return false;

				unsigned ResNo = User->getOperand(Op).getResNo();
				if(User->getOperand(Op)->getValueType(ResNo) != MVT::i1)
				return false;
				const MCInstrDesc &II = TII->get(MDef->getMachineOpcode());
				if (II.isCompare() && II.hasImplicitDefOfPhysReg(AMDGPU::SCC)) {
				rampitecUnsubmitted Done Reply Inline Actions We may actually later extend it beyond compares and to include VCC. rampitec: We may actually later extend it beyond compares and to include VCC.
				alex-tAuthorUnsubmitted Done Reply Inline Actions What needs to be changed here right now for that? alex-t: What needs to be changed here right now for that?
				rampitecUnsubmitted Done Reply Inline Actions Nothing right now. rampitec: Nothing right now.
				PhysReg = AMDGPU::SCC;
				const TargetRegisterClass *RC =
				TRI->getMinimalPhysRegClass(PhysReg, Def->getSimpleValueType(ResNo));
				Cost = RC->getCopyCost();
				return true;
				}
				return false;
				}

llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp

Show First 20 Lines • Show All 925 Lines • ▼ Show 20 Lines	const TargetRegisterClass *SIRegisterInfo::getPointerRegClass(
// private accesses, so this is correct in that case.		// private accesses, so this is correct in that case.
return &AMDGPU::VGPR_32RegClass;		return &AMDGPU::VGPR_32RegClass;
}		}

const TargetRegisterClass *		const TargetRegisterClass *
SIRegisterInfo::getCrossCopyRegClass(const TargetRegisterClass *RC) const {		SIRegisterInfo::getCrossCopyRegClass(const TargetRegisterClass *RC) const {
if (isAGPRClass(RC) && !ST.hasGFX90AInsts())		if (isAGPRClass(RC) && !ST.hasGFX90AInsts())
return getEquivalentVGPRClass(RC);		return getEquivalentVGPRClass(RC);
		if (RC == &AMDGPU::SCC_CLASSRegClass)
		return ST.isWave32() ? &AMDGPU::SReg_32_XEXEC_HIRegClass
		rampitecUnsubmitted Done Reply Inline Actions getWaveMaskRegClass()? The difference that it returns SReg_32_XM0_XEXECRegClass and not SReg_32_XEXEC_HIRegClass. rampitec: getWaveMaskRegClass()? The difference that it returns SReg_32_XM0_XEXECRegClass and not…
		: &AMDGPU::SReg_64_XEXECRegClass;

return RC;		return RC;
}		}

static unsigned getNumSubRegsForSpillOp(unsigned Op) {		static unsigned getNumSubRegsForSpillOp(unsigned Op) {

switch (Op) {		switch (Op) {
case AMDGPU::SI_SPILL_S1024_SAVE:		case AMDGPU::SI_SPILL_S1024_SAVE:
▲ Show 20 Lines • Show All 2,160 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 517 Lines • ▼ Show 20 Lines

	// This pattern is restricted to certain subtargets (practically GFX8Plus)			// This pattern is restricted to certain subtargets (practically GFX8Plus)
	// because isel sometimes produces an sreg_64 copy to SCC as a by-product			// because isel sometimes produces an sreg_64 copy to SCC as a by-product
	// of this pattern, and only for subtargets with hasScalarCompareEq64			// of this pattern, and only for subtargets with hasScalarCompareEq64
	// is it possible to map such copy to a single instruction (S_CMP_LG_U64).			// is it possible to map such copy to a single instruction (S_CMP_LG_U64).
	class SelectPat<SDPatternOperator select> : PatFrag <			class SelectPat<SDPatternOperator select> : PatFrag <
	(ops node:$src1, node:$src2),			(ops node:$src1, node:$src2),
	(select SCC, $src1, $src2),			(select SCC, $src1, $src2),
	[{ return Subtarget->hasScalarCompareEq64() &&			[{ return !N->isDivergent(); }]
	N->getOperand(0)->hasOneUse() && !N->isDivergent(); }]
	>;			>;

	let Uses = [SCC] in {			let Uses = [SCC] in {
	let AddedComplexity = 20 in {			let AddedComplexity = 20 in {
	def S_CSELECT_B32 : SOP2_32 <"s_cselect_b32",			def S_CSELECT_B32 : SOP2_32 <"s_cselect_b32",
	[(set i32:$sdst, (SelectPat<select> i32:$src0, i32:$src1))]			[(set i32:$sdst, (SelectPat<select> i32:$src0, i32:$src1))]
	>;			>;
	}			}
	▲ Show 20 Lines • Show All 1,813 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/32-bit-local-address-space.ll

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	entry:
%0 = getelementptr i32, i32 addrspace(3)* %in, i32 16385		%0 = getelementptr i32, i32 addrspace(3)* %in, i32 16385
%1 = load i32, i32 addrspace(3)* %0		%1 = load i32, i32 addrspace(3)* %0
store i32 %1, i32 addrspace(1)* %out		store i32 %1, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}null_32bit_lds_ptr:		; FUNC-LABEL: {{^}}null_32bit_lds_ptr:
; GFX7 v_cmp_ne_u32		; GFX7 v_cmp_ne_u32
; GFX7: v_cndmask_b32		; GFX7: s_cselect_b32
; GFX8: s_cmp_lg_u32		; GFX8: s_cmp_lg_u32
; GFX8-NOT: v_cmp_ne_u32		; GFX8-NOT: v_cmp_ne_u32
; GFX8: s_cselect_b32		; GFX8: s_cselect_b32
define amdgpu_kernel void @null_32bit_lds_ptr(i32 addrspace(1)* %out, i32 addrspace(3)* %lds) nounwind {		define amdgpu_kernel void @null_32bit_lds_ptr(i32 addrspace(1)* %out, i32 addrspace(3)* %lds) nounwind {
%cmp = icmp ne i32 addrspace(3)* %lds, null		%cmp = icmp ne i32 addrspace(3)* %lds, null
%x = select i1 %cmp, i32 123, i32 456		%x = select i1 %cmp, i32 123, i32 456
store i32 %x, i32 addrspace(1)* %out		store i32 %x, i32 addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=CI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=CI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=GFX9 %s

	; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast:			; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast:
	; HSA: enable_sgpr_private_segment_buffer = 1			; HSA: enable_sgpr_private_segment_buffer = 1
	; HSA: enable_sgpr_dispatch_ptr = 0			; HSA: enable_sgpr_dispatch_ptr = 0
	; CI: enable_sgpr_queue_ptr = 1			; CI: enable_sgpr_queue_ptr = 1
	; GFX9: enable_sgpr_queue_ptr = 0			; GFX9: enable_sgpr_queue_ptr = 0

	; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}			; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}
	; CI-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[APERTURE]]
	; CI-DAG: s_cmp_lg_u32 [[PTR]], -1			; CI-DAG: s_cmp_lg_u32 [[PTR]], -1
	; CI-DAG: s_cselect_b64 vcc, -1, 0			; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0
	; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0
	; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7			; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
	; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}			; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
	; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16			; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16
	; GFX9-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[SSRC_SHARED_BASE]]

	; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base			; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base
	; GFX9: s_cmp_lg_u32 [[PTR]], -1			; GFX9: s_cmp_lg_u32 [[PTR]], -1
	; GFX9: s_cselect_b64 vcc, -1, 0			; GFX9-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[SSRC_SHARED_BASE]], 0
	; GFX9: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; GFX9-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0
	; GFX9-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]			; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

	; At most 2 digits. Make sure src_shared_base is not counted as a high			; At most 2 digits. Make sure src_shared_base is not counted as a high
	; number SGPR.			; number SGPR.

	; CI: NumSgprs: {{[0-9][0-9]+}}			; HSA: NumSgprs: {{[0-9]+}}
	; GFX9: NumSgprs: {{[0-9]+}}
	define amdgpu_kernel void @use_group_to_flat_addrspacecast(i32 addrspace(3)* %ptr) #0 {			define amdgpu_kernel void @use_group_to_flat_addrspacecast(i32 addrspace(3)* %ptr) #0 {
	%stof = addrspacecast i32 addrspace(3)* %ptr to i32*			%stof = addrspacecast i32 addrspace(3)* %ptr to i32*
	store volatile i32 7, i32* %stof			store volatile i32 7, i32* %stof
	ret void			ret void
	}			}

	; Test handling inside a non-kernel			; Test handling inside a non-kernel
	; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast_func:			; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast_func:
	Show All 23 Lines
	; HSA-LABEL: {{^}}use_private_to_flat_addrspacecast:			; HSA-LABEL: {{^}}use_private_to_flat_addrspacecast:
	; HSA: enable_sgpr_private_segment_buffer = 1			; HSA: enable_sgpr_private_segment_buffer = 1
	; HSA: enable_sgpr_dispatch_ptr = 0			; HSA: enable_sgpr_dispatch_ptr = 0
	; CI: enable_sgpr_queue_ptr = 1			; CI: enable_sgpr_queue_ptr = 1
	; GFX9: enable_sgpr_queue_ptr = 0			; GFX9: enable_sgpr_queue_ptr = 0

	; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}			; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}
	; CI-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[APERTURE]]

	; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7			; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
	; CI-DAG: s_cmp_lg_u32 [[PTR]], -1			; CI-DAG: s_cmp_lg_u32 [[PTR]], -1
	; CI-DAG: s_cselect_b64 vcc, -1, 0			; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0
	; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0
	; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}			; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
	; GFX9-DAG: s_getreg_b32 [[SSRC_PRIVATE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9-DAG: s_getreg_b32 [[SSRC_PRIVATE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9-DAG: s_lshl_b32 [[SSRC_PRIVATE_BASE:s[0-9]+]], [[SSRC_PRIVATE]], 16			; GFX9-DAG: s_lshl_b32 [[SSRC_PRIVATE_BASE:s[0-9]+]], [[SSRC_PRIVATE]], 16
	; GFX9-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[SSRC_PRIVATE_BASE]]

	; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_private_base			; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_private_base

	; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7			; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
	; GFX9: s_cmp_lg_u32 [[PTR]], -1			; GFX9: s_cmp_lg_u32 [[PTR]], -1
	; GFX9: s_cselect_b64 vcc, -1, 0			; GFX9: s_cselect_b32 s[[HI:[0-9]+]], [[SSRC_PRIVATE_BASE]], 0
	; GFX9: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; GFX9: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0
	; GFX9: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]			; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

	; CI: NumSgprs: {{[0-9][0-9]+}}			; HSA: NumSgprs: {{[0-9]+}}
	; GFX9: NumSgprs: {{[0-9]+}}
	define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {			define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {
	%stof = addrspacecast i32 addrspace(5)* %ptr to i32*			%stof = addrspacecast i32 addrspace(5)* %ptr to i32*
	store volatile i32 7, i32* %stof			store volatile i32 7, i32* %stof
	ret void			ret void
	}			}

	; no-op			; no-op
	; HSA-LABEL: {{^}}use_global_to_flat_addrspacecast:			; HSA-LABEL: {{^}}use_global_to_flat_addrspacecast:
	Show All 37 Lines
	}			}

	; HSA-LABEL: {{^}}use_flat_to_group_addrspacecast:			; HSA-LABEL: {{^}}use_flat_to_group_addrspacecast:
	; HSA: enable_sgpr_private_segment_buffer = 1			; HSA: enable_sgpr_private_segment_buffer = 1
	; HSA: enable_sgpr_dispatch_ptr = 0			; HSA: enable_sgpr_dispatch_ptr = 0
	; HSA: enable_sgpr_queue_ptr = 0			; HSA: enable_sgpr_queue_ptr = 0

	; HSA: s_load_dwordx2 s[[[PTR_LO:[0-9]+]]:[[PTR_HI:[0-9]+]]]			; HSA: s_load_dwordx2 s[[[PTR_LO:[0-9]+]]:[[PTR_HI:[0-9]+]]]
	; CI-DAG: v_cmp_ne_u64_e64 vcc, s[[[PTR_LO]]:[[PTR_HI]]], 0{{$}}			; CI-DAG: v_cmp_ne_u64_e64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], s[[[PTR_LO]]:[[PTR_HI]]], 0{{$}}
	; CI-DAG: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], s[[PTR_LO]]			; CI-DAG: s_and_b64 s{{[[0-9]+:[0-9]+]}}, s[[[CMP_LO]]:[[CMP_HI]]], exec
	; CI-DAG: v_cndmask_b32_e32 [[CASTPTR:v[0-9]+]], -1, v[[VPTR_LO]]			; CI-DAG: s_cselect_b32 [[CASTPTR:s[0-9]+]], s[[PTR_LO]], -1
				; CI-DAG: v_mov_b32_e32 [[VCASTPTR:v[0-9]+]], [[CASTPTR]]
	; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 0{{$}}			; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 0{{$}}
	; GFX9-DAG: s_cmp_lg_u64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], 0			; GFX9-DAG: s_cmp_lg_u64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], 0
	; GFX9-DAG: s_cselect_b32 s[[PTR_LO]], s[[PTR_LO]], -1			; GFX9-DAG: s_cselect_b32 s[[PTR_LO]], s[[PTR_LO]], -1
	; GFX9-DAG: v_mov_b32_e32 [[CASTPTR:v[0-9]+]], s[[PTR_LO]]			; GFX9-DAG: v_mov_b32_e32 [[CASTPTR:v[0-9]+]], s[[PTR_LO]]
	; HSA: ds_write_b32 [[CASTPTR]], v[[K]]			; CI-DAG: ds_write_b32 [[VCASTPTR]], v[[K]]
				; GFX9-DAG: ds_write_b32 [[CASTPTR]], v[[K]]
	define amdgpu_kernel void @use_flat_to_group_addrspacecast(i32* %ptr) #0 {			define amdgpu_kernel void @use_flat_to_group_addrspacecast(i32* %ptr) #0 {
	%ftos = addrspacecast i32* %ptr to i32 addrspace(3)*			%ftos = addrspacecast i32* %ptr to i32 addrspace(3)*
	store volatile i32 0, i32 addrspace(3)* %ftos			store volatile i32 0, i32 addrspace(3)* %ftos
	ret void			ret void
	}			}

	; HSA-LABEL: {{^}}use_flat_to_private_addrspacecast:			; HSA-LABEL: {{^}}use_flat_to_private_addrspacecast:
	; HSA: enable_sgpr_private_segment_buffer = 1			; HSA: enable_sgpr_private_segment_buffer = 1
	; HSA: enable_sgpr_dispatch_ptr = 0			; HSA: enable_sgpr_dispatch_ptr = 0
	; HSA: enable_sgpr_queue_ptr = 0			; HSA: enable_sgpr_queue_ptr = 0

	; HSA: s_load_dwordx2 s[[[PTR_LO:[0-9]+]]:[[PTR_HI:[0-9]+]]]			; HSA: s_load_dwordx2 s[[[PTR_LO:[0-9]+]]:[[PTR_HI:[0-9]+]]]
	; CI-DAG: v_cmp_ne_u64_e64 vcc, s[[[PTR_LO]]:[[PTR_HI]]], 0{{$}}			; CI-DAG v_cmp_ne_u64_e64 vcc, s[[[PTR_LO]]:[[PTR_HI]]], 0{{$}}
	; CI-DAG: v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], s[[PTR_LO]]			; CI-DAG v_mov_b32_e32 v[[VPTR_LO:[0-9]+]], s[[PTR_LO]]
	; CI-DAG: v_cndmask_b32_e32 [[CASTPTR:v[0-9]+]], -1, v[[VPTR_LO]]			; CI-DAG v_cndmask_b32_e32 [[CASTPTR:v[0-9]+]], -1, v[[VPTR_LO]]
				; CI-DAG: v_cmp_ne_u64_e64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], s[[[PTR_LO]]:[[PTR_HI]]], 0{{$}}
				; CI-DAG: s_and_b64 s{{[[0-9]+:[0-9]+]}}, s[[[CMP_LO]]:[[CMP_HI]]], exec
				; CI-DAG: s_cselect_b32 [[CASTPTR:s[0-9]+]], s[[PTR_LO]], -1
				; CI-DAG: v_mov_b32_e32 [[VCASTPTR:v[0-9]+]], [[CASTPTR]]
	; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 0{{$}}			; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 0{{$}}
	; GFX9-DAG: s_cmp_lg_u64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], 0			; GFX9-DAG: s_cmp_lg_u64 s[[[CMP_LO:[0-9]+]]:[[CMP_HI:[0-9]+]]], 0
	; GFX9-DAG: s_cselect_b32 s[[PTR_LO]], s[[PTR_LO]], -1			; GFX9-DAG: s_cselect_b32 s[[PTR_LO]], s[[PTR_LO]], -1
	; GFX9-DAG: v_mov_b32_e32 [[CASTPTR:v[0-9]+]], s[[PTR_LO]]			; GFX9-DAG: v_mov_b32_e32 [[CASTPTR:v[0-9]+]], s[[PTR_LO]]
	; HSA: buffer_store_dword v[[K]], [[CASTPTR]], s{{\[[0-9]+:[0-9]+\]}}, 0 offen{{$}}			; CI: buffer_store_dword v[[K]], [[VCASTPTR]], s{{\[[0-9]+:[0-9]+\]}}, 0 offen{{$}}
				; GFX9: buffer_store_dword v[[K]], [[CASTPTR]], s{{\[[0-9]+:[0-9]+\]}}, 0 offen{{$}}
	define amdgpu_kernel void @use_flat_to_private_addrspacecast(i32* %ptr) #0 {			define amdgpu_kernel void @use_flat_to_private_addrspacecast(i32* %ptr) #0 {
	%ftos = addrspacecast i32* %ptr to i32 addrspace(5)*			%ftos = addrspacecast i32* %ptr to i32 addrspace(5)*
	store volatile i32 0, i32 addrspace(5)* %ftos			store volatile i32 0, i32 addrspace(5)* %ftos
	ret void			ret void
	}			}

	; HSA-LABEL: {{^}}use_flat_to_global_addrspacecast:			; HSA-LABEL: {{^}}use_flat_to_global_addrspacecast:
	; HSA: enable_sgpr_queue_ptr = 0			; HSA: enable_sgpr_queue_ptr = 0
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

Show First 20 Lines • Show All 515 Lines • ▼ Show 20 Lines	; GFX90A-NEXT: s_setpc_b64 s[30:31]
call void asm sideeffect "; use $0 $1","{a3},{v[0:31]}"(i32 %agpr2, <32 x i32> %vgpr0)		call void asm sideeffect "; use $0 $1","{a3},{v[0:31]}"(i32 %agpr2, <32 x i32> %vgpr0)
call void asm sideeffect "; use $0","${v32}"(i32 %v32)		call void asm sideeffect "; use $0","${v32}"(i32 %v32)
ret void		ret void
}		}

define amdgpu_kernel void @introduced_copy_to_sgpr(i64 %arg, i32 %arg1, i32 %arg2, i64 %arg3, <2 x half> %arg4, <2 x half> %arg5) #3 {		define amdgpu_kernel void @introduced_copy_to_sgpr(i64 %arg, i32 %arg1, i32 %arg2, i64 %arg3, <2 x half> %arg4, <2 x half> %arg5) #3 {
; GFX908-LABEL: introduced_copy_to_sgpr:		; GFX908-LABEL: introduced_copy_to_sgpr:
; GFX908: ; %bb.0: ; %bb		; GFX908: ; %bb.0: ; %bb
; GFX908-NEXT: global_load_ushort v24, v[0:1], off glc		; GFX908-NEXT: global_load_ushort v16, v[0:1], off glc
; GFX908-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX908-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX908-NEXT: s_load_dwordx2 s[10:11], s[4:5], 0x10		; GFX908-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
; GFX908-NEXT: v_mov_b32_e32 v1, 0		; GFX908-NEXT: s_load_dword s9, s[4:5], 0x18
; GFX908-NEXT: s_load_dword s5, s[4:5], 0x18		; GFX908-NEXT: s_mov_b32 s8, 0
; GFX908-NEXT: s_mov_b32 s4, 0		; GFX908-NEXT: s_mov_b32 s5, s8
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX908-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX908-NEXT: s_sub_i32 s6, 0, s3		; GFX908-NEXT: s_sub_i32 s4, 0, s3
; GFX908-NEXT: s_lshl_b64 s[8:9], s[10:11], 5		; GFX908-NEXT: v_cvt_f32_f16_e32 v17, s9
; GFX908-NEXT: s_lshr_b32 s12, s5, 16		; GFX908-NEXT: v_mov_b32_e32 v19, 0
; GFX908-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX908-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GFX908-NEXT: v_cvt_f32_f16_e32 v25, s5		; GFX908-NEXT: v_mov_b32_e32 v0, 0
; GFX908-NEXT: v_cvt_f32_f16_e32 v26, s12		; GFX908-NEXT: v_mov_b32_e32 v1, 0
; GFX908-NEXT: s_or_b32 s8, s8, 28		; GFX908-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GFX908-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX908-NEXT: v_cvt_u32_f32_e32 v2, v2
; GFX908-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX908-NEXT: v_readfirstlane_b32 s10, v2
; GFX908-NEXT: v_mov_b32_e32 v6, s10		; GFX908-NEXT: s_mul_i32 s4, s4, s10
; GFX908-NEXT: v_mov_b32_e32 v7, s11		; GFX908-NEXT: s_mul_hi_u32 s4, s10, s4
; GFX908-NEXT: v_mul_lo_u32 v2, s6, v0		; GFX908-NEXT: s_add_i32 s10, s10, s4
; GFX908-NEXT: s_lshl_b64 s[6:7], s[0:1], 5		; GFX908-NEXT: s_mul_hi_u32 s4, s2, s10
; GFX908-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX908-NEXT: s_mul_i32 s10, s4, s3
; GFX908-NEXT: v_add_u32_e32 v0, v0, v2		; GFX908-NEXT: s_sub_i32 s2, s2, s10
; GFX908-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX908-NEXT: s_add_i32 s11, s4, 1
; GFX908-NEXT: v_mov_b32_e32 v2, s8		; GFX908-NEXT: s_sub_i32 s10, s2, s3
; GFX908-NEXT: v_mov_b32_e32 v3, s9		; GFX908-NEXT: s_cmp_ge_u32 s2, s3
; GFX908-NEXT: v_mul_lo_u32 v4, v0, s3		; GFX908-NEXT: s_cselect_b32 s4, s11, s4
; GFX908-NEXT: v_add_u32_e32 v5, 1, v0		; GFX908-NEXT: s_cselect_b32 s2, s10, s2
; GFX908-NEXT: v_sub_u32_e32 v4, s2, v4		; GFX908-NEXT: s_add_i32 s10, s4, 1
; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s3, v4		; GFX908-NEXT: s_cmp_ge_u32 s2, s3
; GFX908-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc		; GFX908-NEXT: s_cselect_b32 s4, s10, s4
; GFX908-NEXT: v_subrev_u32_e32 v5, s3, v4		; GFX908-NEXT: s_lshr_b32 s9, s9, 16
; GFX908-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc		; GFX908-NEXT: s_lshl_b64 s[12:13], s[4:5], 5
; GFX908-NEXT: v_add_u32_e32 v5, 1, v0		; GFX908-NEXT: v_cvt_f32_f16_e32 v18, s9
; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s3, v4		; GFX908-NEXT: s_lshl_b64 s[2:3], s[0:1], 5
; GFX908-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc		; GFX908-NEXT: s_lshl_b64 s[10:11], s[6:7], 5
; GFX908-NEXT: v_lshlrev_b64 v[4:5], 5, v[0:1]		; GFX908-NEXT: s_or_b32 s10, s10, 28
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: v_readfirstlane_b32 s2, v24		; GFX908-NEXT: v_readfirstlane_b32 s5, v16
; GFX908-NEXT: s_and_b32 s2, 0xffff, s2		; GFX908-NEXT: s_and_b32 s5, 0xffff, s5
; GFX908-NEXT: s_mul_i32 s1, s1, s2		; GFX908-NEXT: s_mul_i32 s1, s1, s5
; GFX908-NEXT: s_mul_hi_u32 s3, s0, s2		; GFX908-NEXT: s_mul_hi_u32 s9, s0, s5
; GFX908-NEXT: s_mul_i32 s0, s0, s2		; GFX908-NEXT: s_mul_i32 s0, s0, s5
; GFX908-NEXT: s_add_i32 s1, s3, s1		; GFX908-NEXT: s_add_i32 s1, s9, s1
; GFX908-NEXT: s_lshl_b64 s[8:9], s[0:1], 5		; GFX908-NEXT: s_lshl_b64 s[0:1], s[0:1], 5
; GFX908-NEXT: s_branch .LBB3_2		; GFX908-NEXT: s_branch .LBB3_2
; GFX908-NEXT: .LBB3_1: ; %bb12		; GFX908-NEXT: .LBB3_1: ; %bb12
; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX908-NEXT: v_add_co_u32_e32 v6, vcc, v6, v0		; GFX908-NEXT: s_add_u32 s6, s6, s4
; GFX908-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v7, vcc		; GFX908-NEXT: s_addc_u32 s7, s7, 0
; GFX908-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4		; GFX908-NEXT: s_add_u32 s10, s10, s12
; GFX908-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc		; GFX908-NEXT: s_addc_u32 s11, s11, s13
; GFX908-NEXT: .LBB3_2: ; %bb9		; GFX908-NEXT: .LBB3_2: ; %bb9
; GFX908-NEXT: ; =>This Loop Header: Depth=1		; GFX908-NEXT: ; =>This Loop Header: Depth=1
; GFX908-NEXT: ; Child Loop BB3_5 Depth 2		; GFX908-NEXT: ; Child Loop BB3_5 Depth 2
; GFX908-NEXT: s_cbranch_scc0 .LBB3_1		; GFX908-NEXT: s_cbranch_scc0 .LBB3_1
; GFX908-NEXT: ; %bb.3: ; %bb14		; GFX908-NEXT: ; %bb.3: ; %bb14
; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX908-NEXT: v_mov_b32_e32 v8, 0		; GFX908-NEXT: global_load_dwordx2 v[2:3], v[0:1], off
; GFX908-NEXT: v_mov_b32_e32 v9, 0		; GFX908-NEXT: s_mov_b32 s9, s8
; GFX908-NEXT: global_load_dwordx2 v[8:9], v[8:9], off		; GFX908-NEXT: v_mov_b32_e32 v4, s8
; GFX908-NEXT: s_mov_b32 s5, s4		; GFX908-NEXT: v_mov_b32_e32 v6, s8
; GFX908-NEXT: v_mov_b32_e32 v13, s5		; GFX908-NEXT: v_mov_b32_e32 v8, s8
; GFX908-NEXT: v_mov_b32_e32 v15, s5		; GFX908-NEXT: v_mov_b32_e32 v5, s9
; GFX908-NEXT: v_mov_b32_e32 v17, s5		; GFX908-NEXT: v_mov_b32_e32 v7, s9
; GFX908-NEXT: v_mov_b32_e32 v12, s4		; GFX908-NEXT: v_mov_b32_e32 v9, s9
; GFX908-NEXT: v_mov_b32_e32 v14, s4		; GFX908-NEXT: v_cmp_lt_i64_e64 s[14:15], s[6:7], 0
; GFX908-NEXT: v_mov_b32_e32 v16, s4		; GFX908-NEXT: v_mov_b32_e32 v11, v5
; GFX908-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[6:7]		; GFX908-NEXT: s_mov_b64 s[16:17], s[10:11]
; GFX908-NEXT: v_mov_b32_e32 v11, v3		; GFX908-NEXT: v_mov_b32_e32 v10, v4
; GFX908-NEXT: v_mov_b32_e32 v19, v13		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: v_mov_b32_e32 v10, v2		; GFX908-NEXT: v_readfirstlane_b32 s5, v2
; GFX908-NEXT: v_mov_b32_e32 v18, v12		; GFX908-NEXT: v_readfirstlane_b32 s9, v3
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_add_u32 s5, s5, 1
; GFX908-NEXT: v_readfirstlane_b32 s2, v8		; GFX908-NEXT: s_addc_u32 s9, s9, 0
; GFX908-NEXT: v_readfirstlane_b32 s3, v9		; GFX908-NEXT: s_mul_hi_u32 s19, s2, s5
; GFX908-NEXT: s_add_u32 s2, s2, 1		; GFX908-NEXT: s_mul_i32 s20, s3, s5
; GFX908-NEXT: s_addc_u32 s3, s3, 0		; GFX908-NEXT: s_mul_i32 s18, s2, s5
; GFX908-NEXT: s_mul_hi_u32 s5, s6, s2		; GFX908-NEXT: s_mul_i32 s5, s2, s9
; GFX908-NEXT: s_mul_i32 s11, s7, s2		; GFX908-NEXT: s_add_i32 s5, s19, s5
; GFX908-NEXT: s_mul_i32 s10, s6, s2		; GFX908-NEXT: s_add_i32 s5, s5, s20
; GFX908-NEXT: s_mul_i32 s2, s6, s3
; GFX908-NEXT: s_add_i32 s2, s5, s2
; GFX908-NEXT: s_add_i32 s5, s2, s11
; GFX908-NEXT: s_branch .LBB3_5		; GFX908-NEXT: s_branch .LBB3_5
; GFX908-NEXT: .LBB3_4: ; %bb58		; GFX908-NEXT: .LBB3_4: ; %bb58
; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX908-NEXT: v_add_co_u32_sdwa v8, vcc, v8, v24 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX908-NEXT: v_add_co_u32_sdwa v2, vcc, v2, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX908-NEXT: v_addc_co_u32_e32 v9, vcc, 0, v9, vcc		; GFX908-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX908-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[8:9]		; GFX908-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[2:3]
; GFX908-NEXT: v_mov_b32_e32 v20, s9		; GFX908-NEXT: s_add_u32 s16, s16, s0
; GFX908-NEXT: v_add_co_u32_e64 v10, s[2:3], s8, v10		; GFX908-NEXT: s_addc_u32 s17, s17, s1
; GFX908-NEXT: v_addc_co_u32_e64 v11, s[2:3], v11, v20, s[2:3]
; GFX908-NEXT: s_cbranch_vccz .LBB3_1		; GFX908-NEXT: s_cbranch_vccz .LBB3_1
; GFX908-NEXT: .LBB3_5: ; %bb16		; GFX908-NEXT: .LBB3_5: ; %bb16
; GFX908-NEXT: ; Parent Loop BB3_2 Depth=1		; GFX908-NEXT: ; Parent Loop BB3_2 Depth=1
; GFX908-NEXT: ; => This Inner Loop Header: Depth=2		; GFX908-NEXT: ; => This Inner Loop Header: Depth=2
; GFX908-NEXT: v_mov_b32_e32 v21, s5		; GFX908-NEXT: s_add_u32 s20, s16, s18
; GFX908-NEXT: v_add_co_u32_e32 v20, vcc, s10, v10		; GFX908-NEXT: s_addc_u32 s21, s17, s5
; GFX908-NEXT: v_addc_co_u32_e32 v21, vcc, v11, v21, vcc		; GFX908-NEXT: global_load_dword v21, v19, s[20:21] offset:-12 glc
; GFX908-NEXT: global_load_dword v28, v[20:21], off offset:-12 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v27, v[20:21], off offset:-8 glc		; GFX908-NEXT: global_load_dword v20, v19, s[20:21] offset:-8 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v22, v[20:21], off offset:-4 glc		; GFX908-NEXT: global_load_dword v12, v19, s[20:21] offset:-4 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v20, v[20:21], off glc		; GFX908-NEXT: global_load_dword v12, v19, s[20:21] glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: ds_read_b64 v[20:21], v1		; GFX908-NEXT: ds_read_b64 v[12:13], v19
; GFX908-NEXT: ds_read_b64 v[22:23], v0		; GFX908-NEXT: ds_read_b64 v[14:15], v0
; GFX908-NEXT: s_and_b64 vcc, exec, s[0:1]		; GFX908-NEXT: s_and_b64 vcc, exec, s[14:15]
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: s_cbranch_vccnz .LBB3_4		; GFX908-NEXT: s_cbranch_vccnz .LBB3_4
; GFX908-NEXT: ; %bb.6: ; %bb51		; GFX908-NEXT: ; %bb.6: ; %bb51
; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX908-NEXT: v_cvt_f32_f16_sdwa v29, v28 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX908-NEXT: v_cvt_f32_f16_sdwa v22, v21 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX908-NEXT: v_cvt_f32_f16_e32 v28, v28		; GFX908-NEXT: v_cvt_f32_f16_e32 v21, v21
; GFX908-NEXT: v_cvt_f32_f16_sdwa v30, v27 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX908-NEXT: v_cvt_f32_f16_sdwa v23, v20 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX908-NEXT: v_cvt_f32_f16_e32 v27, v27		; GFX908-NEXT: v_cvt_f32_f16_e32 v20, v20
; GFX908-NEXT: v_add_f32_e32 v31, v25, v20		; GFX908-NEXT: v_add_f32_e32 v24, v17, v12
; GFX908-NEXT: v_add_f32_e32 v32, v26, v21		; GFX908-NEXT: v_add_f32_e32 v25, v18, v13
; GFX908-NEXT: v_add_f32_e32 v33, 0, v20		; GFX908-NEXT: v_add_f32_e32 v26, 0, v12
; GFX908-NEXT: v_add_f32_e32 v34, 0, v21		; GFX908-NEXT: v_add_f32_e32 v27, 0, v13
; GFX908-NEXT: v_add_f32_e32 v23, v29, v23		; GFX908-NEXT: v_add_f32_e32 v15, v22, v15
; GFX908-NEXT: v_add_f32_e32 v22, v28, v22		; GFX908-NEXT: v_add_f32_e32 v14, v21, v14
; GFX908-NEXT: v_add_f32_e32 v21, v30, v21		; GFX908-NEXT: v_add_f32_e32 v13, v23, v13
; GFX908-NEXT: v_add_f32_e32 v20, v27, v20		; GFX908-NEXT: v_add_f32_e32 v12, v20, v12
; GFX908-NEXT: v_add_f32_e32 v13, v13, v32		; GFX908-NEXT: v_add_f32_e32 v5, v5, v25
; GFX908-NEXT: v_add_f32_e32 v12, v12, v31		; GFX908-NEXT: v_add_f32_e32 v4, v4, v24
; GFX908-NEXT: v_add_f32_e32 v15, v15, v34		; GFX908-NEXT: v_add_f32_e32 v7, v7, v27
; GFX908-NEXT: v_add_f32_e32 v14, v14, v33		; GFX908-NEXT: v_add_f32_e32 v6, v6, v26
; GFX908-NEXT: v_add_f32_e32 v16, v16, v22		; GFX908-NEXT: v_add_f32_e32 v8, v8, v14
; GFX908-NEXT: v_add_f32_e32 v17, v17, v23		; GFX908-NEXT: v_add_f32_e32 v9, v9, v15
; GFX908-NEXT: v_add_f32_e32 v18, v18, v20		; GFX908-NEXT: v_add_f32_e32 v10, v10, v12
; GFX908-NEXT: v_add_f32_e32 v19, v19, v21		; GFX908-NEXT: v_add_f32_e32 v11, v11, v13
; GFX908-NEXT: s_branch .LBB3_4		; GFX908-NEXT: s_branch .LBB3_4
;		;
; GFX90A-LABEL: introduced_copy_to_sgpr:		; GFX90A-LABEL: introduced_copy_to_sgpr:
; GFX90A: ; %bb.0: ; %bb		; GFX90A: ; %bb.0: ; %bb
; GFX90A-NEXT: global_load_ushort v28, v[0:1], off glc		; GFX90A-NEXT: global_load_ushort v18, v[0:1], off glc
; GFX90A-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX90A-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX90A-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x10		; GFX90A-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
; GFX90A-NEXT: s_load_dword s7, s[4:5], 0x18		; GFX90A-NEXT: s_load_dword s9, s[4:5], 0x18
; GFX90A-NEXT: v_mov_b32_e32 v1, 0		; GFX90A-NEXT: s_mov_b32 s8, 0
; GFX90A-NEXT: s_mov_b32 s6, 0		; GFX90A-NEXT: s_mov_b32 s5, s8
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX90A-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX90A-NEXT: s_sub_i32 s12, 0, s3		; GFX90A-NEXT: s_sub_i32 s4, 0, s3
; GFX90A-NEXT: s_lshr_b32 s13, s7, 16		; GFX90A-NEXT: v_mov_b32_e32 v19, 0
; GFX90A-NEXT: v_cvt_f32_f16_e32 v2, s7		; GFX90A-NEXT: v_pk_mov_b32 v[2:3], 0, 0
; GFX90A-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX90A-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX90A-NEXT: v_cvt_f32_f16_e32 v3, s13
; GFX90A-NEXT: s_lshl_b64 s[4:5], s[0:1], 5
; GFX90A-NEXT: s_lshl_b64 s[10:11], s[8:9], 5
; GFX90A-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX90A-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX90A-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX90A-NEXT: v_cvt_u32_f32_e32 v1, v0
		; GFX90A-NEXT: v_cvt_f32_f16_e32 v0, s9
		; GFX90A-NEXT: v_readfirstlane_b32 s10, v1
		; GFX90A-NEXT: s_mul_i32 s4, s4, s10
		; GFX90A-NEXT: s_mul_hi_u32 s4, s10, s4
		; GFX90A-NEXT: s_add_i32 s10, s10, s4
		; GFX90A-NEXT: s_mul_hi_u32 s4, s2, s10
		; GFX90A-NEXT: s_mul_i32 s10, s4, s3
		; GFX90A-NEXT: s_sub_i32 s2, s2, s10
		; GFX90A-NEXT: s_add_i32 s11, s4, 1
		; GFX90A-NEXT: s_sub_i32 s10, s2, s3
		; GFX90A-NEXT: s_cmp_ge_u32 s2, s3
		; GFX90A-NEXT: s_cselect_b32 s4, s11, s4
		; GFX90A-NEXT: s_cselect_b32 s2, s10, s2
		; GFX90A-NEXT: s_add_i32 s10, s4, 1
		; GFX90A-NEXT: s_cmp_ge_u32 s2, s3
		; GFX90A-NEXT: s_cselect_b32 s4, s10, s4
		; GFX90A-NEXT: s_lshr_b32 s9, s9, 16
		; GFX90A-NEXT: s_lshl_b64 s[12:13], s[4:5], 5
		; GFX90A-NEXT: v_cvt_f32_f16_e32 v1, s9
		; GFX90A-NEXT: s_lshl_b64 s[2:3], s[0:1], 5
		; GFX90A-NEXT: s_lshl_b64 s[10:11], s[6:7], 5
; GFX90A-NEXT: s_or_b32 s10, s10, 28		; GFX90A-NEXT: s_or_b32 s10, s10, 28
; GFX90A-NEXT: v_pk_mov_b32 v[4:5], s[8:9], s[8:9] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[10:11], s[10:11] op_sel:[0,1]
; GFX90A-NEXT: v_mul_lo_u32 v8, s12, v0
; GFX90A-NEXT: v_mul_hi_u32 v8, v0, v8
; GFX90A-NEXT: v_add_u32_e32 v0, v0, v8
; GFX90A-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX90A-NEXT: v_mul_lo_u32 v8, v0, s3
; GFX90A-NEXT: v_sub_u32_e32 v8, s2, v8
; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s3, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
; GFX90A-NEXT: v_subrev_u32_e32 v9, s3, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc
; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s3, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
; GFX90A-NEXT: v_lshlrev_b64 v[8:9], 5, v[0:1]
; GFX90A-NEXT: v_pk_mov_b32 v[10:11], 0, 0
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: v_readfirstlane_b32 s2, v28		; GFX90A-NEXT: v_readfirstlane_b32 s5, v18
; GFX90A-NEXT: s_and_b32 s2, 0xffff, s2		; GFX90A-NEXT: s_and_b32 s5, 0xffff, s5
; GFX90A-NEXT: s_mul_i32 s1, s1, s2		; GFX90A-NEXT: s_mul_i32 s1, s1, s5
; GFX90A-NEXT: s_mul_hi_u32 s3, s0, s2		; GFX90A-NEXT: s_mul_hi_u32 s9, s0, s5
; GFX90A-NEXT: s_mul_i32 s0, s0, s2		; GFX90A-NEXT: s_mul_i32 s0, s0, s5
; GFX90A-NEXT: s_add_i32 s1, s3, s1		; GFX90A-NEXT: s_add_i32 s1, s9, s1
; GFX90A-NEXT: s_lshl_b64 s[2:3], s[0:1], 5		; GFX90A-NEXT: s_lshl_b64 s[0:1], s[0:1], 5
; GFX90A-NEXT: s_branch .LBB3_2		; GFX90A-NEXT: s_branch .LBB3_2
; GFX90A-NEXT: .LBB3_1: ; %bb12		; GFX90A-NEXT: .LBB3_1: ; %bb12
; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX90A-NEXT: v_add_co_u32_e32 v4, vcc, v4, v0		; GFX90A-NEXT: s_add_u32 s6, s6, s4
; GFX90A-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc		; GFX90A-NEXT: s_addc_u32 s7, s7, 0
; GFX90A-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8		; GFX90A-NEXT: s_add_u32 s10, s10, s12
; GFX90A-NEXT: v_addc_co_u32_e32 v7, vcc, v7, v9, vcc		; GFX90A-NEXT: s_addc_u32 s11, s11, s13
; GFX90A-NEXT: .LBB3_2: ; %bb9		; GFX90A-NEXT: .LBB3_2: ; %bb9
; GFX90A-NEXT: ; =>This Loop Header: Depth=1		; GFX90A-NEXT: ; =>This Loop Header: Depth=1
; GFX90A-NEXT: ; Child Loop BB3_5 Depth 2		; GFX90A-NEXT: ; Child Loop BB3_5 Depth 2
; GFX90A-NEXT: s_cbranch_scc0 .LBB3_1		; GFX90A-NEXT: s_cbranch_scc0 .LBB3_1
; GFX90A-NEXT: ; %bb.3: ; %bb14		; GFX90A-NEXT: ; %bb.3: ; %bb14
; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX90A-NEXT: global_load_dwordx2 v[12:13], v[10:11], off		; GFX90A-NEXT: global_load_dwordx2 v[4:5], v[2:3], off
; GFX90A-NEXT: s_mov_b32 s7, s6		; GFX90A-NEXT: s_mov_b32 s9, s8
; GFX90A-NEXT: v_pk_mov_b32 v[16:17], s[6:7], s[6:7] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[8:9], s[8:9] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[18:19], s[6:7], s[6:7] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[8:9], s[8:9], s[8:9] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[20:21], s[6:7], s[6:7] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[10:11], s[8:9], s[8:9] op_sel:[0,1]
; GFX90A-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[4:5]		; GFX90A-NEXT: v_cmp_lt_i64_e64 s[14:15], s[6:7], 0
; GFX90A-NEXT: v_pk_mov_b32 v[14:15], v[6:7], v[6:7] op_sel:[0,1]		; GFX90A-NEXT: s_mov_b64 s[16:17], s[10:11]
; GFX90A-NEXT: v_pk_mov_b32 v[22:23], v[16:17], v[16:17] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[12:13], v[6:7], v[6:7] op_sel:[0,1]
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: v_readfirstlane_b32 s7, v12		; GFX90A-NEXT: v_readfirstlane_b32 s5, v4
; GFX90A-NEXT: v_readfirstlane_b32 s8, v13		; GFX90A-NEXT: v_readfirstlane_b32 s9, v5
; GFX90A-NEXT: s_add_u32 s7, s7, 1		; GFX90A-NEXT: s_add_u32 s5, s5, 1
; GFX90A-NEXT: s_addc_u32 s9, s8, 0		; GFX90A-NEXT: s_addc_u32 s9, s9, 0
; GFX90A-NEXT: s_mul_hi_u32 s10, s4, s7		; GFX90A-NEXT: s_mul_hi_u32 s19, s2, s5
; GFX90A-NEXT: s_mul_i32 s11, s5, s7		; GFX90A-NEXT: s_mul_i32 s20, s3, s5
; GFX90A-NEXT: s_mul_i32 s8, s4, s7		; GFX90A-NEXT: s_mul_i32 s18, s2, s5
; GFX90A-NEXT: s_mul_i32 s7, s4, s9		; GFX90A-NEXT: s_mul_i32 s5, s2, s9
; GFX90A-NEXT: s_add_i32 s7, s10, s7		; GFX90A-NEXT: s_add_i32 s5, s19, s5
; GFX90A-NEXT: s_add_i32 s7, s7, s11		; GFX90A-NEXT: s_add_i32 s5, s5, s20
; GFX90A-NEXT: s_branch .LBB3_5		; GFX90A-NEXT: s_branch .LBB3_5
; GFX90A-NEXT: .LBB3_4: ; %bb58		; GFX90A-NEXT: .LBB3_4: ; %bb58
; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX90A-NEXT: v_add_co_u32_sdwa v12, vcc, v12, v28 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX90A-NEXT: v_add_co_u32_sdwa v4, vcc, v4, v18 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX90A-NEXT: v_addc_co_u32_e32 v13, vcc, 0, v13, vcc		; GFX90A-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
; GFX90A-NEXT: v_mov_b32_e32 v24, s3		; GFX90A-NEXT: s_add_u32 s16, s16, s0
; GFX90A-NEXT: v_add_co_u32_e32 v14, vcc, s2, v14		; GFX90A-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[4:5]
; GFX90A-NEXT: v_addc_co_u32_e32 v15, vcc, v15, v24, vcc		; GFX90A-NEXT: s_addc_u32 s17, s17, s1
; GFX90A-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[12:13]
; GFX90A-NEXT: s_cbranch_vccz .LBB3_1		; GFX90A-NEXT: s_cbranch_vccz .LBB3_1
; GFX90A-NEXT: .LBB3_5: ; %bb16		; GFX90A-NEXT: .LBB3_5: ; %bb16
; GFX90A-NEXT: ; Parent Loop BB3_2 Depth=1		; GFX90A-NEXT: ; Parent Loop BB3_2 Depth=1
; GFX90A-NEXT: ; => This Inner Loop Header: Depth=2		; GFX90A-NEXT: ; => This Inner Loop Header: Depth=2
; GFX90A-NEXT: v_mov_b32_e32 v25, s7		; GFX90A-NEXT: s_add_u32 s20, s16, s18
; GFX90A-NEXT: v_add_co_u32_e32 v24, vcc, s8, v14		; GFX90A-NEXT: s_addc_u32 s21, s17, s5
; GFX90A-NEXT: v_addc_co_u32_e32 v25, vcc, v15, v25, vcc		; GFX90A-NEXT: global_load_dword v21, v19, s[20:21] offset:-12 glc
; GFX90A-NEXT: global_load_dword v30, v[24:25], off offset:-12 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v29, v[24:25], off offset:-8 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v26, v[24:25], off offset:-4 glc		; GFX90A-NEXT: global_load_dword v20, v19, s[20:21] offset:-8 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v26, v[24:25], off glc		; GFX90A-NEXT: global_load_dword v14, v19, s[20:21] offset:-4 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: ; kill: killed $vgpr24 killed $vgpr25		; GFX90A-NEXT: global_load_dword v14, v19, s[20:21] glc
; GFX90A-NEXT: ds_read_b64 v[24:25], v1
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: ds_read_b64 v[26:27], v0		; GFX90A-NEXT: ds_read_b64 v[14:15], v19
; GFX90A-NEXT: s_and_b64 vcc, exec, s[0:1]		; GFX90A-NEXT: ds_read_b64 v[16:17], v0
		; GFX90A-NEXT: s_and_b64 vcc, exec, s[14:15]
		; GFX90A-NEXT: ; kill: killed $sgpr20 killed $sgpr21
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: s_cbranch_vccnz .LBB3_4		; GFX90A-NEXT: s_cbranch_vccnz .LBB3_4
; GFX90A-NEXT: ; %bb.6: ; %bb51		; GFX90A-NEXT: ; %bb.6: ; %bb51
; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX90A-NEXT: v_cvt_f32_f16_sdwa v31, v30 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX90A-NEXT: v_cvt_f32_f16_sdwa v23, v21 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX90A-NEXT: v_cvt_f32_f16_e32 v30, v30		; GFX90A-NEXT: v_cvt_f32_f16_e32 v22, v21
; GFX90A-NEXT: v_cvt_f32_f16_sdwa v33, v29 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX90A-NEXT: v_cvt_f32_f16_sdwa v21, v20 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX90A-NEXT: v_cvt_f32_f16_e32 v32, v29		; GFX90A-NEXT: v_cvt_f32_f16_e32 v20, v20
; GFX90A-NEXT: v_pk_add_f32 v[34:35], v[2:3], v[24:25]		; GFX90A-NEXT: v_pk_add_f32 v[24:25], v[0:1], v[14:15]
; GFX90A-NEXT: v_pk_add_f32 v[36:37], v[24:25], 0 op_sel_hi:[1,0]		; GFX90A-NEXT: v_pk_add_f32 v[26:27], v[14:15], 0 op_sel_hi:[1,0]
; GFX90A-NEXT: v_pk_add_f32 v[26:27], v[30:31], v[26:27]		; GFX90A-NEXT: v_pk_add_f32 v[16:17], v[22:23], v[16:17]
; GFX90A-NEXT: v_pk_add_f32 v[24:25], v[32:33], v[24:25]		; GFX90A-NEXT: v_pk_add_f32 v[14:15], v[20:21], v[14:15]
; GFX90A-NEXT: v_pk_add_f32 v[16:17], v[16:17], v[34:35]		; GFX90A-NEXT: v_pk_add_f32 v[6:7], v[6:7], v[24:25]
; GFX90A-NEXT: v_pk_add_f32 v[18:19], v[18:19], v[36:37]		; GFX90A-NEXT: v_pk_add_f32 v[8:9], v[8:9], v[26:27]
; GFX90A-NEXT: v_pk_add_f32 v[20:21], v[20:21], v[26:27]		; GFX90A-NEXT: v_pk_add_f32 v[10:11], v[10:11], v[16:17]
; GFX90A-NEXT: v_pk_add_f32 v[22:23], v[22:23], v[24:25]		; GFX90A-NEXT: v_pk_add_f32 v[12:13], v[12:13], v[14:15]
; GFX90A-NEXT: s_branch .LBB3_4		; GFX90A-NEXT: s_branch .LBB3_4
bb:		bb:
%i = load volatile i16, i16 addrspace(4)* undef, align 2		%i = load volatile i16, i16 addrspace(4)* undef, align 2
%i6 = zext i16 %i to i64		%i6 = zext i16 %i to i64
%i7 = udiv i32 %arg1, %arg2		%i7 = udiv i32 %arg1, %arg2
%i8 = zext i32 %i7 to i64		%i8 = zext i32 %i7 to i64
br label %bb9		br label %bb9

▲ Show 20 Lines • Show All 328 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: s_mul_i32 s0, s0, s3
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: s_sub_i32 s0, s2, s0
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GFX6-NEXT: s_sub_i32 s1, s0, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; GFX6-NEXT: s_cmp_ge_u32 s0, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX6-NEXT: s_cselect_b32 s0, s1, s0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
				; GFX6-NEXT: s_cmp_ge_u32 s0, s3
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_i32:			; GFX9-LABEL: udiv_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s4, 0, s3			; GFX9-NEXT: s_sub_i32 s4, 0, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s5, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: s_mul_i32 s4, s4, s5
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: s_add_i32 s5, s5, s4
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: s_mul_hi_u32 s4, s2, s5
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: s_mul_i32 s5, s4, s3
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: s_sub_i32 s2, s2, s5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_add_i32 s6, s4, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_sub_i32 s5, s2, s3
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_cselect_b32 s4, s6, s4
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: s_cselect_b32 s2, s5, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_add_i32 s5, s4, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: s_cselect_b32 s2, s5, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv i32 %x, %y			%r = udiv i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {			define amdgpu_kernel void @urem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {
	; CHECK-LABEL: @urem_i32(			; CHECK-LABEL: @urem_i32(
	Show All 37 Lines
	; GFX6-NEXT: s_sub_i32 s4, 0, s3			; GFX6-NEXT: s_sub_i32 s4, 0, s3
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GFX6-NEXT: s_mul_i32 s0, s0, s3
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s3, v0			; GFX6-NEXT: s_sub_i32 s0, s2, s0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX6-NEXT: s_sub_i32 s1, s0, s3
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s0, s3
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s3, v0			; GFX6-NEXT: s_cselect_b32 s0, s1, s0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX6-NEXT: s_sub_i32 s1, s0, s3
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s0, s3
				; GFX6-NEXT: s_cselect_b32 s0, s1, s0
				; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i32:			; GFX9-LABEL: urem_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_xor_b32 s3, s3, s8			; GFX6-NEXT: s_xor_b32 s3, s3, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX6-NEXT: s_sub_i32 s4, 0, s3			; GFX6-NEXT: s_sub_i32 s4, 0, s3
	; GFX6-NEXT: s_ashr_i32 s9, s2, 31			; GFX6-NEXT: s_ashr_i32 s9, s2, 31
	; GFX6-NEXT: s_add_i32 s2, s2, s9			; GFX6-NEXT: s_add_i32 s2, s2, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s2, s2, s9			; GFX6-NEXT: s_xor_b32 s2, s2, s9
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
				; GFX6-NEXT: s_xor_b32 s0, s9, s8
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX6-NEXT: v_readfirstlane_b32 s1, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: s_mul_i32 s1, s1, s3
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: s_sub_i32 s1, s2, s1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GFX6-NEXT: s_sub_i32 s2, s1, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; GFX6-NEXT: s_cmp_ge_u32 s1, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX6-NEXT: s_cselect_b32 s1, s2, s1
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s1, s3
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0
				; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32:			; GFX9-LABEL: sdiv_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s4, s3, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s4			; GFX9-NEXT: s_add_i32 s3, s3, s4
	; GFX9-NEXT: s_xor_b32 s3, s3, s4			; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s5, 0, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s5, v0
	; GFX9-NEXT: s_ashr_i32 s5, s2, 31			; GFX9-NEXT: s_ashr_i32 s5, s2, 31
	; GFX9-NEXT: s_add_i32 s2, s2, s5			; GFX9-NEXT: s_add_i32 s2, s2, s5
	; GFX9-NEXT: s_xor_b32 s2, s2, s5
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX9-NEXT: s_xor_b32 s4, s5, s4			; GFX9-NEXT: s_xor_b32 s4, s5, s4
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: s_xor_b32 s2, s2, s5
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: s_sub_i32 s5, 0, s3
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: s_mul_hi_u32 s5, s2, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_mul_i32 s6, s5, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_sub_i32 s2, s2, s6
	; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX9-NEXT: s_add_i32 s7, s5, 1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0			; GFX9-NEXT: s_sub_i32 s6, s2, s3
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s5, s7, s5
				; GFX9-NEXT: s_cselect_b32 s2, s6, s2
				; GFX9-NEXT: s_add_i32 s6, s5, 1
				; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s2, s6, s5
				; GFX9-NEXT: s_xor_b32 s2, s2, s4
				; GFX9-NEXT: s_sub_i32 s2, s2, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv i32 %x, %y			%r = sdiv i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {			define amdgpu_kernel void @srem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {
	; CHECK-LABEL: @srem_i32(			; CHECK-LABEL: @srem_i32(
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4			; GFX6-NEXT: v_readfirstlane_b32 s7, v0
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GFX6-NEXT: s_mul_i32 s7, s7, s4
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s6, s6, s7
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s7, s6, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s6, s4
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: s_cselect_b32 s6, s7, s6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s7, s6, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s6, s4
	; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0			; GFX6-NEXT: s_cselect_b32 s4, s7, s6
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0			; GFX6-NEXT: s_xor_b32 s4, s4, s5
				; GFX6-NEXT: s_sub_i32 s4, s4, s5
				; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i32:			; GFX9-LABEL: srem_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s5, s4, 16			; GFX6-NEXT: s_ashr_i32 s5, s4, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GFX6-NEXT: s_sext_i32_i16 s4, s4			; GFX6-NEXT: s_sext_i32_i16 s4, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GFX6-NEXT: s_xor_b32 s4, s4, s5			; GFX6-NEXT: s_xor_b32 s4, s4, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i16:			; GFX9-LABEL: sdiv_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store i16 [[TMP23]], i16 addrspace(1)* [[OUT:%.*]], align 2			; CHECK-NEXT: store i16 [[TMP23]], i16 addrspace(1)* [[OUT:%.*]], align 2
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_i16:			; GFX6-LABEL: srem_i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s2, s4, 16			; GFX6-NEXT: s_ashr_i32 s5, s4, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GFX6-NEXT: s_sext_i32_i16 s3, s4			; GFX6-NEXT: s_sext_i32_i16 s2, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s3			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s2
	; GFX6-NEXT: s_xor_b32 s3, s3, s2			; GFX6-NEXT: s_xor_b32 s2, s2, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s3, s3, 30			; GFX6-NEXT: s_ashr_i32 s2, s2, 30
	; GFX6-NEXT: s_or_b32 s3, s3, 1			; GFX6-NEXT: s_or_b32 s6, s2, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s3
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[2:3], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[2:3], s[2:3], exec
				; GFX6-NEXT: s_cselect_b32 s2, s6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, s2, v2
				; GFX6-NEXT: v_mul_lo_u32 v0, v0, s5
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i16:			; GFX9-LABEL: srem_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_bfe_i32 s5, s4, 0x80008			; GFX6-NEXT: s_bfe_i32 s5, s4, 0x80008
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GFX6-NEXT: s_sext_i32_i8 s4, s4			; GFX6-NEXT: s_sext_i32_i8 s4, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GFX6-NEXT: s_xor_b32 s4, s4, s5			; GFX6-NEXT: s_xor_b32 s4, s4, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i8:			; GFX9-LABEL: sdiv_i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	;			;
	; GFX6-LABEL: srem_i8:			; GFX6-LABEL: srem_i8:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_bfe_i32 s2, s4, 0x80008			; GFX6-NEXT: s_bfe_i32 s2, s4, 0x80008
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GFX6-NEXT: s_sext_i32_i8 s5, s4			; GFX6-NEXT: s_sext_i32_i8 s3, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s3
	; GFX6-NEXT: s_xor_b32 s2, s5, s2			; GFX6-NEXT: s_xor_b32 s2, s3, s2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s2, s2, 30			; GFX6-NEXT: s_ashr_i32 s2, s2, 30
	; GFX6-NEXT: s_or_b32 s2, s2, 1			; GFX6-NEXT: s_lshr_b32 s5, s4, 8
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: s_or_b32 s6, s2, 1
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[2:3], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[2:3], s[2:3], exec
	; GFX6-NEXT: s_lshr_b32 s3, s4, 8			; GFX6-NEXT: s_cselect_b32 s2, s6, 0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s5
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i8:			; GFX9-LABEL: srem_i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP126:%.*]] = add i32 [[TMP122]], 1			; CHECK-NEXT: [[TMP126:%.*]] = add i32 [[TMP122]], 1
	; CHECK-NEXT: [[TMP127:%.*]] = select i1 [[TMP125]], i32 [[TMP126]], i32 [[TMP122]]			; CHECK-NEXT: [[TMP127:%.*]] = select i1 [[TMP125]], i32 [[TMP126]], i32 [[TMP122]]
	; CHECK-NEXT: [[TMP128:%.*]] = insertelement <4 x i32> [[TMP96]], i32 [[TMP127]], i64 3			; CHECK-NEXT: [[TMP128:%.*]] = insertelement <4 x i32> [[TMP96]], i32 [[TMP127]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP128]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP128]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: udiv_v4i32:			; GFX6-LABEL: udiv_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[16:17], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s15, 0xf000			; GFX6-NEXT: s_mov_b32 s19, 0xf000
	; GFX6-NEXT: s_mov_b32 s14, -1			; GFX6-NEXT: s_mov_b32 s18, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: s_sub_i32 s2, 0, s12
	; GFX6-NEXT: s_sub_i32 s2, 0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s13
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s14
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s15
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s11			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v6
				; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
				; GFX6-NEXT: v_mul_hi_u32 v0, s8, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s9			; GFX6-NEXT: s_mul_i32 s2, s2, s12
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: s_sub_i32 s2, s8, s2
	; GFX6-NEXT: s_sub_i32 s2, 0, s10			; GFX6-NEXT: s_sub_i32 s3, s2, s12
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: s_cmp_ge_u32 s2, s12
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
				; GFX6-NEXT: s_cselect_b32 s2, s3, s2
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: s_cmp_ge_u32 s2, s12
				; GFX6-NEXT: s_cselect_b64 s[2:3], -1, 0
				; GFX6-NEXT: s_sub_i32 s4, 0, s13
				; GFX6-NEXT: v_mul_lo_u32 v3, s4, v1
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[2:3]
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v1, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: v_readfirstlane_b32 s4, v1
	; GFX6-NEXT: v_mul_lo_u32 v5, v1, s9			; GFX6-NEXT: s_mul_i32 s4, s4, s13
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: s_sub_i32 s4, s9, s4
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2			; GFX6-NEXT: s_sub_i32 s5, s4, s13
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX6-NEXT: s_cmp_ge_u32 s4, s13
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s5, v5
	; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v3			; GFX6-NEXT: s_cselect_b32 s4, s5, s4
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2			; GFX6-NEXT: s_cmp_ge_u32 s4, s13
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v3			; GFX6-NEXT: s_cselect_b64 s[4:5], -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: s_sub_i32 s6, 0, s14
	; GFX6-NEXT: v_mul_hi_u32 v4, v2, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s6, v3
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v1			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: s_sub_i32 s0, 0, s11			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v5, v3, v5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v6			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[4:5]
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v3
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v6
	; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_readfirstlane_b32 s6, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v2, s10			; GFX6-NEXT: s_mul_i32 s6, s6, s14
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2			; GFX6-NEXT: s_sub_i32 s6, s10, s6
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: s_sub_i32 s7, s6, s14
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s6, v3			; GFX6-NEXT: s_cmp_ge_u32 s6, s14
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v3			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: s_cselect_b32 s6, s7, s6
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, s10, v3			; GFX6-NEXT: s_cmp_ge_u32 s6, s14
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: s_cselect_b64 s[6:7], -1, 0
	; GFX6-NEXT: v_mul_hi_u32 v4, s7, v4			; GFX6-NEXT: s_sub_i32 s8, 0, s15
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX6-NEXT: v_mul_lo_u32 v7, s8, v5
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v2			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v4, s11			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v5, v7
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v2, v3, v6, s[6:7]
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v6			; GFX6-NEXT: v_mul_hi_u32 v5, s11, v5
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v3			; GFX6-NEXT: v_readfirstlane_b32 s0, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[0:1]			; GFX6-NEXT: s_mul_i32 s0, s0, s15
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s11, v3			; GFX6-NEXT: s_sub_i32 s0, s11, s0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: s_sub_i32 s1, s0, s15
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: s_cmp_ge_u32 s0, s15
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0			; GFX6-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
				; GFX6-NEXT: s_cselect_b32 s0, s1, s0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v3
				; GFX6-NEXT: s_cmp_ge_u32 s0, s15
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
				; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[16:19], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v4i32:			; GFX9-LABEL: udiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s2, 0, s8			; GFX9-NEXT: s_sub_i32 s2, 0, s8
	; GFX9-NEXT: s_sub_i32 s3, 0, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s10
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s11
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: s_mul_i32 s2, s2, s3
	; GFX9-NEXT: s_sub_i32 s2, 0, s10			; GFX9-NEXT: s_mul_hi_u32 s2, s3, s2
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: s_add_i32 s3, s3, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6			; GFX9-NEXT: s_mul_hi_u32 s2, s4, s3
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_mul_i32 s3, s2, s8
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_sub_i32 s3, s4, s3
	; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6			; GFX9-NEXT: s_add_i32 s13, s2, 1
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_sub_i32 s4, s3, s8
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_cmp_ge_u32 s3, s8
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_cselect_b32 s2, s13, s2
	; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v5			; GFX9-NEXT: s_cselect_b32 s3, s4, s3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: s_add_i32 s4, s2, 1
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s8			; GFX9-NEXT: s_cmp_ge_u32 s3, s8
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0			; GFX9-NEXT: v_readfirstlane_b32 s12, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX9-NEXT: s_cselect_b32 s2, s4, s2
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_sub_i32 s3, 0, s9
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: s_mul_i32 s3, s3, s12
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX9-NEXT: s_mul_hi_u32 s3, s12, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc			; GFX9-NEXT: s_add_i32 s12, s12, s3
	; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v3			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s3, s5, s12
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX9-NEXT: s_mul_i32 s4, s3, s9
	; GFX9-NEXT: v_mul_lo_u32 v3, s2, v2			; GFX9-NEXT: s_sub_i32 s4, s5, s4
	; GFX9-NEXT: s_sub_i32 s2, 0, s11			; GFX9-NEXT: s_add_i32 s8, s3, 1
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s9			; GFX9-NEXT: s_sub_i32 s5, s4, s9
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX9-NEXT: s_cmp_ge_u32 s4, s9
	; GFX9-NEXT: v_add_u32_e32 v8, 1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_sub_u32_e32 v5, s5, v5			; GFX9-NEXT: s_cselect_b32 s3, s8, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: s_add_i32 s5, s3, 1
	; GFX9-NEXT: v_mul_lo_u32 v3, s2, v6			; GFX9-NEXT: s_cmp_ge_u32 s4, s9
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX9-NEXT: s_cselect_b32 s3, s5, s3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5			; GFX9-NEXT: v_readfirstlane_b32 s5, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v8, vcc			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s11
	; GFX9-NEXT: v_mul_hi_u32 v3, v6, v3			; GFX9-NEXT: s_sub_i32 s4, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v8, v2, s10			; GFX9-NEXT: s_mul_i32 s4, s4, s5
	; GFX9-NEXT: v_subrev_u32_e32 v7, s9, v5			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s4
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc			; GFX9-NEXT: s_add_i32 s5, s5, s4
	; GFX9-NEXT: v_add_u32_e32 v3, v6, v3			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX9-NEXT: s_mul_hi_u32 s4, s6, s5
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v1			; GFX9-NEXT: s_mul_i32 s5, s4, s10
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5			; GFX9-NEXT: s_sub_i32 s5, s6, s5
	; GFX9-NEXT: v_sub_u32_e32 v5, s6, v8			; GFX9-NEXT: s_add_i32 s6, s4, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc			; GFX9-NEXT: s_sub_i32 s8, s5, s10
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v5			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_subrev_u32_e32 v6, s10, v5			; GFX9-NEXT: s_cmp_ge_u32 s5, s10
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v6, v3, s11			; GFX9-NEXT: s_cselect_b32 s4, s6, s4
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v2			; GFX9-NEXT: s_cselect_b32 s5, s8, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc			; GFX9-NEXT: s_add_i32 s6, s4, 1
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v2			; GFX9-NEXT: s_cmp_ge_u32 s5, s10
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v5			; GFX9-NEXT: s_cselect_b32 s4, s6, s4
	; GFX9-NEXT: v_sub_u32_e32 v5, s7, v6			; GFX9-NEXT: s_sub_i32 s5, 0, s11
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_subrev_u32_e32 v6, s11, v5			; GFX9-NEXT: s_mul_hi_u32 s5, s7, s6
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX9-NEXT: s_mul_i32 s6, s5, s11
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3			; GFX9-NEXT: s_sub_i32 s6, s7, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5			; GFX9-NEXT: s_add_i32 s7, s5, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: s_sub_i32 s8, s6, s11
				; GFX9-NEXT: s_cmp_ge_u32 s6, s11
				; GFX9-NEXT: s_cselect_b32 s5, s7, s5
				; GFX9-NEXT: s_cselect_b32 s6, s8, s6
				; GFX9-NEXT: s_add_i32 s7, s5, 1
				; GFX9-NEXT: s_cmp_ge_u32 s6, s11
				; GFX9-NEXT: s_cselect_b32 s5, s7, s5
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: v_mov_b32_e32 v2, s4
				; GFX9-NEXT: v_mov_b32_e32 v3, s5
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <4 x i32> %x, %y			%r = udiv <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {			define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP120:%.*]] = insertelement <4 x i32> [[TMP90]], i32 [[TMP119]], i64 3			; CHECK-NEXT: [[TMP120:%.*]] = insertelement <4 x i32> [[TMP90]], i32 [[TMP119]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP120]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP120]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_v4i32:			; GFX6-LABEL: urem_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: s_sub_i32 s2, 0, s8
	; GFX6-NEXT: s_sub_i32 s12, 0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s9
	; GFX6-NEXT: s_sub_i32 s13, 0, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s8
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: s_sub_i32 s2, s4, s2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s3, s2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s2, s8
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: s_sub_i32 s3, s2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s2, s8
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: s_cselect_b32 s4, s3, s2
	; GFX6-NEXT: s_sub_i32 s4, 0, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s11
	; GFX6-NEXT: s_sub_i32 s4, 0, s11			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s9
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4			; GFX6-NEXT: s_sub_i32 s2, s5, s2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s9
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: s_cmp_ge_u32 s2, s9
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s9
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: s_cmp_ge_u32 s2, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: s_cselect_b32 s5, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s10, v2			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s10, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s10
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: s_sub_i32 s2, s6, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: s_sub_i32 s3, s2, s10
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3			; GFX6-NEXT: s_cmp_ge_u32 s2, s10
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: s_cmp_ge_u32 s2, s10
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: s_cselect_b32 s6, s3, s2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: s_sub_i32 s2, 0, s11
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
				; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
				; GFX6-NEXT: v_mul_hi_u32 v2, s7, v0
				; GFX6-NEXT: v_mov_b32_e32 v0, s4
				; GFX6-NEXT: v_mov_b32_e32 v1, s5
				; GFX6-NEXT: v_readfirstlane_b32 s4, v2
				; GFX6-NEXT: s_mul_i32 s4, s4, s11
				; GFX6-NEXT: s_sub_i32 s4, s7, s4
				; GFX6-NEXT: s_sub_i32 s5, s4, s11
				; GFX6-NEXT: s_cmp_ge_u32 s4, s11
				; GFX6-NEXT: s_cselect_b32 s4, s5, s4
				; GFX6-NEXT: s_sub_i32 s5, s4, s11
				; GFX6-NEXT: s_cmp_ge_u32 s4, s11
				; GFX6-NEXT: s_cselect_b32 s4, s5, s4
				; GFX6-NEXT: v_mov_b32_e32 v2, s6
				; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v4i32:			; GFX9-LABEL: urem_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP162:%.*]] = xor i32 [[TMP161]], [[TMP128]]			; CHECK-NEXT: [[TMP162:%.*]] = xor i32 [[TMP161]], [[TMP128]]
	; CHECK-NEXT: [[TMP163:%.*]] = sub i32 [[TMP162]], [[TMP128]]			; CHECK-NEXT: [[TMP163:%.*]] = sub i32 [[TMP162]], [[TMP128]]
	; CHECK-NEXT: [[TMP164:%.*]] = insertelement <4 x i32> [[TMP123]], i32 [[TMP163]], i64 3			; CHECK-NEXT: [[TMP164:%.*]] = insertelement <4 x i32> [[TMP123]], i32 [[TMP163]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP164]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP164]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v4i32:			; GFX6-LABEL: sdiv_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[16:17], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s15, 0xf000			; GFX6-NEXT: s_mov_b32 s19, 0xf000
	; GFX6-NEXT: s_mov_b32 s14, -1			; GFX6-NEXT: s_mov_b32 s18, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s2, s8, 31			; GFX6-NEXT: s_ashr_i32 s2, s12, 31
	; GFX6-NEXT: s_add_i32 s3, s8, s2			; GFX6-NEXT: s_add_i32 s3, s12, s2
	; GFX6-NEXT: s_xor_b32 s3, s3, s2			; GFX6-NEXT: s_xor_b32 s3, s3, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX6-NEXT: s_ashr_i32 s8, s9, 31			; GFX6-NEXT: s_sub_i32 s4, 0, s3
	; GFX6-NEXT: s_add_i32 s0, s9, s8
	; GFX6-NEXT: s_xor_b32 s9, s0, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_i32 s1, 0, s3
	; GFX6-NEXT: s_ashr_i32 s0, s4, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_xor_b32 s2, s0, s2			; GFX6-NEXT: s_ashr_i32 s4, s8, 31
	; GFX6-NEXT: v_mul_lo_u32 v2, s1, v0			; GFX6-NEXT: s_add_i32 s5, s8, s4
	; GFX6-NEXT: s_add_i32 s1, s4, s0			; GFX6-NEXT: s_xor_b32 s5, s5, s4
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s8, s4, s2
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: s_sub_i32 s0, 0, s9			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: s_mul_i32 s2, s2, s3
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX6-NEXT: s_sub_i32 s2, s5, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX6-NEXT: s_sub_i32 s4, s2, s3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: s_cmp_ge_u32 s2, s3
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: s_cselect_b32 s2, s4, s2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3			; GFX6-NEXT: s_cmp_ge_u32 s2, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GFX6-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s3, v3			; GFX6-NEXT: s_ashr_i32 s4, s13, 31
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX6-NEXT: s_add_i32 s5, s13, s4
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: s_xor_b32 s5, s5, s4
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v3			; GFX6-NEXT: s_sub_i32 s6, 0, s5
	; GFX6-NEXT: s_ashr_i32 s0, s5, 31			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: s_add_i32 s1, s5, s0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v1, s[2:3]
	; GFX6-NEXT: s_ashr_i32 s3, s10, 31			; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s2, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: s_xor_b32 s2, s0, s8			; GFX6-NEXT: v_mul_lo_u32 v3, s6, v2
	; GFX6-NEXT: s_add_i32 s0, s10, s3			; GFX6-NEXT: s_ashr_i32 s6, s9, 31
	; GFX6-NEXT: s_xor_b32 s4, s0, s3			; GFX6-NEXT: s_add_i32 s7, s9, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s4			; GFX6-NEXT: s_xor_b32 s7, s7, s6
	; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1			; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: s_xor_b32 s9, s6, s4
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s9
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX6-NEXT: s_sub_i32 s0, 0, s4
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, v3, v5
	; GFX6-NEXT: v_xor_b32_e32 v1, s2, v1
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s2, v1
	; GFX6-NEXT: s_ashr_i32 s2, s11, 31
	; GFX6-NEXT: s_ashr_i32 s0, s6, 31
	; GFX6-NEXT: s_add_i32 s5, s11, s2
	; GFX6-NEXT: s_add_i32 s1, s6, s0
	; GFX6-NEXT: s_xor_b32 s5, s5, s2
	; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s5			; GFX6-NEXT: v_mul_hi_u32 v2, s7, v2
	; GFX6-NEXT: v_mul_hi_u32 v2, s1, v2			; GFX6-NEXT: v_readfirstlane_b32 s4, v2
	; GFX6-NEXT: s_xor_b32 s3, s0, s3			; GFX6-NEXT: s_mul_i32 s4, s4, s5
				; GFX6-NEXT: s_sub_i32 s4, s7, s4
				; GFX6-NEXT: s_sub_i32 s6, s4, s5
				; GFX6-NEXT: s_cmp_ge_u32 s4, s5
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v2
				; GFX6-NEXT: s_cselect_b32 s4, s6, s4
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: s_cmp_ge_u32 s4, s5
				; GFX6-NEXT: s_cselect_b64 s[4:5], -1, 0
				; GFX6-NEXT: s_ashr_i32 s6, s14, 31
				; GFX6-NEXT: s_add_i32 s7, s14, s6
				; GFX6-NEXT: s_xor_b32 s7, s7, s6
				; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s7
				; GFX6-NEXT: s_sub_i32 s12, 0, s7
				; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v2, s4			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[4:5]
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s9, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4			; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s4, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s12, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX6-NEXT: s_ashr_i32 s12, s10, 31
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v3			; GFX6-NEXT: s_add_i32 s10, s10, s12
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: s_xor_b32 s10, s10, s12
	; GFX6-NEXT: s_sub_i32 s0, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_ashr_i32 s0, s7, 31
	; GFX6-NEXT: s_add_i32 s1, s7, s0
	; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2			; GFX6-NEXT: s_xor_b32 s12, s12, s6
	; GFX6-NEXT: s_xor_b32 s2, s0, s2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_mul_hi_u32 v4, s10, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, s1, v4			; GFX6-NEXT: v_readfirstlane_b32 s6, v4
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v3			; GFX6-NEXT: s_mul_i32 s6, s6, s7
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GFX6-NEXT: s_sub_i32 s6, s10, s6
	; GFX6-NEXT: v_xor_b32_e32 v2, s3, v2			; GFX6-NEXT: s_sub_i32 s10, s6, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, v4, s5			; GFX6-NEXT: s_cmp_ge_u32 s6, s7
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v2			; GFX6-NEXT: s_cselect_b32 s6, s10, s6
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s5, v3			; GFX6-NEXT: s_cmp_ge_u32 s6, s7
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[0:1]			; GFX6-NEXT: s_cselect_b64 s[6:7], -1, 0
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s5, v3			; GFX6-NEXT: s_ashr_i32 s10, s15, 31
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: s_add_i32 s13, s15, s10
				; GFX6-NEXT: s_xor_b32 s13, s13, s10
				; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s13
				; GFX6-NEXT: s_sub_i32 s0, 0, s13
				; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v6
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[6:7]
	; GFX6-NEXT: v_xor_b32_e32 v3, s2, v3			; GFX6-NEXT: v_xor_b32_e32 v4, s12, v4
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s2, v3			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
				; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v1
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v2
				; GFX6-NEXT: v_mul_lo_u32 v2, s0, v3
				; GFX6-NEXT: s_ashr_i32 s0, s11, 31
				; GFX6-NEXT: s_add_i32 s1, s11, s0
				; GFX6-NEXT: s_xor_b32 s1, s1, s0
				; GFX6-NEXT: v_mul_hi_u32 v2, v3, v2
				; GFX6-NEXT: s_xor_b32 s0, s0, s10
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
				; GFX6-NEXT: v_mul_hi_u32 v3, s1, v2
				; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s12, v4
				; GFX6-NEXT: v_readfirstlane_b32 s2, v3
				; GFX6-NEXT: s_mul_i32 s2, s2, s13
				; GFX6-NEXT: s_sub_i32 s1, s1, s2
				; GFX6-NEXT: s_sub_i32 s2, s1, s13
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v3
				; GFX6-NEXT: s_cmp_ge_u32 s1, s13
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
				; GFX6-NEXT: s_cselect_b32 s1, s2, s1
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v3
				; GFX6-NEXT: s_cmp_ge_u32 s1, s13
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
				; GFX6-NEXT: v_xor_b32_e32 v3, s0, v3
				; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s0, v3
				; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[16:19], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i32:			; GFX9-LABEL: sdiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s8, 31			; GFX9-NEXT: s_ashr_i32 s2, s8, 31
	; GFX9-NEXT: s_add_i32 s3, s8, s2			; GFX9-NEXT: s_add_i32 s3, s8, s2
	; GFX9-NEXT: s_xor_b32 s3, s3, s2			; GFX9-NEXT: s_xor_b32 s3, s3, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_ashr_i32 s12, s9, 31
	; GFX9-NEXT: s_add_i32 s9, s9, s12
	; GFX9-NEXT: s_xor_b32 s9, s9, s12
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s14, 0, s3
	; GFX9-NEXT: s_ashr_i32 s8, s4, 31			; GFX9-NEXT: s_ashr_i32 s8, s4, 31
				; GFX9-NEXT: s_add_i32 s4, s4, s8
				; GFX9-NEXT: s_xor_b32 s2, s8, s2
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_xor_b32 s4, s4, s8
				; GFX9-NEXT: s_sub_i32 s8, 0, s3
				; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: v_readfirstlane_b32 s12, v0
				; GFX9-NEXT: s_mul_i32 s8, s8, s12
				; GFX9-NEXT: s_mul_hi_u32 s8, s12, s8
				; GFX9-NEXT: s_add_i32 s12, s12, s8
				; GFX9-NEXT: s_mul_hi_u32 s8, s4, s12
				; GFX9-NEXT: s_mul_i32 s12, s8, s3
				; GFX9-NEXT: s_sub_i32 s4, s4, s12
				; GFX9-NEXT: s_add_i32 s13, s8, 1
				; GFX9-NEXT: s_sub_i32 s12, s4, s3
				; GFX9-NEXT: s_cmp_ge_u32 s4, s3
				; GFX9-NEXT: s_cselect_b32 s8, s13, s8
				; GFX9-NEXT: s_cselect_b32 s4, s12, s4
				; GFX9-NEXT: s_add_i32 s12, s8, 1
				; GFX9-NEXT: s_cmp_ge_u32 s4, s3
				; GFX9-NEXT: s_cselect_b32 s3, s12, s8
				; GFX9-NEXT: s_ashr_i32 s4, s9, 31
				; GFX9-NEXT: s_add_i32 s8, s9, s4
				; GFX9-NEXT: s_xor_b32 s8, s8, s4
				; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
				; GFX9-NEXT: s_ashr_i32 s9, s5, 31
				; GFX9-NEXT: s_xor_b32 s3, s3, s2
				; GFX9-NEXT: s_add_i32 s5, s5, s9
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_xor_b32 s4, s9, s4
				; GFX9-NEXT: s_sub_i32 s2, s3, s2
				; GFX9-NEXT: s_xor_b32 s3, s5, s9
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: s_sub_i32 s5, 0, s8
				; GFX9-NEXT: v_readfirstlane_b32 s9, v0
				; GFX9-NEXT: s_mul_i32 s5, s5, s9
				; GFX9-NEXT: s_mul_hi_u32 s5, s9, s5
				; GFX9-NEXT: s_add_i32 s9, s9, s5
				; GFX9-NEXT: s_mul_hi_u32 s5, s3, s9
				; GFX9-NEXT: s_mul_i32 s9, s5, s8
				; GFX9-NEXT: s_sub_i32 s3, s3, s9
				; GFX9-NEXT: s_add_i32 s12, s5, 1
				; GFX9-NEXT: s_sub_i32 s9, s3, s8
				; GFX9-NEXT: s_cmp_ge_u32 s3, s8
				; GFX9-NEXT: s_cselect_b32 s5, s12, s5
				; GFX9-NEXT: s_cselect_b32 s3, s9, s3
				; GFX9-NEXT: s_add_i32 s9, s5, 1
				; GFX9-NEXT: s_cmp_ge_u32 s3, s8
				; GFX9-NEXT: s_cselect_b32 s3, s9, s5
				; GFX9-NEXT: s_ashr_i32 s5, s10, 31
				; GFX9-NEXT: s_add_i32 s8, s10, s5
				; GFX9-NEXT: s_xor_b32 s8, s8, s5
				; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
				; GFX9-NEXT: s_ashr_i32 s9, s6, 31
				; GFX9-NEXT: s_xor_b32 s3, s3, s4
				; GFX9-NEXT: s_add_i32 s6, s6, s9
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_xor_b32 s5, s9, s5
				; GFX9-NEXT: s_sub_i32 s3, s3, s4
				; GFX9-NEXT: s_xor_b32 s4, s6, s9
				; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: s_sub_i32 s6, 0, s8
				; GFX9-NEXT: v_readfirstlane_b32 s9, v0
				; GFX9-NEXT: s_mul_i32 s6, s6, s9
				; GFX9-NEXT: s_mul_hi_u32 s6, s9, s6
				; GFX9-NEXT: s_add_i32 s9, s9, s6
				; GFX9-NEXT: s_mul_hi_u32 s6, s4, s9
				; GFX9-NEXT: s_mul_i32 s9, s6, s8
				; GFX9-NEXT: s_sub_i32 s4, s4, s9
				; GFX9-NEXT: s_add_i32 s10, s6, 1
				; GFX9-NEXT: s_sub_i32 s9, s4, s8
				; GFX9-NEXT: s_cmp_ge_u32 s4, s8
				; GFX9-NEXT: s_cselect_b32 s6, s10, s6
				; GFX9-NEXT: s_cselect_b32 s4, s9, s4
				; GFX9-NEXT: s_add_i32 s9, s6, 1
				; GFX9-NEXT: s_cmp_ge_u32 s4, s8
				; GFX9-NEXT: s_cselect_b32 s4, s9, s6
				; GFX9-NEXT: s_ashr_i32 s6, s11, 31
				; GFX9-NEXT: s_add_i32 s8, s11, s6
				; GFX9-NEXT: s_xor_b32 s8, s8, s6
				; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s8
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: s_ashr_i32 s2, s7, 31
				; GFX9-NEXT: s_xor_b32 s4, s4, s5
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_add_i32 s4, s4, s8			; GFX9-NEXT: s_add_i32 s7, s7, s2
	; GFX9-NEXT: s_xor_b32 s4, s4, s8			; GFX9-NEXT: s_xor_b32 s6, s2, s6
	; GFX9-NEXT: v_mul_lo_u32 v2, s14, v0			; GFX9-NEXT: s_sub_i32 s4, s4, s5
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s14, 0, s9			; GFX9-NEXT: s_xor_b32 s2, s7, s2
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_sub_i32 s5, 0, s8
	; GFX9-NEXT: s_ashr_i32 s13, s5, 31			; GFX9-NEXT: v_mov_b32_e32 v2, s4
	; GFX9-NEXT: v_mul_lo_u32 v3, s14, v1			; GFX9-NEXT: v_readfirstlane_b32 s7, v1
	; GFX9-NEXT: s_add_i32 s5, s5, s13			; GFX9-NEXT: s_mul_i32 s5, s5, s7
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s5, s7, s5
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_add_i32 s7, s7, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, v1, v3			; GFX9-NEXT: s_mul_hi_u32 s5, s2, s7
	; GFX9-NEXT: s_xor_b32 s5, s5, s13			; GFX9-NEXT: s_mul_i32 s7, s5, s8
	; GFX9-NEXT: s_xor_b32 s2, s8, s2			; GFX9-NEXT: s_sub_i32 s2, s2, s7
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX9-NEXT: s_add_i32 s9, s5, 1
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v2			; GFX9-NEXT: s_sub_i32 s7, s2, s8
	; GFX9-NEXT: v_add_u32_e32 v2, 1, v0			; GFX9-NEXT: s_cmp_ge_u32 s2, s8
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_cselect_b32 s5, s9, s5
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: s_cselect_b32 s2, s7, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3			; GFX9-NEXT: s_add_i32 s7, s5, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_cmp_ge_u32 s2, s8
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v3			; GFX9-NEXT: s_cselect_b32 s2, s7, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc			; GFX9-NEXT: s_xor_b32 s2, s2, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v2			; GFX9-NEXT: s_sub_i32 s2, s2, s6
	; GFX9-NEXT: s_ashr_i32 s3, s10, 31			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: s_add_i32 s4, s10, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: s_xor_b32 s4, s4, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s4
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s9
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_ashr_i32 s8, s11, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_subrev_u32_e32 v5, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: s_sub_i32 s5, 0, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, s5, v3
	; GFX9-NEXT: s_add_i32 s9, s11, s8
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_xor_b32 s9, s9, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s9
	; GFX9-NEXT: s_ashr_i32 s5, s6, 31
	; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v5
	; GFX9-NEXT: s_xor_b32 s6, s6, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_xor_b32 s2, s13, s12
	; GFX9-NEXT: v_mul_lo_u32 v5, v2, s4
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1
	; GFX9-NEXT: v_subrev_u32_e32 v1, s2, v1
	; GFX9-NEXT: s_xor_b32 s2, s5, s3
	; GFX9-NEXT: s_sub_i32 s3, 0, s9
	; GFX9-NEXT: v_mul_lo_u32 v7, s3, v3
	; GFX9-NEXT: v_sub_u32_e32 v5, s6, v5
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s4, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_mul_hi_u32 v6, v3, v7
	; GFX9-NEXT: s_ashr_i32 s3, s7, 31
	; GFX9-NEXT: s_add_i32 s5, s7, s3
	; GFX9-NEXT: s_xor_b32 s5, s5, s3
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v6
	; GFX9-NEXT: v_mul_hi_u32 v3, s5, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v5
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v3, s9
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
	; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2
	; GFX9-NEXT: v_sub_u32_e32 v5, s5, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: s_xor_b32 s2, s3, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s2, v3
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v3
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv <4 x i32> %x, %y			%r = sdiv <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {			define amdgpu_kernel void @srem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP152:%.*]] = insertelement <4 x i32> [[TMP114]], i32 [[TMP151]], i64 3			; CHECK-NEXT: [[TMP152:%.*]] = insertelement <4 x i32> [[TMP114]], i32 [[TMP151]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP152]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP152]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_v4i32:			; GFX6-LABEL: srem_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s2, s8, 31			; GFX6-NEXT: s_ashr_i32 s2, s8, 31
	; GFX6-NEXT: s_add_i32 s8, s8, s2			; GFX6-NEXT: s_add_i32 s3, s8, s2
	; GFX6-NEXT: s_xor_b32 s8, s8, s2			; GFX6-NEXT: s_xor_b32 s2, s3, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_ashr_i32 s13, s9, 31			; GFX6-NEXT: s_sub_i32 s3, 0, s2
	; GFX6-NEXT: s_add_i32 s9, s9, s13
	; GFX6-NEXT: s_xor_b32 s9, s9, s13
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_sub_i32 s14, 0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_ashr_i32 s12, s4, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_add_i32 s4, s4, s12			; GFX6-NEXT: s_ashr_i32 s3, s4, 31
	; GFX6-NEXT: s_xor_b32 s4, s4, s12			; GFX6-NEXT: s_add_i32 s4, s4, s3
	; GFX6-NEXT: v_mul_lo_u32 v2, s14, v0			; GFX6-NEXT: s_xor_b32 s4, s4, s3
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: s_sub_i32 s14, 0, s9
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: s_ashr_i32 s13, s5, 31
	; GFX6-NEXT: s_add_i32 s5, s5, s13
	; GFX6-NEXT: s_xor_b32 s5, s5, s13
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s14, v1			; GFX6-NEXT: v_readfirstlane_b32 s8, v0
				; GFX6-NEXT: s_mul_i32 s8, s8, s2
				; GFX6-NEXT: s_sub_i32 s4, s4, s8
				; GFX6-NEXT: s_sub_i32 s8, s4, s2
				; GFX6-NEXT: s_cmp_ge_u32 s4, s2
				; GFX6-NEXT: s_cselect_b32 s4, s8, s4
				; GFX6-NEXT: s_sub_i32 s8, s4, s2
				; GFX6-NEXT: s_cmp_ge_u32 s4, s2
				; GFX6-NEXT: s_cselect_b32 s2, s8, s4
				; GFX6-NEXT: s_ashr_i32 s4, s9, 31
				; GFX6-NEXT: s_add_i32 s8, s9, s4
				; GFX6-NEXT: s_xor_b32 s4, s8, s4
				; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s4
				; GFX6-NEXT: s_sub_i32 s8, 0, s4
				; GFX6-NEXT: s_xor_b32 s2, s2, s3
				; GFX6-NEXT: s_sub_i32 s9, s2, s3
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX6-NEXT: v_mul_lo_u32 v1, s8, v0
				; GFX6-NEXT: s_ashr_i32 s8, s5, 31
				; GFX6-NEXT: s_add_i32 s5, s5, s8
				; GFX6-NEXT: s_xor_b32 s5, s5, s8
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
				; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
				; GFX6-NEXT: v_readfirstlane_b32 s2, v0
				; GFX6-NEXT: s_mul_i32 s2, s2, s4
				; GFX6-NEXT: s_sub_i32 s2, s5, s2
				; GFX6-NEXT: s_sub_i32 s3, s2, s4
				; GFX6-NEXT: s_cmp_ge_u32 s2, s4
				; GFX6-NEXT: s_cselect_b32 s2, s3, s2
				; GFX6-NEXT: s_sub_i32 s3, s2, s4
				; GFX6-NEXT: s_cmp_ge_u32 s2, s4
				; GFX6-NEXT: s_cselect_b32 s2, s3, s2
				; GFX6-NEXT: s_ashr_i32 s3, s10, 31
				; GFX6-NEXT: s_add_i32 s4, s10, s3
				; GFX6-NEXT: s_xor_b32 s3, s4, s3
				; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
				; GFX6-NEXT: s_sub_i32 s4, 0, s3
				; GFX6-NEXT: s_xor_b32 s2, s2, s8
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
				; GFX6-NEXT: s_ashr_i32 s4, s6, 31
				; GFX6-NEXT: s_add_i32 s5, s6, s4
				; GFX6-NEXT: s_xor_b32 s5, s5, s4
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: s_sub_i32 s6, s2, s8
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
				; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
				; GFX6-NEXT: v_readfirstlane_b32 s2, v0
				; GFX6-NEXT: s_mul_i32 s2, s2, s3
				; GFX6-NEXT: s_sub_i32 s2, s5, s2
				; GFX6-NEXT: s_sub_i32 s5, s2, s3
				; GFX6-NEXT: s_cmp_ge_u32 s2, s3
				; GFX6-NEXT: s_cselect_b32 s2, s5, s2
				; GFX6-NEXT: s_sub_i32 s5, s2, s3
				; GFX6-NEXT: s_cmp_ge_u32 s2, s3
				; GFX6-NEXT: s_cselect_b32 s5, s5, s2
				; GFX6-NEXT: s_ashr_i32 s2, s11, 31
				; GFX6-NEXT: s_add_i32 s3, s11, s2
				; GFX6-NEXT: s_xor_b32 s8, s3, s2
				; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
				; GFX6-NEXT: s_sub_i32 s10, 0, s8
				; GFX6-NEXT: s_xor_b32 s5, s5, s4
				; GFX6-NEXT: s_sub_i32 s4, s5, s4
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v0
				; GFX6-NEXT: v_mov_b32_e32 v0, s9
				; GFX6-NEXT: s_ashr_i32 s9, s7, 31
				; GFX6-NEXT: s_add_i32 s7, s7, s9
				; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
				; GFX6-NEXT: s_xor_b32 s7, s7, s9
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_mul_hi_u32 v2, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_mov_b32_e32 v1, s6
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_readfirstlane_b32 s5, v2
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: s_mul_i32 s5, s5, s8
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: s_sub_i32 s5, s7, s5
	; GFX6-NEXT: s_ashr_i32 s4, s10, 31			; GFX6-NEXT: s_sub_i32 s6, s5, s8
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s5, s8
	; GFX6-NEXT: s_add_i32 s8, s10, s4			; GFX6-NEXT: s_cselect_b32 s5, s6, s5
	; GFX6-NEXT: s_xor_b32 s4, s8, s4			; GFX6-NEXT: s_sub_i32 s6, s5, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s4			; GFX6-NEXT: s_cmp_ge_u32 s5, s8
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: s_cselect_b32 s5, s6, s5
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: s_xor_b32 s5, s5, s9
	; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0			; GFX6-NEXT: s_sub_i32 s5, s5, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: v_mov_b32_e32 v3, s5
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1
	; GFX6-NEXT: s_sub_i32 s5, 0, s4
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_mul_lo_u32 v4, s5, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v4
	; GFX6-NEXT: s_ashr_i32 s8, s11, 31
	; GFX6-NEXT: s_add_i32 s9, s11, s8
	; GFX6-NEXT: s_ashr_i32 s5, s6, 31
	; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: s_add_i32 s6, s6, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s8
	; GFX6-NEXT: s_xor_b32 s6, s6, s5
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s13, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s13, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s4
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s4, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX6-NEXT: s_sub_i32 s6, 0, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s6, v3
	; GFX6-NEXT: s_ashr_i32 s6, s7, 31
	; GFX6-NEXT: s_add_i32 s7, s7, s6
	; GFX6-NEXT: s_xor_b32 s7, s7, s6
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX6-NEXT: v_xor_b32_e32 v2, s5, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s8
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s5, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v3
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v4i32:			; GFX9-LABEL: srem_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 658 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_sext_i32_i16 s8, s6			; GFX6-NEXT: s_sext_i32_i16 s8, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GFX6-NEXT: s_sext_i32_i16 s9, s4			; GFX6-NEXT: s_sext_i32_i16 s9, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GFX6-NEXT: s_xor_b32 s8, s9, s8			; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s6, s6, 16
	; GFX6-NEXT: s_ashr_i32 s8, s8, 30			; GFX6-NEXT: s_ashr_i32 s8, s8, 30
	; GFX6-NEXT: s_or_b32 s8, s8, 1			; GFX6-NEXT: s_or_b32 s10, s8, 1
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6			; GFX6-NEXT: s_cselect_b32 s8, s10, 0
	; GFX6-NEXT: v_mov_b32_e32 v3, s8			; GFX6-NEXT: s_ashr_i32 s6, s6, 16
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GFX6-NEXT: s_xor_b32 s4, s4, s6			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_sext_i32_i16 s6, s7
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v1, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v1, -v3, v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v4, s4
	; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|			; GFX6-NEXT: v_add_i32_e32 v2, vcc, s8, v2
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
	; GFX6-NEXT: s_sext_i32_i16 s6, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s6
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6			; GFX6-NEXT: s_cselect_b32 s4, s4, 0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GFX6-NEXT: v_add_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: s_xor_b32 s4, s6, s4			; GFX6-NEXT: s_sext_i32_i16 s4, s5
				; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v0
				; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v4, v1, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v1, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v1, -v4, v2, v1			; GFX6-NEXT: v_mad_f32 v1, -v4, v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v5, s4			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
	; GFX6-NEXT: s_ashr_i32 s4, s7, 16			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v2\|			; GFX6-NEXT: s_cselect_b32 s4, s4, 0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: s_ashr_i32 s6, s7, 16
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v5, vcc			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s6
	; GFX6-NEXT: s_ashr_i32 s5, s5, 16			; GFX6-NEXT: v_add_i32_e32 v1, vcc, s4, v4
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1			; GFX6-NEXT: s_ashr_i32 s4, s5, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v0
	; GFX6-NEXT: s_xor_b32 s4, s5, s4			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4			; GFX6-NEXT: v_mad_f32 v4, -v5, v0, v4
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_mov_b32_e32 v6, s4			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, \|v0\|
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v2\|			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v6, vcc			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v5
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i16:			; GFX9-LABEL: sdiv_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_sext_i32_i16 s8, s6			; GFX6-NEXT: s_sext_i32_i16 s8, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GFX6-NEXT: s_sext_i32_i16 s9, s4			; GFX6-NEXT: s_sext_i32_i16 s9, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GFX6-NEXT: s_xor_b32 s8, s9, s8			; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s8, s8, 30			; GFX6-NEXT: s_ashr_i32 s8, s8, 30
	; GFX6-NEXT: s_or_b32 s8, s8, 1			; GFX6-NEXT: s_or_b32 s10, s8, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: s_ashr_i32 s9, s6, 16			; GFX6-NEXT: s_cselect_b32 s8, s10, 0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s8, v2
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: s_ashr_i32 s8, s6, 16
	; GFX6-NEXT: s_lshr_b32 s8, s4, 16			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s8
	; GFX6-NEXT: s_lshr_b32 s6, s6, 16			; GFX6-NEXT: s_lshr_b32 s10, s4, 16
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s9			; GFX6-NEXT: s_xor_b32 s4, s4, s8
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_lshr_b32 s6, s6, 16
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2
	; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GFX6-NEXT: v_mov_b32_e32 v4, s4			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v2\|, \|v1\|
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: s_cselect_b32 s4, s4, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, s4, v3
	; GFX6-NEXT: s_sext_i32_i16 s4, s7			; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: s_sext_i32_i16 s6, s5			; GFX6-NEXT: s_sext_i32_i16 s6, s5
	; GFX6-NEXT: s_xor_b32 s4, s6, s4			; GFX6-NEXT: s_xor_b32 s4, s6, s4
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v1			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s10, v1
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v5, s4			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_mul_f32_e32 v4, v1, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v1, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v1, -v4, v2, v1			; GFX6-NEXT: v_mad_f32 v1, -v4, v2, v1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v2\|
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: s_ashr_i32 s4, s7, 16			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v2\|			; GFX6-NEXT: s_cselect_b32 s4, s4, 0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: s_ashr_i32 s6, s7, 16
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v5, vcc			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s6
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_add_i32_e32 v1, vcc, s4, v4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: s_lshr_b32 s6, s7, 16			; GFX6-NEXT: s_lshr_b32 s8, s7, 16
	; GFX6-NEXT: s_ashr_i32 s7, s5, 16			; GFX6-NEXT: s_ashr_i32 s7, s5, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s7			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s7
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2
	; GFX6-NEXT: s_xor_b32 s4, s7, s4			; GFX6-NEXT: s_xor_b32 s6, s7, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s6, s6, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_lshr_b32 s4, s5, 16
	; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4			; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_mov_b32_e32 v6, s4			; GFX6-NEXT: s_or_b32 s9, s6, 1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v2\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v4\|, \|v2\|
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v6, vcc			; GFX6-NEXT: s_and_b64 s[6:7], s[6:7], exec
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: s_cselect_b32 s6, s9, 0
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s6			; GFX6-NEXT: v_add_i32_e32 v2, vcc, s6, v5
	; GFX6-NEXT: s_lshr_b32 s4, s5, 16			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s8
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
				; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v4i16:			; GFX9-LABEL: srem_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 264 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_bfe_i32 s5, s4, 0x30008			; GFX6-NEXT: s_bfe_i32 s5, s4, 0x30008
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GFX6-NEXT: s_bfe_i32 s4, s4, 0x30000			; GFX6-NEXT: s_bfe_i32 s4, s4, 0x30000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GFX6-NEXT: s_xor_b32 s4, s4, s5			; GFX6-NEXT: s_xor_b32 s4, s4, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GFX6-NEXT: v_and_b32_e32 v0, 7, v0			; GFX6-NEXT: v_and_b32_e32 v0, 7, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i3:			; GFX9-LABEL: sdiv_i3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX6-LABEL: srem_i3:			; GFX6-LABEL: srem_i3:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_bfe_i32 s2, s4, 0x30008			; GFX6-NEXT: s_bfe_i32 s2, s4, 0x30008
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GFX6-NEXT: s_bfe_i32 s5, s4, 0x30000			; GFX6-NEXT: s_bfe_i32 s3, s4, 0x30000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s3
	; GFX6-NEXT: s_xor_b32 s2, s5, s2			; GFX6-NEXT: s_xor_b32 s2, s3, s2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s2, s2, 30			; GFX6-NEXT: s_ashr_i32 s2, s2, 30
	; GFX6-NEXT: s_or_b32 s2, s2, 1			; GFX6-NEXT: s_lshr_b32 s5, s4, 8
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: s_or_b32 s6, s2, 1
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[2:3], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[2:3], s[2:3], exec
	; GFX6-NEXT: s_lshr_b32 s3, s4, 8			; GFX6-NEXT: s_cselect_b32 s2, s6, 0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s5
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_and_b32_e32 v0, 7, v0			; GFX6-NEXT: v_and_b32_e32 v0, 7, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i3:			; GFX9-LABEL: srem_i3:
	▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_sext_i32_i16 s8, s6			; GFX6-NEXT: s_sext_i32_i16 s8, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GFX6-NEXT: s_sext_i32_i16 s9, s4			; GFX6-NEXT: s_sext_i32_i16 s9, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GFX6-NEXT: s_xor_b32 s8, s9, s8			; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s6, s6, 16
	; GFX6-NEXT: s_ashr_i32 s8, s8, 30			; GFX6-NEXT: s_ashr_i32 s8, s8, 30
	; GFX6-NEXT: s_or_b32 s8, s8, 1			; GFX6-NEXT: s_or_b32 s10, s8, 1
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
				; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
				; GFX6-NEXT: s_cselect_b32 s8, s10, 0
				; GFX6-NEXT: s_ashr_i32 s6, s6, 16
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6
	; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, s8, v2
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GFX6-NEXT: s_xor_b32 s4, s4, s6			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_sext_i32_i16 s6, s7
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v2, -v3, v0, v2
	; GFX6-NEXT: v_mov_b32_e32 v4, s4
	; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
	; GFX6-NEXT: s_sext_i32_i16 s5, s5
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GFX6-NEXT: s_xor_b32 s4, s5, s4
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v2\|, \|v0\|
				; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s6
				; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
				; GFX6-NEXT: s_cselect_b32 s4, s4, 0
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, s4, v3
				; GFX6-NEXT: s_sext_i32_i16 s4, s5
				; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s4
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v0
				; GFX6-NEXT: s_xor_b32 s4, s4, s6
				; GFX6-NEXT: s_ashr_i32 s4, s4, 30
				; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v0, v3
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: v_mov_b32_e32 v5, s4			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v0\|
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v1, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v3i16:			; GFX9-LABEL: sdiv_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_sext_i32_i16 s8, s6			; GFX6-NEXT: s_sext_i32_i16 s8, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GFX6-NEXT: s_sext_i32_i16 s9, s4			; GFX6-NEXT: s_sext_i32_i16 s9, s4
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GFX6-NEXT: s_xor_b32 s8, s9, s8			; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GFX6-NEXT: s_ashr_i32 s8, s8, 30			; GFX6-NEXT: s_ashr_i32 s8, s8, 30
	; GFX6-NEXT: s_or_b32 s8, s8, 1			; GFX6-NEXT: s_or_b32 s10, s8, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: s_ashr_i32 s9, s6, 16			; GFX6-NEXT: s_cselect_b32 s8, s10, 0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s8, v2
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s9			; GFX6-NEXT: s_ashr_i32 s8, s6, 16
	; GFX6-NEXT: s_lshr_b32 s8, s4, 16			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s8
	; GFX6-NEXT: s_lshr_b32 s6, s6, 16			; GFX6-NEXT: s_lshr_b32 s10, s4, 16
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s9			; GFX6-NEXT: s_xor_b32 s4, s4, s8
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_lshr_b32 s6, s6, 16
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2
	; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GFX6-NEXT: v_mov_b32_e32 v4, s4			; GFX6-NEXT: s_or_b32 s4, s4, 1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v2\|, \|v1\|
				; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
				; GFX6-NEXT: s_cselect_b32 s4, s4, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, s4, v3
	; GFX6-NEXT: s_sext_i32_i16 s4, s7			; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s6
	; GFX6-NEXT: s_sext_i32_i16 s6, s5			; GFX6-NEXT: s_sext_i32_i16 s6, s5
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s6			; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GFX6-NEXT: s_xor_b32 s4, s6, s4			; GFX6-NEXT: s_xor_b32 s4, s6, s4
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: v_mov_b32_e32 v5, s4			; GFX6-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v3\|, \|v2\|
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GFX6-NEXT: s_and_b64 s[8:9], s[8:9], exec
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GFX6-NEXT: s_cselect_b32 s4, s4, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, s4, v4
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s7			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s7
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s8, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s10, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v2
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4			; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 368 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshr_b32 s5, s8, 15			; GFX6-NEXT: s_lshr_b32 s5, s8, 15
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s5
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2
	; GFX6-NEXT: s_mov_b32 s0, s4			; GFX6-NEXT: s_mov_b32 s0, s4
	; GFX6-NEXT: s_lshr_b32 s4, s6, 15			; GFX6-NEXT: s_lshr_b32 s4, s6, 15
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v1			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v1
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v6			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s0, s4			; GFX6-NEXT: s_mov_b32 s0, s4
	; GFX6-NEXT: s_bfe_i32 s4, s8, 0xf0000			; GFX6-NEXT: s_bfe_i32 s4, s8, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: s_mov_b32 s1, s5			; GFX6-NEXT: s_mov_b32 s1, s5
	; GFX6-NEXT: s_bfe_i32 s5, s6, 0xf0000			; GFX6-NEXT: s_bfe_i32 s5, s6, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GFX6-NEXT: s_xor_b32 s4, s5, s4			; GFX6-NEXT: s_xor_b32 s4, s5, s4
				; GFX6-NEXT: v_mov_b32_e32 v0, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GFX6-NEXT: v_mov_b32_e32 v5, s4			; GFX6-NEXT: v_alignbit_b32 v0, s7, v0, 30
	; GFX6-NEXT: s_bfe_i32 s4, s8, 0xf000f			; GFX6-NEXT: s_or_b32 s7, s4, 1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v2\|
				; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GFX6-NEXT: s_cselect_b32 s4, s7, 0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s4			; GFX6-NEXT: s_bfe_i32 s5, s8, 0xf000f
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s5
	; GFX6-NEXT: s_bfe_i32 s5, s6, 0xf000f			; GFX6-NEXT: v_add_i32_e32 v3, vcc, s4, v4
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: s_bfe_i32 s4, s6, 0xf000f
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2
	; GFX6-NEXT: v_mov_b32_e32 v1, s8			; GFX6-NEXT: v_mov_b32_e32 v1, s8
	; GFX6-NEXT: v_alignbit_b32 v1, s9, v1, 30			; GFX6-NEXT: v_alignbit_b32 v1, s9, v1, 30
	; GFX6-NEXT: s_xor_b32 s4, s5, s4			; GFX6-NEXT: s_xor_b32 s4, s4, s5
	; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v4, -v5, v3, v4
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 15
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
				; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4
				; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 15
				; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v3\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, \|v2\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, v1			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, v1
	; GFX6-NEXT: v_mov_b32_e32 v0, s6			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
	; GFX6-NEXT: v_alignbit_b32 v0, s7, v0, 30
	; GFX6-NEXT: v_mov_b32_e32 v6, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v4, vcc, s4, v5
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, v0			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v2
	; GFX6-NEXT: v_xor_b32_e32 v0, v0, v1			; GFX6-NEXT: v_xor_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mad_f32 v5, -v1, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v1, v2, v5
	; GFX6-NEXT: v_cvt_i32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v2\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
				; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	;			;
	; GFX6-LABEL: srem_v3i15:			; GFX6-LABEL: srem_v3i15:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: s_mov_b32 s0, s4
				; GFX6-NEXT: s_bfe_i32 s4, s8, 0xf0000
				; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s4
	; GFX6-NEXT: s_mov_b32 s1, s5			; GFX6-NEXT: s_mov_b32 s1, s5
	; GFX6-NEXT: s_bfe_i32 s5, s8, 0xf0000			; GFX6-NEXT: s_bfe_i32 s5, s6, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s5
	; GFX6-NEXT: v_mov_b32_e32 v2, s8
	; GFX6-NEXT: v_alignbit_b32 v2, s9, v2, 30
	; GFX6-NEXT: s_bfe_i32 s9, s6, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GFX6-NEXT: s_xor_b32 s5, s9, s5			; GFX6-NEXT: s_xor_b32 s4, s5, s4
	; GFX6-NEXT: s_ashr_i32 s5, s5, 30			; GFX6-NEXT: v_mov_b32_e32 v0, s6
	; GFX6-NEXT: s_or_b32 s5, s5, 1			; GFX6-NEXT: v_mov_b32_e32 v2, s8
	; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v6, v6			; GFX6-NEXT: v_trunc_f32_e32 v6, v6
				; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5
	; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6			; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6
	; GFX6-NEXT: v_mov_b32_e32 v7, s5			; GFX6-NEXT: v_alignbit_b32 v0, s7, v0, 30
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GFX6-NEXT: s_lshr_b32 s7, s6, 15
	; GFX6-NEXT: v_cndmask_b32_e32 v4, 0, v7, vcc			; GFX6-NEXT: v_alignbit_b32 v2, s9, v2, 30
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GFX6-NEXT: s_lshr_b32 s9, s8, 15
				; GFX6-NEXT: s_or_b32 s10, s4, 1
				; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v5\|, \|v4\|
				; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
				; GFX6-NEXT: s_cselect_b32 s4, s10, 0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, s4, v6
				; GFX6-NEXT: s_bfe_i32 s4, s8, 0xf000f
				; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s4
				; GFX6-NEXT: s_bfe_i32 s5, s6, 0xf000f
				; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s5
	; GFX6-NEXT: v_mul_lo_u32 v4, v4, s8			; GFX6-NEXT: v_mul_lo_u32 v4, v4, s8
	; GFX6-NEXT: s_bfe_i32 s5, s8, 0xf000f
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s5
	; GFX6-NEXT: s_mov_b32 s0, s4
	; GFX6-NEXT: v_mov_b32_e32 v0, s6
	; GFX6-NEXT: s_lshr_b32 s4, s6, 15
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s6, v4
	; GFX6-NEXT: s_bfe_i32 s6, s6, 0xf000f
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
				; GFX6-NEXT: s_xor_b32 s4, s5, s4
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v2			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v2
	; GFX6-NEXT: s_xor_b32 s5, s6, s5			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15
	; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v7, v7			; GFX6-NEXT: v_trunc_f32_e32 v7, v7
	; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6			; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6
	; GFX6-NEXT: s_ashr_i32 s5, s5, 30			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15
				; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s6, v4
				; GFX6-NEXT: s_or_b32 s6, s4, 1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7			; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v5\|			; GFX6-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v6\|, \|v5\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2
	; GFX6-NEXT: s_or_b32 s5, s5, 1			; GFX6-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GFX6-NEXT: v_alignbit_b32 v0, s7, v0, 30
	; GFX6-NEXT: v_mov_b32_e32 v8, s5
	; GFX6-NEXT: v_and_b32_e32 v1, 0x7fff, v0			; GFX6-NEXT: v_and_b32_e32 v1, 0x7fff, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc			; GFX6-NEXT: s_cselect_b32 s4, s6, 0
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v7			; GFX6-NEXT: v_add_i32_e32 v5, vcc, s4, v7
	; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0			; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8			; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7			; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|
	; GFX6-NEXT: s_lshr_b32 s7, s8, 15
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v5, s7			; GFX6-NEXT: v_mul_lo_u32 v5, v5, s9
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, v3			; GFX6-NEXT: v_mul_lo_u32 v0, v0, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v5			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s7, v5
	; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v4			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 15, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 15, v2
	; GFX6-NEXT: v_or_b32_e32 v2, v3, v2			; GFX6-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s11, 0xf000			; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: s_mov_b32 s10, -1			; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s3, 0x1000, s7			; GFX6-NEXT: s_sub_i32 s3, 0, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s3			; GFX6-NEXT: s_lshl_b32 s6, 0x1000, s7
	; GFX6-NEXT: s_sub_i32 s0, 0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
				; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v0			; GFX6-NEXT: v_readfirstlane_b32 s3, v0
	; GFX6-NEXT: s_sub_i32 s0, 0, s3			; GFX6-NEXT: s_mul_i32 s3, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v3, s0, v1			; GFX6-NEXT: s_sub_i32 s3, s4, s3
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: s_sub_i32 s4, s3, s2
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
				; GFX6-NEXT: s_cselect_b32 s3, s4, s3
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: s_cselect_b64 s[2:3], -1, 0
				; GFX6-NEXT: s_sub_i32 s4, 0, s6
				; GFX6-NEXT: v_mul_lo_u32 v3, s4, v1
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[2:3]
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_readfirstlane_b32 s0, v1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: s_mul_i32 s0, s0, s6
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX6-NEXT: s_sub_i32 s0, s5, s0
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: s_sub_i32 s1, s0, s6
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX6-NEXT: s_cmp_ge_u32 s0, s6
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s2, v2			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: s_cselect_b32 s0, s1, s0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: s_cmp_ge_u32 s0, s6
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v4			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s3, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:			; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6
	; GFX9-NEXT: s_lshl_b32 s7, 0x1000, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX9-NEXT: s_sub_i32 s2, 0, s6			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: s_sub_i32 s3, 0, s7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: s_mul_i32 s6, s6, s7
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_mul_hi_u32 s6, s7, s6
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_add_i32 s7, s7, s6
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_mul_hi_u32 s6, s4, s7
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_mul_i32 s7, s6, s3
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_sub_i32 s4, s4, s7
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_add_i32 s9, s6, 1
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_sub_i32 s7, s4, s3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: s_cmp_ge_u32 s4, s3
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX9-NEXT: s_cselect_b32 s6, s9, s6
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s7			; GFX9-NEXT: s_cselect_b32 s4, s7, s4
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: s_add_i32 s7, s6, 1
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v1			; GFX9-NEXT: s_cmp_ge_u32 s4, s3
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_readfirstlane_b32 s8, v1
	; GFX9-NEXT: v_sub_u32_e32 v4, s5, v4			; GFX9-NEXT: s_cselect_b32 s3, s7, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: s_sub_i32 s4, 0, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: s_mul_i32 s4, s4, s8
	; GFX9-NEXT: v_subrev_u32_e32 v5, s6, v3			; GFX9-NEXT: s_mul_hi_u32 s4, s8, s4
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s7, v4			; GFX9-NEXT: s_add_i32 s8, s8, s4
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[0:1]			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s8
	; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v4			; GFX9-NEXT: s_mul_i32 s6, s4, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX9-NEXT: s_sub_i32 s5, s5, s6
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: s_add_i32 s7, s4, 1
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]			; GFX9-NEXT: s_sub_i32 s6, s5, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: s_cmp_ge_u32 s5, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: s_cselect_b32 s4, s7, s4
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v1			; GFX9-NEXT: s_cselect_b32 s5, s6, s5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v4			; GFX9-NEXT: s_add_i32 s6, s4, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_cmp_ge_u32 s5, s2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_cselect_b32 s2, s6, s4
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: v_mov_b32_e32 v0, s3
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
				; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = udiv <2 x i32> %x, %shl.y			%r = udiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP60:%.*]] = insertelement <2 x i32> [[TMP30]], i32 [[TMP59]], i64 1			; CHECK-NEXT: [[TMP60:%.*]] = insertelement <2 x i32> [[TMP30]], i32 [[TMP59]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP60]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP60]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_v2i32_pow2_shl_denom:			; GFX6-LABEL: urem_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s6, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7			; GFX6-NEXT: s_sub_i32 s3, 0, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX6-NEXT: s_lshl_b32 s6, 0x1000, s7
	; GFX6-NEXT: s_sub_i32 s2, 0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
				; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_readfirstlane_b32 s3, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_mul_i32 s3, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: s_sub_i32 s3, s4, s3
				; GFX6-NEXT: s_sub_i32 s4, s3, s2
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: s_cselect_b32 s3, s4, s3
				; GFX6-NEXT: s_sub_i32 s4, s3, s2
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: s_cselect_b32 s4, s4, s3
				; GFX6-NEXT: s_sub_i32 s2, 0, s6
				; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_readfirstlane_b32 s7, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: s_mul_i32 s7, s7, s6
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: s_sub_i32 s5, s5, s7
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: s_sub_i32 s7, s5, s6
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: s_cmp_ge_u32 s5, s6
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_cselect_b32 s5, s7, s5
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: s_sub_i32 s7, s5, s6
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: s_cmp_ge_u32 s5, s6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: s_cselect_b32 s5, s7, s5
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v2i32_pow2_shl_denom:			; GFX9-LABEL: urem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_xor_b32 s3, s3, s8			; GFX6-NEXT: s_xor_b32 s3, s3, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX6-NEXT: s_sub_i32 s4, 0, s3			; GFX6-NEXT: s_sub_i32 s4, 0, s3
	; GFX6-NEXT: s_ashr_i32 s9, s2, 31			; GFX6-NEXT: s_ashr_i32 s9, s2, 31
	; GFX6-NEXT: s_add_i32 s2, s2, s9			; GFX6-NEXT: s_add_i32 s2, s2, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s2, s2, s9			; GFX6-NEXT: s_xor_b32 s2, s2, s9
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: s_mul_i32 s0, s0, s3
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: s_sub_i32 s0, s2, s0
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GFX6-NEXT: s_sub_i32 s1, s0, s3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; GFX6-NEXT: s_cmp_ge_u32 s0, s3
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GFX6-NEXT: s_cselect_b32 s0, s1, s0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s0, s3
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX6-NEXT: s_xor_b32 s0, s9, s8
				; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0
				; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32_pow2_shl_denom:			; GFX9-LABEL: sdiv_i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s3			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s3
	; GFX9-NEXT: s_ashr_i32 s4, s3, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s4			; GFX9-NEXT: s_add_i32 s3, s3, s4
	; GFX9-NEXT: s_xor_b32 s3, s3, s4			; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s5, 0, s3			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s5, v0
	; GFX9-NEXT: s_ashr_i32 s5, s2, 31			; GFX9-NEXT: s_ashr_i32 s5, s2, 31
	; GFX9-NEXT: s_add_i32 s2, s2, s5			; GFX9-NEXT: s_add_i32 s2, s2, s5
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s2, s2, s5			; GFX9-NEXT: s_xor_b32 s2, s2, s5
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: s_mul_i32 s6, s6, s7
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: s_mul_hi_u32 s6, s7, s6
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: s_add_i32 s7, s7, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_mul_hi_u32 s6, s2, s7
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_mul_i32 s8, s6, s3
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: s_sub_i32 s2, s2, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_add_i32 s7, s6, 1
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v0			; GFX9-NEXT: s_sub_i32 s8, s2, s3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: s_cselect_b32 s6, s7, s6
	; GFX9-NEXT: s_xor_b32 s2, s5, s4			; GFX9-NEXT: s_cselect_b32 s2, s8, s2
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: s_add_i32 s7, s6, 1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: s_cselect_b32 s2, s7, s6
				; GFX9-NEXT: s_xor_b32 s3, s5, s4
				; GFX9-NEXT: s_xor_b32 s2, s2, s3
				; GFX9-NEXT: s_sub_i32 s2, s2, s3
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i32 4096, %y			%shl.y = shl i32 4096, %y
	%r = sdiv i32 %x, %shl.y			%r = sdiv i32 %x, %shl.y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v2i32_pow2k_denom(<2 x i32> addrspace(1)* %out, <2 x i32> %x) {			define amdgpu_kernel void @sdiv_v2i32_pow2k_denom(<2 x i32> addrspace(1)* %out, <2 x i32> %x) {
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP80:%.*]] = xor i32 [[TMP79]], [[TMP46]]			; CHECK-NEXT: [[TMP80:%.*]] = xor i32 [[TMP79]], [[TMP46]]
	; CHECK-NEXT: [[TMP81:%.*]] = sub i32 [[TMP80]], [[TMP46]]			; CHECK-NEXT: [[TMP81:%.*]] = sub i32 [[TMP80]], [[TMP46]]
	; CHECK-NEXT: [[TMP82:%.*]] = insertelement <2 x i32> [[TMP41]], i32 [[TMP81]], i64 1			; CHECK-NEXT: [[TMP82:%.*]] = insertelement <2 x i32> [[TMP41]], i32 [[TMP81]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP82]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP82]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v2i32_pow2_shl_denom:			; GFX6-LABEL: sdiv_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s10			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: s_ashr_i32 s1, s0, 31			; GFX6-NEXT: s_ashr_i32 s3, s2, 31
	; GFX6-NEXT: s_add_i32 s0, s0, s1			; GFX6-NEXT: s_add_i32 s2, s2, s3
	; GFX6-NEXT: s_xor_b32 s2, s0, s1			; GFX6-NEXT: s_xor_b32 s2, s2, s3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s11			; GFX6-NEXT: s_sub_i32 s6, 0, s2
	; GFX6-NEXT: s_ashr_i32 s3, s0, 31			; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7
	; GFX6-NEXT: s_add_i32 s0, s0, s3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_sub_i32 s11, 0, s2
	; GFX6-NEXT: s_xor_b32 s10, s0, s3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s10
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_ashr_i32 s0, s8, 31			; GFX6-NEXT: v_mul_lo_u32 v1, s6, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: s_ashr_i32 s6, s4, 31
	; GFX6-NEXT: s_add_i32 s8, s8, s0			; GFX6-NEXT: s_add_i32 s4, s4, s6
	; GFX6-NEXT: v_mul_lo_u32 v2, s11, v0			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_xor_b32 s8, s8, s0			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: s_xor_b32 s6, s6, s3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: s_xor_b32 s11, s0, s1			; GFX6-NEXT: v_readfirstlane_b32 s3, v0
	; GFX6-NEXT: s_sub_i32 s0, 0, s10			; GFX6-NEXT: s_mul_i32 s3, s3, s2
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: s_sub_i32 s3, s4, s3
	; GFX6-NEXT: v_mul_hi_u32 v0, s8, v0			; GFX6-NEXT: s_sub_i32 s4, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s2			; GFX6-NEXT: s_cmp_ge_u32 s3, s2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v3			; GFX6-NEXT: s_cselect_b32 s3, s4, s3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GFX6-NEXT: s_cmp_ge_u32 s3, s2
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s2, v3			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX6-NEXT: s_ashr_i32 s4, s7, 31
	; GFX6-NEXT: s_ashr_i32 s0, s9, 31			; GFX6-NEXT: s_add_i32 s7, s7, s4
	; GFX6-NEXT: s_add_i32 s1, s9, s0			; GFX6-NEXT: s_xor_b32 s7, s7, s4
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s7
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: s_sub_i32 s8, 0, s7
	; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s10			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_xor_b32 s2, s0, s3			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v2			; GFX6-NEXT: v_mul_lo_u32 v3, s8, v2
	; GFX6-NEXT: v_xor_b32_e32 v0, s11, v0			; GFX6-NEXT: s_ashr_i32 s8, s5, 31
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: s_add_i32 s5, s5, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s10, v2			; GFX6-NEXT: s_xor_b32 s5, s5, s8
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s11, v0			; GFX6-NEXT: v_mul_hi_u32 v1, v2, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GFX6-NEXT: s_xor_b32 s4, s8, s4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_readfirstlane_b32 s6, v1
	; GFX6-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX6-NEXT: s_mul_i32 s6, s6, s7
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: s_sub_i32 s5, s5, s6
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: s_sub_i32 s6, s5, s7
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v1
				; GFX6-NEXT: s_cmp_ge_u32 s5, s7
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
				; GFX6-NEXT: s_cselect_b32 s5, s6, s5
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v1
				; GFX6-NEXT: s_cmp_ge_u32 s5, s7
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
				; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v1
				; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i32_pow2_shl_denom:			; GFX9-LABEL: sdiv_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s0, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX9-NEXT: s_ashr_i32 s1, s0, 31			; GFX9-NEXT: s_ashr_i32 s3, s2, 31
	; GFX9-NEXT: s_add_i32 s0, s0, s1			; GFX9-NEXT: s_add_i32 s2, s2, s3
	; GFX9-NEXT: s_xor_b32 s0, s0, s1			; GFX9-NEXT: s_xor_b32 s2, s2, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s0			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s7			; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s7
	; GFX9-NEXT: s_ashr_i32 s8, s6, 31
	; GFX9-NEXT: s_add_i32 s6, s6, s8
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s6, s6, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s6
	; GFX9-NEXT: s_sub_i32 s10, 0, s0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_ashr_i32 s7, s4, 31			; GFX9-NEXT: s_ashr_i32 s7, s4, 31
	; GFX9-NEXT: s_add_i32 s4, s4, s7			; GFX9-NEXT: s_add_i32 s4, s4, s7
	; GFX9-NEXT: v_mul_lo_u32 v3, s10, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: s_xor_b32 s3, s7, s3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s10, 0, s6
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
	; GFX9-NEXT: s_xor_b32 s4, s4, s7			; GFX9-NEXT: s_xor_b32 s4, s4, s7
	; GFX9-NEXT: v_mul_lo_u32 v4, s10, v1			; GFX9-NEXT: s_sub_i32 s7, 0, s2
	; GFX9-NEXT: s_ashr_i32 s9, s5, 31			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v4			; GFX9-NEXT: s_mul_i32 s7, s7, s8
	; GFX9-NEXT: s_add_i32 s5, s5, s9			; GFX9-NEXT: s_mul_hi_u32 s7, s8, s7
	; GFX9-NEXT: s_xor_b32 s5, s5, s9			; GFX9-NEXT: s_add_i32 s8, s8, s7
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s0			; GFX9-NEXT: s_mul_hi_u32 s7, s4, s8
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_mul_i32 s8, s7, s2
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_sub_i32 s4, s4, s8
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: s_add_i32 s9, s7, 1
	; GFX9-NEXT: v_sub_u32_e32 v4, s4, v4			; GFX9-NEXT: s_sub_i32 s8, s4, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v4			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_cselect_b32 s7, s9, s7
	; GFX9-NEXT: v_subrev_u32_e32 v3, s0, v4			; GFX9-NEXT: s_cselect_b32 s4, s8, s4
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX9-NEXT: s_add_i32 s8, s7, 1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX9-NEXT: s_cselect_b32 s2, s8, s7
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v0			; GFX9-NEXT: s_ashr_i32 s4, s6, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: s_add_i32 s6, s6, s4
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: s_xor_b32 s6, s6, s4
	; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: s_ashr_i32 s7, s5, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: s_xor_b32 s2, s2, s3
	; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3			; GFX9-NEXT: s_add_i32 s5, s5, s7
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: s_xor_b32 s4, s7, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: s_sub_i32 s2, s2, s3
	; GFX9-NEXT: s_xor_b32 s1, s7, s1			; GFX9-NEXT: s_xor_b32 s3, s5, s7
	; GFX9-NEXT: s_xor_b32 s0, s9, s8			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_xor_b32_e32 v0, s1, v0			; GFX9-NEXT: s_sub_i32 s5, 0, s6
	; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s1, v0			; GFX9-NEXT: s_mul_i32 s5, s5, s7
	; GFX9-NEXT: v_subrev_u32_e32 v1, s0, v1			; GFX9-NEXT: s_mul_hi_u32 s5, s7, s5
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: s_add_i32 s7, s7, s5
				; GFX9-NEXT: s_mul_hi_u32 s5, s3, s7
				; GFX9-NEXT: s_mul_i32 s7, s5, s6
				; GFX9-NEXT: s_sub_i32 s3, s3, s7
				; GFX9-NEXT: s_add_i32 s8, s5, 1
				; GFX9-NEXT: s_sub_i32 s7, s3, s6
				; GFX9-NEXT: s_cmp_ge_u32 s3, s6
				; GFX9-NEXT: s_cselect_b32 s5, s8, s5
				; GFX9-NEXT: s_cselect_b32 s3, s7, s3
				; GFX9-NEXT: s_add_i32 s7, s5, 1
				; GFX9-NEXT: s_cmp_ge_u32 s3, s6
				; GFX9-NEXT: s_cselect_b32 s3, s7, s5
				; GFX9-NEXT: s_xor_b32 s3, s3, s4
				; GFX9-NEXT: s_sub_i32 s3, s3, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = sdiv <2 x i32> %x, %shl.y			%r = sdiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @srem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s6, s2, s5			; GFX6-NEXT: s_xor_b32 s6, s2, s5
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4			; GFX6-NEXT: v_readfirstlane_b32 s7, v0
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GFX6-NEXT: s_mul_i32 s7, s7, s4
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s6, s6, s7
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s7, s6, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s6, s4
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: s_cselect_b32 s6, s7, s6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s7, s6, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: s_cmp_ge_u32 s6, s4
	; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0			; GFX6-NEXT: s_cselect_b32 s4, s7, s6
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0			; GFX6-NEXT: s_xor_b32 s4, s4, s5
				; GFX6-NEXT: s_sub_i32 s4, s4, s5
				; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i32_pow2_shl_denom:			; GFX9-LABEL: srem_i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: srem_v2i32_pow2_shl_denom:			; GFX6-LABEL: srem_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: s_ashr_i32 s3, s2, 31			; GFX6-NEXT: s_ashr_i32 s3, s2, 31
	; GFX6-NEXT: s_add_i32 s2, s2, s3			; GFX6-NEXT: s_add_i32 s2, s2, s3
	; GFX6-NEXT: s_xor_b32 s6, s2, s3			; GFX6-NEXT: s_xor_b32 s2, s2, s3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7			; GFX6-NEXT: s_sub_i32 s3, 0, s2
	; GFX6-NEXT: s_ashr_i32 s8, s7, 31			; GFX6-NEXT: s_ashr_i32 s6, s4, 31
	; GFX6-NEXT: s_add_i32 s7, s7, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s7, s7, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7
	; GFX6-NEXT: s_sub_i32 s9, 0, s6
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_ashr_i32 s8, s4, 31			; GFX6-NEXT: s_add_i32 s3, s4, s6
	; GFX6-NEXT: s_add_i32 s4, s4, s8			; GFX6-NEXT: s_xor_b32 s3, s3, s6
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v0			; GFX6-NEXT: s_lshl_b32 s4, 0x1000, s7
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s8			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_readfirstlane_b32 s7, v0
	; GFX6-NEXT: s_sub_i32 s9, 0, s7			; GFX6-NEXT: s_mul_i32 s7, s7, s2
				; GFX6-NEXT: s_sub_i32 s3, s3, s7
				; GFX6-NEXT: s_sub_i32 s7, s3, s2
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: s_cselect_b32 s3, s7, s3
				; GFX6-NEXT: s_sub_i32 s7, s3, s2
				; GFX6-NEXT: s_cmp_ge_u32 s3, s2
				; GFX6-NEXT: s_cselect_b32 s7, s7, s3
				; GFX6-NEXT: s_ashr_i32 s2, s4, 31
				; GFX6-NEXT: s_add_i32 s4, s4, s2
				; GFX6-NEXT: s_xor_b32 s4, s4, s2
				; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s4
				; GFX6-NEXT: s_sub_i32 s2, 0, s4
				; GFX6-NEXT: s_ashr_i32 s8, s5, 31
				; GFX6-NEXT: s_xor_b32 s7, s7, s6
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX6-NEXT: s_sub_i32 s6, s7, s6
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
				; GFX6-NEXT: s_add_i32 s2, s5, s8
				; GFX6-NEXT: s_xor_b32 s5, s2, s8
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v1			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: s_ashr_i32 s9, s5, 31			; GFX6-NEXT: v_readfirstlane_b32 s7, v0
	; GFX6-NEXT: s_add_i32 s5, s5, s9			; GFX6-NEXT: s_mul_i32 s7, s7, s4
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: s_sub_i32 s5, s5, s7
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: s_sub_i32 s7, s5, s4
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_cmp_ge_u32 s5, s4
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0			; GFX6-NEXT: s_cselect_b32 s5, s7, s5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: s_sub_i32 s7, s5, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: s_cmp_ge_u32 s5, s4
	; GFX6-NEXT: s_xor_b32 s4, s5, s9			; GFX6-NEXT: s_cselect_b32 s4, s7, s5
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: s_xor_b32 s4, s4, s8
	; GFX6-NEXT: v_mul_hi_u32 v1, s4, v1			; GFX6-NEXT: s_sub_i32 s4, s4, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0			; GFX6-NEXT: v_mov_b32_e32 v0, s6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_mov_b32_e32 v1, s4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_xor_b32_e32 v1, s9, v1
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v1
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i32_pow2_shl_denom:			; GFX9-LABEL: srem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	Show All 35 Lines
	; GFX6-NEXT: s_movk_i32 s2, 0x11e			; GFX6-NEXT: s_movk_i32 s2, 0x11e
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s2, v4			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s2, v4
	; GFX6-NEXT: s_mov_b32 s9, 0x976a7376			; GFX6-NEXT: s_mov_b32 s9, 0x976a7376
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s9, v5			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s9, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s8, v4			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s8, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 1, v0
	; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v0
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v6, s3			; GFX6-NEXT: v_mov_b32_e32 v6, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v2			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s9, v3			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s8, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s8, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_i64_oddk_denom:			; GFX9-LABEL: udiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_cmpk_gt_u32 s6, 0x11e			; GFX9-NEXT: s_cmpk_gt_u32 s6, 0x11e
	; GFX9-NEXT: s_mov_b32 s10, 0x976a7376			; GFX9-NEXT: s_mov_b32 s10, 0x976a7376
	; GFX9-NEXT: s_cselect_b32 s9, -1, 0			; GFX9-NEXT: s_cselect_b32 s9, -1, 0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s10, v1			; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s10, v1
	; GFX9-NEXT: s_cmpk_eq_i32 s6, 0x11f			; GFX9-NEXT: s_cmpk_eq_i32 s6, 0x11f
	; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v3, s9			; GFX9-NEXT: v_mov_b32_e32 v3, s9
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: s_add_u32 s6, s3, 2
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[0:1]
	; GFX9-NEXT: s_addc_u32 s0, s2, 0			; GFX9-NEXT: s_add_u32 s0, s3, 1
	; GFX9-NEXT: s_add_u32 s9, s3, 1			; GFX9-NEXT: s_addc_u32 s6, s2, 0
	; GFX9-NEXT: s_addc_u32 s1, s2, 0			; GFX9-NEXT: s_add_u32 s1, s3, 2
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_addc_u32 s9, s2, 0
	; GFX9-NEXT: s_subb_u32 s7, s7, s8			; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: s_cmpk_gt_u32 s7, 0x11e			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: s_cselect_b32 s8, -1, 0			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v1, s6
				; GFX9-NEXT: v_mov_b32_e32 v4, s9
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s7, s8
				; GFX9-NEXT: s_cmpk_gt_u32 s0, 0x11e
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0
	; GFX9-NEXT: s_cmpk_eq_i32 s7, 0x11f			; GFX9-NEXT: s_cmpk_eq_i32 s0, 0x11f
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v4, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s8			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s2			; GFX9-NEXT: v_mov_b32_e32 v4, s2
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: v_mov_b32_e32 v0, s9			; GFX9-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s6			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv i64 %x, 1235195949943			%r = udiv i64 %x, 1235195949943
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	▲ Show 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: udiv_v2i64_mixed_pow2k_denom:			; GFX6-LABEL: udiv_v2i64_mixed_pow2k_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000			; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_movk_i32 s6, 0xf001			; GFX6-NEXT: s_movk_i32 s6, 0xf001
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_movk_i32 s8, 0xfff
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshr_b64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_lshr_b64 s[0:1], s[0:1], 12
	; GFX6-NEXT: s_movk_i32 s0, 0xfff			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s6
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s8
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s0			; GFX6-NEXT: v_mul_hi_u32 v5, v0, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s0			; GFX6-NEXT: v_mul_lo_u32 v8, v0, s8
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 2, v0
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_mov_b32_e32 v5, s3			; GFX6-NEXT: v_mov_b32_e32 v5, s3
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8			; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s0, v8			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s8, v8
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0xffe			; GFX6-NEXT: s_movk_i32 s2, 0xffe
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v8
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v4, -1, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v6, v2, vcc			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v3, v1, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v0, s8			; GFX6-NEXT: v_cndmask_b32_e32 v2, v0, v2, vcc
	; GFX6-NEXT: v_mov_b32_e32 v1, s9			; GFX6-NEXT: v_mov_b32_e32 v0, s0
				; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v2i64_mixed_pow2k_denom:			; GFX9-LABEL: udiv_v2i64_mixed_pow2k_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x457ff000
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
				; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_movk_i32 s2, 0xf001			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
				; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s2			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s2			; GFX9-NEXT: s_lshr_b64 s[0:1], s[4:5], 12
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s2			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_mul_hi_u32 s5, s4, 0xfffff001
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: v_readfirstlane_b32 s8, v1
	; GFX9-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX9-NEXT: s_sub_i32 s5, s5, s4
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s8, 0xfffff001
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_add_i32 s5, s5, s9
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX9-NEXT: s_mul_i32 s11, s4, 0xfffff001
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_mul_hi_u32 s9, s4, s5
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_mul_i32 s10, s4, s5
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v5, v4			; GFX9-NEXT: s_mul_hi_u32 s4, s4, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc			; GFX9-NEXT: s_add_u32 s4, s4, s10
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_addc_u32 s9, 0, s9
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6			; GFX9-NEXT: s_mul_hi_u32 s12, s8, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v3, vcc			; GFX9-NEXT: s_mul_i32 s11, s8, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_add_u32 s4, s4, s11
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s10, s8, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_addc_u32 s4, s9, s12
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_addc_u32 s9, s10, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_mul_i32 s5, s8, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s2			; GFX9-NEXT: s_add_u32 s4, s4, s5
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s2			; GFX9-NEXT: s_addc_u32 s5, 0, s9
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34			; GFX9-NEXT: s_addc_u32 s4, s8, s5
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: s_mul_hi_u32 s9, s8, 0xfffff001
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX9-NEXT: s_mul_i32 s5, s4, 0xfffff001
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v5			; GFX9-NEXT: s_sub_i32 s9, s9, s8
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_add_i32 s9, s9, s5
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_mul_i32 s11, s8, 0xfffff001
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s5, s8, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v6, v3			; GFX9-NEXT: s_mul_i32 s10, s8, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s8, s11
	; GFX9-NEXT: v_mul_lo_u32 v7, v1, v5			; GFX9-NEXT: s_add_u32 s8, s8, s10
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_movk_i32 s0, 0xfff			; GFX9-NEXT: s_mul_hi_u32 s12, s4, s11
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_mul_i32 s11, s4, s11
	; GFX9-NEXT: s_lshr_b64 s[4:5], s[4:5], 12			; GFX9-NEXT: s_add_u32 s8, s8, s11
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7			; GFX9-NEXT: s_mul_hi_u32 s10, s4, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v5, vcc			; GFX9-NEXT: s_addc_u32 s5, s5, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s8, s10, 0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_i32 s9, s4, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: s_add_u32 s5, s5, s9
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_addc_u32 s8, 0, s8
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s5, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: s_addc_u32 s4, s4, s8
	; GFX9-NEXT: v_mul_hi_u32 v5, s6, v1			; GFX9-NEXT: v_readfirstlane_b32 s9, v0
	; GFX9-NEXT: v_mul_hi_u32 v6, s7, v1			; GFX9-NEXT: s_mul_i32 s8, s6, s4
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: s_mul_hi_u32 s10, s6, s9
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: s_add_u32 s8, s10, s8
	; GFX9-NEXT: v_mul_lo_u32 v5, s7, v0			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: s_mul_hi_u32 s11, s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: s_mul_i32 s9, s7, s9
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v5			; GFX9-NEXT: s_add_u32 s8, s8, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s7, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v6, vcc			; GFX9-NEXT: s_addc_u32 s5, s5, s11
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_addc_u32 s8, s10, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_mul_i32 s4, s7, s4
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: s_add_u32 s4, s5, s4
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s0			; GFX9-NEXT: s_addc_u32 s5, 0, s8
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s0			; GFX9-NEXT: s_add_u32 s8, s4, 1
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s0			; GFX9-NEXT: s_addc_u32 s9, s5, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: s_add_u32 s10, s4, 2
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: s_mul_i32 s13, s5, 0xfff
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: s_mul_hi_u32 s14, s4, 0xfff
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: s_addc_u32 s11, s5, 0
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: s_add_i32 s14, s14, s13
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s6, v9			; GFX9-NEXT: s_mul_i32 s13, s4, 0xfff
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v6, v5, vcc			; GFX9-NEXT: v_mov_b32_e32 v0, s13
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s0, v9			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v5, vcc			; GFX9-NEXT: s_movk_i32 s12, 0xfff
	; GFX9-NEXT: s_movk_i32 s0, 0xffe			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: s_subb_u32 s6, s7, s14
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s12, v0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: s_subb_u32 s7, s6, 0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9			; GFX9-NEXT: s_movk_i32 s12, 0xffe
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s12, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_cmp_eq_u32 s7, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v6, s[0:1]			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, -1, v1, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_mov_b32_e32 v2, s8
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v1, v3, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v7, v2, vcc			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v3, vcc
				; GFX9-NEXT: v_mov_b32_e32 v2, s9
				; GFX9-NEXT: v_mov_b32_e32 v3, s11
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
				; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s12, v0
				; GFX9-NEXT: s_cmp_eq_u32 s6, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s5
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v2, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[2:3]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <2 x i64> %x, <i64 4096, i64 4095>			%r = udiv <2 x i64> %x, <i64 4096, i64 4095>
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {			define amdgpu_kernel void @udiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s6, v4			; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s6, v4
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, v5			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, v5
	; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4			; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v5, s7			; GFX6-NEXT: v_mov_b32_e32 v4, s7
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s5, v1			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s5, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s4, v1			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s4, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i64_oddk_denom:			; GFX9-LABEL: urem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mul_i32 s0, s0, 0x9761f7c9			; GFX9-NEXT: s_mul_i32 s0, s0, 0x9761f7c9
	; GFX9-NEXT: s_add_i32 s9, s2, s1			; GFX9-NEXT: s_add_i32 s9, s2, s1
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_sub_i32 s1, s7, s9			; GFX9-NEXT: s_sub_i32 s1, s7, s9
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0
	; GFX9-NEXT: s_mov_b32 s8, 0x9761f7c9			; GFX9-NEXT: s_mov_b32 s8, 0x9761f7c9
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s6, s1, 0x11f			; GFX9-NEXT: s_subb_u32 s6, s1, 0x11f
	; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s8, v0			; GFX9-NEXT: v_subrev_co_u32_e64 v1, s[0:1], s8, v0
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: s_subb_u32 s10, s6, 0			; GFX9-NEXT: s_subb_u32 s10, s6, 0
	; GFX9-NEXT: s_cmpk_gt_u32 s10, 0x11e			; GFX9-NEXT: s_cmpk_gt_u32 s10, 0x11e
	; GFX9-NEXT: s_cselect_b32 s11, -1, 0			; GFX9-NEXT: s_cselect_b32 s11, -1, 0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s12, v3			; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s12, v1
	; GFX9-NEXT: s_cmpk_eq_i32 s10, 0x11f			; GFX9-NEXT: s_cmpk_eq_i32 s10, 0x11f
	; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[2:3]
	; GFX9-NEXT: v_mov_b32_e32 v4, s11			; GFX9-NEXT: v_mov_b32_e32 v4, s11
	; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v4, v1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[2:3]
	; GFX9-NEXT: s_subb_u32 s2, s6, 0x11f			; GFX9-NEXT: s_subb_u32 s2, s6, 0x11f
	; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v3			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v1
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: s_subb_u32 s0, s2, 0			; GFX9-NEXT: s_subb_u32 s2, s2, 0
				; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v1, v4, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v1, s10
				; GFX9-NEXT: v_mov_b32_e32 v4, s2
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s2, s7, s9			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GFX9-NEXT: s_cmpk_gt_u32 s2, 0x11e			; GFX9-NEXT: s_subb_u32 s0, s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v5, s10			; GFX9-NEXT: s_cmpk_gt_u32 s0, 0x11e
	; GFX9-NEXT: v_mov_b32_e32 v6, s0			; GFX9-NEXT: s_cselect_b32 s1, -1, 0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: s_cselect_b32 s3, -1, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s12, v0			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s12, v0
	; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x11f			; GFX9-NEXT: s_cmpk_eq_i32 s0, 0x11f
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v5, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_mov_b32_e32 v6, s3
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v6, s2			; GFX9-NEXT: v_mov_b32_e32 v5, s0
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem i64 %x, 1235195393993			%r = urem i64 %x, 1235195393993
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_i64_oddk_denom:			; GFX6-LABEL: sdiv_i64_oddk_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s5, 0xffed2705			; GFX6-NEXT: s_mov_b32 s8, 0xffed2705
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_mov_b32 s0, s4
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_mov_b32 s4, 0x12d8fb
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s8
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v4, v0, s8
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_mov_b32 s1, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s8
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s8
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
				; GFX6-NEXT: s_ashr_i32 s8, s7, 31
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
				; GFX6-NEXT: s_add_u32 s6, s6, s8
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: s_mov_b32 s9, s8
				; GFX6-NEXT: s_addc_u32 s7, s7, s8
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: s_xor_b64 s[6:7], s[6:7], s[8:9]
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s6, v1
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1			; GFX6-NEXT: v_mul_hi_u32 v3, s6, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1			; GFX6-NEXT: v_mul_hi_u32 v4, s6, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1			; GFX6-NEXT: v_mul_hi_u32 v5, s7, v1
				; GFX6-NEXT: v_mul_lo_u32 v1, s7, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s7, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s7, v0
	; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s4
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s0			; GFX6-NEXT: v_mul_hi_u32 v5, v0, s4
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s0			; GFX6-NEXT: v_mul_lo_u32 v8, v0, s4
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 2, v0
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mov_b32_e32 v5, s3			; GFX6-NEXT: v_mov_b32_e32 v5, s7
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8			; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s6, v8
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s0, v8			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v8
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX6-NEXT: s_mov_b32 s4, 0x12d8fa
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s4, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s4, v8
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, -1, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s8			; GFX6-NEXT: v_mov_b32_e32 v2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i64_oddk_denom:			; GFX9-LABEL: sdiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4996c7d8
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
				; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s2, 0xffed2705			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_readfirstlane_b32 s4, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_readfirstlane_b32 s5, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: s_mul_hi_u32 s6, s5, 0xffed2705
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s7, s4, 0xffed2705
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_add_i32 s6, s6, s7
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_sub_i32 s6, s6, s5
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s5, 0xffed2705
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s7, s5, s6
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v4			; GFX9-NEXT: s_mul_i32 s8, s5, s6
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s5, s5, s9
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_add_u32 s5, s5, s8
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_addc_u32 s7, 0, s7
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s4, s9
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s9, s4, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_add_u32 s5, s5, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s4, s6
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s5, s7, s10
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s7, s8, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s6, s4, s6
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s5, s5, s6
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s6, 0, s7
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s5, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: s_addc_u32 s4, s4, s6
				; GFX9-NEXT: v_readfirstlane_b32 s6, v0
				; GFX9-NEXT: s_mul_i32 s5, s4, 0xffed2705
				; GFX9-NEXT: s_mul_hi_u32 s7, s6, 0xffed2705
				; GFX9-NEXT: s_add_i32 s7, s7, s5
				; GFX9-NEXT: s_sub_i32 s5, s7, s6
				; GFX9-NEXT: s_mul_i32 s8, s6, 0xffed2705
				; GFX9-NEXT: s_mul_hi_u32 s11, s6, s5
				; GFX9-NEXT: s_mul_i32 s12, s6, s5
				; GFX9-NEXT: s_mul_hi_u32 s6, s6, s8
				; GFX9-NEXT: s_add_u32 s6, s6, s12
				; GFX9-NEXT: s_mul_hi_u32 s9, s4, s8
				; GFX9-NEXT: s_mul_i32 s10, s4, s8
				; GFX9-NEXT: s_addc_u32 s8, 0, s11
				; GFX9-NEXT: s_add_u32 s6, s6, s10
				; GFX9-NEXT: s_mul_hi_u32 s7, s4, s5
				; GFX9-NEXT: s_addc_u32 s6, s8, s9
				; GFX9-NEXT: s_addc_u32 s7, s7, 0
				; GFX9-NEXT: s_mul_i32 s5, s4, s5
				; GFX9-NEXT: s_add_u32 s5, s6, s5
				; GFX9-NEXT: s_addc_u32 s6, 0, s7
				; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s5, v0
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s6, s4, s6
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s7, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_u32 s0, s6, s2			; GFX9-NEXT: s_add_u32 s2, s2, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_addc_u32 s3, s3, s4
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_mul_i32 s7, s2, s6
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s9, s2, s8
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s5, s2, s6
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_add_u32 s7, s9, s7
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s3, s8
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s8, s3, s8
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v6, v4			; GFX9-NEXT: s_add_u32 s7, s7, s8
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v5, vcc			; GFX9-NEXT: s_mul_hi_u32 s9, s3, s6
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_addc_u32 s5, s5, s10
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s7, s9, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_mul_i32 s6, s3, s6
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s5, s5, s6
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_addc_u32 s6, 0, s7
	; GFX9-NEXT: s_addc_u32 s1, s7, s2			; GFX9-NEXT: s_add_u32 s7, s5, 1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s8, s6, 0
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]			; GFX9-NEXT: s_add_u32 s9, s5, 2
	; GFX9-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX9-NEXT: s_mul_i32 s12, s6, 0x12d8fb
	; GFX9-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX9-NEXT: s_mul_hi_u32 s13, s5, 0x12d8fb
	; GFX9-NEXT: v_mul_hi_u32 v5, s0, v1			; GFX9-NEXT: s_addc_u32 s10, s6, 0
	; GFX9-NEXT: v_mul_hi_u32 v6, s1, v1			; GFX9-NEXT: s_add_i32 s13, s13, s12
	; GFX9-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX9-NEXT: s_mul_i32 s12, s5, 0x12d8fb
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_mov_b32_e32 v0, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s1, v0			; GFX9-NEXT: s_mov_b32 s11, 0x12d8fb
	; GFX9-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_mov_b32 s3, 0x12d8fb			; GFX9-NEXT: s_subb_u32 s2, s3, s13
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s11, v0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v5			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_subb_u32 s3, s2, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v6, vcc			; GFX9-NEXT: s_mov_b32 s11, 0x12d8fa
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s11, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_cmp_eq_u32 s3, 0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s3			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s3			; GFX9-NEXT: v_cndmask_b32_e32 v1, -1, v1, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s7
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: v_mov_b32_e32 v4, s9
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: v_mov_b32_e32 v3, s8
	; GFX9-NEXT: v_mov_b32_e32 v6, s1			; GFX9-NEXT: v_mov_b32_e32 v4, s10
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s0, v9			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v6, v5, vcc			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s11, v0
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s3, v9			; GFX9-NEXT: s_cmp_eq_u32 s2, 0
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX9-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v4, s6
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9			; GFX9-NEXT: v_mov_b32_e32 v3, s5
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_xor_b32_e32 v3, s4, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v6, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v4, s4
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s4, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v3, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc
	; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv i64 %x, 1235195			%r = sdiv i64 %x, 1235195
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @sdiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @sdiv_i64_pow2k_denom(			; CHECK-LABEL: @sdiv_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s5, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s5, v0
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	Show All 33 Lines
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 1, v0
	; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v0
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v6, s3			; GFX6-NEXT: v_mov_b32_e32 v6, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]			; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s1, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s1, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: v_mov_b32_e32 v2, s1
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_subb_u32 s6, s6, 0			; GFX9-NEXT: s_subb_u32 s6, s6, 0
	; GFX9-NEXT: s_cmp_ge_u32 s6, s9			; GFX9-NEXT: s_cmp_ge_u32 s6, s9
	; GFX9-NEXT: s_cselect_b32 s15, -1, 0			; GFX9-NEXT: s_cselect_b32 s15, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2
	; GFX9-NEXT: s_cmp_eq_u32 s6, s9			; GFX9-NEXT: s_cmp_eq_u32 s6, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v3, s15			; GFX9-NEXT: v_mov_b32_e32 v3, s15
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: s_add_u32 s6, s12, 2
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[0:1]
	; GFX9-NEXT: s_addc_u32 s0, s13, 0			; GFX9-NEXT: s_add_u32 s0, s12, 1
	; GFX9-NEXT: s_add_u32 s15, s12, 1			; GFX9-NEXT: s_addc_u32 s6, s13, 0
	; GFX9-NEXT: s_addc_u32 s1, s13, 0			; GFX9-NEXT: s_add_u32 s1, s12, 2
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_addc_u32 s15, s13, 0
	; GFX9-NEXT: s_subb_u32 s7, s7, s14			; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: s_cmp_ge_u32 s7, s9			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: s_cselect_b32 s14, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1
	; GFX9-NEXT: s_cmp_eq_u32 s7, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v3, s6
				; GFX9-NEXT: v_mov_b32_e32 v4, s15
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s7, s14
				; GFX9-NEXT: s_cmp_ge_u32 s0, s9
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1
				; GFX9-NEXT: s_cmp_eq_u32 s0, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s14			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s13			; GFX9-NEXT: v_mov_b32_e32 v4, s13
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s15
	; GFX9-NEXT: v_mov_b32_e32 v3, s6
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v3, s12			; GFX9-NEXT: v_mov_b32_e32 v3, s12
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]			; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]
	; GFX9-NEXT: v_xor_b32_e32 v2, s0, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s0, v2
	; GFX9-NEXT: v_xor_b32_e32 v3, s1, v1			; GFX9-NEXT: v_xor_b32_e32 v3, s1, v1
	; GFX9-NEXT: v_mov_b32_e32 v4, s1			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s0, v2			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s0, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v3, v4, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v3, v4, vcc
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s1, 31			; GFX6-NEXT: s_ashr_i32 s8, s1, 31
	; GFX6-NEXT: s_lshr_b32 s8, s8, 20			; GFX6-NEXT: s_lshr_b32 s8, s8, 20
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6
	; GFX6-NEXT: s_add_u32 s0, s0, s8			; GFX6-NEXT: s_add_u32 s0, s0, s8
	; GFX6-NEXT: s_addc_u32 s1, s1, 0			; GFX6-NEXT: s_addc_u32 s1, s1, 0
	; GFX6-NEXT: s_ashr_i64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_ashr_i64 s[0:1], s[0:1], 12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: s_ashr_i32 s10, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_add_u32 s0, s2, s10			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s6
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s6
	; GFX6-NEXT: s_mov_b32 s11, s10			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s1, s3, s10			; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: s_xor_b64 s[0:1], s[0:1], s[10:11]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_hi_u32 v4, s0, v1			; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v5, s1, v1			; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s1, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: s_movk_i32 s2, 0xfff			; GFX6-NEXT: s_movk_i32 s9, 0xfff
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s2			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s9
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s2			; GFX6-NEXT: v_mul_hi_u32 v5, v0, s9
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v8, v0, s9
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 2, v0
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mov_b32_e32 v5, s1			; GFX6-NEXT: v_mov_b32_e32 v5, s3
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s0, v8			; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s2, v8			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v8
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0xffe			; GFX6-NEXT: s_movk_i32 s2, 0xffe
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v8
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, -1, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s10, v0			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_mov_b32_e32 v3, s10			; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s10, v0			; GFX6-NEXT: v_mov_b32_e32 v3, s8
				; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s8, v0
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v1, v3, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v0, s8			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s9			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: ssdiv_v2i64_mixed_pow2k_denom:			; GFX9-LABEL: ssdiv_v2i64_mixed_pow2k_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x457ff000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x457ff000
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v2, 0x4f800000
	; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1			; GFX9-NEXT: v_mac_f32_e32 v1, 0, v2
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: s_movk_i32 s8, 0xf001
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_trunc_f32_e32 v2, v2
				; GFX9-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
				; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s0, s5, 31			; GFX9-NEXT: s_ashr_i32 s0, s5, 31
	; GFX9-NEXT: s_lshr_b32 s0, s0, 20			; GFX9-NEXT: s_lshr_b32 s0, s0, 20
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s8
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s8
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s8
	; GFX9-NEXT: s_add_u32 s0, s4, s0			; GFX9-NEXT: s_add_u32 s0, s4, s0
				; GFX9-NEXT: v_readfirstlane_b32 s4, v1
				; GFX9-NEXT: v_readfirstlane_b32 s8, v2
	; GFX9-NEXT: s_addc_u32 s1, s5, 0			; GFX9-NEXT: s_addc_u32 s1, s5, 0
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: s_mul_hi_u32 s5, s4, 0xfffff001
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_mul_i32 s9, s8, 0xfffff001
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX9-NEXT: s_add_i32 s5, s5, s9
	; GFX9-NEXT: v_mul_hi_u32 v5, v0, v4			; GFX9-NEXT: s_sub_i32 s5, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s11, s4, 0xfffff001
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: s_ashr_i64 s[0:1], s[0:1], 12
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s9, s4, s5
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v5, v3			; GFX9-NEXT: s_mul_i32 s10, s4, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v6, vcc			; GFX9-NEXT: s_mul_hi_u32 s4, s4, s11
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX9-NEXT: s_add_u32 s4, s4, s10
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: s_addc_u32 s9, 0, s9
	; GFX9-NEXT: s_ashr_i64 s[4:5], s[0:1], 12			; GFX9-NEXT: s_mul_hi_u32 s12, s8, s11
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_mul_i32 s11, s8, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc			; GFX9-NEXT: s_add_u32 s4, s4, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s8, s5
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s4, s9, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_addc_u32 s9, s10, 0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_mul_i32 s5, s8, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_add_u32 s4, s4, s5
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s8			; GFX9-NEXT: s_addc_u32 s5, 0, s9
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s8			; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s4, v1
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s8			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_ashr_i32 s8, s7, 31			; GFX9-NEXT: s_addc_u32 s4, s8, s5
	; GFX9-NEXT: s_add_u32 s0, s6, s8			; GFX9-NEXT: v_readfirstlane_b32 s8, v1
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s5, s4, 0xfffff001
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_mul_hi_u32 s9, s8, 0xfffff001
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_add_i32 s9, s9, s5
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4			; GFX9-NEXT: s_sub_i32 s5, s9, s8
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_mul_i32 s10, s8, 0xfffff001
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s13, s8, s5
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: s_mul_i32 s14, s8, s5
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s8, s8, s10
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_add_u32 s8, s8, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s11, s4, s10
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s12, s4, s10
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v6, v4			; GFX9-NEXT: s_addc_u32 s10, 0, s13
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v5, vcc			; GFX9-NEXT: s_add_u32 s8, s8, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_mul_hi_u32 s9, s4, s5
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s8, s10, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_mul_i32 s5, s4, s5
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_add_u32 s5, s8, s5
	; GFX9-NEXT: s_addc_u32 s1, s7, s8			; GFX9-NEXT: s_addc_u32 s8, 0, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s5, v1
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[8:9]			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX9-NEXT: s_addc_u32 s8, s4, s8
	; GFX9-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX9-NEXT: s_ashr_i32 s4, s7, 31
	; GFX9-NEXT: v_mul_hi_u32 v5, s0, v1			; GFX9-NEXT: s_add_u32 s6, s6, s4
	; GFX9-NEXT: v_mul_hi_u32 v6, s1, v1			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX9-NEXT: s_addc_u32 s7, s7, s4
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_xor_b64 s[6:7], s[6:7], s[4:5]
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: v_readfirstlane_b32 s10, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, s1, v0			; GFX9-NEXT: s_mul_i32 s9, s6, s8
	; GFX9-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX9-NEXT: s_mul_hi_u32 s11, s6, s10
	; GFX9-NEXT: s_movk_i32 s6, 0xfff			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: s_add_u32 s9, s11, s9
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v5			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_mul_hi_u32 s12, s7, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v6, vcc			; GFX9-NEXT: s_mul_i32 s10, s7, s10
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_add_u32 s9, s9, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_mul_hi_u32 s11, s7, s8
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: s_addc_u32 s5, s5, s12
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s6			; GFX9-NEXT: s_addc_u32 s9, s11, 0
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s6			; GFX9-NEXT: s_mul_i32 s8, s7, s8
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s6			; GFX9-NEXT: s_add_u32 s5, s5, s8
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: s_addc_u32 s8, 0, s9
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: s_add_u32 s9, s5, 1
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: s_addc_u32 s10, s8, 0
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: s_add_u32 s11, s5, 2
	; GFX9-NEXT: v_mov_b32_e32 v6, s1			; GFX9-NEXT: s_mul_i32 s14, s8, 0xfff
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s0, v9			; GFX9-NEXT: s_mul_hi_u32 s15, s5, 0xfff
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v6, v5, vcc			; GFX9-NEXT: s_addc_u32 s12, s8, 0
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s6, v9			; GFX9-NEXT: s_add_i32 s15, s15, s14
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_i32 s14, s5, 0xfff
	; GFX9-NEXT: s_movk_i32 s0, 0xffe			; GFX9-NEXT: v_mov_b32_e32 v1, s14
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s6, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: s_movk_i32 s13, 0xfff
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: s_subb_u32 s6, s7, s15
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s13, v1
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_subb_u32 s7, s6, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: s_movk_i32 s13, 0xffe
	; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v6, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s13, v2
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: s_cmp_eq_u32 s7, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v3, s9
	; GFX9-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX9-NEXT: v_mov_b32_e32 v4, s11
	; GFX9-NEXT: v_xor_b32_e32 v1, s8, v1			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_mov_b32_e32 v3, s8			; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s8, v0			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v1, v3, vcc			; GFX9-NEXT: v_mov_b32_e32 v4, s12
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s13, v1
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[2:3]			; GFX9-NEXT: s_cmp_eq_u32 s6, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v1, -1, v1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v4, s8
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s5
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
				; GFX9-NEXT: v_xor_b32_e32 v2, s4, v2
				; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v4, s4
				; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s4, v2
				; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v1, v4, vcc
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: v_mov_b32_e32 v2, s1
				; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv <2 x i64> %x, <i64 4096, i64 4095>			%r = sdiv <2 x i64> %x, <i64 4096, i64 4095>
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {			define amdgpu_kernel void @sdiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
	; CHECK-LABEL: @sdiv_v2i64_pow2_shl_denom(			; CHECK-LABEL: @sdiv_v2i64_pow2_shl_denom(
	Show All 38 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_addc_u32 s1, s5, s16			; GFX6-NEXT: s_addc_u32 s1, s5, s16
	; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]			; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s11, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s11, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s10, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s10, v0
	; GFX6-NEXT: s_xor_b64 s[14:15], s[16:17], s[14:15]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s12, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s13, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v0
	; GFX6-NEXT: v_mov_b32_e32 v5, s13			; GFX6-NEXT: v_mov_b32_e32 v5, s13
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, s12, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s12, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v2			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s12, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s12, v3
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s13, v4			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s13, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 1, v0
	; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v0
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
	; GFX6-NEXT: s_ashr_i32 s4, s3, 31
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
				; GFX6-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
				; GFX6-NEXT: s_xor_b64 s[0:1], s[16:17], s[14:15]
				; GFX6-NEXT: s_ashr_i32 s4, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s4			; GFX6-NEXT: s_add_u32 s2, s2, s4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v6, s5			; GFX6-NEXT: v_mov_b32_e32 v6, s5
	; GFX6-NEXT: s_mov_b32 s5, s4			; GFX6-NEXT: s_mov_b32 s5, s4
	; GFX6-NEXT: s_addc_u32 s3, s3, s4			; GFX6-NEXT: s_addc_u32 s3, s3, s4
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v9, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
				; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s2
				; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s13, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s12, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
				; GFX6-NEXT: v_mac_f32_e32 v6, 0x4f800000, v7
				; GFX6-NEXT: v_rcp_f32_e32 v6, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2
	; GFX6-NEXT: v_mac_f32_e32 v8, 0x4f800000, v9			; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v3, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GFX6-NEXT: v_rcp_f32_e32 v3, v8
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3			; GFX6-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: s_sub_u32 s12, 0, s2
	; GFX6-NEXT: s_sub_u32 s0, 0, s2			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v4, s12, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s12, v3
	; GFX6-NEXT: s_subb_u32 s1, 0, s3			; GFX6-NEXT: s_subb_u32 s13, 0, s3
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s13, v2
	; GFX6-NEXT: s_ashr_i32 s12, s7, 31			; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s12, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2			; GFX6-NEXT: v_mul_hi_u32 v9, v3, v4
	; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v3, v4
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5			; GFX6-NEXT: v_mul_lo_u32 v8, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v3, v5
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: v_xor_b32_e32 v1, s1, v1
	; GFX6-NEXT: v_xor_b32_e32 v0, s14, v0
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc			; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v4, s12, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, s0, v2			; GFX6-NEXT: v_mul_hi_u32 v5, s12, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v2			; GFX6-NEXT: v_mul_lo_u32 v6, s13, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s15, v1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, s12, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v8, v2, v4			; GFX6-NEXT: v_mul_lo_u32 v8, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, v2, v5			; GFX6-NEXT: v_mul_hi_u32 v9, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v10, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v10, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, v3, v5			; GFX6-NEXT: v_mul_lo_u32 v5, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v6, v3, v4			; GFX6-NEXT: v_mul_hi_u32 v6, v3, v4
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v3, v4			; GFX6-NEXT: v_mul_lo_u32 v4, v3, v4
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v8, v5			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v8, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
				; GFX6-NEXT: s_ashr_i32 s12, s7, 31
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: s_add_u32 s0, s6, s12			; GFX6-NEXT: s_add_u32 s6, s6, s12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: s_addc_u32 s1, s7, s12			; GFX6-NEXT: s_mov_b32 s13, s12
				; GFX6-NEXT: s_addc_u32 s7, s7, s12
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
	; GFX6-NEXT: s_xor_b64 s[6:7], s[0:1], s[12:13]			; GFX6-NEXT: s_xor_b64 s[6:7], s[6:7], s[12:13]
	; GFX6-NEXT: v_mul_lo_u32 v4, s6, v3			; GFX6-NEXT: v_mul_lo_u32 v4, s6, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v5, s6, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, s6, v3			; GFX6-NEXT: v_mul_hi_u32 v7, s6, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, s7, v3			; GFX6-NEXT: v_mul_hi_u32 v8, s7, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, s7, v3			; GFX6-NEXT: v_mul_lo_u32 v3, s7, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_lo_u32 v7, s7, v2			; GFX6-NEXT: v_mul_lo_u32 v7, s7, v2
	; GFX6-NEXT: v_mul_hi_u32 v2, s7, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s7, v2
	; GFX6-NEXT: v_mov_b32_e32 v6, s15			; GFX6-NEXT: v_mov_b32_e32 v6, s1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v7			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v7
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v3			; GFX6-NEXT: v_mul_lo_u32 v4, s2, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, s2, v2			; GFX6-NEXT: v_mul_hi_u32 v5, s2, v2
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s14, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s3, v2			; GFX6-NEXT: v_mul_lo_u32 v6, s3, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, s2, v2			; GFX6-NEXT: v_mul_lo_u32 v5, s2, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s7, v4			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s7, v4
	; GFX6-NEXT: v_mov_b32_e32 v7, s3			; GFX6-NEXT: v_mov_b32_e32 v7, s3
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, s6, v5			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, s6, v5
	; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc			; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s2, v5			; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s2, v5
	; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v6			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v2			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 1, v2			; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 2, v2
	; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v3, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v7, v9, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v7, v8, v10, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v8, s7			; GFX6-NEXT: v_mov_b32_e32 v8, s7
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v8, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v8, v4, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v4			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v5			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s3, v4			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s3, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v5, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v9, v7, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[4:5]			; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX6-NEXT: v_xor_b32_e32 v2, s0, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s0, v2
	; GFX6-NEXT: v_xor_b32_e32 v3, s1, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s1, v3
	; GFX6-NEXT: v_mov_b32_e32 v4, s1			; GFX6-NEXT: v_mov_b32_e32 v4, s1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v2
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_subb_u32 s4, s4, 0			; GFX9-NEXT: s_subb_u32 s4, s4, 0
	; GFX9-NEXT: s_cmp_ge_u32 s4, s13			; GFX9-NEXT: s_cmp_ge_u32 s4, s13
	; GFX9-NEXT: s_cselect_b32 s19, -1, 0			; GFX9-NEXT: s_cselect_b32 s19, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v1			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v1
	; GFX9-NEXT: s_cmp_eq_u32 s4, s13			; GFX9-NEXT: s_cmp_eq_u32 s4, s13
	; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v2, s19			; GFX9-NEXT: v_mov_b32_e32 v2, s19
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: s_add_u32 s4, s16, 2
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]
	; GFX9-NEXT: s_addc_u32 s0, s17, 0			; GFX9-NEXT: s_add_u32 s0, s16, 1
	; GFX9-NEXT: s_add_u32 s19, s16, 1			; GFX9-NEXT: s_addc_u32 s4, s17, 0
	; GFX9-NEXT: s_addc_u32 s1, s17, 0			; GFX9-NEXT: s_add_u32 s1, s16, 2
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_addc_u32 s19, s17, 0
	; GFX9-NEXT: s_subb_u32 s5, s5, s18			; GFX9-NEXT: v_mov_b32_e32 v2, s0
	; GFX9-NEXT: s_cmp_ge_u32 s5, s13			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: s_cselect_b32 s18, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
	; GFX9-NEXT: s_cmp_eq_u32 s5, s13
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v3, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v2, s4
				; GFX9-NEXT: v_mov_b32_e32 v3, s19
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s5, s18
				; GFX9-NEXT: s_cmp_ge_u32 s0, s13
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
				; GFX9-NEXT: s_cmp_eq_u32 s0, s13
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s18			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s17
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v1, s19
	; GFX9-NEXT: v_mov_b32_e32 v2, s4
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
	; GFX9-NEXT: s_xor_b64 s[0:1], s[14:15], s[8:9]			; GFX9-NEXT: s_xor_b64 s[0:1], s[14:15], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s4, s11, 31			; GFX9-NEXT: s_ashr_i32 s4, s11, 31
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX9-NEXT: s_add_u32 s8, s10, s4			; GFX9-NEXT: s_add_u32 s8, s10, s4
				; GFX9-NEXT: v_mov_b32_e32 v3, s17
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s9, s11, s4			; GFX9-NEXT: s_addc_u32 s9, s11, s4
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s16			; GFX9-NEXT: v_mov_b32_e32 v2, s16
	; GFX9-NEXT: s_xor_b64 s[8:9], s[8:9], s[4:5]			; GFX9-NEXT: s_xor_b64 s[8:9], s[8:9], s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s9
	; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX9-NEXT: v_xor_b32_e32 v5, s1, v0			; GFX9-NEXT: v_xor_b32_e32 v5, s1, v0
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v1			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v1
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_subb_u32 s6, s6, 0			; GFX9-NEXT: s_subb_u32 s6, s6, 0
	; GFX9-NEXT: s_cmp_ge_u32 s6, s9			; GFX9-NEXT: s_cmp_ge_u32 s6, s9
	; GFX9-NEXT: s_cselect_b32 s15, -1, 0			; GFX9-NEXT: s_cselect_b32 s15, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v3			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v3
	; GFX9-NEXT: s_cmp_eq_u32 s6, s9			; GFX9-NEXT: s_cmp_eq_u32 s6, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v5, s15			; GFX9-NEXT: v_mov_b32_e32 v5, s15
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: s_add_u32 s6, s12, 2
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v3, s[0:1]
	; GFX9-NEXT: s_addc_u32 s0, s13, 0			; GFX9-NEXT: s_add_u32 s0, s12, 1
	; GFX9-NEXT: s_add_u32 s15, s12, 1			; GFX9-NEXT: s_addc_u32 s6, s13, 0
	; GFX9-NEXT: s_addc_u32 s1, s13, 0			; GFX9-NEXT: s_add_u32 s1, s12, 2
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_addc_u32 s15, s13, 0
	; GFX9-NEXT: s_subb_u32 s7, s7, s14			; GFX9-NEXT: v_mov_b32_e32 v5, s0
	; GFX9-NEXT: s_cmp_ge_u32 s7, s9			; GFX9-NEXT: v_mov_b32_e32 v6, s1
	; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
	; GFX9-NEXT: s_cselect_b32 s14, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
	; GFX9-NEXT: s_cmp_eq_u32 s7, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v6, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v5, s6
				; GFX9-NEXT: v_mov_b32_e32 v6, s15
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s7, s14
				; GFX9-NEXT: s_cmp_ge_u32 s0, s9
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
				; GFX9-NEXT: s_cmp_eq_u32 s0, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; GFX9-NEXT: v_mov_b32_e32 v5, s14			; GFX9-NEXT: v_mov_b32_e32 v6, s1
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
	; GFX9-NEXT: v_mov_b32_e32 v5, s13			; GFX9-NEXT: v_mov_b32_e32 v6, s13
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v5, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s15
	; GFX9-NEXT: v_mov_b32_e32 v5, s6
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v5, s12			; GFX9-NEXT: v_mov_b32_e32 v5, s12
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[4:5]			; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[4:5]
	; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3			; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3
	; GFX9-NEXT: v_xor_b32_e32 v5, s1, v2			; GFX9-NEXT: v_xor_b32_e32 v5, s1, v2
	; GFX9-NEXT: v_mov_b32_e32 v6, s1			; GFX9-NEXT: v_mov_b32_e32 v6, s1
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s0, v3			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s0, v3
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v5, v6, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v5, v6, vcc
	Show All 12 Lines
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_i64_oddk_denom:			; GFX6-LABEL: srem_i64_oddk_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s4, 0xffed2705			; GFX6-NEXT: s_mov_b32 s8, 0xffed2705
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s8
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s8
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4			; GFX6-NEXT: v_mul_lo_u32 v4, v0, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s8
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s8
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s4
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
				; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: s_ashr_i32 s8, s7, 31
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
				; GFX6-NEXT: s_add_u32 s0, s6, s8
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: s_mov_b32 s9, s8
				; GFX6-NEXT: s_addc_u32 s1, s7, s8
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: s_xor_b64 s[6:7], s[0:1], s[8:9]
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s6, v1
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1			; GFX6-NEXT: v_mul_hi_u32 v3, s6, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1			; GFX6-NEXT: v_mul_hi_u32 v4, s6, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1			; GFX6-NEXT: v_mul_hi_u32 v5, s7, v1
				; GFX6-NEXT: v_mul_lo_u32 v1, s7, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s7, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s7, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s0, s4
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb			; GFX6-NEXT: s_mov_b32 s4, 0x12d8fb
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s4
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s0			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s0			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4
				; GFX6-NEXT: s_mov_b32 s1, s5
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s3			; GFX6-NEXT: v_mov_b32_e32 v2, s7
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s4, v0
	; GFX6-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s0, v2			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s4, v2
	; GFX6-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX6-NEXT: s_mov_b32 s4, 0x12d8fa
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v2			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s4, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s4, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
				; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
				; GFX6-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
				; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s8			; GFX6-NEXT: v_mov_b32_e32 v2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i64_oddk_denom:			; GFX9-LABEL: srem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4996c7d8			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4996c7d8
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v1			; GFX9-NEXT: v_readfirstlane_b32 s4, v1
	; GFX9-NEXT: v_readfirstlane_b32 s1, v0			; GFX9-NEXT: v_readfirstlane_b32 s5, v0
	; GFX9-NEXT: s_mul_hi_u32 s2, s1, 0xffed2705			; GFX9-NEXT: s_mul_hi_u32 s6, s5, 0xffed2705
	; GFX9-NEXT: s_mul_i32 s3, s0, 0xffed2705			; GFX9-NEXT: s_mul_i32 s7, s4, 0xffed2705
	; GFX9-NEXT: s_add_i32 s2, s2, s3			; GFX9-NEXT: s_add_i32 s6, s6, s7
	; GFX9-NEXT: s_sub_i32 s2, s2, s1			; GFX9-NEXT: s_sub_i32 s6, s6, s5
	; GFX9-NEXT: s_mul_i32 s9, s1, 0xffed2705			; GFX9-NEXT: s_mul_i32 s9, s5, 0xffed2705
	; GFX9-NEXT: s_mul_hi_u32 s3, s1, s2			; GFX9-NEXT: s_mul_hi_u32 s7, s5, s6
	; GFX9-NEXT: s_mul_i32 s8, s1, s2			; GFX9-NEXT: s_mul_i32 s8, s5, s6
	; GFX9-NEXT: s_mul_hi_u32 s1, s1, s9			; GFX9-NEXT: s_mul_hi_u32 s5, s5, s9
	; GFX9-NEXT: s_add_u32 s1, s1, s8			; GFX9-NEXT: s_add_u32 s5, s5, s8
	; GFX9-NEXT: s_addc_u32 s3, 0, s3			; GFX9-NEXT: s_addc_u32 s7, 0, s7
	; GFX9-NEXT: s_mul_hi_u32 s10, s0, s9			; GFX9-NEXT: s_mul_hi_u32 s10, s4, s9
	; GFX9-NEXT: s_mul_i32 s9, s0, s9			; GFX9-NEXT: s_mul_i32 s9, s4, s9
	; GFX9-NEXT: s_add_u32 s1, s1, s9			; GFX9-NEXT: s_add_u32 s5, s5, s9
	; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX9-NEXT: s_mul_hi_u32 s8, s4, s6
	; GFX9-NEXT: s_addc_u32 s1, s3, s10			; GFX9-NEXT: s_addc_u32 s5, s7, s10
	; GFX9-NEXT: s_addc_u32 s3, s8, 0			; GFX9-NEXT: s_addc_u32 s7, s8, 0
	; GFX9-NEXT: s_mul_i32 s2, s0, s2			; GFX9-NEXT: s_mul_i32 s6, s4, s6
	; GFX9-NEXT: s_add_u32 s1, s1, s2			; GFX9-NEXT: s_add_u32 s5, s5, s6
	; GFX9-NEXT: s_addc_u32 s2, 0, s3			; GFX9-NEXT: s_addc_u32 s6, 0, s7
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s5, v0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_addc_u32 s0, s0, s2			; GFX9-NEXT: s_addc_u32 s4, s4, s6
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: s_mul_i32 s1, s0, 0xffed2705			; GFX9-NEXT: s_mul_i32 s5, s4, 0xffed2705
	; GFX9-NEXT: s_mul_hi_u32 s3, s2, 0xffed2705			; GFX9-NEXT: s_mul_hi_u32 s7, s6, 0xffed2705
	; GFX9-NEXT: s_add_i32 s3, s3, s1			; GFX9-NEXT: s_add_i32 s7, s7, s5
	; GFX9-NEXT: s_sub_i32 s1, s3, s2			; GFX9-NEXT: s_sub_i32 s5, s7, s6
	; GFX9-NEXT: s_mul_i32 s8, s2, 0xffed2705			; GFX9-NEXT: s_mul_i32 s8, s6, 0xffed2705
	; GFX9-NEXT: s_mul_hi_u32 s11, s2, s1			; GFX9-NEXT: s_mul_hi_u32 s11, s6, s5
	; GFX9-NEXT: s_mul_i32 s12, s2, s1			; GFX9-NEXT: s_mul_i32 s12, s6, s5
	; GFX9-NEXT: s_mul_hi_u32 s2, s2, s8			; GFX9-NEXT: s_mul_hi_u32 s6, s6, s8
	; GFX9-NEXT: s_add_u32 s2, s2, s12			; GFX9-NEXT: s_add_u32 s6, s6, s12
	; GFX9-NEXT: s_mul_hi_u32 s9, s0, s8			; GFX9-NEXT: s_mul_hi_u32 s9, s4, s8
	; GFX9-NEXT: s_mul_i32 s10, s0, s8			; GFX9-NEXT: s_mul_i32 s10, s4, s8
	; GFX9-NEXT: s_addc_u32 s8, 0, s11			; GFX9-NEXT: s_addc_u32 s8, 0, s11
	; GFX9-NEXT: s_add_u32 s2, s2, s10			; GFX9-NEXT: s_add_u32 s6, s6, s10
	; GFX9-NEXT: s_mul_hi_u32 s3, s0, s1			; GFX9-NEXT: s_mul_hi_u32 s7, s4, s5
	; GFX9-NEXT: s_addc_u32 s2, s8, s9			; GFX9-NEXT: s_addc_u32 s6, s8, s9
	; GFX9-NEXT: s_addc_u32 s3, s3, 0			; GFX9-NEXT: s_addc_u32 s7, s7, 0
	; GFX9-NEXT: s_mul_i32 s1, s0, s1			; GFX9-NEXT: s_mul_i32 s5, s4, s5
	; GFX9-NEXT: s_add_u32 s1, s2, s1			; GFX9-NEXT: s_add_u32 s5, s6, s5
	; GFX9-NEXT: s_addc_u32 s2, 0, s3			; GFX9-NEXT: s_addc_u32 s6, 0, s7
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s5, v0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_addc_u32 s8, s0, s2			; GFX9-NEXT: s_addc_u32 s6, s4, s6
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s7, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_u32 s0, s6, s2			; GFX9-NEXT: s_add_u32 s2, s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s1, s7, s2			; GFX9-NEXT: s_addc_u32 s3, s3, s4
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]			; GFX9-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s7, v0			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: s_mul_i32 s6, s0, s8			; GFX9-NEXT: s_mul_i32 s7, s2, s6
	; GFX9-NEXT: s_mul_hi_u32 s9, s0, s7			; GFX9-NEXT: s_mul_hi_u32 s9, s2, s8
	; GFX9-NEXT: s_mul_hi_u32 s3, s0, s8			; GFX9-NEXT: s_mul_hi_u32 s5, s2, s6
	; GFX9-NEXT: s_add_u32 s6, s9, s6			; GFX9-NEXT: s_add_u32 s7, s9, s7
	; GFX9-NEXT: s_addc_u32 s3, 0, s3			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_mul_hi_u32 s10, s1, s7			; GFX9-NEXT: s_mul_hi_u32 s10, s3, s8
	; GFX9-NEXT: s_mul_i32 s7, s1, s7			; GFX9-NEXT: s_mul_i32 s8, s3, s8
	; GFX9-NEXT: s_add_u32 s6, s6, s7			; GFX9-NEXT: s_add_u32 s7, s7, s8
	; GFX9-NEXT: s_mul_hi_u32 s9, s1, s8			; GFX9-NEXT: s_mul_hi_u32 s9, s3, s6
	; GFX9-NEXT: s_addc_u32 s3, s3, s10			; GFX9-NEXT: s_addc_u32 s5, s5, s10
	; GFX9-NEXT: s_addc_u32 s6, s9, 0			; GFX9-NEXT: s_addc_u32 s7, s9, 0
	; GFX9-NEXT: s_mul_i32 s7, s1, s8			; GFX9-NEXT: s_mul_i32 s6, s3, s6
	; GFX9-NEXT: s_add_u32 s3, s3, s7			; GFX9-NEXT: s_add_u32 s5, s5, s6
	; GFX9-NEXT: s_addc_u32 s6, 0, s6			; GFX9-NEXT: s_addc_u32 s6, 0, s7
	; GFX9-NEXT: s_mul_hi_u32 s8, s3, 0x12d8fb			; GFX9-NEXT: s_mul_hi_u32 s8, s5, 0x12d8fb
	; GFX9-NEXT: s_mul_i32 s3, s3, 0x12d8fb			; GFX9-NEXT: s_mul_i32 s5, s5, 0x12d8fb
	; GFX9-NEXT: s_mul_i32 s6, s6, 0x12d8fb			; GFX9-NEXT: s_mul_i32 s6, s6, 0x12d8fb
	; GFX9-NEXT: v_mov_b32_e32 v0, s3			; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: s_add_i32 s8, s8, s6			; GFX9-NEXT: s_add_i32 s8, s8, s6
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s2, v0
	; GFX9-NEXT: s_mov_b32 s7, 0x12d8fb			; GFX9-NEXT: s_mov_b32 s7, 0x12d8fb
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s3, s1, s8			; GFX9-NEXT: s_subb_u32 s2, s3, s8
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s7, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s7, v0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s0, s3, 0			; GFX9-NEXT: s_subb_u32 s3, s2, 0
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s7, v1			; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s7, v1
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s1, s0, 0			; GFX9-NEXT: s_subb_u32 s5, s3, 0
	; GFX9-NEXT: s_mov_b32 s6, 0x12d8fa			; GFX9-NEXT: s_mov_b32 s6, 0x12d8fa
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1
	; GFX9-NEXT: s_cmp_eq_u32 s0, 0			; GFX9-NEXT: s_cmp_eq_u32 s3, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v5, s0			; GFX9-NEXT: v_mov_b32_e32 v5, s3
	; GFX9-NEXT: v_mov_b32_e32 v6, s1			; GFX9-NEXT: v_mov_b32_e32 v6, s5
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s6, v0
	; GFX9-NEXT: s_cmp_eq_u32 s3, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_mov_b32_e32 v6, s3			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v1, s[0:1]			; GFX9-NEXT: s_cmp_eq_u32 s2, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v6, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v4			; GFX9-NEXT: v_cndmask_b32_e32 v3, -1, v3, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s2			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0			; GFX9-NEXT: v_mov_b32_e32 v5, s2
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v4, vcc
				; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
				; GFX9-NEXT: v_xor_b32_e32 v1, s4, v3
				; GFX9-NEXT: v_mov_b32_e32 v3, s4
				; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem i64 %x, 1235195			%r = srem i64 %x, 1235195
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @srem_i64_pow2k_denom(			; CHECK-LABEL: @srem_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s5, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s5, v0
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	Show All 21 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, s8, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s8, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s8, v0			; GFX6-NEXT: v_mul_hi_u32 v2, s8, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, s9, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s9, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, s8, v0			; GFX6-NEXT: v_mul_lo_u32 v0, s8, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s13, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s13, v1
	; GFX6-NEXT: v_mov_b32_e32 v3, s9			; GFX6-NEXT: v_mov_b32_e32 v3, s9
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0			; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v5			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v5
	; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s8, v4			; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s8, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v5, s13			; GFX6-NEXT: v_mov_b32_e32 v4, s13
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s10, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s10, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s10, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s10			; GFX6-NEXT: v_mov_b32_e32 v2, s10
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s10, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s10, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[2:3]
	; GFX9-NEXT: v_mov_b32_e32 v4, s13			; GFX9-NEXT: v_mov_b32_e32 v4, s13
	; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[2:3]
	; GFX9-NEXT: s_subb_u32 s2, s6, s9			; GFX9-NEXT: s_subb_u32 s2, s6, s9
	; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v2			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v2
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: s_subb_u32 s0, s2, 0			; GFX9-NEXT: s_subb_u32 s2, s2, 0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s2, s7, s11
	; GFX9-NEXT: s_cmp_ge_u32 s2, s9
	; GFX9-NEXT: v_mov_b32_e32 v5, s12
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
	; GFX9-NEXT: s_cselect_b32 s3, -1, 0			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v3, s12
				; GFX9-NEXT: v_mov_b32_e32 v4, s2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s7, s11
				; GFX9-NEXT: s_cmp_ge_u32 s0, s9
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1
	; GFX9-NEXT: s_cmp_eq_u32 s2, s9			; GFX9-NEXT: s_cmp_eq_u32 s0, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_mov_b32_e32 v6, s3
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v4, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v5, s0
	; GFX9-NEXT: v_mov_b32_e32 v6, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1
	; GFX9-NEXT: v_xor_b32_e32 v2, s10, v3			; GFX9-NEXT: v_xor_b32_e32 v2, s10, v3
	; GFX9-NEXT: v_mov_b32_e32 v3, s10			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s10, v1			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s10, v1
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v0, v[1:2], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v0, v[1:2], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	Show All 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, s16, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s16, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s16, v0			; GFX6-NEXT: v_mul_hi_u32 v2, s16, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, s17, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s17, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, s16, v0			; GFX6-NEXT: v_mul_lo_u32 v0, s16, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v1
	; GFX6-NEXT: v_mov_b32_e32 v3, s17			; GFX6-NEXT: v_mov_b32_e32 v3, s17
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s16, v0			; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s16, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s17, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s17, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s16, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s16, v4
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s17, v5			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s17, v5
	; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s16, v4			; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s16, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX6-NEXT: s_ashr_i32 s2, s15, 31
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: s_add_u32 s4, s14, s2			; GFX6-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v5, s5			; GFX6-NEXT: s_ashr_i32 s0, s15, 31
	; GFX6-NEXT: s_mov_b32 s3, s2			; GFX6-NEXT: s_add_u32 s2, s14, s0
	; GFX6-NEXT: s_addc_u32 s5, s15, s2			; GFX6-NEXT: s_mov_b32 s1, s0
	; GFX6-NEXT: s_xor_b64 s[4:5], s[4:5], s[2:3]			; GFX6-NEXT: s_addc_u32 s3, s15, s0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4			; GFX6-NEXT: v_mov_b32_e32 v4, s5
	; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s5			; GFX6-NEXT: s_xor_b64 s[4:5], s[2:3], s[0:1]
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
				; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s4
				; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v1
	; GFX6-NEXT: v_mac_f32_e32 v6, 0x4f800000, v7			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v0
	; GFX6-NEXT: v_rcp_f32_e32 v6, v6			; GFX6-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_rcp_f32_e32 v4, v4
				; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v1			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v6, v7, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GFX6-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v4
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v6			; GFX6-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4			; GFX6-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_sub_u32 s0, 0, s4			; GFX6-NEXT: s_sub_u32 s0, 0, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v3, s0, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_subb_u32 s1, 0, s5			; GFX6-NEXT: s_subb_u32 s1, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v2
	; GFX6-NEXT: s_ashr_i32 s14, s7, 31			; GFX6-NEXT: s_ashr_i32 s14, s7, 31
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v2, v3
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v2, v3
	; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2			; GFX6-NEXT: v_mul_hi_u32 v9, v4, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2			; GFX6-NEXT: v_mul_lo_u32 v3, v4, v3
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5			; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5
	; GFX6-NEXT: s_mov_b32 s15, s14			; GFX6-NEXT: s_mov_b32 s15, s14
	; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc			; GFX6-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v4, s0, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, s0, v2			; GFX6-NEXT: v_mul_hi_u32 v5, s0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v2			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s12, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s12, v1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v8, v2, v4			; GFX6-NEXT: v_mul_lo_u32 v8, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, v2, v5			; GFX6-NEXT: v_mul_hi_u32 v9, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v10, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v10, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, v3, v5			; GFX6-NEXT: v_mul_lo_u32 v5, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v6, v3, v4			; GFX6-NEXT: v_mul_hi_u32 v6, v3, v4
	Show All 26 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, s4, v2			; GFX6-NEXT: v_mul_hi_u32 v4, s4, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v2			; GFX6-NEXT: v_mul_lo_u32 v5, s5, v2
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v2
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s7, v3			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s7, v3
	; GFX6-NEXT: v_mov_b32_e32 v5, s5			; GFX6-NEXT: v_mov_b32_e32 v5, s5
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s4, v2			; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s4, v2
	; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s5, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s5, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s4, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s4, v6
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s5, v7			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s5, v7
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s4, v6			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s4, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v7, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, v6, v5, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v7, s7			; GFX6-NEXT: v_mov_b32_e32 v6, s7
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v7, v3, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v6, v3, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v4, v7, v4, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s5, v3			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s5, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
				; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_xor_b32_e32 v2, s14, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s14, v2
	; GFX6-NEXT: v_xor_b32_e32 v3, s14, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s14, v3
	; GFX6-NEXT: v_mov_b32_e32 v4, s14			; GFX6-NEXT: v_mov_b32_e32 v4, s14
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s14, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s14, v2
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[2:3]
	; GFX9-NEXT: v_mov_b32_e32 v3, s17			; GFX9-NEXT: v_mov_b32_e32 v3, s17
	; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[2:3]
	; GFX9-NEXT: s_subb_u32 s2, s4, s13			; GFX9-NEXT: s_subb_u32 s2, s4, s13
	; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s12, v1			; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s12, v1
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: s_subb_u32 s0, s2, 0			; GFX9-NEXT: s_subb_u32 s2, s2, 0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s2, s5, s15
	; GFX9-NEXT: s_cmp_ge_u32 s2, s13
	; GFX9-NEXT: v_mov_b32_e32 v5, s16
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: s_cselect_b32 s3, -1, 0			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v2, s16
				; GFX9-NEXT: v_mov_b32_e32 v3, s2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s5, s15
				; GFX9-NEXT: s_cmp_ge_u32 s0, s13
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
	; GFX9-NEXT: s_cmp_eq_u32 s2, s13			; GFX9-NEXT: s_cmp_eq_u32 s0, s13
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_mov_b32_e32 v6, s3
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
				; GFX9-NEXT: v_mov_b32_e32 v5, s0
	; GFX9-NEXT: s_ashr_i32 s0, s11, 31			; GFX9-NEXT: s_ashr_i32 s0, s11, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
	; GFX9-NEXT: v_mov_b32_e32 v6, s2
	; GFX9-NEXT: s_add_u32 s2, s10, s0			; GFX9-NEXT: s_add_u32 s2, s10, s0
	; GFX9-NEXT: s_mov_b32 s1, s0			; GFX9-NEXT: s_mov_b32 s1, s0
	; GFX9-NEXT: s_addc_u32 s3, s11, s0			; GFX9-NEXT: s_addc_u32 s3, s11, s0
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; GFX9-NEXT: s_xor_b64 s[4:5], s[2:3], s[0:1]			; GFX9-NEXT: s_xor_b64 s[4:5], s[2:3], s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s4			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s5			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s14, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s14, v0
	; GFX9-NEXT: v_xor_b32_e32 v2, s14, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s14, v2
	; GFX9-NEXT: v_mac_f32_e32 v1, 0x4f800000, v3			; GFX9-NEXT: v_mac_f32_e32 v1, 0x4f800000, v3
	; GFX9-NEXT: v_rcp_f32_e32 v3, v1			; GFX9-NEXT: v_rcp_f32_e32 v3, v1
	; GFX9-NEXT: v_mov_b32_e32 v5, s14			; GFX9-NEXT: v_mov_b32_e32 v5, s14
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s14, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s14, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v5, vcc
	; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v3			; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v3
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[2:3]
	; GFX9-NEXT: v_mov_b32_e32 v6, s13			; GFX9-NEXT: v_mov_b32_e32 v6, s13
	; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v5, s[2:3]
	; GFX9-NEXT: s_subb_u32 s2, s6, s5			; GFX9-NEXT: s_subb_u32 s2, s6, s5
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s4, v3			; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s4, v3
	; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: s_subb_u32 s0, s2, 0			; GFX9-NEXT: s_subb_u32 s2, s2, 0
	; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_subb_u32 s2, s7, s11
	; GFX9-NEXT: s_cmp_ge_u32 s2, s5
	; GFX9-NEXT: v_mov_b32_e32 v7, s12
	; GFX9-NEXT: v_mov_b32_e32 v8, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GFX9-NEXT: s_cselect_b32 s3, -1, 0			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v5, s12
				; GFX9-NEXT: v_mov_b32_e32 v6, s2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
				; GFX9-NEXT: s_subb_u32 s0, s7, s11
				; GFX9-NEXT: s_cmp_ge_u32 s0, s5
				; GFX9-NEXT: s_cselect_b32 s1, -1, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX9-NEXT: s_cmp_eq_u32 s2, s5			; GFX9-NEXT: s_cmp_eq_u32 s0, s5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v8, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v7, s1
	; GFX9-NEXT: v_mov_b32_e32 v8, s3
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v7, v6, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v7, s0
	; GFX9-NEXT: v_mov_b32_e32 v8, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v7, v5, vcc
	; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
	; GFX9-NEXT: v_xor_b32_e32 v3, s10, v5			; GFX9-NEXT: v_xor_b32_e32 v3, s10, v5
	; GFX9-NEXT: v_mov_b32_e32 v5, s10			; GFX9-NEXT: v_mov_b32_e32 v5, s10
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s10, v2			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s10, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v3, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v3, v5, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[8:9]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[8:9]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = srem <2 x i64> %x, %shl.y			%r = srem <2 x i64> %x, %shl.y
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/dagcombine-select.ll

Show All 34 Lines	define amdgpu_kernel void @select_and3(i32 addrspace(1)* %p, i32 %x, i32 %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, i32 -1, i32 0		%s = select i1 %c, i32 -1, i32 0
%a = and i32 %y, %s		%a = and i32 %y, %s
store i32 %a, i32 addrspace(1)* %p, align 4		store i32 %a, i32 addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_and_v4:		; GCN-LABEL: {{^}}select_and_v4:
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL0:[0-9]+]], s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL1:[0-9]+]], s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL2:[0-9]+]], s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL3:[0-9]+]], s{{[0-9]+}}, 0
		; GCN: v_mov_b32_e32 v[[V0:[0-9]+]], s[[SEL3]]
		; GCN: v_mov_b32_e32 v[[V1:[0-9]+]], s[[SEL2]]
		; GCN: v_mov_b32_e32 v[[V2:[0-9]+]], s[[SEL1]]
		; GCN: v_mov_b32_e32 v[[V3:[0-9]+]], s[[SEL0]]
; GCN-NOT: v_and_b32		; GCN-NOT: v_and_b32
; GCN: store_dword		; GCN: global_store_dwordx4 v{{[0-9]+}}, v[[[V0]]:[[V3]]]
define amdgpu_kernel void @select_and_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {		define amdgpu_kernel void @select_and_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>		%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>
%a = and <4 x i32> %s, %y		%a = and <4 x i32> %s, %y
store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
}		}

Show All 32 Lines	define amdgpu_kernel void @select_or3(i32 addrspace(1)* %p, i32 %x, i32 %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, i32 -1, i32 0		%s = select i1 %c, i32 -1, i32 0
%a = or i32 %y, %s		%a = or i32 %y, %s
store i32 %a, i32 addrspace(1)* %p, align 4		store i32 %a, i32 addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_or_v4:		; GCN-LABEL: {{^}}select_or_v4:
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL0:[0-9]+]], s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL1:[0-9]+]], s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL2:[0-9]+]], s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s[[SEL3:[0-9]+]], s{{[0-9]+}}, -1
; GCN-NOT: v_or_b32		; GCN-NOT: v_or_b32
; GCN: store_dword		; GCN: v_mov_b32_e32 v[[V0:[0-9]+]], s[[SEL3]]
		; GCN: v_mov_b32_e32 v[[V1:[0-9]+]], s[[SEL2]]
		; GCN: v_mov_b32_e32 v[[V2:[0-9]+]], s[[SEL1]]
		; GCN: v_mov_b32_e32 v[[V3:[0-9]+]], s[[SEL0]]
		; GCN: global_store_dwordx4 v{{[0-9]+}}, v[[[V0]]:[[V3]]]
define amdgpu_kernel void @select_or_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {		define amdgpu_kernel void @select_or_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>		%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>
%a = or <4 x i32> %s, %y		%a = or <4 x i32> %s, %y
store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
}		}

Show All 31 Lines
define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v2i16(<2 x i16> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v2i16(<2 x i16> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <2 x i16> <i16 -4, i16 2>, <2 x i16> <i16 3, i16 1>		%sel = select i1 %cond, <2 x i16> <i16 -4, i16 2>, <2 x i16> <i16 3, i16 1>
%bo = sub <2 x i16> <i16 5, i16 7>, %sel		%bo = sub <2 x i16> <i16 5, i16 7>, %sel
store <2 x i16> %bo, <2 x i16> addrspace(1)* %p, align 4		store <2 x i16> %bo, <2 x i16> addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}sel_constants_sub_constant_sel_constants_v4i32:		; GCN-LABEL: {{^}}sel_constants_sub_constant_sel_constants_v4i32:
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 2, 9,		; GCN: s_cselect_b32 s[[SEL0:[0-9]+]], 7, 14
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 6, 5,		; GCN: s_cselect_b32 s[[SEL1:[0-9]+]], 6, 10
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 10, 6,		; GCN: s_cselect_b32 s[[SEL2:[0-9]+]], 5, 6
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 14, 7,		; GCN: s_cselect_b32 s[[SEL3:[0-9]+]], 9, 2
		; GCN: v_mov_b32_e32 v[[V0:[0-9]+]], s[[SEL3]]
		; GCN: v_mov_b32_e32 v[[V1:[0-9]+]], s[[SEL2]]
		; GCN: v_mov_b32_e32 v[[V2:[0-9]+]], s[[SEL1]]
		; GCN: v_mov_b32_e32 v[[V3:[0-9]+]], s[[SEL0]]
		; GCN: global_store_dwordx4 v{{[0-9]+}}, v[[[V0]]:[[V3]]]
define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v4i32(<4 x i32> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v4i32(<4 x i32> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <4 x i32> <i32 -4, i32 2, i32 3, i32 4>, <4 x i32> <i32 3, i32 1, i32 -1, i32 -3>		%sel = select i1 %cond, <4 x i32> <i32 -4, i32 2, i32 3, i32 4>, <4 x i32> <i32 3, i32 1, i32 -1, i32 -3>
%bo = sub <4 x i32> <i32 5, i32 7, i32 9, i32 11>, %sel		%bo = sub <4 x i32> <i32 5, i32 7, i32 9, i32 11>, %sel
store <4 x i32> %bo, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %bo, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
}		}

; GCN-LABEL: {{^}}sdiv_constant_sel_constants_i64:		; GCN-LABEL: {{^}}sdiv_constant_sel_constants_i64:
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @fsub_constant_sel_constants_v2f16(<2 x half> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @fsub_constant_sel_constants_v2f16(<2 x half> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <2 x half> <half -2.0, half -3.0>, <2 x half> <half -1.0, half 4.0>		%sel = select i1 %cond, <2 x half> <half -2.0, half -3.0>, <2 x half> <half -1.0, half 4.0>
%bo = fsub <2 x half> <half -1.0, half 2.0>, %sel		%bo = fsub <2 x half> <half -1.0, half 2.0>, %sel
store <2 x half> %bo, <2 x half> addrspace(1)* %p, align 4		store <2 x half> %bo, <2 x half> addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_constant_sel_constants_v4f32:		; GCN-LABEL: {{^}}fsub_constant_sel_constants_v4f32:
; GCN-DAG: v_mov_b32_e32 [[T2:v[0-9]+]], 0x40a00000		; GCN: s_mov_b32 [[T0:s[0-9]+]], 0x41500000
; GCN-DAG: v_mov_b32_e32 [[T3:v[0-9]+]], 0x41100000		; GCN: s_cselect_b32 s[[SEL0:[0-9]+]], [[T0]], 0x40c00000
; GCN-DAG: v_mov_b32_e32 [[T4:v[0-9]+]], 0x41500000		; GCN: s_cselect_b32 s[[SEL1:[0-9]+]], 0x41100000, 4.0
; GCN-DAG: v_mov_b32_e32 [[F4:v[0-9]+]], 0x40c00000		; GCN: s_cselect_b32 s[[SEL2:[0-9]+]], 0x40a00000, 2.0
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1.0,		; GCN: s_cselect_b32 s[[SEL3:[0-9]+]], 1.0, 0
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 2.0, [[T2]],		; GCN: v_mov_b32_e32 v[[V0:[0-9]+]], s[[SEL3]]
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 4.0, [[T3]],		; GCN: v_mov_b32_e32 v[[V1:[0-9]+]], s[[SEL2]]
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, [[F4]], [[T4]],		; GCN: v_mov_b32_e32 v[[V2:[0-9]+]], s[[SEL1]]
		; GCN: v_mov_b32_e32 v[[V3:[0-9]+]], s[[SEL0]]
		; GCN: global_store_dwordx4 v{{[0-9]+}}, v[[[V0]]:[[V3]]]
define amdgpu_kernel void @fsub_constant_sel_constants_v4f32(<4 x float> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @fsub_constant_sel_constants_v4f32(<4 x float> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <4 x float> <float -2.0, float -3.0, float -4.0, float -5.0>, <4 x float> <float -1.0, float 0.0, float 1.0, float 2.0>		%sel = select i1 %cond, <4 x float> <float -2.0, float -3.0, float -4.0, float -5.0>, <4 x float> <float -1.0, float 0.0, float 1.0, float 2.0>
%bo = fsub <4 x float> <float -1.0, float 2.0, float 5.0, float 8.0>, %sel		%bo = fsub <4 x float> <float -1.0, float 2.0, float 5.0, float 8.0>, %sel
store <4 x float> %bo, <4 x float> addrspace(1)* %p, align 32		store <4 x float> %bo, <4 x float> addrspace(1)* %p, align 32
ret void		ret void
}		}

; GCN-LABEL: {{^}}fdiv_constant_sel_constants:		; GCN-LABEL: {{^}}fdiv_constant_sel_constants:
Show All 16 Lines

llvm/test/CodeGen/AMDGPU/expand-scalar-carry-out-select-user.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx704 < %s \| FileCheck -check-prefix=GFX7 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx704 < %s \| FileCheck -check-prefix=GFX7 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 < %s \| FileCheck -check-prefix=GFX10 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 < %s \| FileCheck -check-prefix=GFX10 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 < %s \| FileCheck -check-prefix=GFX11 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 < %s \| FileCheck -check-prefix=GFX11 %s

	define i32 @s_add_co_select_user() {			define i32 @s_add_co_select_user() {
	; GFX7-LABEL: s_add_co_select_user:			; GFX7-LABEL: s_add_co_select_user:
	; GFX7: ; %bb.0: ; %bb			; GFX7: ; %bb.0: ; %bb
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX7-NEXT: s_load_dword s6, s[4:5], 0x0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_add_i32_e64 v0, s[4:5], s6, s6			; GFX7-NEXT: v_add_i32_e64 v0, s[4:5], s6, s6
	; GFX7-NEXT: s_or_b32 s4, s4, s5			; GFX7-NEXT: s_or_b32 s4, s4, s5
	; GFX7-NEXT: s_cmp_lg_u32 s4, 0			; GFX7-NEXT: s_cmp_lg_u32 s4, 0
	; GFX7-NEXT: s_addc_u32 s4, s6, 0			; GFX7-NEXT: s_addc_u32 s7, s6, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: s_cselect_b64 s[4:5], -1, 0
	; GFX7-NEXT: s_cselect_b64 vcc, -1, 0			; GFX7-NEXT: s_and_b64 s[4:5], s[4:5], exec
				; GFX7-NEXT: s_cselect_b32 s4, s7, 0
	; GFX7-NEXT: s_cmp_gt_u32 s6, 31			; GFX7-NEXT: s_cmp_gt_u32 s6, 31
	; GFX7-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc			; GFX7-NEXT: v_mov_b32_e32 v1, s4
	; GFX7-NEXT: s_cselect_b64 vcc, -1, 0			; GFX7-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: s_add_co_select_user:			; GFX9-LABEL: s_add_co_select_user:
	; GFX9: ; %bb.0: ; %bb			; GFX9: ; %bb.0: ; %bb
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b64 s[4:5], 0			; GFX9-NEXT: s_mov_b64 s[4:5], 0
	; GFX9-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX9-NEXT: s_load_dword s6, s[4:5], 0x0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_add_co_u32_e64 v0, s[4:5], s6, s6			; GFX9-NEXT: v_add_co_u32_e64 v0, s[4:5], s6, s6
	; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX9-NEXT: s_addc_u32 s4, s6, 0			; GFX9-NEXT: s_addc_u32 s7, s6, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: s_cselect_b64 s[4:5], -1, 0
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_and_b64 s[4:5], s[4:5], exec
				; GFX9-NEXT: s_cselect_b32 s4, s7, 0
	; GFX9-NEXT: s_cmp_gt_u32 s6, 31			; GFX9-NEXT: s_cmp_gt_u32 s6, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: s_add_co_select_user:			; GFX10-LABEL: s_add_co_select_user:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_mov_b64 s[4:5], 0			; GFX10-NEXT: s_mov_b64 s[4:5], 0
	; GFX10-NEXT: s_load_dword s4, s[4:5], 0x0			; GFX10-NEXT: s_load_dword s4, s[4:5], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32 v0, s5, s4, s4			; GFX10-NEXT: v_add_co_u32 v0, s5, s4, s4
	; GFX10-NEXT: s_cmpk_lg_u32 s5, 0x0			; GFX10-NEXT: s_cmpk_lg_u32 s5, 0x0
	; GFX10-NEXT: s_addc_u32 s5, s4, 0			; GFX10-NEXT: s_addc_u32 s5, s4, 0
	; GFX10-NEXT: s_cselect_b32 s6, -1, 0			; GFX10-NEXT: s_cselect_b32 s6, -1, 0
				; GFX10-NEXT: s_and_b32 s6, s6, exec_lo
				; GFX10-NEXT: s_cselect_b32 s5, s5, 0
	; GFX10-NEXT: s_cmp_gt_u32 s4, 31			; GFX10-NEXT: s_cmp_gt_u32 s4, 31
	; GFX10-NEXT: v_cndmask_b32_e64 v1, 0, s5, s6
	; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, s5, v0, vcc_lo
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: s_add_co_select_user:			; GFX11-LABEL: s_add_co_select_user:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: s_mov_b64 s[0:1], 0			; GFX11-NEXT: s_mov_b64 s[0:1], 0
	; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x0			; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_add_co_u32 v0, s1, s0, s0			; GFX11-NEXT: v_add_co_u32 v0, s1, s0, s0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: s_cmpk_lg_u32 s1, 0x0			; GFX11-NEXT: s_cmpk_lg_u32 s1, 0x0
	; GFX11-NEXT: s_addc_u32 s1, s0, 0			; GFX11-NEXT: s_addc_u32 s1, s0, 0
	; GFX11-NEXT: s_cselect_b32 s2, -1, 0			; GFX11-NEXT: s_cselect_b32 s2, -1, 0
				; GFX11-NEXT: s_and_b32 s2, s2, exec_lo
				; GFX11-NEXT: s_cselect_b32 s1, s1, 0
	; GFX11-NEXT: s_cmp_gt_u32 s0, 31			; GFX11-NEXT: s_cmp_gt_u32 s0, 31
	; GFX11-NEXT: v_cndmask_b32_e64 v1, 0, s1, s2
	; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: v_cndmask_b32_e32 v0, s1, v0, vcc_lo
	; GFX11-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	bb:			bb:
	%i = load volatile i32, i32 addrspace(4)* null, align 8			%i = load volatile i32, i32 addrspace(4)* null, align 8
	%i1 = add i32 %i, %i			%i1 = add i32 %i, %i
	%i2 = icmp ult i32 %i1, %i			%i2 = icmp ult i32 %i1, %i
	%i3 = zext i1 %i2 to i32			%i3 = zext i1 %i2 to i32
	%i4 = add nuw nsw i32 %i3, 0			%i4 = add nuw nsw i32 %i3, 0
	%i5 = add i32 %i4, %i			%i5 = add i32 %i4, %i
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract_vector_dynelt.ll

	Show All 32 Lines
	entry:			entry:
	%ext = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 4>, i32 %sel			%ext = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 4>, i32 %sel
	store i32 %ext, i32 addrspace(1)* %out			store i32 %ext, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}double4_extelt:			; GCN-LABEL: {{^}}double4_extelt:
	; GCN-NOT: buffer_			; GCN-NOT: buffer_
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x3f847ae1
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x47ae147b
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0xe147ae14, s{{[0-9]+}}
	; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x4000147a, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]			; GCN-DAG: s_cmp_eq_u32 s{{[[0-9]+}}, 3
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C2]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x40100a3d, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C3]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x70a3d70a, s{{[0-9]+}}
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @double4_extelt(double addrspace(1)* %out, i32 %sel) {			define amdgpu_kernel void @double4_extelt(double addrspace(1)* %out, i32 %sel) {
	entry:			entry:
	%ext = extractelement <4 x double> <double 0.01, double 1.01, double 2.01, double 4.01>, i32 %sel			%ext = extractelement <4 x double> <double 0.01, double 1.01, double 2.01, double 4.01>, i32 %sel
	store double %ext, double addrspace(1)* %out			store double %ext, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}double5_extelt:			; GCN-LABEL: {{^}}double5_extelt:
	; GCN-NOT: buffer_			; GCN-NOT: buffer_
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x3f847ae1
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x47ae147b
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0xe147ae14, s{{[0-9]+}}
	; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x4000147a, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 4			; GCN-DAG: s_cmp_eq_u32 s{{[[0-9]+}}, 3
	; GCN-DAG: s_cselect_b64 [[C4:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x40100a3d, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x70a3d70a, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C2]]			; GCN-DAG: s_cmp_eq_u32 s{{[[0-9]+}}, 4
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C3]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x40140a3d, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C4]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @double5_extelt(double addrspace(1)* %out, i32 %sel) {			define amdgpu_kernel void @double5_extelt(double addrspace(1)* %out, i32 %sel) {
	entry:			entry:
	%ext = extractelement <5 x double> <double 0.01, double 1.01, double 2.01, double 4.01, double 5.01>, i32 %sel			%ext = extractelement <5 x double> <double 0.01, double 1.01, double 2.01, double 4.01, double 5.01>, i32 %sel
	store double %ext, double addrspace(1)* %out			store double %ext, double addrspace(1)* %out
	ret void			ret void
	}			}

	Show All 22 Lines
	entry:			entry:
	%ext = extractelement <2 x float> <float 0.0, float 1.0>, i32 %sel			%ext = extractelement <2 x float> <float 0.0, float 1.0>, i32 %sel
	store float %ext, float addrspace(1)* %out			store float %ext, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}double2_extelt:			; GCN-LABEL: {{^}}double2_extelt:
	; GCN-NOT: buffer_			; GCN-NOT: buffer_
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x3f847ae1
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x47ae147b
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @double2_extelt(double addrspace(1)* %out, i32 %sel) {			define amdgpu_kernel void @double2_extelt(double addrspace(1)* %out, i32 %sel) {
	entry:			entry:
	%ext = extractelement <2 x double> <double 0.01, double 1.01>, i32 %sel			%ext = extractelement <2 x double> <double 0.01, double 1.01>, i32 %sel
	store double %ext, double addrspace(1)* %out			store double %ext, double addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 353 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract_vector_elt-f64.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s

	; GCN-LABEL: {{^}}extract_vector_elt_v3f64_2:			; GCN-LABEL: {{^}}extract_vector_elt_v3f64_2:
	; GCN: buffer_load_dwordx4			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dwordx2			; GCN: buffer_load_dwordx2
	; GCN: buffer_store_dwordx2			; GCN: buffer_store_dwordx2
	define amdgpu_kernel void @extract_vector_elt_v3f64_2(double addrspace(1)* %out, <3 x double> addrspace(1)* %in) #0 {			define amdgpu_kernel void @extract_vector_elt_v3f64_2(double addrspace(1)* %out, <3 x double> addrspace(1)* %in) #0 {
	%ld = load volatile <3 x double>, <3 x double> addrspace(1)* %in			%ld = load volatile <3 x double>, <3 x double> addrspace(1)* %in
	%elt = extractelement <3 x double> %ld, i32 2			%elt = extractelement <3 x double> %ld, i32 2
	store volatile double %elt, double addrspace(1)* %out			store volatile double %elt, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3f64:			; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3f64:
	; GCN-NOT: buffer_load			; GCN-NOT: buffer_load
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @dyn_extract_vector_elt_v3f64(double addrspace(1)* %out, <3 x double> %foo, i32 %elt) #0 {			define amdgpu_kernel void @dyn_extract_vector_elt_v3f64(double addrspace(1)* %out, <3 x double> %foo, i32 %elt) #0 {
	%dynelt = extractelement <3 x double> %foo, i32 %elt			%dynelt = extractelement <3 x double> %foo, i32 %elt
	store volatile double %dynelt, double addrspace(1)* %out			store volatile double %dynelt, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4f64:			; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4f64:
	; GCN-NOT: buffer_load			; GCN-NOT: buffer_load
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 3
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]			; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @dyn_extract_vector_elt_v4f64(double addrspace(1)* %out, <4 x double> %foo, i32 %elt) #0 {			define amdgpu_kernel void @dyn_extract_vector_elt_v4f64(double addrspace(1)* %out, <4 x double> %foo, i32 %elt) #0 {
	%dynelt = extractelement <4 x double> %foo, i32 %elt			%dynelt = extractelement <4 x double> %foo, i32 %elt
	store volatile double %dynelt, double addrspace(1)* %out			store volatile double %dynelt, double addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/extract_vector_elt-i64.ll

Show All 25 Lines	define amdgpu_kernel void @extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo) #0 {
%out1 = getelementptr i64, i64 addrspace(1)* %out, i32 1		%out1 = getelementptr i64, i64 addrspace(1)* %out, i32 1
store volatile i64 %p1, i64 addrspace(1)* %out		store volatile i64 %p1, i64 addrspace(1)* %out
store volatile i64 %p0, i64 addrspace(1)* %out1		store volatile i64 %p0, i64 addrspace(1)* %out1
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <2 x i64> %foo, i32 %elt		%dynelt = extractelement <2 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64_2:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64_2:
Show All 9 Lines	define amdgpu_kernel void @dyn_extract_vector_elt_v2i64_2(i64 addrspace(1)* %out, <2 x i64> addrspace(1)* %foo, i32 %elt, <2 x i64> %arst) #0 {
%or = or <2 x i64> %load, %arst		%or = or <2 x i64> %load, %arst
%dynelt = extractelement <2 x i64> %or, i32 %elt		%dynelt = extractelement <2 x i64> %or, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v3i64(i64 addrspace(1)* %out, <3 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v3i64(i64 addrspace(1)* %out, <3 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <3 x i64> %foo, i32 %elt		%dynelt = extractelement <3 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 2
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 3
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v4i64(i64 addrspace(1)* %out, <4 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v4i64(i64 addrspace(1)* %out, <4 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <4 x i64> %foo, i32 %elt		%dynelt = extractelement <4 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/fceil64.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=CI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=CI -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=CI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=CI -check-prefix=FUNC %s

	declare double @llvm.ceil.f64(double) nounwind readnone			declare double @llvm.ceil.f64(double) nounwind readnone
	declare <2 x double> @llvm.ceil.v2f64(<2 x double>) nounwind readnone			declare <2 x double> @llvm.ceil.v2f64(<2 x double>) nounwind readnone
	declare <3 x double> @llvm.ceil.v3f64(<3 x double>) nounwind readnone			declare <3 x double> @llvm.ceil.v3f64(<3 x double>) nounwind readnone
	declare <4 x double> @llvm.ceil.v4f64(<4 x double>) nounwind readnone			declare <4 x double> @llvm.ceil.v4f64(<4 x double>) nounwind readnone
	declare <8 x double> @llvm.ceil.v8f64(<8 x double>) nounwind readnone			declare <8 x double> @llvm.ceil.v8f64(<8 x double>) nounwind readnone
	declare <16 x double> @llvm.ceil.v16f64(<16 x double>) nounwind readnone			declare <16 x double> @llvm.ceil.v16f64(<16 x double>) nounwind readnone

	; FUNC-LABEL: {{^}}fceil_f64:			; FUNC-LABEL: {{^}}fceil_f64:
	; CI: v_ceil_f64_e32			; CI: v_ceil_f64_e32
	; SI: s_bfe_u32 [[SEXP:s[0-9]+]], {{s[0-9]+}}, 0xb0014			; SI: s_bfe_u32 [[SEXP:s[0-9]+]], {{s[0-9]+}}, 0xb0014
	; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000000			; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000000
	; FIXME: We should be using s_addk_i32 here, but the reg allocation hints			; SI-DAG: s_addk_i32 [[SEXP]], 0xfc01
	; are not always followed.			; SI-DAG: s_lshr_b64 s[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], [[SEXP]]
	; SI-DAG: s_add_i32 [[SEXP0:s[0-9]+]], [[SEXP]], 0xfffffc01
	; SI-DAG: s_lshr_b64 s[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], [[SEXP0]]
	; SI-DAG: s_andn2_b64			; SI-DAG: s_andn2_b64
	; SI-DAG: cmp_gt_i32			; SI-DAG: cmp_gt_i32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cmp_lt_i32			; SI-DAG: cmp_lt_i32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: v_cmp_gt_f64			; SI-DAG: v_cmp_gt_f64_e64 [[FCMP:s[[0-9]+:[0-9]+]]]
	; SI-DAG: v_cmp_lg_f64			; SI-DAG: v_cmp_lg_f64_e32 vcc
	; SI-DAG: v_cndmask_b32			; SI-DAG: s_and_b64 [[AND1:s[[0-9]+:[0-9]+]]], [[FCMP]], vcc
	; SI: v_cndmask_b32			; SI-DAG: s_and_b64 [[AND1]], [[AND1]], exec
				; SI-DAG: s_cselect_b32 s{{[0-9]+}}, 0x3ff00000, 0
	; SI: v_add_f64			; SI: v_add_f64
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @fceil_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @fceil_f64(double addrspace(1)* %out, double %x) {
	%y = call double @llvm.ceil.f64(double %x) nounwind readnone			%y = call double @llvm.ceil.f64(double %x) nounwind readnone
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/frem.ll

Show First 20 Lines • Show All 996 Lines • ▼ Show 20 Lines
; SI-NEXT: v_mul_f64 v[10:11], v[8:9], v[6:7]		; SI-NEXT: v_mul_f64 v[10:11], v[8:9], v[6:7]
; SI-NEXT: v_fma_f64 v[12:13], -v[4:5], v[10:11], v[8:9]		; SI-NEXT: v_fma_f64 v[12:13], -v[4:5], v[10:11], v[8:9]
; SI-NEXT: v_cmp_eq_u32_e32 vcc, v3, v5		; SI-NEXT: v_cmp_eq_u32_e32 vcc, v3, v5
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v1, v9		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v1, v9
; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc		; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc
; SI-NEXT: s_nop 1		; SI-NEXT: s_nop 1
; SI-NEXT: v_div_fmas_f64 v[4:5], v[12:13], v[6:7], v[10:11]		; SI-NEXT: v_div_fmas_f64 v[4:5], v[12:13], v[6:7], v[10:11]
; SI-NEXT: v_div_fixup_f64 v[4:5], v[4:5], v[2:3], v[0:1]		; SI-NEXT: v_div_fixup_f64 v[4:5], v[4:5], v[2:3], v[0:1]
; SI-NEXT: v_bfe_u32 v6, v5, 20, 11		; SI-NEXT: v_readfirstlane_b32 s2, v5
; SI-NEXT: v_add_i32_e32 v8, vcc, 0xfffffc01, v6		; SI-NEXT: s_bfe_u32 s0, s2, 0xb0014
		; SI-NEXT: s_add_i32 s3, s0, 0xfffffc01
; SI-NEXT: s_mov_b32 s1, 0xfffff		; SI-NEXT: s_mov_b32 s1, 0xfffff
; SI-NEXT: s_mov_b32 s0, s6		; SI-NEXT: s_mov_b32 s0, s6
; SI-NEXT: v_lshr_b64 v[6:7], s[0:1], v8		; SI-NEXT: s_lshr_b64 s[0:1], s[0:1], s3
; SI-NEXT: v_not_b32_e32 v6, v6		; SI-NEXT: v_not_b32_e32 v6, s0
; SI-NEXT: v_and_b32_e32 v6, v4, v6		; SI-NEXT: v_and_b32_e32 v6, v4, v6
; SI-NEXT: v_not_b32_e32 v7, v7		; SI-NEXT: v_not_b32_e32 v7, s1
; SI-NEXT: v_and_b32_e32 v7, v5, v7		; SI-NEXT: v_and_b32_e32 v5, v5, v7
; SI-NEXT: v_and_b32_e32 v9, 0x80000000, v5		; SI-NEXT: s_and_b32 s0, s2, 0x80000000
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v8		; SI-NEXT: s_cmp_lt_i32 s3, 0
; SI-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v8
; SI-NEXT: v_cndmask_b32_e64 v5, v7, v5, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v4, v6, v4, s[0:1]		; SI-NEXT: v_mov_b32_e32 v7, s0
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: s_cmp_gt_i32 s3, 51
		; SI-NEXT: s_cselect_b64 vcc, -1, 0
		; SI-NEXT: v_mov_b32_e32 v7, s2
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]		; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: frem_f64:		; CI-LABEL: frem_f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
▲ Show 20 Lines • Show All 151 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_endpgm
%r2 = frem double %r0, %r1		%r2 = frem double %r0, %r1
store double %r2, double addrspace(1)* %out, align 8		store double %r2, double addrspace(1)* %out, align 8
ret void		ret void
}		}

define amdgpu_kernel void @fast_frem_f64(double addrspace(1)* %out, double addrspace(1)* %in1,		define amdgpu_kernel void @fast_frem_f64(double addrspace(1)* %out, double addrspace(1)* %in1,
; SI-LABEL: fast_frem_f64:		; SI-LABEL: fast_frem_f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mov_b32 s4, s8		; SI-NEXT: s_mov_b32 s0, s4
; SI-NEXT: s_mov_b32 s5, s9		; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: s_mov_b32 s8, s10		; SI-NEXT: s_mov_b32 s4, s6
; SI-NEXT: s_mov_b32 s9, s11		; SI-NEXT: s_mov_b32 s5, s7
; SI-NEXT: s_mov_b32 s10, s6		; SI-NEXT: s_mov_b32 s6, s2
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s2, s6		; SI-NEXT: s_mov_b32 s10, s2
; SI-NEXT: s_mov_b32 s3, s7		; SI-NEXT: s_mov_b32 s11, s3
; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0		; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: buffer_load_dwordx2 v[2:3], off, s[0:3], 0		; SI-NEXT: buffer_load_dwordx2 v[2:3], off, s[8:11], 0
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_rcp_f64_e32 v[4:5], v[2:3]		; SI-NEXT: v_rcp_f64_e32 v[4:5], v[2:3]
; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0		; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0
; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]		; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]
; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0		; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0
; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]		; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]
; SI-NEXT: v_mul_f64 v[6:7], v[0:1], v[4:5]		; SI-NEXT: v_mul_f64 v[6:7], v[0:1], v[4:5]
; SI-NEXT: v_fma_f64 v[8:9], -v[2:3], v[6:7], v[0:1]		; SI-NEXT: v_fma_f64 v[8:9], -v[2:3], v[6:7], v[0:1]
; SI-NEXT: v_fma_f64 v[4:5], v[8:9], v[4:5], v[6:7]		; SI-NEXT: v_fma_f64 v[4:5], v[8:9], v[4:5], v[6:7]
; SI-NEXT: v_bfe_u32 v6, v5, 20, 11		; SI-NEXT: v_readfirstlane_b32 s6, v5
; SI-NEXT: v_add_i32_e32 v8, vcc, 0xfffffc01, v6		; SI-NEXT: s_bfe_u32 s4, s6, 0xb0014
; SI-NEXT: s_mov_b32 s1, 0xfffff		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
; SI-NEXT: s_mov_b32 s0, s6		; SI-NEXT: s_mov_b32 s5, 0xfffff
; SI-NEXT: v_lshr_b64 v[6:7], s[0:1], v8		; SI-NEXT: s_mov_b32 s4, s2
; SI-NEXT: v_not_b32_e32 v6, v6		; SI-NEXT: s_lshr_b64 s[4:5], s[4:5], s7
		; SI-NEXT: v_not_b32_e32 v6, s4
; SI-NEXT: v_and_b32_e32 v6, v4, v6		; SI-NEXT: v_and_b32_e32 v6, v4, v6
; SI-NEXT: v_not_b32_e32 v7, v7		; SI-NEXT: v_not_b32_e32 v7, s5
; SI-NEXT: v_and_b32_e32 v7, v5, v7		; SI-NEXT: v_and_b32_e32 v5, v5, v7
; SI-NEXT: v_and_b32_e32 v9, 0x80000000, v5		; SI-NEXT: s_and_b32 s4, s6, 0x80000000
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v8		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v8
; SI-NEXT: v_cndmask_b32_e64 v5, v7, v5, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v4, v6, v4, s[0:1]		; SI-NEXT: v_mov_b32_e32 v7, s4
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: s_cmp_gt_i32 s7, 51
		; SI-NEXT: s_cselect_b64 vcc, -1, 0
		; SI-NEXT: v_mov_b32_e32 v7, s6
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]		; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: fast_frem_f64:		; CI-LABEL: fast_frem_f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; CI-NEXT: s_mov_b32 s11, 0xf000		; CI-NEXT: s_mov_b32 s11, 0xf000
; CI-NEXT: s_mov_b32 s10, -1		; CI-NEXT: s_mov_b32 s10, -1
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_endpgm
%r2 = frem fast double %r0, %r1		%r2 = frem fast double %r0, %r1
store double %r2, double addrspace(1)* %out, align 8		store double %r2, double addrspace(1)* %out, align 8
ret void		ret void
}		}

define amdgpu_kernel void @unsafe_frem_f64(double addrspace(1)* %out, double addrspace(1)* %in1,		define amdgpu_kernel void @unsafe_frem_f64(double addrspace(1)* %out, double addrspace(1)* %in1,
; SI-LABEL: unsafe_frem_f64:		; SI-LABEL: unsafe_frem_f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mov_b32 s4, s8		; SI-NEXT: s_mov_b32 s0, s4
; SI-NEXT: s_mov_b32 s5, s9		; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: s_mov_b32 s8, s10		; SI-NEXT: s_mov_b32 s4, s6
; SI-NEXT: s_mov_b32 s9, s11		; SI-NEXT: s_mov_b32 s5, s7
; SI-NEXT: s_mov_b32 s10, s6		; SI-NEXT: s_mov_b32 s6, s2
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s2, s6		; SI-NEXT: s_mov_b32 s10, s2
; SI-NEXT: s_mov_b32 s3, s7		; SI-NEXT: s_mov_b32 s11, s3
; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0		; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: buffer_load_dwordx2 v[2:3], off, s[0:3], 0		; SI-NEXT: buffer_load_dwordx2 v[2:3], off, s[8:11], 0
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_rcp_f64_e32 v[4:5], v[2:3]		; SI-NEXT: v_rcp_f64_e32 v[4:5], v[2:3]
; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0		; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0
; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]		; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]
; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0		; SI-NEXT: v_fma_f64 v[6:7], -v[2:3], v[4:5], 1.0
; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]		; SI-NEXT: v_fma_f64 v[4:5], v[6:7], v[4:5], v[4:5]
; SI-NEXT: v_mul_f64 v[6:7], v[0:1], v[4:5]		; SI-NEXT: v_mul_f64 v[6:7], v[0:1], v[4:5]
; SI-NEXT: v_fma_f64 v[8:9], -v[2:3], v[6:7], v[0:1]		; SI-NEXT: v_fma_f64 v[8:9], -v[2:3], v[6:7], v[0:1]
; SI-NEXT: v_fma_f64 v[4:5], v[8:9], v[4:5], v[6:7]		; SI-NEXT: v_fma_f64 v[4:5], v[8:9], v[4:5], v[6:7]
; SI-NEXT: v_bfe_u32 v6, v5, 20, 11		; SI-NEXT: v_readfirstlane_b32 s6, v5
; SI-NEXT: v_add_i32_e32 v8, vcc, 0xfffffc01, v6		; SI-NEXT: s_bfe_u32 s4, s6, 0xb0014
; SI-NEXT: s_mov_b32 s1, 0xfffff		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
; SI-NEXT: s_mov_b32 s0, s6		; SI-NEXT: s_mov_b32 s5, 0xfffff
; SI-NEXT: v_lshr_b64 v[6:7], s[0:1], v8		; SI-NEXT: s_mov_b32 s4, s2
; SI-NEXT: v_not_b32_e32 v6, v6		; SI-NEXT: s_lshr_b64 s[4:5], s[4:5], s7
		; SI-NEXT: v_not_b32_e32 v6, s4
; SI-NEXT: v_and_b32_e32 v6, v4, v6		; SI-NEXT: v_and_b32_e32 v6, v4, v6
; SI-NEXT: v_not_b32_e32 v7, v7		; SI-NEXT: v_not_b32_e32 v7, s5
; SI-NEXT: v_and_b32_e32 v7, v5, v7		; SI-NEXT: v_and_b32_e32 v5, v5, v7
; SI-NEXT: v_and_b32_e32 v9, 0x80000000, v5		; SI-NEXT: s_and_b32 s4, s6, 0x80000000
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v8		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v8
; SI-NEXT: v_cndmask_b32_e64 v5, v7, v5, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v6, v6, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v4, v6, v4, s[0:1]		; SI-NEXT: v_mov_b32_e32 v7, s4
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: s_cmp_gt_i32 s7, 51
		; SI-NEXT: s_cselect_b64 vcc, -1, 0
		; SI-NEXT: v_mov_b32_e32 v7, s6
		; SI-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
		; SI-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]		; SI-NEXT: v_fma_f64 v[0:1], -v[4:5], v[2:3], v[0:1]
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: unsafe_frem_f64:		; CI-LABEL: unsafe_frem_f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; CI-NEXT: s_mov_b32 s11, 0xf000		; CI-NEXT: s_mov_b32 s11, 0xf000
; CI-NEXT: s_mov_b32 s10, -1		; CI-NEXT: s_mov_b32 s10, -1
▲ Show 20 Lines • Show All 1,694 Lines • ▼ Show 20 Lines
; SI-NEXT: v_mul_f64 v[14:15], v[12:13], v[10:11]		; SI-NEXT: v_mul_f64 v[14:15], v[12:13], v[10:11]
; SI-NEXT: v_fma_f64 v[16:17], -v[8:9], v[14:15], v[12:13]		; SI-NEXT: v_fma_f64 v[16:17], -v[8:9], v[14:15], v[12:13]
; SI-NEXT: v_cmp_eq_u32_e32 vcc, v7, v9		; SI-NEXT: v_cmp_eq_u32_e32 vcc, v7, v9
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v3, v13		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v3, v13
; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc		; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc
; SI-NEXT: s_nop 1		; SI-NEXT: s_nop 1
; SI-NEXT: v_div_fmas_f64 v[8:9], v[16:17], v[10:11], v[14:15]		; SI-NEXT: v_div_fmas_f64 v[8:9], v[16:17], v[10:11], v[14:15]
; SI-NEXT: v_div_fixup_f64 v[8:9], v[8:9], v[6:7], v[2:3]		; SI-NEXT: v_div_fixup_f64 v[8:9], v[8:9], v[6:7], v[2:3]
; SI-NEXT: v_bfe_u32 v10, v9, 20, 11		; SI-NEXT: v_readfirstlane_b32 s8, v9
; SI-NEXT: v_add_i32_e32 v12, vcc, 0xfffffc01, v10		; SI-NEXT: s_bfe_u32 s0, s8, 0xb0014
		; SI-NEXT: s_add_i32 s9, s0, 0xfffffc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: v_lshr_b64 v[10:11], s[2:3], v12		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s9
; SI-NEXT: v_not_b32_e32 v10, v10		; SI-NEXT: v_not_b32_e32 v10, s0
; SI-NEXT: v_and_b32_e32 v10, v8, v10		; SI-NEXT: v_and_b32_e32 v10, v8, v10
; SI-NEXT: v_not_b32_e32 v11, v11		; SI-NEXT: v_not_b32_e32 v11, s1
; SI-NEXT: v_and_b32_e32 v11, v9, v11		; SI-NEXT: v_and_b32_e32 v9, v9, v11
; SI-NEXT: v_and_b32_e32 v13, 0x80000000, v9		; SI-NEXT: s_and_b32 s0, s8, 0x80000000
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v12		; SI-NEXT: s_cmp_lt_i32 s9, 0
; SI-NEXT: v_cndmask_b32_e32 v11, v11, v13, vcc		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v12
; SI-NEXT: v_cndmask_b32_e64 v9, v11, v9, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v10, v10, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v10, v10, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v8, v10, v8, s[0:1]		; SI-NEXT: v_mov_b32_e32 v11, s0
		; SI-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc
		; SI-NEXT: s_cmp_gt_i32 s9, 51
		; SI-NEXT: s_cselect_b64 vcc, -1, 0
		; SI-NEXT: v_mov_b32_e32 v11, s8
		; SI-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc
		; SI-NEXT: v_cndmask_b32_e32 v8, v10, v8, vcc
; SI-NEXT: v_fma_f64 v[2:3], -v[8:9], v[6:7], v[2:3]		; SI-NEXT: v_fma_f64 v[2:3], -v[8:9], v[6:7], v[2:3]
; SI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[0:1]		; SI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[0:1]
; SI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]		; SI-NEXT: v_rcp_f64_e32 v[8:9], v[6:7]
; SI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0		; SI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
; SI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]		; SI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
; SI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0		; SI-NEXT: v_fma_f64 v[10:11], -v[6:7], v[8:9], 1.0
; SI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]		; SI-NEXT: v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
; SI-NEXT: v_div_scale_f64 v[10:11], s[0:1], v[0:1], v[4:5], v[0:1]		; SI-NEXT: v_div_scale_f64 v[10:11], s[0:1], v[0:1], v[4:5], v[0:1]
; SI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]		; SI-NEXT: v_mul_f64 v[12:13], v[10:11], v[8:9]
; SI-NEXT: v_fma_f64 v[14:15], -v[6:7], v[12:13], v[10:11]		; SI-NEXT: v_fma_f64 v[14:15], -v[6:7], v[12:13], v[10:11]
; SI-NEXT: v_cmp_eq_u32_e32 vcc, v5, v7		; SI-NEXT: v_cmp_eq_u32_e32 vcc, v5, v7
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v1, v11		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], v1, v11
; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc		; SI-NEXT: s_xor_b64 vcc, s[0:1], vcc
; SI-NEXT: s_nop 1		; SI-NEXT: s_nop 1
; SI-NEXT: v_div_fmas_f64 v[6:7], v[14:15], v[8:9], v[12:13]		; SI-NEXT: v_div_fmas_f64 v[6:7], v[14:15], v[8:9], v[12:13]
; SI-NEXT: v_div_fixup_f64 v[6:7], v[6:7], v[4:5], v[0:1]		; SI-NEXT: v_div_fixup_f64 v[6:7], v[6:7], v[4:5], v[0:1]
; SI-NEXT: v_bfe_u32 v8, v7, 20, 11		; SI-NEXT: v_readfirstlane_b32 s8, v7
; SI-NEXT: v_add_i32_e32 v10, vcc, 0xfffffc01, v8		; SI-NEXT: s_bfe_u32 s0, s8, 0xb0014
; SI-NEXT: v_lshr_b64 v[8:9], s[2:3], v10		; SI-NEXT: s_add_i32 s9, s0, 0xfffffc01
; SI-NEXT: v_not_b32_e32 v8, v8		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s9
		; SI-NEXT: v_not_b32_e32 v8, s0
; SI-NEXT: v_and_b32_e32 v8, v6, v8		; SI-NEXT: v_and_b32_e32 v8, v6, v8
; SI-NEXT: v_not_b32_e32 v9, v9		; SI-NEXT: v_not_b32_e32 v9, s1
; SI-NEXT: v_and_b32_e32 v9, v7, v9		; SI-NEXT: v_and_b32_e32 v7, v7, v9
; SI-NEXT: v_and_b32_e32 v11, 0x80000000, v7		; SI-NEXT: s_and_b32 s0, s8, 0x80000000
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v10		; SI-NEXT: s_cmp_lt_i32 s9, 0
; SI-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v10
; SI-NEXT: v_cndmask_b32_e64 v7, v9, v7, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v8, v8, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v8, v8, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[0:1]		; SI-NEXT: v_mov_b32_e32 v9, s0
		; SI-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc
		; SI-NEXT: s_cmp_gt_i32 s9, 51
		; SI-NEXT: s_cselect_b64 vcc, -1, 0
		; SI-NEXT: v_mov_b32_e32 v9, s8
		; SI-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc
		; SI-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
; SI-NEXT: v_fma_f64 v[0:1], -v[6:7], v[4:5], v[0:1]		; SI-NEXT: v_fma_f64 v[0:1], -v[6:7], v[4:5], v[0:1]
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: frem_v2f64:		; CI-LABEL: frem_v2f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; CI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; CI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ftrunc.f64.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=bonaire < %s \| FileCheck -check-prefix=CI -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=bonaire < %s \| FileCheck -check-prefix=CI -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefix=CI -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefix=CI -check-prefix=FUNC %s

	declare double @llvm.trunc.f64(double) nounwind readnone			declare double @llvm.trunc.f64(double) nounwind readnone
	declare <2 x double> @llvm.trunc.v2f64(<2 x double>) nounwind readnone			declare <2 x double> @llvm.trunc.v2f64(<2 x double>) nounwind readnone
	declare <3 x double> @llvm.trunc.v3f64(<3 x double>) nounwind readnone			declare <3 x double> @llvm.trunc.v3f64(<3 x double>) nounwind readnone
	declare <4 x double> @llvm.trunc.v4f64(<4 x double>) nounwind readnone			declare <4 x double> @llvm.trunc.v4f64(<4 x double>) nounwind readnone
	declare <8 x double> @llvm.trunc.v8f64(<8 x double>) nounwind readnone			declare <8 x double> @llvm.trunc.v8f64(<8 x double>) nounwind readnone
	declare <16 x double> @llvm.trunc.v16f64(<16 x double>) nounwind readnone			declare <16 x double> @llvm.trunc.v16f64(<16 x double>) nounwind readnone

	; FUNC-LABEL: {{^}}v_ftrunc_f64:			; FUNC-LABEL: {{^}}v_ftrunc_f64:
	; CI: v_trunc_f64			; CI: v_trunc_f64
	; SI: v_bfe_u32 {{v[0-9]+}}, {{v[0-9]+}}, 20, 11			; SI: s_bfe_u32 {{s[0-9]+}}, {{s[0-9]+}}, 0xb0014
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @v_ftrunc_f64(double addrspace(1)* %out, double addrspace(1)* %in) {			define amdgpu_kernel void @v_ftrunc_f64(double addrspace(1)* %out, double addrspace(1)* %in) {
	%x = load double, double addrspace(1)* %in, align 8			%x = load double, double addrspace(1)* %in, align 8
	%y = call double @llvm.trunc.f64(double %x) nounwind readnone			%y = call double @llvm.trunc.f64(double %x) nounwind readnone
	store double %y, double addrspace(1)* %out, align 8			store double %y, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}ftrunc_f64:			; FUNC-LABEL: {{^}}ftrunc_f64:
	; CI: v_trunc_f64_e32			; CI: v_trunc_f64_e32

	; SI: s_bfe_u32 [[SEXP:s[0-9]+]], {{s[0-9]+}}, 0xb0014			; SI: s_bfe_u32 [[SEXP:s[0-9]+]], {{s[0-9]+}}, 0xb0014
	; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000000			; SI-DAG: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x80000000
	; SI-DAG: s_add_i32 [[SEXP1:s[0-9]+]], [[SEXP]], 0xfffffc01			; SI-DAG: s_add_i32 [[SEXP1:s[0-9]+]], [[SEXP]], 0xfffffc01
	; SI-DAG: s_lshr_b64 s[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], [[SEXP1]]			; SI-DAG: s_lshr_b64 s[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], [[SEXP1]]
	; SI-DAG: s_andn2_b64			; SI-DAG: s_andn2_b64
	; SI-DAG: cmp_gt_i32			; SI-DAG: cmp_gt_i32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cmp_lt_i32			; SI-DAG: cmp_lt_i32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI-DAG: cndmask_b32			; SI-DAG: s_cselect_b32
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @ftrunc_f64(double addrspace(1)* %out, double %x) {			define amdgpu_kernel void @ftrunc_f64(double addrspace(1)* %out, double %x) {
	%y = call double @llvm.trunc.f64(double %x) nounwind readnone			%y = call double @llvm.trunc.f64(double %x) nounwind readnone
	store double %y, double addrspace(1)* %out			store double %y, double addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}ftrunc_v2f64:			; FUNC-LABEL: {{^}}ftrunc_v2f64:
	▲ Show 20 Lines • Show All 66 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

Show All 19 Lines
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_readfirstlane_b32 s6, v0		; GFX9-NEXT: v_readfirstlane_b32 s6, v0
; GFX9-NEXT: s_mul_i32 s7, s5, s6		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: s_mul_hi_u32 s7, s6, s7		; GFX9-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX9-NEXT: s_add_i32 s6, s6, s7		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: s_mul_i32 s7, s3, s6		; GFX9-NEXT: s_mul_i32 s7, s3, s6
; GFX9-NEXT: s_mul_hi_u32 s6, s2, s6		; GFX9-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX9-NEXT: s_add_i32 s6, s6, s7		; GFX9-NEXT: s_add_i32 s6, s6, s7
		; GFX9-NEXT: s_not_b32 s9, s6
; GFX9-NEXT: s_mul_i32 s7, s5, s6		; GFX9-NEXT: s_mul_i32 s7, s5, s6
		; GFX9-NEXT: s_mul_i32 s9, s4, s9
		; GFX9-NEXT: s_add_i32 s8, s6, 1
; GFX9-NEXT: s_add_i32 s7, s2, s7		; GFX9-NEXT: s_add_i32 s7, s2, s7
		; GFX9-NEXT: s_add_i32 s9, s2, s9
; GFX9-NEXT: s_cmp_ge_u32 s7, s4		; GFX9-NEXT: s_cmp_ge_u32 s7, s4
; GFX9-NEXT: v_mov_b32_e32 v2, s6		; GFX9-NEXT: s_cselect_b32 s6, s8, s6
; GFX9-NEXT: v_mov_b32_e32 v3, s7		; GFX9-NEXT: s_cselect_b32 s7, s9, s7
; GFX9-NEXT: s_cselect_b64 vcc, -1, 0		; GFX9-NEXT: s_add_i32 s8, s6, 1
; GFX9-NEXT: s_add_i32 s7, s6, 1		; GFX9-NEXT: s_cmp_ge_u32 s7, s4
; GFX9-NEXT: s_not_b32 s6, s6		; GFX9-NEXT: s_cselect_b32 s6, s8, s6
; GFX9-NEXT: s_mul_i32 s6, s4, s6
; GFX9-NEXT: v_mov_b32_e32 v4, s7
; GFX9-NEXT: s_add_i32 s6, s2, s6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_mov_b32_e32 v4, s6
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v5, 1, v2
; GFX9-NEXT: s_add_u32 s2, s2, 1		; GFX9-NEXT: s_add_u32 s2, s2, 1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3		; GFX9-NEXT: v_mov_b32_e32 v2, s6
; GFX9-NEXT: s_addc_u32 s3, s3, 0		; GFX9-NEXT: s_addc_u32 s3, s3, 0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX9-NEXT: global_store_dword v1, v2, s[0:1]		; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
; GFX9-NEXT: s_add_u32 s0, s0, 4		; GFX9-NEXT: s_add_u32 s0, s0, 4
; GFX9-NEXT: s_addc_u32 s1, s1, 0		; GFX9-NEXT: s_addc_u32 s1, s1, 0
; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB0_1		; GFX9-NEXT: s_cbranch_scc0 .LBB0_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
Show All 13 Lines
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_readfirstlane_b32 s6, v0		; GFX10-NEXT: v_readfirstlane_b32 s6, v0
; GFX10-NEXT: s_mul_i32 s7, s5, s6		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7		; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX10-NEXT: s_add_i32 s6, s6, s7		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: s_mul_i32 s7, s3, s6		; GFX10-NEXT: s_mul_i32 s7, s3, s6
; GFX10-NEXT: s_mul_hi_u32 s6, s2, s6		; GFX10-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX10-NEXT: s_add_i32 s6, s6, s7		; GFX10-NEXT: s_add_i32 s6, s6, s7
		; GFX10-NEXT: s_not_b32 s8, s6
; GFX10-NEXT: s_mul_i32 s7, s5, s6		; GFX10-NEXT: s_mul_i32 s7, s5, s6
		; GFX10-NEXT: s_mul_i32 s8, s4, s8
; GFX10-NEXT: s_add_i32 s7, s2, s7		; GFX10-NEXT: s_add_i32 s7, s2, s7
		; GFX10-NEXT: s_add_i32 s9, s6, 1
		; GFX10-NEXT: s_add_i32 s8, s2, s8
; GFX10-NEXT: s_cmp_ge_u32 s7, s4		; GFX10-NEXT: s_cmp_ge_u32 s7, s4
; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0		; GFX10-NEXT: s_cselect_b32 s6, s9, s6
		; GFX10-NEXT: s_cselect_b32 s7, s8, s7
; GFX10-NEXT: s_add_i32 s8, s6, 1		; GFX10-NEXT: s_add_i32 s8, s6, 1
; GFX10-NEXT: s_not_b32 s9, s6		; GFX10-NEXT: s_cmp_ge_u32 s7, s4
; GFX10-NEXT: v_mov_b32_e32 v2, s8		; GFX10-NEXT: s_cselect_b32 s6, s8, s6
; GFX10-NEXT: s_mul_i32 s8, s4, s9
; GFX10-NEXT: s_add_i32 s8, s2, s8
; GFX10-NEXT: s_add_u32 s2, s2, 1		; GFX10-NEXT: s_add_u32 s2, s2, 1
; GFX10-NEXT: v_mov_b32_e32 v3, s8		; GFX10-NEXT: v_mov_b32_e32 v2, s6
; GFX10-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
; GFX10-NEXT: s_addc_u32 s3, s3, 0		; GFX10-NEXT: s_addc_u32 s3, s3, 0
; GFX10-NEXT: v_cndmask_b32_e32 v3, s7, v3, vcc_lo
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v3
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX10-NEXT: s_cbranch_scc0 .LBB0_1		; GFX10-NEXT: s_cbranch_scc0 .LBB0_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
Show All 21 Lines
; GFX11-NEXT: s_mul_i32 s7, s5, s6		; GFX11-NEXT: s_mul_i32 s7, s5, s6
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
; GFX11-NEXT: s_mul_hi_u32 s7, s6, s7		; GFX11-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX11-NEXT: s_add_i32 s6, s6, s7		; GFX11-NEXT: s_add_i32 s6, s6, s7
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
; GFX11-NEXT: s_mul_i32 s7, s3, s6		; GFX11-NEXT: s_mul_i32 s7, s3, s6
; GFX11-NEXT: s_mul_hi_u32 s6, s2, s6		; GFX11-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX11-NEXT: s_add_i32 s6, s6, s7		; GFX11-NEXT: s_add_i32 s6, s6, s7
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
		; GFX11-NEXT: s_not_b32 s8, s6
; GFX11-NEXT: s_mul_i32 s7, s5, s6		; GFX11-NEXT: s_mul_i32 s7, s5, s6
		; GFX11-NEXT: s_mul_i32 s8, s4, s8
; GFX11-NEXT: s_add_i32 s7, s2, s7		; GFX11-NEXT: s_add_i32 s7, s2, s7
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)		; GFX11-NEXT: s_add_i32 s9, s6, 1
		; GFX11-NEXT: s_add_i32 s8, s2, s8
; GFX11-NEXT: s_cmp_ge_u32 s7, s4		; GFX11-NEXT: s_cmp_ge_u32 s7, s4
; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0		; GFX11-NEXT: s_cselect_b32 s6, s9, s6
		; GFX11-NEXT: s_cselect_b32 s7, s8, s7
; GFX11-NEXT: s_add_i32 s8, s6, 1		; GFX11-NEXT: s_add_i32 s8, s6, 1
; GFX11-NEXT: s_not_b32 s9, s6		; GFX11-NEXT: s_cmp_ge_u32 s7, s4
; GFX11-NEXT: v_mov_b32_e32 v2, s8		; GFX11-NEXT: s_cselect_b32 s6, s8, s6
; GFX11-NEXT: s_mul_i32 s8, s4, s9
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_4) \| instid1(VALU_DEP_1)
; GFX11-NEXT: s_add_i32 s8, s2, s8
; GFX11-NEXT: s_add_u32 s2, s2, 1		; GFX11-NEXT: s_add_u32 s2, s2, 1
; GFX11-NEXT: v_mov_b32_e32 v3, s8		; GFX11-NEXT: v_mov_b32_e32 v2, s6
; GFX11-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
; GFX11-NEXT: s_addc_u32 s3, s3, 0		; GFX11-NEXT: s_addc_u32 s3, s3, 0
; GFX11-NEXT: v_dual_cndmask_b32 v3, s7, v3 :: v_dual_add_nc_u32 v4, 1, v2
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_2)
; GFX11-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v3
; GFX11-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX11-NEXT: global_store_b32 v1, v2, s[0:1]		; GFX11-NEXT: global_store_b32 v1, v2, s[0:1]
; GFX11-NEXT: s_add_u32 s0, s0, 4		; GFX11-NEXT: s_add_u32 s0, s0, 4
; GFX11-NEXT: s_addc_u32 s1, s1, 0		; GFX11-NEXT: s_addc_u32 s1, s1, 0
; GFX11-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX11-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX11-NEXT: s_cbranch_scc0 .LBB0_1		; GFX11-NEXT: s_cbranch_scc0 .LBB0_1
; GFX11-NEXT: ; %bb.2: ; %bb2		; GFX11-NEXT: ; %bb.2: ; %bb2
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines	bb3: ; preds = %bb3, %bb
%tmp8 = icmp eq i32 %tmp7, 1024		%tmp8 = icmp eq i32 %tmp7, 1024
br i1 %tmp8, label %bb2, label %bb3		br i1 %tmp8, label %bb2, label %bb3
}		}

define amdgpu_kernel void @sdiv32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {		define amdgpu_kernel void @sdiv32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {
; GFX9-LABEL: sdiv32_invariant_denom:		; GFX9-LABEL: sdiv32_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s3, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s3, s[0:1], 0x2c
		; GFX9-NEXT: s_mov_b32 s4, 0
		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_ashr_i32 s2, s3, 31		; GFX9-NEXT: s_ashr_i32 s2, s3, 31
; GFX9-NEXT: s_add_i32 s3, s3, s2		; GFX9-NEXT: s_add_i32 s3, s3, s2
; GFX9-NEXT: s_xor_b32 s3, s3, s2		; GFX9-NEXT: s_xor_b32 s3, s3, s2
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX9-NEXT: s_sub_i32 s4, 0, s3		; GFX9-NEXT: s_sub_i32 s5, 0, s3
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0
; GFX9-NEXT: s_mov_b32 s4, 0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: .LBB2_1: ; %bb3		; GFX9-NEXT: .LBB2_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_mul_hi_u32 v2, s4, v0		; GFX9-NEXT: v_readfirstlane_b32 s6, v0
; GFX9-NEXT: v_mul_lo_u32 v3, v2, s3		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: v_add_u32_e32 v4, 1, v2		; GFX9-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX9-NEXT: s_mul_hi_u32 s6, s4, s6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: s_mul_i32 s7, s6, s3
; GFX9-NEXT: v_subrev_u32_e32 v4, s3, v3		; GFX9-NEXT: s_sub_i32 s7, s4, s7
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: s_add_i32 s8, s6, 1
; GFX9-NEXT: v_add_u32_e32 v4, 1, v2		; GFX9-NEXT: s_sub_i32 s9, s7, s3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX9-NEXT: s_cmp_ge_u32 s7, s3
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: s_cselect_b32 s6, s8, s6
; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2		; GFX9-NEXT: s_cselect_b32 s7, s9, s7
		; GFX9-NEXT: s_add_i32 s8, s6, 1
		; GFX9-NEXT: s_cmp_ge_u32 s7, s3
		; GFX9-NEXT: s_cselect_b32 s6, s8, s6
		; GFX9-NEXT: s_xor_b32 s6, s6, s2
		; GFX9-NEXT: s_sub_i32 s6, s6, s2
; GFX9-NEXT: s_add_i32 s4, s4, 1		; GFX9-NEXT: s_add_i32 s4, s4, 1
; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2		; GFX9-NEXT: v_mov_b32_e32 v2, s6
; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dword v1, v2, s[0:1]		; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
; GFX9-NEXT: s_add_u32 s0, s0, 4		; GFX9-NEXT: s_add_u32 s0, s0, 4
; GFX9-NEXT: s_addc_u32 s1, s1, 0		; GFX9-NEXT: s_addc_u32 s1, s1, 0
; GFX9-NEXT: s_cmpk_eq_i32 s4, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s4, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB2_1		; GFX9-NEXT: s_cbranch_scc0 .LBB2_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
Show All 15 Lines
; GFX10-NEXT: .LBB2_1: ; %bb3		; GFX10-NEXT: .LBB2_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_readfirstlane_b32 s6, v0		; GFX10-NEXT: v_readfirstlane_b32 s6, v0
; GFX10-NEXT: s_mul_i32 s7, s5, s6		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7		; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX10-NEXT: s_add_i32 s6, s6, s7		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: s_mul_hi_u32 s6, s4, s6		; GFX10-NEXT: s_mul_hi_u32 s6, s4, s6
; GFX10-NEXT: s_mul_i32 s7, s6, s3		; GFX10-NEXT: s_mul_i32 s7, s6, s3
		; GFX10-NEXT: s_add_i32 s8, s6, 1
; GFX10-NEXT: s_sub_i32 s7, s4, s7		; GFX10-NEXT: s_sub_i32 s7, s4, s7
		; GFX10-NEXT: s_sub_i32 s9, s7, s3
; GFX10-NEXT: s_cmp_ge_u32 s7, s3		; GFX10-NEXT: s_cmp_ge_u32 s7, s3
; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0		; GFX10-NEXT: s_cselect_b32 s6, s8, s6
		; GFX10-NEXT: s_cselect_b32 s7, s9, s7
; GFX10-NEXT: s_add_i32 s8, s6, 1		; GFX10-NEXT: s_add_i32 s8, s6, 1
		; GFX10-NEXT: s_cmp_ge_u32 s7, s3
		; GFX10-NEXT: s_cselect_b32 s6, s8, s6
; GFX10-NEXT: s_add_i32 s4, s4, 1		; GFX10-NEXT: s_add_i32 s4, s4, 1
; GFX10-NEXT: v_mov_b32_e32 v2, s8		; GFX10-NEXT: s_xor_b32 s6, s6, s2
; GFX10-NEXT: s_sub_i32 s8, s7, s3		; GFX10-NEXT: s_sub_i32 s6, s6, s2
; GFX10-NEXT: v_mov_b32_e32 v3, s8		; GFX10-NEXT: v_mov_b32_e32 v2, s6
; GFX10-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v3, s7, v3, vcc_lo
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v3
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX10-NEXT: v_xor_b32_e32 v2, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s2, v2
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s4, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s4, 0x400
; GFX10-NEXT: s_cbranch_scc0 .LBB2_1		; GFX10-NEXT: s_cbranch_scc0 .LBB2_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
Show All 25 Lines
; GFX11-NEXT: v_readfirstlane_b32 s6, v0		; GFX11-NEXT: v_readfirstlane_b32 s6, v0
; GFX11-NEXT: s_mul_i32 s7, s5, s6		; GFX11-NEXT: s_mul_i32 s7, s5, s6
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
; GFX11-NEXT: s_mul_hi_u32 s7, s6, s7		; GFX11-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX11-NEXT: s_add_i32 s6, s6, s7		; GFX11-NEXT: s_add_i32 s6, s6, s7
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
; GFX11-NEXT: s_mul_hi_u32 s6, s4, s6		; GFX11-NEXT: s_mul_hi_u32 s6, s4, s6
; GFX11-NEXT: s_mul_i32 s7, s6, s3		; GFX11-NEXT: s_mul_i32 s7, s6, s3
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)		; GFX11-NEXT: s_add_i32 s8, s6, 1
; GFX11-NEXT: s_sub_i32 s7, s4, s7		; GFX11-NEXT: s_sub_i32 s7, s4, s7
		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
		; GFX11-NEXT: s_sub_i32 s9, s7, s3
; GFX11-NEXT: s_cmp_ge_u32 s7, s3		; GFX11-NEXT: s_cmp_ge_u32 s7, s3
; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0		; GFX11-NEXT: s_cselect_b32 s6, s8, s6
		; GFX11-NEXT: s_cselect_b32 s7, s9, s7
; GFX11-NEXT: s_add_i32 s8, s6, 1		; GFX11-NEXT: s_add_i32 s8, s6, 1
		; GFX11-NEXT: s_cmp_ge_u32 s7, s3
		; GFX11-NEXT: s_cselect_b32 s6, s8, s6
; GFX11-NEXT: s_add_i32 s4, s4, 1		; GFX11-NEXT: s_add_i32 s4, s4, 1
; GFX11-NEXT: v_mov_b32_e32 v2, s8		; GFX11-NEXT: s_xor_b32 s6, s6, s2
; GFX11-NEXT: s_sub_i32 s8, s7, s3		; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_2)		; GFX11-NEXT: s_sub_i32 s6, s6, s2
; GFX11-NEXT: v_mov_b32_e32 v3, s8		; GFX11-NEXT: v_mov_b32_e32 v2, s6
; GFX11-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_dual_cndmask_b32 v3, s7, v3 :: v_dual_add_nc_u32 v4, 1, v2
; GFX11-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v3
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
; GFX11-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX11-NEXT: v_xor_b32_e32 v2, s2, v2
; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
; GFX11-NEXT: v_subrev_nc_u32_e32 v2, s2, v2
; GFX11-NEXT: global_store_b32 v1, v2, s[0:1]		; GFX11-NEXT: global_store_b32 v1, v2, s[0:1]
; GFX11-NEXT: s_add_u32 s0, s0, 4		; GFX11-NEXT: s_add_u32 s0, s0, 4
; GFX11-NEXT: s_addc_u32 s1, s1, 0		; GFX11-NEXT: s_addc_u32 s1, s1, 0
; GFX11-NEXT: s_cmpk_eq_i32 s4, 0x400		; GFX11-NEXT: s_cmpk_eq_i32 s4, 0x400
; GFX11-NEXT: s_cbranch_scc0 .LBB2_1		; GFX11-NEXT: s_cbranch_scc0 .LBB2_1
; GFX11-NEXT: ; %bb.2: ; %bb2		; GFX11-NEXT: ; %bb.2: ; %bb2
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
▲ Show 20 Lines • Show All 710 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

	Show All 9 Lines
	define amdgpu_kernel void @addrspacecast(i32 addrspace(5)* %ptr.private, i32 addrspace(3)* %ptr.local) {			define amdgpu_kernel void @addrspacecast(i32 addrspace(5)* %ptr.private, i32 addrspace(3)* %ptr.local) {
	; GFX8V3-LABEL: addrspacecast:			; GFX8V3-LABEL: addrspacecast:
	; GFX8V3: ; %bb.0:			; GFX8V3: ; %bb.0:
	; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX8V3-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x40			; GFX8V3-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x40
	; GFX8V3-NEXT: v_mov_b32_e32 v4, 1			; GFX8V3-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V3-NEXT: v_mov_b32_e32 v0, s3			; GFX8V3-NEXT: s_cselect_b32 s3, s3, 0
	; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V3-NEXT: v_mov_b32_e32 v2, s2			; GFX8V3-NEXT: v_mov_b32_e32 v1, s3
	; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V3-NEXT: s_cselect_b32 s0, s2, 0
	; GFX8V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GFX8V3-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V3-NEXT: v_mov_b32_e32 v2, s1			; GFX8V3-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V3-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V3-NEXT: flat_store_dword v[0:1], v4			; GFX8V3-NEXT: flat_store_dword v[0:1], v4
	; GFX8V3-NEXT: s_waitcnt vmcnt(0)			; GFX8V3-NEXT: s_waitcnt vmcnt(0)
	; GFX8V3-NEXT: v_mov_b32_e32 v0, 2			; GFX8V3-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V3-NEXT: flat_store_dword v[2:3], v0			; GFX8V3-NEXT: flat_store_dword v[2:3], v0
	; GFX8V3-NEXT: s_waitcnt vmcnt(0)			; GFX8V3-NEXT: s_waitcnt vmcnt(0)
	; GFX8V3-NEXT: s_endpgm			; GFX8V3-NEXT: s_endpgm
	;			;
	; GFX8V4-LABEL: addrspacecast:			; GFX8V4-LABEL: addrspacecast:
	; GFX8V4: ; %bb.0:			; GFX8V4: ; %bb.0:
	; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX8V4-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x40			; GFX8V4-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x40
	; GFX8V4-NEXT: v_mov_b32_e32 v4, 1			; GFX8V4-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V4-NEXT: v_mov_b32_e32 v0, s3			; GFX8V4-NEXT: s_cselect_b32 s3, s3, 0
	; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V4-NEXT: v_mov_b32_e32 v2, s2			; GFX8V4-NEXT: v_mov_b32_e32 v1, s3
	; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V4-NEXT: s_cselect_b32 s0, s2, 0
	; GFX8V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GFX8V4-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V4-NEXT: v_mov_b32_e32 v2, s1			; GFX8V4-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V4-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V4-NEXT: flat_store_dword v[0:1], v4			; GFX8V4-NEXT: flat_store_dword v[0:1], v4
	; GFX8V4-NEXT: s_waitcnt vmcnt(0)			; GFX8V4-NEXT: s_waitcnt vmcnt(0)
	; GFX8V4-NEXT: v_mov_b32_e32 v0, 2			; GFX8V4-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V4-NEXT: flat_store_dword v[2:3], v0			; GFX8V4-NEXT: flat_store_dword v[2:3], v0
	; GFX8V4-NEXT: s_waitcnt vmcnt(0)			; GFX8V4-NEXT: s_waitcnt vmcnt(0)
	; GFX8V4-NEXT: s_endpgm			; GFX8V4-NEXT: s_endpgm
	;			;
	; GFX8V5-LABEL: addrspacecast:			; GFX8V5-LABEL: addrspacecast:
	; GFX8V5: ; %bb.0:			; GFX8V5: ; %bb.0:
	; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX8V5-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0xc8			; GFX8V5-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0xc8
	; GFX8V5-NEXT: v_mov_b32_e32 v4, 1			; GFX8V5-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V5-NEXT: v_mov_b32_e32 v0, s2			; GFX8V5-NEXT: s_cselect_b32 s2, s2, 0
	; GFX8V5-NEXT: v_mov_b32_e32 v2, s0			; GFX8V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc			; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V5-NEXT: v_cndmask_b32_e32 v0, 0, v2, vcc			; GFX8V5-NEXT: v_mov_b32_e32 v1, s2
	; GFX8V5-NEXT: v_mov_b32_e32 v2, s3			; GFX8V5-NEXT: s_cselect_b32 s0, s3, 0
	; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V5-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX8V5-NEXT: v_mov_b32_e32 v2, s1			; GFX8V5-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V5-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V5-NEXT: flat_store_dword v[0:1], v4			; GFX8V5-NEXT: flat_store_dword v[0:1], v4
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: v_mov_b32_e32 v0, 2			; GFX8V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V5-NEXT: flat_store_dword v[2:3], v0			; GFX8V5-NEXT: flat_store_dword v[2:3], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: addrspacecast:			; GFX9V3-LABEL: addrspacecast:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V3-NEXT: v_mov_b32_e32 v4, 1			; GFX9V3-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0			; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V3-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V3-NEXT: v_mov_b32_e32 v2, s0			; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V3-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V3-NEXT: v_mov_b32_e32 v2, s1			; GFX9V3-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V3-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V3-NEXT: flat_store_dword v[0:1], v4			; GFX9V3-NEXT: flat_store_dword v[0:1], v4
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: v_mov_b32_e32 v0, 2			; GFX9V3-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V3-NEXT: flat_store_dword v[2:3], v0			; GFX9V3-NEXT: flat_store_dword v[2:3], v0
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: addrspacecast:			; GFX9V4-LABEL: addrspacecast:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V4-NEXT: v_mov_b32_e32 v4, 1			; GFX9V4-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0			; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V4-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V4-NEXT: v_mov_b32_e32 v2, s0			; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V4-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V4-NEXT: v_mov_b32_e32 v2, s1			; GFX9V4-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V4-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V4-NEXT: flat_store_dword v[0:1], v4			; GFX9V4-NEXT: flat_store_dword v[0:1], v4
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: v_mov_b32_e32 v0, 2			; GFX9V4-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V4-NEXT: flat_store_dword v[2:3], v0			; GFX9V4-NEXT: flat_store_dword v[2:3], v0
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: addrspacecast:			; GFX9V5-LABEL: addrspacecast:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V5-NEXT: v_mov_b32_e32 v4, 1			; GFX9V5-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0			; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V5-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V5-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V5-NEXT: v_mov_b32_e32 v2, s0			; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V5-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V5-NEXT: v_mov_b32_e32 v2, s1			; GFX9V5-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V5-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V5-NEXT: flat_store_dword v[0:1], v4			; GFX9V5-NEXT: flat_store_dword v[0:1], v4
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: v_mov_b32_e32 v0, 2			; GFX9V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V5-NEXT: flat_store_dword v[2:3], v0			; GFX9V5-NEXT: flat_store_dword v[2:3], v0
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*			%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*
	%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*			%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*
	▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/indirect-call-known-callees.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck %s

	; We have an indirect call with a known set of callees, which are			; We have an indirect call with a known set of callees, which are
	; known to not need any special inputs. The ABI still needs to use the			; known to not need any special inputs. The ABI still needs to use the
	; register			; register

	; FIXME: Passing real values for workitem ID, and 0s that can be undef			; FIXME: Passing real values for workitem ID, and 0s that can be undef

	define amdgpu_kernel void @indirect_call_known_no_special_inputs() {			define amdgpu_kernel void @indirect_call_known_no_special_inputs() {
	; CHECK-LABEL: indirect_call_known_no_special_inputs:			; CHECK-LABEL: indirect_call_known_no_special_inputs:
	; CHECK: ; %bb.0: ; %bb			; CHECK: ; %bb.0: ; %bb
	; CHECK-NEXT: s_add_u32 flat_scratch_lo, s4, s7			; CHECK-NEXT: s_add_u32 flat_scratch_lo, s4, s7
	; CHECK-NEXT: s_addc_u32 flat_scratch_hi, s5, 0			; CHECK-NEXT: s_addc_u32 flat_scratch_hi, s5, 0
	; CHECK-NEXT: s_mov_b64 s[4:5], 0
	; CHECK-NEXT: s_load_dword s4, s[4:5], 0x0
	; CHECK-NEXT: s_add_u32 s0, s0, s7			; CHECK-NEXT: s_add_u32 s0, s0, s7
	; CHECK-NEXT: s_addc_u32 s1, s1, 0			; CHECK-NEXT: s_addc_u32 s1, s1, 0
	; CHECK-NEXT: s_mov_b32 s33, s6			; CHECK-NEXT: s_mov_b64 s[4:5], 0
	; CHECK-NEXT: v_mov_b32_e32 v31, v0			; CHECK-NEXT: s_load_dword s7, s[4:5], 0x0
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: s_bitcmp1_b32 s4, 0
	; CHECK-NEXT: s_cselect_b64 vcc, -1, 0
	; CHECK-NEXT: s_getpc_b64 s[4:5]			; CHECK-NEXT: s_getpc_b64 s[4:5]
	; CHECK-NEXT: s_add_u32 s4, s4, wobble@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s4, s4, wobble@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s5, s5, wobble@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s5, s5, wobble@gotpcrel32@hi+12
	; CHECK-NEXT: s_getpc_b64 s[6:7]			; CHECK-NEXT: s_getpc_b64 s[8:9]
	; CHECK-NEXT: s_add_u32 s6, s6, snork@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s8, s8, snork@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s7, s7, snork@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s9, s9, snork@gotpcrel32@hi+12
	; CHECK-NEXT: s_load_dwordx2 s[8:9], s[6:7], 0x0			; CHECK-NEXT: s_load_dwordx2 s[10:11], s[8:9], 0x0
	; CHECK-NEXT: s_load_dwordx2 s[10:11], s[4:5], 0x0			; CHECK-NEXT: s_load_dwordx2 s[12:13], s[4:5], 0x0
	; CHECK-NEXT: s_mov_b32 s32, 0			; CHECK-NEXT: s_mov_b64 s[8:9], 0
	; CHECK-NEXT: s_mov_b64 s[4:5], exec
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: v_mov_b32_e32 v0, s9			; CHECK-NEXT: s_and_b32 s4, 1, s7
	; CHECK-NEXT: v_mov_b32_e32 v1, s11			; CHECK-NEXT: s_cmp_eq_u32 s4, 1
	; CHECK-NEXT: v_mov_b32_e32 v2, s8			; CHECK-NEXT: v_mov_b32_e32 v31, v0
	; CHECK-NEXT: v_mov_b32_e32 v4, s10			; CHECK-NEXT: s_cselect_b32 s5, s13, s11
	; CHECK-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; CHECK-NEXT: s_cselect_b32 s4, s12, s10
	; CHECK-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CHECK-NEXT: s_mov_b32 s12, s6
	; CHECK-NEXT: v_mov_b32_e32 v1, 0			; CHECK-NEXT: v_mov_b32_e32 v1, 0
	; CHECK-NEXT: .LBB0_1: ; =>This Inner Loop Header: Depth=1			; CHECK-NEXT: v_mov_b32_e32 v4, 0
	; CHECK-NEXT: v_readfirstlane_b32 s4, v2			; CHECK-NEXT: s_mov_b32 s32, 0
	; CHECK-NEXT: v_readfirstlane_b32 s5, v3
	; CHECK-NEXT: v_cmp_eq_u64_e32 vcc, s[4:5], v[2:3]
	; CHECK-NEXT: s_and_saveexec_b64 s[34:35], vcc
	; CHECK-NEXT: s_mov_b64 s[8:9], 0
	; CHECK-NEXT: s_mov_b32 s12, s33
	; CHECK-NEXT: v_mov_b32_e32 v4, v1
	; CHECK-NEXT: s_swappc_b64 s[30:31], s[4:5]			; CHECK-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; CHECK-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CHECK-NEXT: ; implicit-def: $vgpr31
	; CHECK-NEXT: ; implicit-def: $vgpr1
	; CHECK-NEXT: s_xor_b64 exec, exec, s[34:35]
	; CHECK-NEXT: s_cbranch_execnz .LBB0_1
	; CHECK-NEXT: ; %bb.2:
	; CHECK-NEXT: s_endpgm			; CHECK-NEXT: s_endpgm

	; CHECK: .amdhsa_kernarg_size 0
	; CHECK-NEXT: .amdhsa_user_sgpr_count 6
	; CHECK-NEXT: .amdhsa_user_sgpr_private_segment_buffer 1
	; CHECK-NEXT: .amdhsa_user_sgpr_dispatch_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_queue_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_kernarg_segment_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_dispatch_id 0
	; CHECK-NEXT: .amdhsa_user_sgpr_flat_scratch_init 1
	; CHECK-NEXT: .amdhsa_user_sgpr_private_segment_size 0
	; CHECK-NEXT: .amdhsa_uses_dynamic_stack 1
	; CHECK-NEXT: .amdhsa_system_sgpr_private_segment_wavefront_offset 1
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_x 1
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_y 0
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_z 0
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_info 0
	; CHECK-NEXT: .amdhsa_system_vgpr_workitem_id 0
	bb:			bb:
	%cond = load i1, i1 addrspace(4)* null			%cond = load i1, i1 addrspace(4)* null
	%tmp = select i1 %cond, void (i8, i32, i8)* bitcast (void ()* @wobble to void (i8, i32, i8)), void (i8, i32, i8) bitcast (void ()* @snork to void (i8, i32, i8)*)			%tmp = select i1 %cond, void (i8, i32, i8)* bitcast (void ()* @wobble to void (i8, i32, i8)), void (i8, i32, i8) bitcast (void ()* @snork to void (i8, i32, i8)*)
	call void %tmp(i8* undef, i32 undef, i8* undef)			call void %tmp(i8* undef, i32 undef, i8* undef)
	ret void			ret void
	}			}

	define void @wobble() {			define void @wobble() {
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

	Show First 20 Lines • Show All 580 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @double2_inselt(<2 x double> addrspace(1)* %out, <2 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double2_inselt(<2 x double> addrspace(1)* %out, <2 x double> %vec, i32 %sel) {
	; GCN-LABEL: double2_inselt:			; GCN-LABEL: double2_inselt:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_load_dword s2, s[0:1], 0x44			; GCN-NEXT: s_load_dword s2, s[0:1], 0x44
	; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34			; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GCN-NEXT: v_mov_b32_e32 v0, 0x3ff00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_eq_u32 s2, 1			; GCN-NEXT: s_cmp_eq_u32 s2, 1
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: s_cselect_b32 s3, 0x3ff00000, s7
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s6, 0, s6
	; GCN-NEXT: v_cndmask_b32_e32 v3, v1, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v1, s6
	; GCN-NEXT: s_cmp_eq_u32 s2, 0			; GCN-NEXT: s_cmp_eq_u32 s2, 0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v1, 0, vcc			; GCN-NEXT: s_cselect_b32 s2, 0x3ff00000, s5
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cselect_b32 s4, 0, s4
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v5, s1			; GCN-NEXT: v_mov_b32_e32 v5, s1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: v_mov_b32_e32 v1, s2
				; GCN-NEXT: v_mov_b32_e32 v2, s6
				; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: v_mov_b32_e32 v4, s0			; GCN-NEXT: v_mov_b32_e32 v4, s0
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	entry:			entry:
	%v = insertelement <2 x double> %vec, double 1.000000e+00, i32 %sel			%v = insertelement <2 x double> %vec, double 1.000000e+00, i32 %sel
	store <2 x double> %v, <2 x double> addrspace(1)* %out			store <2 x double> %v, <2 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @double5_inselt(<5 x double> addrspace(1)* %out, <5 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double5_inselt(<5 x double> addrspace(1)* %out, <5 x double> %vec, i32 %sel) {
	; GCN-LABEL: double5_inselt:			; GCN-LABEL: double5_inselt:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_load_dword s12, s[0:1], 0xa4			; GCN-NEXT: s_load_dword s12, s[0:1], 0xa4
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x84			; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x84
	; GCN-NEXT: s_load_dwordx2 s[10:11], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[10:11], s[0:1], 0x24
	; GCN-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x64			; GCN-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x64
	; GCN-NEXT: v_mov_b32_e32 v4, 0x3ff00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_eq_u32 s12, 4			; GCN-NEXT: s_cmp_eq_u32 s12, 4
	; GCN-NEXT: v_mov_b32_e32 v0, s9			; GCN-NEXT: s_cselect_b32 s9, 0x3ff00000, s9
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s8, 0, s8
	; GCN-NEXT: v_cndmask_b32_e32 v9, v0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s8
	; GCN-NEXT: s_cmp_eq_u32 s12, 1			; GCN-NEXT: s_cmp_eq_u32 s12, 1
	; GCN-NEXT: v_cndmask_b32_e64 v8, v0, 0, vcc			; GCN-NEXT: s_cselect_b32 s3, 0x3ff00000, s3
	; GCN-NEXT: v_mov_b32_e32 v0, s3			; GCN-NEXT: s_cselect_b32 s2, 0, s2
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: s_cmp_eq_u32 s12, 0			; GCN-NEXT: s_cmp_eq_u32 s12, 0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v4, s8
	; GCN-NEXT: v_mov_b32_e32 v0, s1			; GCN-NEXT: v_mov_b32_e32 v5, s9
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s8, 0x3ff00000, s1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc			; GCN-NEXT: s_cselect_b32 s9, 0, s0
	; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: s_cmp_eq_u32 s12, 3			; GCN-NEXT: s_cmp_eq_u32 s12, 3
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; GCN-NEXT: s_cselect_b32 s0, 0x3ff00000, s7
	; GCN-NEXT: v_mov_b32_e32 v5, s7			; GCN-NEXT: s_cselect_b32 s1, 0, s6
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v7, v5, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v5, s6
	; GCN-NEXT: s_cmp_eq_u32 s12, 2			; GCN-NEXT: s_cmp_eq_u32 s12, 2
	; GCN-NEXT: v_cndmask_b32_e64 v6, v5, 0, vcc			; GCN-NEXT: s_cselect_b32 s5, 0x3ff00000, s5
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s4, 0, s4
				; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: s_add_u32 s0, s10, 16			; GCN-NEXT: s_add_u32 s0, s10, 16
	; GCN-NEXT: v_mov_b32_e32 v5, s5			; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: s_addc_u32 s1, s11, 0			; GCN-NEXT: s_addc_u32 s1, s11, 0
	; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v4, vcc			; GCN-NEXT: v_mov_b32_e32 v7, s1
	; GCN-NEXT: v_mov_b32_e32 v4, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v11, s1			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v6, s0
	; GCN-NEXT: v_mov_b32_e32 v10, s0			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: v_mov_b32_e32 v6, s10
				; GCN-NEXT: v_mov_b32_e32 v0, s9
				; GCN-NEXT: v_mov_b32_e32 v1, s8
				; GCN-NEXT: v_mov_b32_e32 v2, s2
				; GCN-NEXT: v_mov_b32_e32 v3, s3
				; GCN-NEXT: v_mov_b32_e32 v7, s11
	; GCN-NEXT: s_add_u32 s0, s10, 32			; GCN-NEXT: s_add_u32 s0, s10, 32
	; GCN-NEXT: v_mov_b32_e32 v4, s10			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: v_mov_b32_e32 v5, s11
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_addc_u32 s1, s11, 0			; GCN-NEXT: s_addc_u32 s1, s11, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: flat_store_dwordx2 v[0:1], v[8:9]			; GCN-NEXT: flat_store_dwordx2 v[0:1], v[4:5]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	entry:			entry:
	%v = insertelement <5 x double> %vec, double 1.000000e+00, i32 %sel			%v = insertelement <5 x double> %vec, double 1.000000e+00, i32 %sel
	store <5 x double> %v, <5 x double> addrspace(1)* %out			store <5 x double> %v, <5 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @double8_inselt(<8 x double> addrspace(1)* %out, <8 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double8_inselt(<8 x double> addrspace(1)* %out, <8 x double> %vec, i32 %sel) {
	▲ Show 20 Lines • Show All 1,375 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

Show First 20 Lines • Show All 687 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @dynamic_insertelement_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, i32 %b) nounwind {
; SI-LABEL: dynamic_insertelement_v2i32:		; SI-LABEL: dynamic_insertelement_v2i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; SI-NEXT: s_load_dword s8, s[4:5], 0x4		; SI-NEXT: s_load_dword s8, s[4:5], 0x4
; SI-NEXT: s_mov_b32 s7, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_mov_b32_e32 v0, s3		; SI-NEXT: s_mov_b32 s4, s0
; SI-NEXT: s_cmp_lg_u32 s8, 1		; SI-NEXT: s_cmp_lg_u32 s8, 1
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s0, s3, 5
; SI-NEXT: s_cmp_lg_u32 s8, 0		; SI-NEXT: s_cmp_lg_u32 s8, 0
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v0, vcc
; SI-NEXT: v_mov_b32_e32 v0, s2
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_mov_b32 s4, s0
; SI-NEXT: s_mov_b32 s5, s1		; SI-NEXT: s_mov_b32 s5, s1
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s1, s2, 5
		; SI-NEXT: v_mov_b32_e32 v0, s1
		; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v2i32:		; VI-LABEL: dynamic_insertelement_v2i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s8, s[4:5], 0x10		; VI-NEXT: s_load_dword s8, s[4:5], 0x10
; VI-NEXT: s_mov_b32 s7, 0x1100f000		; VI-NEXT: s_mov_b32 s7, 0x1100f000
Show All 19 Lines
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s8, s[4:5], 0x8		; SI-NEXT: s_load_dword s8, s[4:5], 0x8
; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4		; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; SI-NEXT: s_mov_b32 s7, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_lg_u32 s8, 2		; SI-NEXT: s_cmp_lg_u32 s8, 2
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: s_cselect_b32 s2, s2, 5
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s8, 1		; SI-NEXT: s_cmp_lg_u32 s8, 1
; SI-NEXT: v_cndmask_b32_e32 v2, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s1, s1, 5
; SI-NEXT: v_mov_b32_e32 v0, s1
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s8, 0		; SI-NEXT: s_cmp_lg_u32 s8, 0
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s0, s0, 5
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: v_mov_b32_e32 v1, s1
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: v_mov_b32_e32 v2, s2
; SI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v3i32:		; VI-LABEL: dynamic_insertelement_v3i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dword s8, s[4:5], 0x20		; VI-NEXT: s_load_dword s8, s[4:5], 0x20
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
Show All 14 Lines	; VI-NEXT: s_endpgm
%vecins = insertelement <3 x i32> %a, i32 5, i32 %b		%vecins = insertelement <3 x i32> %a, i32 5, i32 %b
store <3 x i32> %vecins, <3 x i32> addrspace(1)* %out, align 16		store <3 x i32> %vecins, <3 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, i32 %b, [8 x i32], i32 %val) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, i32 %b, [8 x i32], i32 %val) nounwind {
; SI-LABEL: dynamic_insertelement_v4i32:		; SI-LABEL: dynamic_insertelement_v4i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s6, s[4:5], 0x8		; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; SI-NEXT: s_load_dword s8, s[4:5], 0x8
; SI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x4		; SI-NEXT: s_load_dword s9, s[4:5], 0x11
; SI-NEXT: s_load_dword s4, s[4:5], 0x11		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; SI-NEXT: s_mov_b32 s3, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_eq_u32 s6, 3		; SI-NEXT: s_cmp_eq_u32 s8, 3
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s3, s9, s3
; SI-NEXT: v_mov_b32_e32 v0, s11		; SI-NEXT: s_cmp_eq_u32 s8, 2
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: s_cselect_b32 s2, s9, s2
; SI-NEXT: s_cmp_eq_u32 s6, 2		; SI-NEXT: s_cmp_eq_u32 s8, 1
; SI-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc		; SI-NEXT: s_cselect_b32 s1, s9, s1
; SI-NEXT: v_mov_b32_e32 v0, s10		; SI-NEXT: s_cmp_eq_u32 s8, 0
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s0, s9, s0
; SI-NEXT: s_cmp_eq_u32 s6, 1		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: v_cndmask_b32_e32 v2, v0, v4, vcc		; SI-NEXT: v_mov_b32_e32 v1, s1
; SI-NEXT: v_mov_b32_e32 v0, s9		; SI-NEXT: v_mov_b32_e32 v2, s2
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: v_mov_b32_e32 v3, s3
; SI-NEXT: s_cmp_eq_u32 s6, 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v4i32:		; VI-LABEL: dynamic_insertelement_v4i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dword s8, s[4:5], 0x20		; VI-NEXT: s_load_dword s8, s[4:5], 0x20
; VI-NEXT: s_load_dword s9, s[4:5], 0x44		; VI-NEXT: s_load_dword s9, s[4:5], 0x44
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
▲ Show 20 Lines • Show All 409 Lines • ▼ Show 20 Lines
; SI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x4		; SI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x4
; SI-NEXT: s_load_dword s6, s[4:5], 0x8		; SI-NEXT: s_load_dword s6, s[4:5], 0x8
; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; SI-NEXT: s_mov_b32 s3, 0x100f000		; SI-NEXT: s_mov_b32 s3, 0x100f000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_lshr_b32 s4, s11, 24		; SI-NEXT: s_lshr_b32 s4, s11, 24
; SI-NEXT: s_cmp_lg_u32 s6, 15		; SI-NEXT: s_cmp_lg_u32 s6, 15
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: s_cselect_b32 s4, s4, 5
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_lshl_b32 s4, s4, 8
; SI-NEXT: s_lshr_b32 s4, s11, 16		; SI-NEXT: s_lshr_b32 s5, s11, 16
; SI-NEXT: s_cmp_lg_u32 s6, 14		; SI-NEXT: s_cmp_lg_u32 s6, 14
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s5, s5, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_and_b32 s5, s5, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s4, s5, s4
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_lshl_b32 s4, s4, 16
; SI-NEXT: s_lshr_b32 s4, s11, 8		; SI-NEXT: s_lshr_b32 s5, s11, 8
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 13		; SI-NEXT: s_cmp_lg_u32 s6, 13
; SI-NEXT: v_or_b32_e32 v0, v1, v0		; SI-NEXT: s_cselect_b32 s5, s5, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_lshl_b32 s5, s5, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s6, 12		; SI-NEXT: s_cmp_lg_u32 s6, 12
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_cselect_b32 s7, s11, 5
; SI-NEXT: v_mov_b32_e32 v2, s11		; SI-NEXT: s_and_b32 s7, s7, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s5, s7, s5
; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc		; SI-NEXT: s_and_b32 s5, s5, 0xffff
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; SI-NEXT: s_or_b32 s4, s5, s4
; SI-NEXT: v_and_b32_e32 v2, 0xff, v2		; SI-NEXT: s_lshr_b32 s5, s10, 24
; SI-NEXT: v_or_b32_e32 v1, v2, v1
; SI-NEXT: s_lshr_b32 s4, s10, 24
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 11		; SI-NEXT: s_cmp_lg_u32 s6, 11
; SI-NEXT: v_or_b32_e32 v3, v1, v0		; SI-NEXT: s_cselect_b32 s5, s5, 5
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: s_lshl_b32 s5, s5, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_lshr_b32 s7, s10, 16
; SI-NEXT: s_lshr_b32 s4, s10, 16
; SI-NEXT: s_cmp_lg_u32 s6, 10		; SI-NEXT: s_cmp_lg_u32 s6, 10
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s7, s7, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_and_b32 s7, s7, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s5, s7, s5
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_lshl_b32 s5, s5, 16
; SI-NEXT: s_lshr_b32 s4, s10, 8		; SI-NEXT: s_lshr_b32 s7, s10, 8
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 9		; SI-NEXT: s_cmp_lg_u32 s6, 9
; SI-NEXT: v_or_b32_e32 v0, v1, v0		; SI-NEXT: s_cselect_b32 s7, s7, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_lshl_b32 s7, s7, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s6, 8		; SI-NEXT: s_cmp_lg_u32 s6, 8
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_cselect_b32 s10, s10, 5
; SI-NEXT: v_mov_b32_e32 v2, s10		; SI-NEXT: s_and_b32 s10, s10, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s7, s10, s7
; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc		; SI-NEXT: s_and_b32 s7, s7, 0xffff
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; SI-NEXT: s_or_b32 s5, s7, s5
; SI-NEXT: v_and_b32_e32 v2, 0xff, v2		; SI-NEXT: s_lshr_b32 s7, s9, 24
; SI-NEXT: v_or_b32_e32 v1, v2, v1
; SI-NEXT: s_lshr_b32 s4, s9, 24
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 7		; SI-NEXT: s_cmp_lg_u32 s6, 7
; SI-NEXT: v_or_b32_e32 v2, v1, v0		; SI-NEXT: s_cselect_b32 s7, s7, 5
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: s_lshl_b32 s7, s7, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_lshr_b32 s10, s9, 16
; SI-NEXT: s_lshr_b32 s4, s9, 16
; SI-NEXT: s_cmp_lg_u32 s6, 6		; SI-NEXT: s_cmp_lg_u32 s6, 6
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s10, s10, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_and_b32 s10, s10, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s7, s10, s7
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_lshl_b32 s7, s7, 16
; SI-NEXT: s_lshr_b32 s4, s9, 8		; SI-NEXT: s_lshr_b32 s10, s9, 8
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 5		; SI-NEXT: s_cmp_lg_u32 s6, 5
; SI-NEXT: v_or_b32_e32 v0, v1, v0		; SI-NEXT: s_cselect_b32 s10, s10, 5
; SI-NEXT: v_mov_b32_e32 v1, s4		; SI-NEXT: s_lshl_b32 s10, s10, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s6, 4		; SI-NEXT: s_cmp_lg_u32 s6, 4
; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc		; SI-NEXT: s_cselect_b32 s9, s9, 5
; SI-NEXT: v_mov_b32_e32 v4, s9		; SI-NEXT: s_and_b32 s9, s9, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s9, s9, s10
; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc		; SI-NEXT: s_and_b32 s9, s9, 0xffff
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; SI-NEXT: s_or_b32 s7, s9, s7
; SI-NEXT: v_and_b32_e32 v4, 0xff, v4		; SI-NEXT: s_lshr_b32 s9, s8, 24
; SI-NEXT: v_or_b32_e32 v1, v4, v1
; SI-NEXT: s_lshr_b32 s4, s8, 24
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
; SI-NEXT: s_cmp_lg_u32 s6, 3		; SI-NEXT: s_cmp_lg_u32 s6, 3
; SI-NEXT: v_or_b32_e32 v1, v1, v0		; SI-NEXT: s_cselect_b32 s9, s9, 5
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: s_lshl_b32 s9, s9, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_lshr_b32 s10, s8, 16
; SI-NEXT: s_lshr_b32 s4, s8, 16
; SI-NEXT: s_cmp_lg_u32 s6, 2		; SI-NEXT: s_cmp_lg_u32 s6, 2
; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc		; SI-NEXT: s_cselect_b32 s10, s10, 5
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: s_and_b32 s10, s10, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s9, s10, s9
; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc		; SI-NEXT: s_lshl_b32 s9, s9, 16
; SI-NEXT: s_lshr_b32 s4, s8, 8		; SI-NEXT: s_lshr_b32 s10, s8, 8
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_and_b32_e32 v4, 0xff, v4
; SI-NEXT: s_cmp_lg_u32 s6, 1		; SI-NEXT: s_cmp_lg_u32 s6, 1
; SI-NEXT: v_or_b32_e32 v0, v4, v0		; SI-NEXT: s_cselect_b32 s10, s10, 5
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: s_lshl_b32 s10, s10, 8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lg_u32 s6, 0		; SI-NEXT: s_cmp_lg_u32 s6, 0
; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc		; SI-NEXT: s_cselect_b32 s6, s8, 5
; SI-NEXT: v_mov_b32_e32 v5, s8		; SI-NEXT: s_and_b32 s6, s6, 0xff
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_or_b32 s6, s6, s10
; SI-NEXT: v_cndmask_b32_e32 v5, 5, v5, vcc		; SI-NEXT: s_and_b32 s6, s6, 0xffff
; SI-NEXT: v_lshlrev_b32_e32 v4, 8, v4		; SI-NEXT: s_or_b32 s6, s6, s9
; SI-NEXT: v_and_b32_e32 v5, 0xff, v5		; SI-NEXT: v_mov_b32_e32 v0, s6
; SI-NEXT: v_or_b32_e32 v4, v5, v4		; SI-NEXT: v_mov_b32_e32 v1, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; SI-NEXT: v_mov_b32_e32 v2, s5
; SI-NEXT: v_and_b32_e32 v4, 0xffff, v4		; SI-NEXT: v_mov_b32_e32 v3, s4
; SI-NEXT: v_or_b32_e32 v0, v4, v0
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v16i8:		; VI-LABEL: dynamic_insertelement_v16i8:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x10
; VI-NEXT: s_load_dword s6, s[4:5], 0x20		; VI-NEXT: s_load_dword s6, s[4:5], 0x20
; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @dynamic_insertelement_v2f64(<2 x double> addrspace(1)* %out, [8 x i32], <2 x double> %a, [8 x i32], i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v2f64(<2 x double> addrspace(1)* %out, [8 x i32], <2 x double> %a, [8 x i32], i32 %b) nounwind {
; SI-LABEL: dynamic_insertelement_v2f64:		; SI-LABEL: dynamic_insertelement_v2f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s8, s[4:5], 0x18		; SI-NEXT: s_load_dword s8, s[4:5], 0x18
; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0xc		; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0xc
; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; SI-NEXT: v_mov_b32_e32 v1, 0x40200000
; SI-NEXT: s_mov_b32 s7, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_eq_u32 s8, 1		; SI-NEXT: s_cmp_eq_u32 s8, 1
; SI-NEXT: v_mov_b32_e32 v0, s3		; SI-NEXT: s_cselect_b32 s3, 0x40200000, s3
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s2, 0, s2
; SI-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
; SI-NEXT: v_mov_b32_e32 v0, s2
; SI-NEXT: s_cmp_eq_u32 s8, 0		; SI-NEXT: s_cmp_eq_u32 s8, 0
; SI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc		; SI-NEXT: s_cselect_b32 s1, 0x40200000, s1
; SI-NEXT: v_mov_b32_e32 v0, s1		; SI-NEXT: s_cselect_b32 s0, 0, s0
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: v_mov_b32_e32 v1, s1
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: v_mov_b32_e32 v2, s2
		; SI-NEXT: v_mov_b32_e32 v3, s3
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v2f64:		; VI-LABEL: dynamic_insertelement_v2f64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dword s8, s[4:5], 0x60		; VI-NEXT: s_load_dword s8, s[4:5], 0x60
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x30		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x30
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; VI-NEXT: v_mov_b32_e32 v1, 0x40200000
; VI-NEXT: s_mov_b32 s7, 0x1100f000		; VI-NEXT: s_mov_b32 s7, 0x1100f000
		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_cmp_eq_u32 s8, 1		; VI-NEXT: s_cmp_eq_u32 s8, 1
; VI-NEXT: v_mov_b32_e32 v0, s3		; VI-NEXT: s_cselect_b32 s3, 0x40200000, s3
; VI-NEXT: s_cselect_b64 vcc, -1, 0		; VI-NEXT: s_cselect_b32 s2, 0, s2
; VI-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
; VI-NEXT: v_mov_b32_e32 v0, s2
; VI-NEXT: s_cmp_eq_u32 s8, 0		; VI-NEXT: s_cmp_eq_u32 s8, 0
; VI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc		; VI-NEXT: s_cselect_b32 s1, 0x40200000, s1
; VI-NEXT: v_mov_b32_e32 v0, s1		; VI-NEXT: s_cselect_b32 s0, 0, s0
; VI-NEXT: s_cselect_b64 vcc, -1, 0
; VI-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; VI-NEXT: v_mov_b32_e32 v2, s2
		; VI-NEXT: v_mov_b32_e32 v3, s3
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <2 x double> %a, double 8.0, i32 %b		%vecins = insertelement <2 x double> %a, double 8.0, i32 %b
store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16		store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %a, i32 %b) nounwind {
; SI-LABEL: dynamic_insertelement_v2i64:		; SI-LABEL: dynamic_insertelement_v2i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s10, s[4:5], 0x8		; SI-NEXT: s_load_dword s8, s[4:5], 0x8
; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4		; SI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; SI-NEXT: s_mov_b32 s7, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_eq_u32 s10, 1		; SI-NEXT: s_cmp_eq_u32 s8, 1
; SI-NEXT: v_mov_b32_e32 v0, s3		; SI-NEXT: s_cselect_b32 s3, 0, s3
; SI-NEXT: s_cselect_b64 s[8:9], -1, 0		; SI-NEXT: s_cselect_b32 s2, 5, s2
; SI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[8:9]		; SI-NEXT: s_cmp_eq_u32 s8, 0
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: s_cselect_b32 s1, 0, s1
; SI-NEXT: s_cmp_eq_u32 s10, 0		; SI-NEXT: s_cselect_b32 s0, 5, s0
; SI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[8:9]
; SI-NEXT: v_mov_b32_e32 v0, s1
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[2:3]
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[2:3]		; SI-NEXT: v_mov_b32_e32 v1, s1
		; SI-NEXT: v_mov_b32_e32 v2, s2
		; SI-NEXT: v_mov_b32_e32 v3, s3
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v2i64:		; VI-LABEL: dynamic_insertelement_v2i64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dword s10, s[4:5], 0x20		; VI-NEXT: s_load_dword s8, s[4:5], 0x20
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; VI-NEXT: s_mov_b32 s7, 0x1100f000		; VI-NEXT: s_mov_b32 s7, 0x1100f000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_cmp_eq_u32 s10, 1		; VI-NEXT: s_cmp_eq_u32 s8, 1
; VI-NEXT: v_mov_b32_e32 v0, s3		; VI-NEXT: s_cselect_b32 s3, 0, s3
; VI-NEXT: s_cselect_b64 s[8:9], -1, 0		; VI-NEXT: s_cselect_b32 s2, 5, s2
; VI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[8:9]		; VI-NEXT: s_cmp_eq_u32 s8, 0
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: s_cselect_b32 s1, 0, s1
; VI-NEXT: s_cmp_eq_u32 s10, 0		; VI-NEXT: s_cselect_b32 s0, 5, s0
; VI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[8:9]
; VI-NEXT: v_mov_b32_e32 v0, s1
; VI-NEXT: s_cselect_b64 s[2:3], -1, 0
; VI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[2:3]
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[2:3]		; VI-NEXT: v_mov_b32_e32 v1, s1
		; VI-NEXT: v_mov_b32_e32 v2, s2
		; VI-NEXT: v_mov_b32_e32 v3, s3
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <2 x i64> %a, i64 5, i32 %b		%vecins = insertelement <2 x i64> %a, i64 5, i32 %b
store <2 x i64> %vecins, <2 x i64> addrspace(1)* %out, align 8		store <2 x i64> %vecins, <2 x i64> addrspace(1)* %out, align 8
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v3i64(<3 x i64> addrspace(1)* %out, <3 x i64> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v3i64(<3 x i64> addrspace(1)* %out, <3 x i64> %a, i32 %b) nounwind {
; SI-LABEL: dynamic_insertelement_v3i64:		; SI-LABEL: dynamic_insertelement_v3i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s12, s[4:5], 0x10		; SI-NEXT: s_load_dword s6, s[4:5], 0x10
; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; SI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x8		; SI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x8
; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0xc		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0xc
; SI-NEXT: s_mov_b32 s3, 0x100f000		; SI-NEXT: s_mov_b32 s3, 0x100f000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_eq_u32 s12, 1		; SI-NEXT: s_cmp_eq_u32 s6, 1
; SI-NEXT: s_cselect_b64 s[6:7], -1, 0
; SI-NEXT: v_mov_b32_e32 v0, s11
; SI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[6:7]
; SI-NEXT: v_mov_b32_e32 v0, s10
; SI-NEXT: s_cmp_eq_u32 s12, 0
; SI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[6:7]
; SI-NEXT: v_mov_b32_e32 v0, s9
; SI-NEXT: s_cselect_b64 s[6:7], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[6:7]
; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: s_cmp_eq_u32 s12, 2
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[6:7]
; SI-NEXT: v_mov_b32_e32 v4, s5
; SI-NEXT: s_cselect_b64 s[6:7], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v5, v4, 0, s[6:7]
; SI-NEXT: v_mov_b32_e32 v4, s4
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 5, s[6:7]		; SI-NEXT: s_cselect_b32 s7, 0, s11
; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16		; SI-NEXT: s_cselect_b32 s10, 5, s10
		; SI-NEXT: s_cmp_eq_u32 s6, 0
		; SI-NEXT: s_cselect_b32 s9, 0, s9
		; SI-NEXT: s_cselect_b32 s8, 5, s8
		; SI-NEXT: s_cmp_eq_u32 s6, 2
		; SI-NEXT: s_cselect_b32 s5, 0, s5
		; SI-NEXT: s_cselect_b32 s4, 5, s4
		; SI-NEXT: v_mov_b32_e32 v0, s4
		; SI-NEXT: v_mov_b32_e32 v1, s5
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0 offset:16
		; SI-NEXT: v_mov_b32_e32 v0, s8
		; SI-NEXT: v_mov_b32_e32 v1, s9
		; SI-NEXT: v_mov_b32_e32 v2, s10
		; SI-NEXT: v_mov_b32_e32 v3, s7
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v3i64:		; VI-LABEL: dynamic_insertelement_v3i64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dword s12, s[4:5], 0x40		; VI-NEXT: s_load_dword s6, s[4:5], 0x40
; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x20		; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x20
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x30		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x30
; VI-NEXT: s_mov_b32 s3, 0x1100f000		; VI-NEXT: s_mov_b32 s3, 0x1100f000
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_cmp_eq_u32 s12, 1		; VI-NEXT: s_cmp_eq_u32 s6, 1
; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
; VI-NEXT: v_mov_b32_e32 v0, s11
; VI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[6:7]
; VI-NEXT: v_mov_b32_e32 v0, s10
; VI-NEXT: s_cmp_eq_u32 s12, 0
; VI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[6:7]
; VI-NEXT: v_mov_b32_e32 v0, s9
; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
; VI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[6:7]
; VI-NEXT: v_mov_b32_e32 v0, s8
; VI-NEXT: s_cmp_eq_u32 s12, 2
; VI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[6:7]
; VI-NEXT: v_mov_b32_e32 v4, s5
; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
; VI-NEXT: v_cndmask_b32_e64 v5, v4, 0, s[6:7]
; VI-NEXT: v_mov_b32_e32 v4, s4
; VI-NEXT: s_mov_b32 s2, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: v_cndmask_b32_e64 v4, v4, 5, s[6:7]		; VI-NEXT: s_cselect_b32 s7, 0, s11
; VI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16		; VI-NEXT: s_cselect_b32 s10, 5, s10
		; VI-NEXT: s_cmp_eq_u32 s6, 0
		; VI-NEXT: s_cselect_b32 s9, 0, s9
		; VI-NEXT: s_cselect_b32 s8, 5, s8
		; VI-NEXT: s_cmp_eq_u32 s6, 2
		; VI-NEXT: s_cselect_b32 s5, 0, s5
		; VI-NEXT: s_cselect_b32 s4, 5, s4
		; VI-NEXT: v_mov_b32_e32 v0, s4
		; VI-NEXT: v_mov_b32_e32 v1, s5
		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0 offset:16
		; VI-NEXT: v_mov_b32_e32 v0, s8
		; VI-NEXT: v_mov_b32_e32 v1, s9
		; VI-NEXT: v_mov_b32_e32 v2, s10
		; VI-NEXT: v_mov_b32_e32 v3, s7
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <3 x i64> %a, i64 5, i32 %b		%vecins = insertelement <3 x i64> %a, i64 5, i32 %b
store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32		store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {		define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {
; SI-LABEL: dynamic_insertelement_v4f64:		; SI-LABEL: dynamic_insertelement_v4f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dword s6, s[4:5], 0x10		; SI-NEXT: s_load_dword s6, s[4:5], 0x10
; SI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x8		; SI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x8
; SI-NEXT: v_mov_b32_e32 v4, 0x40200000
; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; SI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; SI-NEXT: s_mov_b32 s3, 0x100f000		; SI-NEXT: s_mov_b32 s3, 0x100f000
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_cmp_eq_u32 s6, 1		; SI-NEXT: s_cmp_eq_u32 s6, 1
; SI-NEXT: v_mov_b32_e32 v0, s11		; SI-NEXT: s_cselect_b32 s4, 0x40200000, s11
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s5, 0, s10
; SI-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v0, s10
; SI-NEXT: s_cmp_eq_u32 s6, 0		; SI-NEXT: s_cmp_eq_u32 s6, 0
; SI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc		; SI-NEXT: s_cselect_b32 s7, 0x40200000, s9
; SI-NEXT: v_mov_b32_e32 v0, s9		; SI-NEXT: s_cselect_b32 s8, 0, s8
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: s_cmp_eq_u32 s6, 3		; SI-NEXT: s_cmp_eq_u32 s6, 3
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: s_cselect_b32 s9, 0x40200000, s15
; SI-NEXT: v_mov_b32_e32 v5, s15		; SI-NEXT: s_cselect_b32 s10, 0, s14
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cndmask_b32_e32 v7, v5, v4, vcc
; SI-NEXT: v_mov_b32_e32 v5, s14
; SI-NEXT: s_cmp_eq_u32 s6, 2		; SI-NEXT: s_cmp_eq_u32 s6, 2
; SI-NEXT: v_cndmask_b32_e64 v6, v5, 0, vcc		; SI-NEXT: s_cselect_b32 s6, 0x40200000, s13
; SI-NEXT: v_mov_b32_e32 v5, s13		; SI-NEXT: s_cselect_b32 s11, 0, s12
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: v_mov_b32_e32 v0, s11
; SI-NEXT: v_cndmask_b32_e32 v5, v5, v4, vcc		; SI-NEXT: v_mov_b32_e32 v1, s6
; SI-NEXT: v_mov_b32_e32 v4, s12		; SI-NEXT: v_mov_b32_e32 v2, s10
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: v_mov_b32_e32 v3, s9
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16		; SI-NEXT: s_nop 0
		; SI-NEXT: v_mov_b32_e32 v0, s8
		; SI-NEXT: v_mov_b32_e32 v1, s7
		; SI-NEXT: v_mov_b32_e32 v2, s5
		; SI-NEXT: v_mov_b32_e32 v3, s4
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v4f64:		; VI-LABEL: dynamic_insertelement_v4f64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dword s6, s[4:5], 0x40		; VI-NEXT: s_load_dword s6, s[4:5], 0x40
; VI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x20		; VI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x20
; VI-NEXT: v_mov_b32_e32 v4, 0x40200000
; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; VI-NEXT: s_mov_b32 s3, 0x1100f000		; VI-NEXT: s_mov_b32 s3, 0x1100f000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_cmp_eq_u32 s6, 1		; VI-NEXT: s_cmp_eq_u32 s6, 1
; VI-NEXT: v_mov_b32_e32 v0, s11		; VI-NEXT: s_cselect_b32 s4, 0x40200000, s11
; VI-NEXT: s_cselect_b64 vcc, -1, 0		; VI-NEXT: s_cselect_b32 s5, 0, s10
; VI-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc
; VI-NEXT: v_mov_b32_e32 v0, s10
; VI-NEXT: s_cmp_eq_u32 s6, 0		; VI-NEXT: s_cmp_eq_u32 s6, 0
; VI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc		; VI-NEXT: s_cselect_b32 s7, 0x40200000, s9
; VI-NEXT: v_mov_b32_e32 v0, s9		; VI-NEXT: s_cselect_b32 s8, 0, s8
; VI-NEXT: s_cselect_b64 vcc, -1, 0
; VI-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc
; VI-NEXT: v_mov_b32_e32 v0, s8
; VI-NEXT: s_cmp_eq_u32 s6, 3		; VI-NEXT: s_cmp_eq_u32 s6, 3
; VI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; VI-NEXT: s_cselect_b32 s9, 0x40200000, s15
; VI-NEXT: v_mov_b32_e32 v5, s15		; VI-NEXT: s_cselect_b32 s10, 0, s14
; VI-NEXT: s_cselect_b64 vcc, -1, 0
; VI-NEXT: v_cndmask_b32_e32 v7, v5, v4, vcc
; VI-NEXT: v_mov_b32_e32 v5, s14
; VI-NEXT: s_cmp_eq_u32 s6, 2		; VI-NEXT: s_cmp_eq_u32 s6, 2
; VI-NEXT: v_cndmask_b32_e64 v6, v5, 0, vcc		; VI-NEXT: s_cselect_b32 s6, 0x40200000, s13
; VI-NEXT: v_mov_b32_e32 v5, s13		; VI-NEXT: s_cselect_b32 s11, 0, s12
; VI-NEXT: s_cselect_b64 vcc, -1, 0		; VI-NEXT: v_mov_b32_e32 v0, s11
; VI-NEXT: v_cndmask_b32_e32 v5, v5, v4, vcc		; VI-NEXT: v_mov_b32_e32 v1, s6
; VI-NEXT: v_mov_b32_e32 v4, s12		; VI-NEXT: v_mov_b32_e32 v2, s10
; VI-NEXT: s_mov_b32 s2, -1		; VI-NEXT: v_mov_b32_e32 v3, s9
; VI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16		; VI-NEXT: s_nop 0
		; VI-NEXT: v_mov_b32_e32 v0, s8
		; VI-NEXT: v_mov_b32_e32 v1, s7
		; VI-NEXT: v_mov_b32_e32 v2, s5
		; VI-NEXT: v_mov_b32_e32 v3, s4
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <4 x double> %a, double 8.0, i32 %b		%vecins = insertelement <4 x double> %a, double 8.0, i32 %b
store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {		define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {
▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

	Show First 20 Lines • Show All 278 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_hi_u32 v1, s1, v0			; SI-NEXT: v_mul_hi_u32 v1, s1, v0
	; SI-NEXT: s_mul_i32 s4, s1, s2			; SI-NEXT: s_mul_i32 s4, s1, s2
	; SI-NEXT: v_mov_b32_e32 v2, s3			; SI-NEXT: v_mov_b32_e32 v2, s3
	; SI-NEXT: v_mul_hi_u32 v3, s0, v2			; SI-NEXT: v_mul_hi_u32 v3, s0, v2
	; SI-NEXT: s_mul_i32 s5, s0, s3			; SI-NEXT: s_mul_i32 s5, s0, s3
	; SI-NEXT: v_mul_hi_u32 v0, s0, v0			; SI-NEXT: v_mul_hi_u32 v0, s0, v0
	; SI-NEXT: v_mul_hi_u32 v2, s1, v2			; SI-NEXT: v_mul_hi_u32 v2, s1, v2
	; SI-NEXT: s_mul_i32 s1, s1, s3			; SI-NEXT: s_mul_i32 s1, s1, s3
	; SI-NEXT: s_mul_i32 s0, s0, s2			; SI-NEXT: s_mul_i32 s2, s0, s2
	; SI-NEXT: v_add_i32_e32 v4, vcc, s5, v0			; SI-NEXT: v_add_i32_e32 v4, vcc, s5, v0
	; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; SI-NEXT: v_mov_b32_e32 v5, s0
	; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v4
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc			; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
	; SI-NEXT: v_add_i32_e32 v3, vcc, s5, v0			; SI-NEXT: v_add_i32_e32 v3, vcc, s5, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, s1, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, s1, v1
	; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; SI-NEXT: v_add_i32_e32 v2, vcc, s4, v3			; SI-NEXT: v_add_i32_e32 v2, vcc, s4, v3
	; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]			; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
	; SI-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc			; SI-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc
	; SI-NEXT: v_cndmask_b32_e64 v0, v5, 0, vcc			; SI-NEXT: s_and_b64 s[0:1], vcc, exec
				; SI-NEXT: s_cselect_b32 s0, 0, s2
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
				; SI-NEXT: v_mov_b32_e32 v0, s0
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: umulo_i64_s:			; GFX9-LABEL: umulo_i64_s:
	; GFX9: ; %bb.0: ; %bb			; GFX9: ; %bb.0: ; %bb
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mul_i32 s7, s0, s3			; GFX9-NEXT: s_mul_i32 s7, s0, s3
	; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX9-NEXT: s_mul_hi_u32 s5, s0, s3			; GFX9-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX9-NEXT: s_add_u32 s9, s8, s7			; GFX9-NEXT: s_add_u32 s9, s8, s7
	; GFX9-NEXT: s_mul_i32 s6, s1, s2			; GFX9-NEXT: s_mul_i32 s6, s1, s2
	; GFX9-NEXT: s_addc_u32 s5, 0, s5			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX9-NEXT: s_add_u32 s9, s9, s6			; GFX9-NEXT: s_add_u32 s9, s9, s6
	; GFX9-NEXT: s_mul_hi_u32 s10, s1, s3			; GFX9-NEXT: s_mul_hi_u32 s10, s1, s3
	; GFX9-NEXT: s_addc_u32 s4, s5, s4			; GFX9-NEXT: s_addc_u32 s4, s5, s4
	; GFX9-NEXT: s_addc_u32 s5, s10, 0			; GFX9-NEXT: s_addc_u32 s5, s10, 0
	; GFX9-NEXT: s_mul_i32 s1, s1, s3			; GFX9-NEXT: s_mul_i32 s1, s1, s3
	; GFX9-NEXT: s_add_u32 s4, s4, s1			; GFX9-NEXT: s_add_u32 s4, s4, s1
	; GFX9-NEXT: s_addc_u32 s5, 0, s5			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_add_i32 s1, s8, s7			; GFX9-NEXT: s_add_i32 s1, s8, s7
	; GFX9-NEXT: s_add_i32 s1, s1, s6			; GFX9-NEXT: s_add_i32 s1, s1, s6
				; GFX9-NEXT: s_mul_i32 s0, s0, s2
	; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX9-NEXT: s_mul_i32 s2, s0, s2			; GFX9-NEXT: s_cselect_b32 s1, 0, s1
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: s_cselect_b32 s0, 0, s0
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[0:1]
	; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: umulo_i64_s:			; GFX10-LABEL: umulo_i64_s:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_mul_i32 s7, s0, s3			; GFX10-NEXT: s_mul_i32 s7, s0, s3
	Show All 9 Lines
	; GFX10-NEXT: s_addc_u32 s3, s5, s4			; GFX10-NEXT: s_addc_u32 s3, s5, s4
	; GFX10-NEXT: s_addc_u32 s5, s9, 0			; GFX10-NEXT: s_addc_u32 s5, s9, 0
	; GFX10-NEXT: s_add_u32 s4, s3, s1			; GFX10-NEXT: s_add_u32 s4, s3, s1
	; GFX10-NEXT: s_addc_u32 s5, 0, s5			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_add_i32 s1, s8, s7			; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_mul_i32 s0, s0, s2			; GFX10-NEXT: s_mul_i32 s0, s0, s2
	; GFX10-NEXT: s_add_i32 s1, s1, s6			; GFX10-NEXT: s_add_i32 s1, s1, s6
	; GFX10-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX10-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX10-NEXT: s_cselect_b32 s2, -1, 0			; GFX10-NEXT: s_cselect_b32 s0, 0, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, s1, 0, s2			; GFX10-NEXT: s_cselect_b32 s1, 0, s1
	; GFX10-NEXT: v_cndmask_b32_e64 v0, s0, 0, s2			; GFX10-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: umulo_i64_s:			; GFX11-LABEL: umulo_i64_s:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_mul_i32 s7, s0, s3			; GFX11-NEXT: s_mul_i32 s7, s0, s3
	Show All 9 Lines
	; GFX11-NEXT: s_addc_u32 s3, s5, s4			; GFX11-NEXT: s_addc_u32 s3, s5, s4
	; GFX11-NEXT: s_addc_u32 s5, s9, 0			; GFX11-NEXT: s_addc_u32 s5, s9, 0
	; GFX11-NEXT: s_add_u32 s4, s3, s1			; GFX11-NEXT: s_add_u32 s4, s3, s1
	; GFX11-NEXT: s_addc_u32 s5, 0, s5			; GFX11-NEXT: s_addc_u32 s5, 0, s5
	; GFX11-NEXT: s_add_i32 s1, s8, s7			; GFX11-NEXT: s_add_i32 s1, s8, s7
	; GFX11-NEXT: s_mul_i32 s0, s0, s2			; GFX11-NEXT: s_mul_i32 s0, s0, s2
	; GFX11-NEXT: s_add_i32 s1, s1, s6			; GFX11-NEXT: s_add_i32 s1, s1, s6
	; GFX11-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX11-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX11-NEXT: s_cselect_b32 s2, -1, 0			; GFX11-NEXT: s_cselect_b32 s0, 0, s0
				; GFX11-NEXT: s_cselect_b32 s1, 0, s1
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: v_cndmask_b32_e64 v1, s1, 0, s2			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: v_cndmask_b32_e64 v0, s0, 0, s2
	; GFX11-NEXT: global_store_b64 v[0:1], v[0:1], off			; GFX11-NEXT: global_store_b64 v[0:1], v[0:1], off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	bb:			bb:
	%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)			%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)
	%mul = extractvalue { i64, i1 } %umulo, 0			%mul = extractvalue { i64, i1 } %umulo, 0
	%overflow = extractvalue { i64, i1 } %umulo, 1			%overflow = extractvalue { i64, i1 } %umulo, 1
	%res = select i1 %overflow, i64 0, i64 %mul			%res = select i1 %overflow, i64 0, i64 %mul
	Show All 11 Lines
	; SI-NEXT: v_mul_hi_u32 v1, s1, v0			; SI-NEXT: v_mul_hi_u32 v1, s1, v0
	; SI-NEXT: s_mul_i32 s4, s1, s2			; SI-NEXT: s_mul_i32 s4, s1, s2
	; SI-NEXT: v_mov_b32_e32 v2, s3			; SI-NEXT: v_mov_b32_e32 v2, s3
	; SI-NEXT: v_mul_hi_u32 v3, s0, v2			; SI-NEXT: v_mul_hi_u32 v3, s0, v2
	; SI-NEXT: s_mul_i32 s5, s0, s3			; SI-NEXT: s_mul_i32 s5, s0, s3
	; SI-NEXT: v_mul_hi_u32 v0, s0, v0			; SI-NEXT: v_mul_hi_u32 v0, s0, v0
	; SI-NEXT: v_mul_hi_i32 v2, s1, v2			; SI-NEXT: v_mul_hi_i32 v2, s1, v2
	; SI-NEXT: s_mul_i32 s6, s1, s3			; SI-NEXT: s_mul_i32 s6, s1, s3
	; SI-NEXT: s_cmp_lt_i32 s1, 0			; SI-NEXT: s_mul_i32 s8, s0, s2
	; SI-NEXT: s_mul_i32 s1, s0, s2			; SI-NEXT: v_readfirstlane_b32 s9, v1
	; SI-NEXT: v_add_i32_e32 v4, vcc, s5, v0			; SI-NEXT: v_readfirstlane_b32 s10, v3
	; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; SI-NEXT: v_readfirstlane_b32 s11, v0
	; SI-NEXT: v_mov_b32_e32 v5, s1			; SI-NEXT: v_readfirstlane_b32 s12, v2
	; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v4
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
	; SI-NEXT: v_add_i32_e32 v0, vcc, s5, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, s5, v0
	; SI-NEXT: v_add_i32_e32 v1, vcc, s6, v1			; SI-NEXT: s_add_u32 s5, s11, s5
	; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc			; SI-NEXT: v_add_i32_e32 v2, vcc, s4, v0
	; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v0			; SI-NEXT: s_addc_u32 s10, 0, s10
	; SI-NEXT: v_subrev_i32_e32 v3, vcc, s2, v1			; SI-NEXT: v_ashrrev_i32_e32 v0, 31, v2
	; SI-NEXT: v_subbrev_u32_e32 v6, vcc, 0, v2, vcc			; SI-NEXT: s_add_u32 s4, s5, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_cmp_lt_i32 s3, 0
	; SI-NEXT: v_ashrrev_i32_e32 v0, 31, v4
	; SI-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; SI-NEXT: v_cndmask_b32_e32 v6, v1, v3, vcc
	; SI-NEXT: v_mov_b32_e32 v1, v0			; SI-NEXT: v_mov_b32_e32 v1, v0
	; SI-NEXT: v_subrev_i32_e32 v7, vcc, s0, v6			; SI-NEXT: s_addc_u32 s4, s10, s9
	; SI-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v2, vcc			; SI-NEXT: s_addc_u32 s5, s12, 0
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_add_u32 s4, s4, s6
	; SI-NEXT: v_cndmask_b32_e32 v3, v2, v3, vcc			; SI-NEXT: s_addc_u32 s5, 0, s5
	; SI-NEXT: v_cndmask_b32_e32 v2, v6, v7, vcc			; SI-NEXT: s_sub_u32 s2, s4, s2
	; SI-NEXT: v_cmp_ne_u64_e32 vcc, v[2:3], v[0:1]			; SI-NEXT: s_subb_u32 s6, s5, 0
	; SI-NEXT: v_cndmask_b32_e64 v1, v4, 0, vcc			; SI-NEXT: s_cmp_lt_i32 s1, 0
	; SI-NEXT: v_cndmask_b32_e64 v0, v5, 0, vcc			; SI-NEXT: s_cselect_b32 s1, s6, s5
				; SI-NEXT: s_cselect_b32 s2, s2, s4
				; SI-NEXT: s_sub_u32 s0, s2, s0
				; SI-NEXT: s_subb_u32 s4, s1, 0
				; SI-NEXT: s_cmp_lt_i32 s3, 0
				; SI-NEXT: s_cselect_b32 s1, s4, s1
				; SI-NEXT: s_cselect_b32 s0, s0, s2
				; SI-NEXT: v_cmp_ne_u64_e32 vcc, s[0:1], v[0:1]
				; SI-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc
				; SI-NEXT: s_and_b64 s[0:1], vcc, exec
				; SI-NEXT: s_cselect_b32 s0, 0, s8
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
				; SI-NEXT: v_mov_b32_e32 v0, s0
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: smulo_i64_s:			; GFX9-LABEL: smulo_i64_s:
	; GFX9: ; %bb.0: ; %bb			; GFX9: ; %bb.0: ; %bb
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mul_i32 s7, s0, s3			; GFX9-NEXT: s_mul_i32 s7, s0, s3
	; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX9-NEXT: s_mul_hi_u32 s6, s0, s3			; GFX9-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX9-NEXT: s_add_u32 s9, s8, s7			; GFX9-NEXT: s_add_u32 s9, s8, s7
	; GFX9-NEXT: s_mul_i32 s5, s1, s2			; GFX9-NEXT: s_mul_i32 s6, s1, s2
	; GFX9-NEXT: s_addc_u32 s6, 0, s6			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX9-NEXT: s_add_u32 s9, s9, s5			; GFX9-NEXT: s_add_u32 s9, s9, s6
	; GFX9-NEXT: s_mul_hi_i32 s10, s1, s3			; GFX9-NEXT: s_mul_hi_i32 s10, s1, s3
	; GFX9-NEXT: s_addc_u32 s4, s6, s4			; GFX9-NEXT: s_addc_u32 s4, s5, s4
	; GFX9-NEXT: s_addc_u32 s6, s10, 0			; GFX9-NEXT: s_addc_u32 s5, s10, 0
	; GFX9-NEXT: s_mul_i32 s9, s1, s3			; GFX9-NEXT: s_mul_i32 s9, s1, s3
	; GFX9-NEXT: s_add_u32 s4, s4, s9			; GFX9-NEXT: s_add_u32 s4, s4, s9
	; GFX9-NEXT: s_addc_u32 s6, 0, s6			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_sub_u32 s9, s4, s2			; GFX9-NEXT: s_sub_u32 s9, s4, s2
	; GFX9-NEXT: s_subb_u32 s10, s6, 0			; GFX9-NEXT: s_subb_u32 s10, s5, 0
	; GFX9-NEXT: s_cmp_lt_i32 s1, 0			; GFX9-NEXT: s_cmp_lt_i32 s1, 0
	; GFX9-NEXT: v_mov_b32_e32 v0, s6			; GFX9-NEXT: s_cselect_b32 s4, s9, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s10			; GFX9-NEXT: s_cselect_b32 s1, s10, s5
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_sub_u32 s9, s4, s0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX9-NEXT: s_subb_u32 s5, s1, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v2, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v1, v2, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s0, v2
	; GFX9-NEXT: v_subbrev_co_u32_e32 v1, vcc, 0, v0, vcc
	; GFX9-NEXT: s_cmp_lt_i32 s3, 0			; GFX9-NEXT: s_cmp_lt_i32 s3, 0
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b32 s5, s5, s1
				; GFX9-NEXT: s_cselect_b32 s4, s9, s4
	; GFX9-NEXT: s_add_i32 s1, s8, s7			; GFX9-NEXT: s_add_i32 s1, s8, s7
	; GFX9-NEXT: s_add_i32 s1, s1, s5			; GFX9-NEXT: s_add_i32 s1, s1, s6
	; GFX9-NEXT: s_ashr_i32 s4, s1, 31			; GFX9-NEXT: s_ashr_i32 s6, s1, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc			; GFX9-NEXT: s_mov_b32 s7, s6
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_mul_i32 s0, s0, s2			; GFX9-NEXT: s_mul_i32 s0, s0, s2
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, s[4:5], v[0:1]			; GFX9-NEXT: s_cmp_lg_u64 s[4:5], s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: s_cselect_b32 s1, 0, s1
				; GFX9-NEXT: s_cselect_b32 s0, 0, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
	; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: smulo_i64_s:			; GFX10-LABEL: smulo_i64_s:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_mul_i32 s7, s0, s3			; GFX10-NEXT: s_mul_i32 s7, s0, s3
	; GFX10-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX10-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX10-NEXT: s_mul_hi_u32 s6, s0, s3			; GFX10-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX10-NEXT: s_mul_i32 s5, s1, s2			; GFX10-NEXT: s_mul_i32 s6, s1, s2
	; GFX10-NEXT: s_add_u32 s11, s8, s7			; GFX10-NEXT: s_add_u32 s11, s8, s7
	; GFX10-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX10-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX10-NEXT: s_addc_u32 s6, 0, s6			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_mul_hi_i32 s9, s1, s3			; GFX10-NEXT: s_mul_hi_i32 s9, s1, s3
	; GFX10-NEXT: s_add_u32 s11, s11, s5			; GFX10-NEXT: s_add_u32 s11, s11, s6
	; GFX10-NEXT: s_mul_i32 s10, s1, s3			; GFX10-NEXT: s_mul_i32 s10, s1, s3
	; GFX10-NEXT: s_addc_u32 s4, s6, s4			; GFX10-NEXT: s_addc_u32 s4, s5, s4
	; GFX10-NEXT: s_addc_u32 s6, s9, 0			; GFX10-NEXT: s_addc_u32 s5, s9, 0
	; GFX10-NEXT: s_add_u32 s4, s4, s10			; GFX10-NEXT: s_add_u32 s4, s4, s10
	; GFX10-NEXT: s_addc_u32 s6, 0, s6			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_sub_u32 s9, s4, s2			; GFX10-NEXT: s_sub_u32 s9, s4, s2
	; GFX10-NEXT: s_subb_u32 s10, s6, 0			; GFX10-NEXT: s_subb_u32 s10, s5, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-NEXT: s_cmp_lt_i32 s1, 0			; GFX10-NEXT: s_cmp_lt_i32 s1, 0
	; GFX10-NEXT: v_mov_b32_e32 v0, s10			; GFX10-NEXT: s_cselect_b32 s1, s9, s4
	; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX10-NEXT: s_cselect_b32 s4, s10, s5
				; GFX10-NEXT: s_sub_u32 s9, s1, s0
				; GFX10-NEXT: s_subb_u32 s5, s4, 0
	; GFX10-NEXT: s_cmp_lt_i32 s3, 0			; GFX10-NEXT: s_cmp_lt_i32 s3, 0
	; GFX10-NEXT: v_cndmask_b32_e32 v2, s4, v1, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e32 v0, s6, v0, vcc_lo
	; GFX10-NEXT: v_sub_co_u32 v3, vcc_lo, v2, s0
	; GFX10-NEXT: v_subrev_co_ci_u32_e32 v1, vcc_lo, 0, v0, vcc_lo
	; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_mul_i32 s0, s0, s2			; GFX10-NEXT: s_mul_i32 s0, s0, s2
	; GFX10-NEXT: s_add_i32 s1, s1, s5			; GFX10-NEXT: s_cselect_b32 s5, s5, s4
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc_lo			; GFX10-NEXT: s_cselect_b32 s4, s9, s1
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc_lo			; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_ashr_i32 s4, s1, 31			; GFX10-NEXT: s_add_i32 s1, s1, s6
	; GFX10-NEXT: s_mov_b32 s5, s4			; GFX10-NEXT: s_ashr_i32 s6, s1, 31
	; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, s[4:5], v[0:1]			; GFX10-NEXT: s_mov_b32 s7, s6
	; GFX10-NEXT: v_cndmask_b32_e64 v1, s1, 0, vcc_lo			; GFX10-NEXT: s_cmp_lg_u64 s[4:5], s[6:7]
	; GFX10-NEXT: v_cndmask_b32_e64 v0, s0, 0, vcc_lo			; GFX10-NEXT: s_cselect_b32 s0, 0, s0
				; GFX10-NEXT: s_cselect_b32 s1, 0, s1
				; GFX10-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: smulo_i64_s:			; GFX11-LABEL: smulo_i64_s:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_mul_i32 s7, s0, s3			; GFX11-NEXT: s_mul_i32 s7, s0, s3
	; GFX11-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX11-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX11-NEXT: s_mul_hi_u32 s6, s0, s3			; GFX11-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX11-NEXT: s_mul_i32 s5, s1, s2			; GFX11-NEXT: s_mul_i32 s6, s1, s2
	; GFX11-NEXT: s_add_u32 s11, s8, s7			; GFX11-NEXT: s_add_u32 s11, s8, s7
	; GFX11-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX11-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX11-NEXT: s_addc_u32 s6, 0, s6			; GFX11-NEXT: s_addc_u32 s5, 0, s5
	; GFX11-NEXT: s_mul_hi_i32 s9, s1, s3			; GFX11-NEXT: s_mul_hi_i32 s9, s1, s3
	; GFX11-NEXT: s_add_u32 s11, s11, s5			; GFX11-NEXT: s_add_u32 s11, s11, s6
	; GFX11-NEXT: s_mul_i32 s10, s1, s3			; GFX11-NEXT: s_mul_i32 s10, s1, s3
	; GFX11-NEXT: s_addc_u32 s4, s6, s4			; GFX11-NEXT: s_addc_u32 s4, s5, s4
	; GFX11-NEXT: s_addc_u32 s6, s9, 0			; GFX11-NEXT: s_addc_u32 s5, s9, 0
	; GFX11-NEXT: s_add_u32 s4, s4, s10			; GFX11-NEXT: s_add_u32 s4, s4, s10
	; GFX11-NEXT: s_addc_u32 s6, 0, s6			; GFX11-NEXT: s_addc_u32 s5, 0, s5
	; GFX11-NEXT: s_sub_u32 s9, s4, s2			; GFX11-NEXT: s_sub_u32 s9, s4, s2
	; GFX11-NEXT: s_subb_u32 s10, s6, 0			; GFX11-NEXT: s_subb_u32 s10, s5, 0
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_3) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_dual_mov_b32 v1, s9 :: v_dual_mov_b32 v0, s10
	; GFX11-NEXT: s_cmp_lt_i32 s1, 0			; GFX11-NEXT: s_cmp_lt_i32 s1, 0
	; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX11-NEXT: s_cselect_b32 s1, s9, s4
				; GFX11-NEXT: s_cselect_b32 s4, s10, s5
				; GFX11-NEXT: s_sub_u32 s9, s1, s0
				; GFX11-NEXT: s_subb_u32 s5, s4, 0
	; GFX11-NEXT: s_cmp_lt_i32 s3, 0			; GFX11-NEXT: s_cmp_lt_i32 s3, 0
	; GFX11-NEXT: v_cndmask_b32_e32 v2, s4, v1, vcc_lo
	; GFX11-NEXT: v_cndmask_b32_e32 v0, s6, v0, vcc_lo
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_sub_co_u32 v3, vcc_lo, v2, s0
	; GFX11-NEXT: v_subrev_co_ci_u32_e32 v1, vcc_lo, 0, v0, vcc_lo
	; GFX11-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX11-NEXT: s_add_i32 s1, s8, s7
	; GFX11-NEXT: s_mul_i32 s0, s0, s2			; GFX11-NEXT: s_mul_i32 s0, s0, s2
	; GFX11-NEXT: s_add_i32 s1, s1, s5			; GFX11-NEXT: s_cselect_b32 s5, s5, s4
	; GFX11-NEXT: v_dual_cndmask_b32 v1, v0, v1 :: v_dual_cndmask_b32 v0, v2, v3			; GFX11-NEXT: s_cselect_b32 s4, s9, s1
	; GFX11-NEXT: s_ashr_i32 s4, s1, 31			; GFX11-NEXT: s_add_i32 s1, s8, s7
				; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX11-NEXT: s_add_i32 s1, s1, s6
				; GFX11-NEXT: s_ashr_i32 s6, s1, 31
				; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX11-NEXT: s_mov_b32 s7, s6
				; GFX11-NEXT: s_cmp_lg_u64 s[4:5], s[6:7]
				; GFX11-NEXT: s_cselect_b32 s0, 0, s0
				; GFX11-NEXT: s_cselect_b32 s1, 0, s1
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: s_mov_b32 s5, s4			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: v_cmp_ne_u64_e32 vcc_lo, s[4:5], v[0:1]
	; GFX11-NEXT: v_cndmask_b32_e64 v1, s1, 0, vcc_lo
	; GFX11-NEXT: v_cndmask_b32_e64 v0, s0, 0, vcc_lo
	; GFX11-NEXT: global_store_b64 v[0:1], v[0:1], off			; GFX11-NEXT: global_store_b64 v[0:1], v[0:1], off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	bb:			bb:
	%umulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)			%umulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)
	%mul = extractvalue { i64, i1 } %umulo, 0			%mul = extractvalue { i64, i1 } %umulo, 0
	%overflow = extractvalue { i64, i1 } %umulo, 1			%overflow = extractvalue { i64, i1 } %umulo, 1
	%res = select i1 %overflow, i64 0, i64 %mul			%res = select i1 %overflow, i64 0, i64 %mul
	▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=SI %s		; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=SI %s
; RUN: llc -march=amdgcn -mcpu=hawaii < %s \| FileCheck -check-prefix=CI %s		; RUN: llc -march=amdgcn -mcpu=hawaii < %s \| FileCheck -check-prefix=CI %s

define amdgpu_kernel void @round_f64(double addrspace(1)* %out, double %x) #0 {		define amdgpu_kernel void @round_f64(double addrspace(1)* %out, double %x) #0 {
; SI-LABEL: round_f64:		; SI-LABEL: round_f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s10, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_mov_b32 s1, 0xfffff		; SI-NEXT: s_mov_b32 s9, 0xfffff
; SI-NEXT: v_mov_b32_e32 v4, 0x3ff00000		; SI-NEXT: s_mov_b32 s8, s6
; SI-NEXT: s_mov_b32 s11, 0xf000		; SI-NEXT: v_mov_b32_e32 v2, 0x3ff00000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s7, 0xb0014		; SI-NEXT: s_mov_b32 s4, s0
; SI-NEXT: s_mov_b32 s8, s4		; SI-NEXT: s_bfe_u32 s0, s3, 0xb0014
; SI-NEXT: s_add_i32 s4, s0, 0xfffffc01		; SI-NEXT: s_addk_i32 s0, 0xfc01
; SI-NEXT: s_mov_b32 s0, s10		; SI-NEXT: s_lshr_b64 s[8:9], s[8:9], s0
; SI-NEXT: s_lshr_b64 s[0:1], s[0:1], s4		; SI-NEXT: s_andn2_b64 s[8:9], s[2:3], s[8:9]
; SI-NEXT: s_andn2_b64 s[2:3], s[6:7], s[0:1]		; SI-NEXT: s_and_b32 s5, s3, 0x80000000
; SI-NEXT: s_and_b32 s0, s7, 0x80000000		; SI-NEXT: s_cmp_lt_i32 s0, 0
; SI-NEXT: s_cmp_lt_i32 s4, 0		; SI-NEXT: s_cselect_b32 s8, 0, s8
; SI-NEXT: v_mov_b32_e32 v0, s3		; SI-NEXT: s_cselect_b32 s5, s5, s9
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: s_cmp_gt_i32 s0, 51
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s8, s2, s8
; SI-NEXT: s_cmp_gt_i32 s4, 51		; SI-NEXT: s_cselect_b32 s9, s3, s5
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: v_mov_b32_e32 v1, s7		; SI-NEXT: v_mov_b32_e32 v1, s9
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0		; SI-NEXT: v_add_f64 v[0:1], s[2:3], -v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]
; SI-NEXT: v_mov_b32_e32 v0, s2
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
; SI-NEXT: v_mov_b32_e32 v2, s6
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; SI-NEXT: v_add_f64 v[2:3], s[6:7], -v[0:1]
; SI-NEXT: s_brev_b32 s0, -2		; SI-NEXT: s_brev_b32 s0, -2
; SI-NEXT: v_mov_b32_e32 v5, s7		; SI-NEXT: v_mov_b32_e32 v3, s3
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; SI-NEXT: v_bfi_b32 v4, s0, v4, v5		; SI-NEXT: v_bfi_b32 v2, s0, v2, v3
; SI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc
; SI-NEXT: v_mov_b32_e32 v2, 0		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[2:3]		; SI-NEXT: v_add_f64 v[0:1], s[8:9], v[0:1]
; SI-NEXT: s_mov_b32 s9, s5		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0		; SI-NEXT: s_mov_b32 s5, s1
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_f64:		; CI-LABEL: round_f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; CI-NEXT: s_brev_b32 s5, -2		; CI-NEXT: s_brev_b32 s5, -2
; CI-NEXT: v_mov_b32_e32 v4, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v4, 0x3ff00000
; CI-NEXT: s_mov_b32 s7, 0xf000		; CI-NEXT: s_mov_b32 s7, 0xf000
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%result = call double @llvm.round.f64(double %x) #1		%result = call double @llvm.round.f64(double %x) #1
store double %result, double addrspace(1)* %out.gep		store double %result, double addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {		define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {
; SI-LABEL: round_v2f64:		; SI-LABEL: round_v2f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s9, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6		; SI-NEXT: s_mov_b32 s8, s2
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s3, s7, 0xb0014
; SI-NEXT: s_add_i32 s7, s0, 0xfffffc01		; SI-NEXT: s_addk_i32 s3, 0xfc01
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s7		; SI-NEXT: s_lshr_b64 s[10:11], s[8:9], s3
; SI-NEXT: s_andn2_b64 s[12:13], s[10:11], s[0:1]		; SI-NEXT: s_andn2_b64 s[10:11], s[6:7], s[10:11]
; SI-NEXT: s_and_b32 s0, s11, 0x80000000		; SI-NEXT: s_and_b32 s12, s7, 0x80000000
; SI-NEXT: s_cmp_lt_i32 s7, 0		; SI-NEXT: s_cmp_lt_i32 s3, 0
; SI-NEXT: v_mov_b32_e32 v0, s13		; SI-NEXT: s_cselect_b32 s10, 0, s10
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: s_cselect_b32 s11, s12, s11
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cmp_gt_i32 s3, 51
; SI-NEXT: s_cmp_gt_i32 s7, 51		; SI-NEXT: s_cselect_b32 s10, s6, s10
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: s_cselect_b32 s11, s7, s11
		; SI-NEXT: v_mov_b32_e32 v0, s10
; SI-NEXT: v_mov_b32_e32 v1, s11		; SI-NEXT: v_mov_b32_e32 v1, s11
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0		; SI-NEXT: v_add_f64 v[0:1], s[6:7], -v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]		; SI-NEXT: s_brev_b32 s3, -2
; SI-NEXT: v_mov_b32_e32 v0, s12		; SI-NEXT: v_mov_b32_e32 v4, 0x3ff00000
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: v_mov_b32_e32 v2, s7
; SI-NEXT: v_mov_b32_e32 v2, s10		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; SI-NEXT: v_bfi_b32 v2, s3, v4, v2
; SI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc
; SI-NEXT: s_bfe_u32 s0, s9, 0xb0014		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: s_add_i32 s10, s0, 0xfffffc01		; SI-NEXT: s_bfe_u32 s6, s5, 0xb0014
; SI-NEXT: s_brev_b32 s7, -2		; SI-NEXT: v_add_f64 v[2:3], s[10:11], v[0:1]
; SI-NEXT: v_mov_b32_e32 v6, 0x3ff00000		; SI-NEXT: s_add_i32 s10, s6, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v4, s11		; SI-NEXT: s_lshr_b64 s[6:7], s[8:9], s10
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; SI-NEXT: s_andn2_b64 s[6:7], s[4:5], s[6:7]
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s10		; SI-NEXT: s_and_b32 s8, s5, 0x80000000
; SI-NEXT: v_bfi_b32 v4, s7, v6, v4
; SI-NEXT: s_andn2_b64 s[2:3], s[8:9], s[0:1]
; SI-NEXT: s_and_b32 s0, s9, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v2, 0
; SI-NEXT: s_cmp_lt_i32 s10, 0		; SI-NEXT: s_cmp_lt_i32 s10, 0
; SI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]		; SI-NEXT: s_cselect_b32 s6, 0, s6
; SI-NEXT: v_mov_b32_e32 v0, s3		; SI-NEXT: s_cselect_b32 s7, s8, s7
; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_gt_i32 s10, 51		; SI-NEXT: s_cmp_gt_i32 s10, 51
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: s_cselect_b32 s6, s4, s6
; SI-NEXT: v_mov_b32_e32 v1, s9		; SI-NEXT: s_cselect_b32 s7, s5, s7
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0		; SI-NEXT: v_mov_b32_e32 v0, s6
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]		; SI-NEXT: v_mov_b32_e32 v1, s7
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: v_add_f64 v[0:1], s[4:5], -v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: v_mov_b32_e32 v5, s5
; SI-NEXT: v_mov_b32_e32 v4, s8		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]		; SI-NEXT: v_bfi_b32 v4, s3, v4, v5
; SI-NEXT: v_add_f64 v[4:5], s[8:9], -v[0:1]		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v7, s9		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5		; SI-NEXT: v_add_f64 v[0:1], s[6:7], v[0:1]
; SI-NEXT: v_bfi_b32 v6, s7, v6, v7		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: v_cndmask_b32_e32 v5, 0, v6, vcc		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: v_mov_b32_e32 v4, 0
; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[4:5]
; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v2f64:		; CI-LABEL: round_v2f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd		; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; CI-NEXT: s_brev_b32 s2, -2		; CI-NEXT: s_brev_b32 s2, -2
; CI-NEXT: v_mov_b32_e32 v6, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v6, 0x3ff00000
Show All 22 Lines	; CI-NEXT: s_endpgm
store <2 x double> %result, <2 x double> addrspace(1)* %out		store <2 x double> %result, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {		define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {
; SI-LABEL: round_v4f64:		; SI-LABEL: round_v4f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11		; SI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11
; SI-NEXT: s_mov_b32 s14, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9		; SI-NEXT: s_mov_b32 s13, 0xfffff
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: v_mov_b32_e32 v8, 0x3ff00000
; SI-NEXT: s_mov_b32 s2, s14		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s7, 0xb0014		; SI-NEXT: s_bfe_u32 s12, s7, 0xb0014
; SI-NEXT: s_add_i32 s18, s0, 0xfffffc01		; SI-NEXT: s_add_i32 s16, s12, 0xfffffc01
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s18		; SI-NEXT: s_mov_b32 s12, s2
; SI-NEXT: s_andn2_b64 s[16:17], s[6:7], s[0:1]		; SI-NEXT: s_lshr_b64 s[14:15], s[12:13], s16
; SI-NEXT: s_and_b32 s0, s7, 0x80000000		; SI-NEXT: s_andn2_b64 s[14:15], s[6:7], s[14:15]
; SI-NEXT: s_cmp_lt_i32 s18, 0		; SI-NEXT: s_and_b32 s17, s7, 0x80000000
; SI-NEXT: v_mov_b32_e32 v0, s17		; SI-NEXT: s_cmp_lt_i32 s16, 0
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: s_cselect_b32 s14, 0, s14
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s15, s17, s15
; SI-NEXT: s_cmp_gt_i32 s18, 51		; SI-NEXT: s_cmp_gt_i32 s16, 51
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: s_cselect_b32 s14, s6, s14
; SI-NEXT: v_mov_b32_e32 v1, s7		; SI-NEXT: s_cselect_b32 s15, s7, s15
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0		; SI-NEXT: v_mov_b32_e32 v0, s14
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]		; SI-NEXT: v_mov_b32_e32 v1, s15
; SI-NEXT: v_mov_b32_e32 v0, s16		; SI-NEXT: v_add_f64 v[0:1], s[6:7], -v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
; SI-NEXT: v_mov_b32_e32 v2, s6
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; SI-NEXT: v_add_f64 v[2:3], s[6:7], -v[0:1]
; SI-NEXT: s_bfe_u32 s0, s5, 0xb0014
; SI-NEXT: s_add_i32 s17, s0, 0xfffffc01
; SI-NEXT: s_brev_b32 s16, -2		; SI-NEXT: s_brev_b32 s16, -2
; SI-NEXT: v_mov_b32_e32 v12, 0x3ff00000		; SI-NEXT: v_mov_b32_e32 v2, s7
; SI-NEXT: v_mov_b32_e32 v4, s7		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; SI-NEXT: v_bfi_b32 v2, s16, v8, v2
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s17		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc
; SI-NEXT: v_bfi_b32 v4, s16, v12, v4		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: s_andn2_b64 s[6:7], s[4:5], s[0:1]		; SI-NEXT: s_bfe_u32 s6, s5, 0xb0014
; SI-NEXT: s_and_b32 s0, s5, 0x80000000		; SI-NEXT: v_add_f64 v[2:3], s[14:15], v[0:1]
; SI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; SI-NEXT: s_add_i32 s14, s6, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v2, 0		; SI-NEXT: s_lshr_b64 s[6:7], s[12:13], s14
; SI-NEXT: s_cmp_lt_i32 s17, 0		; SI-NEXT: s_andn2_b64 s[6:7], s[4:5], s[6:7]
; SI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]		; SI-NEXT: s_and_b32 s15, s5, 0x80000000
; SI-NEXT: v_mov_b32_e32 v0, s7		; SI-NEXT: s_cmp_lt_i32 s14, 0
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: s_cselect_b32 s6, 0, s6
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b32 s7, s15, s7
; SI-NEXT: s_cmp_gt_i32 s17, 51		; SI-NEXT: s_cmp_gt_i32 s14, 51
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: s_cselect_b32 s6, s4, s6
; SI-NEXT: v_mov_b32_e32 v1, s5		; SI-NEXT: s_cselect_b32 s7, s5, s7
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]
; SI-NEXT: v_mov_b32_e32 v0, s6		; SI-NEXT: v_mov_b32_e32 v0, s6
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: v_mov_b32_e32 v1, s7
		; SI-NEXT: v_add_f64 v[0:1], s[4:5], -v[0:1]
		; SI-NEXT: s_bfe_u32 s4, s11, 0xb0014
		; SI-NEXT: s_add_i32 s14, s4, 0xfffffc01
		; SI-NEXT: v_mov_b32_e32 v4, s5
		; SI-NEXT: s_lshr_b64 s[4:5], s[12:13], s14
		; SI-NEXT: s_andn2_b64 s[4:5], s[10:11], s[4:5]
		; SI-NEXT: s_and_b32 s15, s11, 0x80000000
		; SI-NEXT: s_cmp_lt_i32 s14, 0
		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
		; SI-NEXT: s_cselect_b32 s4, 0, s4
		; SI-NEXT: s_cselect_b32 s5, s15, s5
		; SI-NEXT: s_cmp_gt_i32 s14, 51
		; SI-NEXT: v_bfi_b32 v4, s16, v8, v4
		; SI-NEXT: s_cselect_b32 s4, s10, s4
		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
		; SI-NEXT: s_cselect_b32 s5, s11, s5
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: v_mov_b32_e32 v4, s4
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]		; SI-NEXT: v_mov_b32_e32 v5, s5
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: v_add_f64 v[4:5], s[10:11], -v[4:5]
; SI-NEXT: v_add_f64 v[4:5], s[4:5], -v[0:1]		; SI-NEXT: v_mov_b32_e32 v6, s11
; SI-NEXT: s_add_i32 s6, s0, 0xfffffc01
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s6
; SI-NEXT: v_mov_b32_e32 v6, s5
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; SI-NEXT: s_andn2_b64 s[4:5], s[10:11], s[0:1]		; SI-NEXT: v_bfi_b32 v6, s16, v8, v6
; SI-NEXT: s_and_b32 s0, s11, 0x80000000		; SI-NEXT: v_cndmask_b32_e32 v5, 0, v6, vcc
; SI-NEXT: v_bfi_b32 v6, s16, v12, v6		; SI-NEXT: v_mov_b32_e32 v4, 0
; SI-NEXT: s_cmp_lt_i32 s6, 0		; SI-NEXT: v_add_f64 v[6:7], s[4:5], v[4:5]
; SI-NEXT: v_cndmask_b32_e32 v9, 0, v6, vcc		; SI-NEXT: s_bfe_u32 s4, s9, 0xb0014
; SI-NEXT: v_mov_b32_e32 v4, s5		; SI-NEXT: s_add_i32 s10, s4, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v5, s0		; SI-NEXT: s_lshr_b64 s[4:5], s[12:13], s10
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_andn2_b64 s[4:5], s[8:9], s[4:5]
; SI-NEXT: s_cmp_gt_i32 s6, 51		; SI-NEXT: s_and_b32 s11, s9, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc		; SI-NEXT: s_cmp_lt_i32 s10, 0
; SI-NEXT: v_mov_b32_e32 v5, s11		; SI-NEXT: s_cselect_b32 s4, 0, s4
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0		; SI-NEXT: s_cselect_b32 s5, s11, s5
; SI-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]		; SI-NEXT: s_cmp_gt_i32 s10, 51
		; SI-NEXT: s_cselect_b32 s4, s8, s4
		; SI-NEXT: s_cselect_b32 s5, s9, s5
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: v_mov_b32_e32 v4, s4
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc		; SI-NEXT: v_mov_b32_e32 v5, s5
; SI-NEXT: v_mov_b32_e32 v6, s10		; SI-NEXT: v_add_f64 v[4:5], s[8:9], -v[4:5]
; SI-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]		; SI-NEXT: v_mov_b32_e32 v9, s9
; SI-NEXT: v_add_f64 v[6:7], s[10:11], -v[4:5]		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; SI-NEXT: s_bfe_u32 s0, s9, 0xb0014		; SI-NEXT: v_bfi_b32 v8, s16, v8, v9
; SI-NEXT: s_add_i32 s4, s0, 0xfffffc01		; SI-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc
; SI-NEXT: v_mov_b32_e32 v10, s11		; SI-NEXT: v_mov_b32_e32 v4, 0
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s4		; SI-NEXT: v_add_f64 v[4:5], s[4:5], v[4:5]
; SI-NEXT: v_bfi_b32 v10, s16, v12, v10		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_andn2_b64 s[2:3], s[8:9], s[0:1]		; SI-NEXT: v_add_f64 v[0:1], s[6:7], v[0:1]
; SI-NEXT: s_and_b32 s0, s9, 0x80000000		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
; SI-NEXT: v_cndmask_b32_e32 v7, 0, v10, vcc		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: v_mov_b32_e32 v6, 0
; SI-NEXT: s_cmp_lt_i32 s4, 0
; SI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]
; SI-NEXT: v_mov_b32_e32 v4, s3
; SI-NEXT: v_mov_b32_e32 v5, s0
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_gt_i32 s4, 51
; SI-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; SI-NEXT: v_mov_b32_e32 v5, s9
; SI-NEXT: s_cselect_b64 s[0:1], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]
; SI-NEXT: v_mov_b32_e32 v4, s2
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc
; SI-NEXT: v_mov_b32_e32 v10, s8
; SI-NEXT: v_cndmask_b32_e64 v4, v4, v10, s[0:1]
; SI-NEXT: v_add_f64 v[10:11], s[8:9], -v[4:5]
; SI-NEXT: v_mov_b32_e32 v13, s9
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[10:11]\|, 0.5
; SI-NEXT: v_bfi_b32 v12, s16, v12, v13
; SI-NEXT: v_cndmask_b32_e32 v11, 0, v12, vcc
; SI-NEXT: v_mov_b32_e32 v10, 0
; SI-NEXT: v_mov_b32_e32 v8, 0
; SI-NEXT: v_add_f64 v[4:5], v[4:5], v[10:11]
; SI-NEXT: s_mov_b32 s15, 0xf000
; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[8:9]
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[12:15], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v4f64:		; CI-LABEL: round_v4f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11		; CI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11
; CI-NEXT: s_brev_b32 s12, -2		; CI-NEXT: s_brev_b32 s12, -2
; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000
; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
Show All 39 Lines	; CI-NEXT: s_endpgm
store <4 x double> %result, <4 x double> addrspace(1)* %out		store <4 x double> %result, <4 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {		define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {
; SI-LABEL: round_v8f64:		; SI-LABEL: round_v8f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx16 s[4:19], s[0:1], 0x19		; SI-NEXT: s_load_dwordx16 s[4:19], s[0:1], 0x19
; SI-NEXT: s_mov_b32 s22, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s21, 0xfffff		; SI-NEXT: s_mov_b32 s21, 0xfffff
; SI-NEXT: s_mov_b32 s20, s22
; SI-NEXT: v_mov_b32_e32 v8, 0x3ff00000		; SI-NEXT: v_mov_b32_e32 v8, 0x3ff00000
		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s2, s7, 0xb0014		; SI-NEXT: s_bfe_u32 s20, s7, 0xb0014
; SI-NEXT: s_add_i32 s26, s2, 0xfffffc01		; SI-NEXT: s_add_i32 s24, s20, 0xfffffc01
; SI-NEXT: s_lshr_b64 s[2:3], s[20:21], s26		; SI-NEXT: s_mov_b32 s20, s2
; SI-NEXT: s_and_b32 s23, s7, 0x80000000		; SI-NEXT: s_lshr_b64 s[22:23], s[20:21], s24
; SI-NEXT: s_andn2_b64 s[24:25], s[6:7], s[2:3]		; SI-NEXT: s_andn2_b64 s[22:23], s[6:7], s[22:23]
; SI-NEXT: s_cmp_lt_i32 s26, 0		; SI-NEXT: s_and_b32 s25, s7, 0x80000000
; SI-NEXT: v_mov_b32_e32 v0, s25
; SI-NEXT: v_mov_b32_e32 v1, s23
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_gt_i32 s26, 51
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; SI-NEXT: v_mov_b32_e32 v1, s7
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[2:3]
; SI-NEXT: v_mov_b32_e32 v0, s24
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
; SI-NEXT: v_mov_b32_e32 v2, s6
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[2:3]
; SI-NEXT: v_add_f64 v[2:3], s[6:7], -v[0:1]
; SI-NEXT: s_bfe_u32 s2, s5, 0xb0014
; SI-NEXT: s_add_i32 s24, s2, 0xfffffc01
; SI-NEXT: s_brev_b32 s23, -2
; SI-NEXT: v_mov_b32_e32 v4, s7
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5
; SI-NEXT: s_lshr_b64 s[2:3], s[20:21], s24
; SI-NEXT: v_bfi_b32 v4, s23, v8, v4
; SI-NEXT: s_andn2_b64 s[6:7], s[4:5], s[2:3]
; SI-NEXT: s_and_b32 s2, s5, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
; SI-NEXT: v_mov_b32_e32 v2, 0
; SI-NEXT: s_cmp_lt_i32 s24, 0		; SI-NEXT: s_cmp_lt_i32 s24, 0
; SI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]		; SI-NEXT: s_cselect_b32 s22, 0, s22
; SI-NEXT: v_mov_b32_e32 v0, s7		; SI-NEXT: s_cselect_b32 s23, s25, s23
; SI-NEXT: v_mov_b32_e32 v1, s2
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_gt_i32 s24, 51		; SI-NEXT: s_cmp_gt_i32 s24, 51
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: s_cselect_b32 s22, s6, s22
; SI-NEXT: v_mov_b32_e32 v1, s5		; SI-NEXT: s_cselect_b32 s23, s7, s23
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0		; SI-NEXT: v_mov_b32_e32 v0, s22
; SI-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[2:3]		; SI-NEXT: v_mov_b32_e32 v1, s23
; SI-NEXT: v_mov_b32_e32 v0, s6		; SI-NEXT: v_add_f64 v[0:1], s[6:7], -v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc		; SI-NEXT: s_brev_b32 s6, -2
		; SI-NEXT: v_mov_b32_e32 v2, s7
		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
		; SI-NEXT: v_bfi_b32 v2, s6, v8, v2
		; SI-NEXT: s_bfe_u32 s7, s5, 0xb0014
		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc
		; SI-NEXT: v_mov_b32_e32 v0, 0
		; SI-NEXT: s_addk_i32 s7, 0xfc01
		; SI-NEXT: v_add_f64 v[2:3], s[22:23], v[0:1]
		; SI-NEXT: s_lshr_b64 s[22:23], s[20:21], s7
		; SI-NEXT: s_andn2_b64 s[22:23], s[4:5], s[22:23]
		; SI-NEXT: s_and_b32 s24, s5, 0x80000000
		; SI-NEXT: s_cmp_lt_i32 s7, 0
		; SI-NEXT: s_cselect_b32 s22, 0, s22
		; SI-NEXT: s_cselect_b32 s23, s24, s23
		; SI-NEXT: s_cmp_gt_i32 s7, 51
		; SI-NEXT: s_cselect_b32 s22, s4, s22
		; SI-NEXT: s_cselect_b32 s23, s5, s23
		; SI-NEXT: v_mov_b32_e32 v0, s22
		; SI-NEXT: v_mov_b32_e32 v1, s23
		; SI-NEXT: v_add_f64 v[0:1], s[4:5], -v[0:1]
		; SI-NEXT: v_mov_b32_e32 v4, s5
		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
		; SI-NEXT: s_bfe_u32 s4, s11, 0xb0014
		; SI-NEXT: v_bfi_b32 v4, s6, v8, v4
		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
		; SI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
		; SI-NEXT: v_mov_b32_e32 v0, 0
		; SI-NEXT: s_lshr_b64 s[4:5], s[20:21], s7
		; SI-NEXT: v_add_f64 v[0:1], s[22:23], v[0:1]
		; SI-NEXT: s_andn2_b64 s[4:5], s[10:11], s[4:5]
		; SI-NEXT: s_and_b32 s22, s11, 0x80000000
		; SI-NEXT: s_cmp_lt_i32 s7, 0
		; SI-NEXT: s_cselect_b32 s4, 0, s4
		; SI-NEXT: s_cselect_b32 s5, s22, s5
		; SI-NEXT: s_cmp_gt_i32 s7, 51
		; SI-NEXT: s_cselect_b32 s4, s10, s4
		; SI-NEXT: s_cselect_b32 s5, s11, s5
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: v_mov_b32_e32 v4, s4
; SI-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[2:3]		; SI-NEXT: v_mov_b32_e32 v5, s5
; SI-NEXT: v_add_f64 v[4:5], s[4:5], -v[0:1]		; SI-NEXT: v_add_f64 v[4:5], s[10:11], -v[4:5]
; SI-NEXT: s_bfe_u32 s2, s11, 0xb0014		; SI-NEXT: v_mov_b32_e32 v6, s11
; SI-NEXT: s_add_i32 s6, s2, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v6, s5
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; SI-NEXT: s_lshr_b64 s[2:3], s[20:21], s6		; SI-NEXT: v_bfi_b32 v6, s6, v8, v6
; SI-NEXT: v_bfi_b32 v6, s23, v8, v6
; SI-NEXT: s_andn2_b64 s[4:5], s[10:11], s[2:3]
; SI-NEXT: s_and_b32 s2, s11, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v5, 0, v6, vcc		; SI-NEXT: v_cndmask_b32_e32 v5, 0, v6, vcc
; SI-NEXT: v_mov_b32_e32 v4, 0		; SI-NEXT: v_mov_b32_e32 v4, 0
; SI-NEXT: s_cmp_lt_i32 s6, 0		; SI-NEXT: v_add_f64 v[6:7], s[4:5], v[4:5]
; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[4:5]		; SI-NEXT: s_bfe_u32 s4, s9, 0xb0014
; SI-NEXT: v_mov_b32_e32 v4, s5		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v5, s2		; SI-NEXT: s_lshr_b64 s[4:5], s[20:21], s7
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_andn2_b64 s[4:5], s[8:9], s[4:5]
; SI-NEXT: s_cmp_gt_i32 s6, 51		; SI-NEXT: s_and_b32 s10, s9, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: v_mov_b32_e32 v5, s11		; SI-NEXT: s_cselect_b32 s4, 0, s4
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0		; SI-NEXT: s_cselect_b32 s5, s10, s5
; SI-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[2:3]		; SI-NEXT: s_cmp_gt_i32 s7, 51
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: s_cselect_b32 s4, s8, s4
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc		; SI-NEXT: s_cselect_b32 s5, s9, s5
; SI-NEXT: v_mov_b32_e32 v6, s10
; SI-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[2:3]
; SI-NEXT: v_add_f64 v[6:7], s[10:11], -v[4:5]
; SI-NEXT: s_bfe_u32 s2, s9, 0xb0014
; SI-NEXT: s_add_i32 s6, s2, 0xfffffc01
; SI-NEXT: v_mov_b32_e32 v9, s11
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5
; SI-NEXT: s_lshr_b64 s[2:3], s[20:21], s6
; SI-NEXT: v_bfi_b32 v9, s23, v8, v9
; SI-NEXT: s_andn2_b64 s[4:5], s[8:9], s[2:3]
; SI-NEXT: s_and_b32 s2, s9, 0x80000000
; SI-NEXT: v_cndmask_b32_e32 v7, 0, v9, vcc
; SI-NEXT: v_mov_b32_e32 v6, 0
; SI-NEXT: s_cmp_lt_i32 s6, 0
; SI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]
; SI-NEXT: v_mov_b32_e32 v4, s5
; SI-NEXT: v_mov_b32_e32 v5, s2
; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_gt_i32 s6, 51
; SI-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; SI-NEXT: v_mov_b32_e32 v5, s9
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0
; SI-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[2:3]
; SI-NEXT: v_mov_b32_e32 v4, s4		; SI-NEXT: v_mov_b32_e32 v4, s4
; SI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc		; SI-NEXT: v_mov_b32_e32 v5, s5
; SI-NEXT: v_mov_b32_e32 v9, s8		; SI-NEXT: v_add_f64 v[4:5], s[8:9], -v[4:5]
; SI-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[2:3]		; SI-NEXT: v_mov_b32_e32 v9, s9
; SI-NEXT: s_bfe_u32 s2, s15, 0xb0014		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; SI-NEXT: v_add_f64 v[9:10], s[8:9], -v[4:5]		; SI-NEXT: v_bfi_b32 v9, s6, v8, v9
; SI-NEXT: s_add_i32 s4, s2, 0xfffffc01		; SI-NEXT: v_cndmask_b32_e32 v5, 0, v9, vcc
; SI-NEXT: s_lshr_b64 s[2:3], s[20:21], s4		; SI-NEXT: v_mov_b32_e32 v4, 0
; SI-NEXT: v_mov_b32_e32 v11, s9		; SI-NEXT: v_add_f64 v[4:5], s[4:5], v[4:5]
		; SI-NEXT: s_bfe_u32 s4, s15, 0xb0014
		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
		; SI-NEXT: s_lshr_b64 s[4:5], s[20:21], s7
		; SI-NEXT: s_andn2_b64 s[4:5], s[14:15], s[4:5]
		; SI-NEXT: s_and_b32 s8, s15, 0x80000000
		; SI-NEXT: s_cmp_lt_i32 s7, 0
		; SI-NEXT: s_cselect_b32 s4, 0, s4
		; SI-NEXT: s_cselect_b32 s5, s8, s5
		; SI-NEXT: s_cmp_gt_i32 s7, 51
		; SI-NEXT: s_cselect_b32 s5, s15, s5
		; SI-NEXT: s_cselect_b32 s4, s14, s4
		; SI-NEXT: v_mov_b32_e32 v10, s5
		; SI-NEXT: v_mov_b32_e32 v9, s4
		; SI-NEXT: v_add_f64 v[9:10], s[14:15], -v[9:10]
		; SI-NEXT: v_mov_b32_e32 v11, s15
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[9:10]\|, 0.5		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[9:10]\|, 0.5
; SI-NEXT: s_andn2_b64 s[24:25], s[14:15], s[2:3]		; SI-NEXT: v_bfi_b32 v11, s6, v8, v11
; SI-NEXT: s_and_b32 s2, s15, 0x80000000
; SI-NEXT: v_bfi_b32 v11, s23, v8, v11
; SI-NEXT: s_cmp_lt_i32 s4, 0
; SI-NEXT: v_cndmask_b32_e32 v10, 0, v11, vcc		; SI-NEXT: v_cndmask_b32_e32 v10, 0, v11, vcc
; SI-NEXT: v_mov_b32_e32 v9, 0		; SI-NEXT: v_mov_b32_e32 v9, 0
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: v_add_f64 v[10:11], s[4:5], v[9:10]
; SI-NEXT: s_cmp_gt_i32 s4, 51
; SI-NEXT: v_add_f64 v[4:5], v[4:5], v[9:10]
; SI-NEXT: v_mov_b32_e32 v10, s2
; SI-NEXT: s_cselect_b64 s[2:3], -1, 0
; SI-NEXT: s_bfe_u32 s4, s13, 0xb0014		; SI-NEXT: s_bfe_u32 s4, s13, 0xb0014
; SI-NEXT: s_add_i32 s6, s4, 0xfffffc01		; SI-NEXT: s_add_i32 s7, s4, 0xfffffc01
; SI-NEXT: s_lshr_b64 s[4:5], s[20:21], s6		; SI-NEXT: s_lshr_b64 s[4:5], s[20:21], s7
; SI-NEXT: s_andn2_b64 s[26:27], s[12:13], s[4:5]		; SI-NEXT: s_andn2_b64 s[4:5], s[12:13], s[4:5]
; SI-NEXT: s_and_b32 s4, s13, 0x80000000		; SI-NEXT: s_and_b32 s8, s13, 0x80000000
; SI-NEXT: v_mov_b32_e32 v9, s25		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: s_cmp_lt_i32 s6, 0		; SI-NEXT: s_cselect_b32 s4, 0, s4
; SI-NEXT: v_cndmask_b32_e32 v15, v9, v10, vcc		; SI-NEXT: s_cselect_b32 s5, s8, s5
; SI-NEXT: v_mov_b32_e32 v10, s4		; SI-NEXT: s_cmp_gt_i32 s7, 51
; SI-NEXT: s_cselect_b64 s[4:5], -1, 0		; SI-NEXT: s_cselect_b32 s5, s13, s5
; SI-NEXT: s_cmp_gt_i32 s6, 51		; SI-NEXT: s_cselect_b32 s4, s12, s4
; SI-NEXT: s_cselect_b64 s[6:7], -1, 0		; SI-NEXT: s_bfe_u32 s7, s19, 0xb0014
; SI-NEXT: s_bfe_u32 s8, s19, 0xb0014		; SI-NEXT: s_addk_i32 s7, 0xfc01
; SI-NEXT: s_add_i32 s10, s8, 0xfffffc01		; SI-NEXT: s_lshr_b64 s[8:9], s[20:21], s7
; SI-NEXT: s_lshr_b64 s[8:9], s[20:21], s10		; SI-NEXT: s_andn2_b64 s[8:9], s[18:19], s[8:9]
; SI-NEXT: s_andn2_b64 s[28:29], s[18:19], s[8:9]		; SI-NEXT: s_and_b32 s10, s19, 0x80000000
; SI-NEXT: s_and_b32 s8, s19, 0x80000000		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: v_mov_b32_e32 v9, s27		; SI-NEXT: s_cselect_b32 s8, 0, s8
; SI-NEXT: s_cmp_lt_i32 s10, 0		; SI-NEXT: s_cselect_b32 s9, s10, s9
; SI-NEXT: v_cndmask_b32_e64 v17, v9, v10, s[4:5]		; SI-NEXT: s_cmp_gt_i32 s7, 51
; SI-NEXT: v_mov_b32_e32 v9, s29		; SI-NEXT: s_cselect_b32 s9, s19, s9
; SI-NEXT: v_mov_b32_e32 v10, s8		; SI-NEXT: s_cselect_b32 s8, s18, s8
; SI-NEXT: s_cselect_b64 s[8:9], -1, 0		; SI-NEXT: s_bfe_u32 s7, s17, 0xb0014
; SI-NEXT: s_cmp_gt_i32 s10, 51		; SI-NEXT: v_mov_b32_e32 v13, s5
; SI-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[8:9]		; SI-NEXT: s_addk_i32 s7, 0xfc01
; SI-NEXT: v_mov_b32_e32 v10, s19		; SI-NEXT: v_mov_b32_e32 v12, s4
; SI-NEXT: s_cselect_b64 s[10:11], -1, 0		; SI-NEXT: s_lshr_b64 s[10:11], s[20:21], s7
; SI-NEXT: v_cndmask_b32_e64 v10, v9, v10, s[10:11]		; SI-NEXT: v_add_f64 v[12:13], s[12:13], -v[12:13]
; SI-NEXT: v_mov_b32_e32 v9, s28		; SI-NEXT: s_andn2_b64 s[10:11], s[16:17], s[10:11]
; SI-NEXT: v_cndmask_b32_e64 v9, v9, 0, s[8:9]		; SI-NEXT: s_and_b32 s12, s17, 0x80000000
; SI-NEXT: v_mov_b32_e32 v11, s18		; SI-NEXT: s_cmp_lt_i32 s7, 0
; SI-NEXT: s_bfe_u32 s8, s17, 0xb0014		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[12:13]\|, 0.5
; SI-NEXT: v_cndmask_b32_e64 v9, v9, v11, s[10:11]		; SI-NEXT: v_mov_b32_e32 v13, s9
; SI-NEXT: s_add_i32 s10, s8, 0xfffffc01		; SI-NEXT: s_cselect_b32 s10, 0, s10
; SI-NEXT: s_lshr_b64 s[8:9], s[20:21], s10		; SI-NEXT: s_cselect_b32 s11, s12, s11
; SI-NEXT: s_andn2_b64 s[20:21], s[16:17], s[8:9]		; SI-NEXT: s_cmp_gt_i32 s7, 51
; SI-NEXT: s_and_b32 s8, s17, 0x80000000
; SI-NEXT: s_cmp_lt_i32 s10, 0
; SI-NEXT: v_mov_b32_e32 v11, s21
; SI-NEXT: v_mov_b32_e32 v12, s8		; SI-NEXT: v_mov_b32_e32 v12, s8
; SI-NEXT: s_cselect_b64 s[8:9], -1, 0		; SI-NEXT: s_cselect_b32 s11, s17, s11
; SI-NEXT: s_cmp_gt_i32 s10, 51		; SI-NEXT: v_mov_b32_e32 v9, s13
; SI-NEXT: v_cndmask_b32_e64 v11, v11, v12, s[8:9]		; SI-NEXT: v_add_f64 v[12:13], s[18:19], -v[12:13]
; SI-NEXT: v_mov_b32_e32 v12, s17		; SI-NEXT: s_cselect_b32 s10, s16, s10
; SI-NEXT: s_cselect_b64 s[10:11], -1, 0		; SI-NEXT: v_mov_b32_e32 v15, s11
; SI-NEXT: v_cndmask_b32_e64 v14, v11, v12, s[10:11]		; SI-NEXT: v_bfi_b32 v9, s6, v8, v9
; SI-NEXT: v_mov_b32_e32 v11, s20		; SI-NEXT: v_mov_b32_e32 v14, s10
; SI-NEXT: v_cndmask_b32_e64 v11, v11, 0, s[8:9]		; SI-NEXT: v_cndmask_b32_e32 v17, 0, v9, vcc
; SI-NEXT: v_mov_b32_e32 v12, s16		; SI-NEXT: v_mov_b32_e32 v9, s19
; SI-NEXT: v_cndmask_b32_e64 v13, v11, v12, s[10:11]		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[12:13]\|, 0.5
; SI-NEXT: v_add_f64 v[11:12], s[16:17], -v[13:14]		; SI-NEXT: v_add_f64 v[14:15], s[16:17], -v[14:15]
; SI-NEXT: v_mov_b32_e32 v19, s17		; SI-NEXT: v_bfi_b32 v9, s6, v8, v9
; SI-NEXT: v_cmp_ge_f64_e64 s[8:9], \|v[11:12]\|, 0.5		; SI-NEXT: v_cndmask_b32_e32 v13, 0, v9, vcc
; SI-NEXT: v_mov_b32_e32 v11, s19		; SI-NEXT: v_mov_b32_e32 v9, s17
; SI-NEXT: v_bfi_b32 v20, s23, v8, v11		; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[14:15]\|, 0.5
; SI-NEXT: v_add_f64 v[11:12], s[18:19], -v[9:10]		; SI-NEXT: v_bfi_b32 v8, s6, v8, v9
; SI-NEXT: v_bfi_b32 v19, s23, v8, v19		; SI-NEXT: v_mov_b32_e32 v12, 0
; SI-NEXT: v_cmp_ge_f64_e64 s[10:11], \|v[11:12]\|, 0.5		; SI-NEXT: v_cndmask_b32_e32 v9, 0, v8, vcc
; SI-NEXT: v_mov_b32_e32 v11, 0		; SI-NEXT: v_mov_b32_e32 v8, 0
; SI-NEXT: v_cndmask_b32_e64 v12, 0, v20, s[10:11]		; SI-NEXT: v_mov_b32_e32 v16, 0
; SI-NEXT: v_add_f64 v[11:12], v[9:10], v[11:12]		; SI-NEXT: v_add_f64 v[14:15], s[8:9], v[12:13]
; SI-NEXT: v_cndmask_b32_e64 v10, 0, v19, s[8:9]		; SI-NEXT: v_add_f64 v[12:13], s[10:11], v[8:9]
; SI-NEXT: v_mov_b32_e32 v9, 0		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: v_mov_b32_e32 v16, s15		; SI-NEXT: v_add_f64 v[8:9], s[4:5], v[16:17]
; SI-NEXT: v_add_f64 v[9:10], v[13:14], v[9:10]		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:48
; SI-NEXT: v_mov_b32_e32 v13, s24		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:32
; SI-NEXT: v_cndmask_b32_e64 v14, v15, v16, s[2:3]		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
; SI-NEXT: v_cndmask_b32_e64 v13, v13, 0, vcc		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: v_mov_b32_e32 v15, s14
; SI-NEXT: v_cndmask_b32_e64 v13, v13, v15, s[2:3]
; SI-NEXT: v_mov_b32_e32 v15, s15
; SI-NEXT: v_bfi_b32 v19, s23, v8, v15
; SI-NEXT: v_mov_b32_e32 v15, s26
; SI-NEXT: v_mov_b32_e32 v18, s13
; SI-NEXT: v_cndmask_b32_e64 v15, v15, 0, s[4:5]
; SI-NEXT: v_mov_b32_e32 v16, s12
; SI-NEXT: v_cndmask_b32_e64 v18, v17, v18, s[6:7]
; SI-NEXT: v_cndmask_b32_e64 v17, v15, v16, s[6:7]
; SI-NEXT: v_mov_b32_e32 v15, s13
; SI-NEXT: v_bfi_b32 v8, s23, v8, v15
; SI-NEXT: v_add_f64 v[15:16], s[12:13], -v[17:18]
; SI-NEXT: s_load_dwordx2 s[20:21], s[0:1], 0x9
; SI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[15:16]\|, 0.5
; SI-NEXT: v_add_f64 v[15:16], s[14:15], -v[13:14]
; SI-NEXT: s_mov_b32 s23, 0xf000
; SI-NEXT: v_cmp_ge_f64_e64 s[0:1], \|v[15:16]\|, 0.5
; SI-NEXT: v_mov_b32_e32 v15, 0
; SI-NEXT: v_cndmask_b32_e64 v16, 0, v19, s[0:1]
; SI-NEXT: v_add_f64 v[15:16], v[13:14], v[15:16]
; SI-NEXT: v_cndmask_b32_e32 v14, 0, v8, vcc
; SI-NEXT: v_mov_b32_e32 v13, 0
; SI-NEXT: v_add_f64 v[13:14], v[17:18], v[13:14]
; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_store_dwordx4 v[9:12], off, s[20:23], 0 offset:48
; SI-NEXT: buffer_store_dwordx4 v[13:16], off, s[20:23], 0 offset:32
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[20:23], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[20:23], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v8f64:		; CI-LABEL: round_v8f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx16 s[4:19], s[0:1], 0x19		; CI-NEXT: s_load_dwordx16 s[4:19], s[0:1], 0x19
; CI-NEXT: s_brev_b32 s2, -2		; CI-NEXT: s_brev_b32 s2, -2
; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000
; CI-NEXT: s_load_dwordx2 s[20:21], s[0:1], 0x9		; CI-NEXT: s_load_dwordx2 s[20:21], s[0:1], 0x9
▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-select-ptr.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Combine on select c, (load x), (load y) -> load (select c, x, y)			; Combine on select c, (load x), (load y) -> load (select c, x, y)
	; drops MachinePointerInfo, so it can't be relied on for correctness.			; drops MachinePointerInfo, so it can't be relied on for correctness.

	; GCN-LABEL: {{^}}select_ptr_crash_i64_flat:			; GCN-LABEL: {{^}}select_ptr_crash_i64_flat:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2

	; GCN: s_cmp_eq_u32			; GCN: s_cmp_eq_u32
	; GCN: v_cndmask_b32			; GCN: s_cselect_b32
	; GCN: v_cndmask_b32			; GCN: s_cselect_b32

	; GCN-NOT: load_dword			; GCN-NOT: load_dword
	; GCN: flat_load_dwordx2			; GCN: flat_load_dwordx2
	; GCN-NOT: load_dword			; GCN-NOT: load_dword

	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, [8 x i32], i64* %ptr0, [8 x i32], i64* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, [8 x i32], i64* %ptr0, [8 x i32], i64* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64* %ptr0, align 8			%tmp3 = load i64, i64* %ptr0, align 8
	%tmp4 = load i64, i64* %ptr1, align 8			%tmp4 = load i64, i64* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	}			}

	; The transform currently doesn't happen for non-addrspace 0, but it			; The transform currently doesn't happen for non-addrspace 0, but it
	; should.			; should.

	; GCN-LABEL: {{^}}select_ptr_crash_i64_global:			; GCN-LABEL: {{^}}select_ptr_crash_i64_global:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: v_cndmask_b32			; GCN: s_cselect_b32
	; GCN: v_cndmask_b32			; GCN: s_cselect_b32
	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, [8 x i32], i64 addrspace(1)* %ptr0, [8 x i32], i64 addrspace(1)* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, [8 x i32], i64 addrspace(1)* %ptr0, [8 x i32], i64 addrspace(1)* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8			%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8
	%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8			%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	Show All 35 Lines

llvm/test/CodeGen/AMDGPU/mad_uint24.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SimplifyDemandedBits on the first operand of the mul instruction			; SimplifyDemandedBits on the first operand of the mul instruction
	; assuming that the pattern would be matched to a 24-bit mad. This			; assuming that the pattern would be matched to a 24-bit mad. This
	; led to some instructions being incorrectly erased when the entire			; led to some instructions being incorrectly erased when the entire
	; 24-bit mad pattern wasn't being matched.			; 24-bit mad pattern wasn't being matched.

	; Check that the select instruction is not deleted.			; Check that the select instruction is not deleted.
	; FUNC-LABEL: {{^}}i24_i32_i32_mad:			; FUNC-LABEL: {{^}}i24_i32_i32_mad:
	; EG: CNDE_INT			; EG: CNDE_INT
	; SI: v_cndmask			; SI: s_cselect
	; GCN2: s_cselect			; GCN2: s_cselect
	define amdgpu_kernel void @i24_i32_i32_mad(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {			define amdgpu_kernel void @i24_i32_i32_mad(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {
	entry:			entry:
	%0 = ashr i32 %a, 8			%0 = ashr i32 %a, 8
	%1 = icmp ne i32 %c, 0			%1 = icmp ne i32 %c, 0
	%2 = select i1 %1, i32 %0, i32 34			%2 = select i1 %1, i32 %0, i32 34
	%3 = mul i32 %2, %c			%3 = mul i32 %2, %c
	%4 = add i32 %3, %d			%4 = add i32 %3, %d
	▲ Show 20 Lines • Show All 233 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sad.ll

	Show First 20 Lines • Show All 253 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}s_sad_u32_i8_pat2:			; GCN-LABEL: {{^}}s_sad_u32_i8_pat2:
	; GCN: s_load_dword			; GCN: s_load_dword
	; GCN-DAG: s_bfe_u32			; GCN-DAG: s_bfe_u32
	; GCN-DAG: s_sub_i32			; GCN-DAG: s_sub_i32
	; GCN-DAG: s_and_b32			; GCN-DAG: s_and_b32
	; GCN-DAG: s_sub_i32			; GCN-DAG: s_sub_i32
	; GCN-DAG: s_lshr_b32			; GCN-DAG: s_lshr_b32
	; GCN: v_add_i32_e32			; GCN: s_add_i32
	define amdgpu_kernel void @s_sad_u32_i8_pat2(i8 addrspace(1)* %out, i8 zeroext %a, i8 zeroext %b, i8 zeroext %c) {			define amdgpu_kernel void @s_sad_u32_i8_pat2(i8 addrspace(1)* %out, i8 zeroext %a, i8 zeroext %b, i8 zeroext %c) {
	%icmp0 = icmp ugt i8 %a, %b			%icmp0 = icmp ugt i8 %a, %b
	%sub0 = sub i8 %a, %b			%sub0 = sub i8 %a, %b
	%sub1 = sub i8 %b, %a			%sub1 = sub i8 %b, %a
	%ret0 = select i1 %icmp0, i8 %sub0, i8 %sub1			%ret0 = select i1 %icmp0, i8 %sub0, i8 %sub1

	%ret = add i8 %ret0, %c			%ret = add i8 %ret0, %c

	store i8 %ret, i8 addrspace(1)* %out			store i8 %ret, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_sad_u32_mismatched_operands_pat1:			; GCN-LABEL: {{^}}v_sad_u32_mismatched_operands_pat1:
	; GCN-DAG: s_cmp_le_u32 s{{[0-9]+}}, s{{[0-9]+}}			; GCN-DAG: s_cmp_le_u32 s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_max_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}			; GCN-DAG: s_max_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN: v_sub_i32_e32 v{{[0-9]+}}, vcc, s{{[0-9]+}}, v{{[0-9]+}}			; GCN: s_sub_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN: v_add_i32_e32 v{{[0-9]+}}, vcc, s{{[0-9]+}}, v{{[0-9]+}}			; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	define amdgpu_kernel void @v_sad_u32_mismatched_operands_pat1(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {			define amdgpu_kernel void @v_sad_u32_mismatched_operands_pat1(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {
	%icmp0 = icmp ugt i32 %a, %b			%icmp0 = icmp ugt i32 %a, %b
	%t0 = select i1 %icmp0, i32 %a, i32 %b			%t0 = select i1 %icmp0, i32 %a, i32 %b

	%icmp1 = icmp ule i32 %a, %b			%icmp1 = icmp ule i32 %a, %b
	%t1 = select i1 %icmp1, i32 %a, i32 %d			%t1 = select i1 %icmp1, i32 %a, i32 %d

	%ret0 = sub i32 %t0, %t1			%ret0 = sub i32 %t0, %t1
	%ret = add i32 %ret0, %c			%ret = add i32 %ret0, %c

	store i32 %ret, i32 addrspace(1)* %out			store i32 %ret, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_sad_u32_mismatched_operands_pat2:			; GCN-LABEL: {{^}}v_sad_u32_mismatched_operands_pat2:
	; GCN: s_sub_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}			; GCN: s_sub_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN: s_sub_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}			; GCN: s_sub_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN: v_add_i32_e32 v{{[0-9]+}}, vcc, s{{[0-9]+}}, v{{[0-9]+}}			; GCN: s_add_i32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	define amdgpu_kernel void @v_sad_u32_mismatched_operands_pat2(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {			define amdgpu_kernel void @v_sad_u32_mismatched_operands_pat2(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %d) {
	%icmp0 = icmp ugt i32 %a, %b			%icmp0 = icmp ugt i32 %a, %b
	%sub0 = sub i32 %a, %d			%sub0 = sub i32 %a, %d
	%sub1 = sub i32 %b, %a			%sub1 = sub i32 %b, %a
	%ret0 = select i1 %icmp0, i32 %sub0, i32 %sub1			%ret0 = select i1 %icmp0, i32 %sub0, i32 %sub1

	%ret = add i32 %ret0, %c			%ret = add i32 %ret0, %c

	store i32 %ret, i32 addrspace(1)* %out			store i32 %ret, i32 addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/sdiv.ll

	Show All 40 Lines
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_xor_b32_e32 v2, v5, v2			; GCN-NEXT: v_xor_b32_e32 v2, v5, v2
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v3			; GCN-NEXT: v_mul_lo_u32 v4, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v3, v4			; GCN-NEXT: v_mul_hi_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v3			; GCN-NEXT: v_mul_hi_u32 v3, v0, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v1			; GCN-NEXT: v_mul_lo_u32 v4, v3, v1
	; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v3
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v4, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
				; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v2			; GCN-NEXT: v_xor_b32_e32 v0, v0, v2
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	Show All 24 Lines
	; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3			; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3
	; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2			; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4
	; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3
	; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1			; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v4
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0			; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
				; TONGA-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v2, v0			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v2, v0
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32:			; GFX9-LABEL: sdiv_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: s_mov_b32 s10, s6			; GFX9-NEXT: s_mov_b32 s10, s6
	; GFX9-NEXT: s_mov_b32 s11, s7			; GFX9-NEXT: s_mov_b32 s11, s7
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s8, s2			; GFX9-NEXT: s_mov_b32 s8, s2
	; GFX9-NEXT: s_mov_b32 s9, s3			; GFX9-NEXT: s_mov_b32 s9, s3
	; GFX9-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; GFX9-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v2, 31, v1			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v2			; GFX9-NEXT: s_ashr_i32 s3, s2, 31
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v2			; GFX9-NEXT: s_add_i32 s2, s2, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v1			; GFX9-NEXT: s_xor_b32 s2, s2, s3
	; GFX9-NEXT: v_sub_u32_e32 v4, 0, v1			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v5			; GFX9-NEXT: s_ashr_i32 s1, s0, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX9-NEXT: s_add_i32 s0, s0, s1
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_xor_b32_e32 v2, v5, v2			; GFX9-NEXT: s_xor_b32 s3, s1, s3
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GFX9-NEXT: s_xor_b32 s0, s0, s1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: s_sub_i32 s1, 0, s2
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v1
	; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v4			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3			; GFX9-NEXT: s_mul_i32 s1, s1, s8
	; GFX9-NEXT: v_mul_lo_u32 v4, v3, v1			; GFX9-NEXT: s_mul_hi_u32 s1, s8, s1
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v3			; GFX9-NEXT: s_add_i32 s8, s8, s1
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v4			; GFX9-NEXT: s_mul_hi_u32 s1, s0, s8
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GFX9-NEXT: s_mul_i32 s8, s1, s2
	; GFX9-NEXT: v_sub_u32_e32 v4, v0, v1			; GFX9-NEXT: s_sub_i32 s0, s0, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX9-NEXT: s_add_i32 s9, s1, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: s_sub_i32 s8, s0, s2
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v3			; GFX9-NEXT: s_cmp_ge_u32 s0, s2
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GFX9-NEXT: s_cselect_b32 s1, s9, s1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; GFX9-NEXT: s_cselect_b32 s0, s8, s0
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX9-NEXT: s_add_i32 s8, s1, 1
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v2			; GFX9-NEXT: s_cmp_ge_u32 s0, s2
				; GFX9-NEXT: s_cselect_b32 s0, s8, s1
				; GFX9-NEXT: s_xor_b32 s0, s0, s3
				; GFX9-NEXT: s_sub_i32 s0, s0, s3
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; EG-LABEL: sdiv_i32:			; EG-LABEL: sdiv_i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 26, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 26, @9, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s8, s2			; GCN-NEXT: s_mov_b32 s8, s2
	; GCN-NEXT: s_mov_b32 s9, s3			; GCN-NEXT: s_mov_b32 s9, s3
	; GCN-NEXT: buffer_load_dword v0, off, s[8:11], 0			; GCN-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; GCN-NEXT: s_mov_b32 s2, 0x98a1930b			; GCN-NEXT: s_mov_b32 s2, 0x98a1930b
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mul_hi_i32 v1, v0, s2			; GCN-NEXT: v_mul_hi_i32 v1, v0, s2
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 11, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 11, v0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: slow_sdiv_i32_3435:			; TONGA-LABEL: slow_sdiv_i32_3435:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	; TONGA-NEXT: s_mov_b32 s10, s6			; TONGA-NEXT: s_mov_b32 s10, s6
	; TONGA-NEXT: s_mov_b32 s11, s7			; TONGA-NEXT: s_mov_b32 s11, s7
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s8, s2			; TONGA-NEXT: s_mov_b32 s8, s2
	; TONGA-NEXT: s_mov_b32 s9, s3			; TONGA-NEXT: s_mov_b32 s9, s3
	; TONGA-NEXT: buffer_load_dword v0, off, s[8:11], 0			; TONGA-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; TONGA-NEXT: s_mov_b32 s2, 0x98a1930b			; TONGA-NEXT: s_mov_b32 s2, 0x98a1930b
	; TONGA-NEXT: s_mov_b32 s4, s0			; TONGA-NEXT: s_mov_b32 s4, s0
	; TONGA-NEXT: s_mov_b32 s5, s1			; TONGA-NEXT: s_mov_b32 s5, s1
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_mul_hi_i32 v1, v0, s2			; TONGA-NEXT: v_mul_hi_i32 v1, v0, s2
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v1			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; TONGA-NEXT: v_lshrrev_b32_e32 v1, 31, v0			; TONGA-NEXT: v_lshrrev_b32_e32 v1, 31, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 11, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 11, v0
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: slow_sdiv_i32_3435:			; GFX9-LABEL: slow_sdiv_i32_3435:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GCN-NEXT: v_mul_lo_u32 v10, v10, v5			; GCN-NEXT: v_mul_lo_u32 v10, v10, v5
	; GCN-NEXT: v_mul_lo_u32 v11, v11, v7			; GCN-NEXT: v_mul_lo_u32 v11, v11, v7
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v4			; GCN-NEXT: v_xor_b32_e32 v0, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v5, v10			; GCN-NEXT: v_mul_hi_u32 v4, v5, v10
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v6			; GCN-NEXT: v_xor_b32_e32 v1, v1, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v7, v11			; GCN-NEXT: v_mul_hi_u32 v6, v7, v11
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v6			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v7
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v4			; GCN-NEXT: v_mul_hi_u32 v4, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v5			; GCN-NEXT: v_mul_hi_u32 v5, v1, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v4, v2			; GCN-NEXT: v_mul_lo_u32 v6, v4, v2
	; GCN-NEXT: v_mul_lo_u32 v10, v5, v3			; GCN-NEXT: v_mul_lo_u32 v10, v5, v3
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v4			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v10
	; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; GCN-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; GCN-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1			; GCN-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1
				; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v8			; GCN-NEXT: v_xor_b32_e32 v0, v0, v8
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v9			; GCN-NEXT: v_xor_b32_e32 v1, v1, v9
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v8			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v8, v0
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v9, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v9, v1
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_v2i32:			; TONGA-LABEL: sdiv_v2i32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	Show All 30 Lines
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0
	; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5			; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5
	; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7			; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1			; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10			; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v6			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v6
	; TONGA-NEXT: v_mul_hi_u32 v6, v7, v11			; TONGA-NEXT: v_mul_hi_u32 v6, v7, v11
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, v4, v5			; TONGA-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v7, v6			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v6, v7
	; TONGA-NEXT: v_mul_hi_u32 v4, v0, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v5, v1, v5			; TONGA-NEXT: v_mul_hi_u32 v5, v1, v5
	; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2			; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2
	; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3			; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0			; TONGA-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0
	; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1			; TONGA-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1
				; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v8			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v8
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v9			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v9
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v8, v0			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v8, v0
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v9, v1			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v9, v1
	; TONGA-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; TONGA-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i32:			; GFX9-LABEL: sdiv_v2i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_mov_b32 s10, s6			; GFX9-NEXT: s_mov_b32 s10, s2
	; GFX9-NEXT: s_mov_b32 s11, s7			; GFX9-NEXT: s_mov_b32 s11, s3
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s8, s2			; GFX9-NEXT: s_mov_b32 s8, s6
	; GFX9-NEXT: s_mov_b32 s9, s3			; GFX9-NEXT: s_mov_b32 s9, s7
	; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: s_mov_b32 s5, s1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v3			; GFX9-NEXT: s_ashr_i32 s1, s0, 31
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_add_i32 s0, s0, s1
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: s_xor_b32 s6, s0, s1
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s6
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v5			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, v2			; GFX9-NEXT: s_ashr_i32 s8, s7, 31
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, v3			; GFX9-NEXT: s_add_i32 s7, s7, s8
	; GFX9-NEXT: v_sub_u32_e32 v10, 0, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_sub_u32_e32 v11, 0, v3			; GFX9-NEXT: s_xor_b32 s9, s8, s1
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6			; GFX9-NEXT: s_xor_b32 s1, s7, s8
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7			; GFX9-NEXT: s_sub_i32 s7, 0, s6
	; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v2
	; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6			; GFX9-NEXT: s_mov_b32 s0, s4
	; GFX9-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7			; GFX9-NEXT: v_readfirstlane_b32 s4, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v7			; GFX9-NEXT: s_mul_i32 s7, s7, s8
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v8			; GFX9-NEXT: s_mul_hi_u32 s7, s8, s7
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v9			; GFX9-NEXT: s_add_i32 s8, s8, s7
	; GFX9-NEXT: v_mul_lo_u32 v10, v10, v6			; GFX9-NEXT: s_mul_hi_u32 s7, s1, s8
	; GFX9-NEXT: v_mul_lo_u32 v11, v11, v7			; GFX9-NEXT: s_mul_i32 s8, s7, s6
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8			; GFX9-NEXT: s_sub_i32 s1, s1, s8
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v9			; GFX9-NEXT: s_add_i32 s10, s7, 1
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v10			; GFX9-NEXT: s_sub_i32 s8, s1, s6
	; GFX9-NEXT: v_mul_hi_u32 v11, v7, v11			; GFX9-NEXT: s_cmp_ge_u32 s1, s6
	; GFX9-NEXT: v_xor_b32_e32 v4, v8, v4			; GFX9-NEXT: s_cselect_b32 s7, s10, s7
	; GFX9-NEXT: v_xor_b32_e32 v5, v9, v5			; GFX9-NEXT: s_cselect_b32 s1, s8, s1
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v10			; GFX9-NEXT: s_add_i32 s8, s7, 1
	; GFX9-NEXT: v_add_u32_e32 v7, v7, v11			; GFX9-NEXT: s_cmp_ge_u32 s1, s6
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v6			; GFX9-NEXT: s_cselect_b32 s6, s8, s7
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v7			; GFX9-NEXT: s_ashr_i32 s7, s4, 31
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v2			; GFX9-NEXT: s_add_i32 s4, s4, s7
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v3			; GFX9-NEXT: s_xor_b32 s4, s4, s7
	; GFX9-NEXT: v_add_u32_e32 v10, 1, v6			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GFX9-NEXT: v_add_u32_e32 v11, 1, v7			; GFX9-NEXT: s_mov_b32 s1, s5
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v8			; GFX9-NEXT: v_readfirstlane_b32 s5, v1
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v9			; GFX9-NEXT: s_ashr_i32 s8, s5, 31
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_sub_u32_e32 v8, v0, v2			; GFX9-NEXT: s_xor_b32 s6, s6, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc			; GFX9-NEXT: s_add_i32 s5, s5, s8
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v3			; GFX9-NEXT: s_xor_b32 s7, s8, s7
	; GFX9-NEXT: v_sub_u32_e32 v9, v1, v3			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[0:1]			; GFX9-NEXT: s_sub_i32 s6, s6, s9
	; GFX9-NEXT: v_add_u32_e32 v8, 1, v6			; GFX9-NEXT: s_xor_b32 s5, s5, s8
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[0:1]			; GFX9-NEXT: s_sub_i32 s8, 0, s4
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_readfirstlane_b32 s9, v0
	; GFX9-NEXT: v_add_u32_e32 v9, 1, v7			; GFX9-NEXT: s_mul_i32 s8, s8, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s9, s8
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: s_add_i32 s9, s9, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s5, s9
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v4			; GFX9-NEXT: s_mul_i32 s9, s8, s4
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v5			; GFX9-NEXT: s_sub_i32 s5, s5, s9
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v4			; GFX9-NEXT: s_add_i32 s10, s8, 1
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v5			; GFX9-NEXT: s_sub_i32 s9, s5, s4
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: s_cmp_ge_u32 s5, s4
				; GFX9-NEXT: s_cselect_b32 s8, s10, s8
				; GFX9-NEXT: s_cselect_b32 s5, s9, s5
				; GFX9-NEXT: s_add_i32 s9, s8, 1
				; GFX9-NEXT: s_cmp_ge_u32 s5, s4
				; GFX9-NEXT: s_cselect_b32 s4, s9, s8
				; GFX9-NEXT: s_xor_b32 s4, s4, s7
				; GFX9-NEXT: s_sub_i32 s4, s4, s7
				; GFX9-NEXT: v_mov_b32_e32 v0, s6
				; GFX9-NEXT: v_mov_b32_e32 v1, s4
				; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; EG-LABEL: sdiv_v2i32:			; EG-LABEL: sdiv_v2i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 51, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 51, @9, KC0[CB0:0-32], KC1[]
	; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XY, T1.X, 1			; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XY, T1.X, 1
	▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_lo_u32 v9, v9, v8			; GCN-NEXT: v_mul_lo_u32 v9, v9, v8
	; GCN-NEXT: v_xor_b32_e32 v5, v5, v11			; GCN-NEXT: v_xor_b32_e32 v5, v5, v11
	; GCN-NEXT: v_xor_b32_e32 v6, v6, v13			; GCN-NEXT: v_xor_b32_e32 v6, v6, v13
	; GCN-NEXT: v_xor_b32_e32 v16, v10, v11			; GCN-NEXT: v_xor_b32_e32 v16, v10, v11
	; GCN-NEXT: v_mul_hi_u32 v9, v8, v9			; GCN-NEXT: v_mul_hi_u32 v9, v8, v9
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v10			; GCN-NEXT: v_xor_b32_e32 v1, v1, v10
	; GCN-NEXT: v_cvt_f32_u32_e32 v10, v5			; GCN-NEXT: v_cvt_f32_u32_e32 v10, v5
	; GCN-NEXT: v_cvt_f32_u32_e32 v11, v6			; GCN-NEXT: v_cvt_f32_u32_e32 v11, v6
	; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v9
	; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10			; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GCN-NEXT: v_rcp_iflag_f32_e32 v11, v11			; GCN-NEXT: v_rcp_iflag_f32_e32 v11, v11
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v8			; GCN-NEXT: v_mul_hi_u32 v8, v0, v8
	; GCN-NEXT: v_ashrrev_i32_e32 v12, 31, v2			; GCN-NEXT: v_ashrrev_i32_e32 v12, 31, v2
	; GCN-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10			; GCN-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10
	; GCN-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11			; GCN-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11
	; GCN-NEXT: v_mul_lo_u32 v11, v8, v4			; GCN-NEXT: v_mul_lo_u32 v11, v8, v4
	; GCN-NEXT: v_cvt_u32_f32_e32 v9, v9			; GCN-NEXT: v_cvt_u32_f32_e32 v9, v9
	Show All 14 Lines
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0, v6			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0, v6
	; GCN-NEXT: v_mul_lo_u32 v0, v0, v10			; GCN-NEXT: v_mul_lo_u32 v0, v0, v10
	; GCN-NEXT: v_xor_b32_e32 v4, v7, v14			; GCN-NEXT: v_xor_b32_e32 v4, v7, v14
	; GCN-NEXT: v_mul_hi_u32 v7, v9, v12			; GCN-NEXT: v_mul_hi_u32 v7, v9, v12
	; GCN-NEXT: v_cvt_f32_u32_e32 v12, v4			; GCN-NEXT: v_cvt_f32_u32_e32 v12, v4
	; GCN-NEXT: v_mul_hi_u32 v0, v10, v0			; GCN-NEXT: v_mul_hi_u32 v0, v10, v0
	; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v9, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v7			; GCN-NEXT: v_mul_hi_u32 v7, v1, v7
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v10			; GCN-NEXT: v_add_i32_e32 v0, vcc, v10, v0
	; GCN-NEXT: v_mul_hi_u32 v0, v2, v0			; GCN-NEXT: v_mul_hi_u32 v0, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v10, v7, v5			; GCN-NEXT: v_mul_lo_u32 v10, v7, v5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4			; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v10
	; GCN-NEXT: v_mul_lo_u32 v10, v0, v6			; GCN-NEXT: v_mul_lo_u32 v10, v0, v6
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
	; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12			; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12			; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v10, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v10
	; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v7			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v7
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; GCN-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v5, v1			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v5, v1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v6, v2			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v6, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]
	; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v7			; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5
	; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc
	; GCN-NEXT: v_xor_b32_e32 v1, v8, v15			; GCN-NEXT: v_xor_b32_e32 v1, v8, v15
	; GCN-NEXT: v_xor_b32_e32 v5, v0, v16			; GCN-NEXT: v_xor_b32_e32 v5, v0, v16
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v15			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v15, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v16, v5			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v16, v5
	; GCN-NEXT: v_mul_lo_u32 v5, v9, v12			; GCN-NEXT: v_mul_lo_u32 v5, v9, v12
	; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3			; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v8, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v12, v5			; GCN-NEXT: v_mul_hi_u32 v5, v12, v5
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v8			; GCN-NEXT: v_xor_b32_e32 v3, v3, v8
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v10
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v12			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v12
	; GCN-NEXT: v_mul_hi_u32 v5, v3, v5			; GCN-NEXT: v_mul_hi_u32 v5, v3, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v17			; GCN-NEXT: v_xor_b32_e32 v2, v2, v17
	; GCN-NEXT: v_mul_lo_u32 v6, v5, v4			; GCN-NEXT: v_mul_lo_u32 v6, v5, v4
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v17, v2			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v17, v2
	; GCN-NEXT: v_xor_b32_e32 v7, v8, v14			; GCN-NEXT: v_xor_b32_e32 v7, v8, v14
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4			; GCN-NEXT: v_subrev_i32_e32 v8, vcc, v4, v3
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; GCN-NEXT: v_subrev_i32_e32 v6, vcc, v4, v3			; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v7			; GCN-NEXT: v_xor_b32_e32 v3, v3, v7
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v7, v3			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v7, v3
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	Show All 34 Lines
	; TONGA-NEXT: v_mul_lo_u32 v9, v9, v8			; TONGA-NEXT: v_mul_lo_u32 v9, v9, v8
	; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11			; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11
	; TONGA-NEXT: v_xor_b32_e32 v6, v6, v13			; TONGA-NEXT: v_xor_b32_e32 v6, v6, v13
	; TONGA-NEXT: v_xor_b32_e32 v16, v10, v11			; TONGA-NEXT: v_xor_b32_e32 v16, v10, v11
	; TONGA-NEXT: v_mul_hi_u32 v9, v8, v9			; TONGA-NEXT: v_mul_hi_u32 v9, v8, v9
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v10			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v10
	; TONGA-NEXT: v_cvt_f32_u32_e32 v10, v5			; TONGA-NEXT: v_cvt_f32_u32_e32 v10, v5
	; TONGA-NEXT: v_cvt_f32_u32_e32 v11, v6			; TONGA-NEXT: v_cvt_f32_u32_e32 v11, v6
	; TONGA-NEXT: v_add_u32_e32 v8, vcc, v9, v8			; TONGA-NEXT: v_add_u32_e32 v8, vcc, v8, v9
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v10, v10			; TONGA-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v11, v11			; TONGA-NEXT: v_rcp_iflag_f32_e32 v11, v11
	; TONGA-NEXT: v_mul_hi_u32 v8, v0, v8			; TONGA-NEXT: v_mul_hi_u32 v8, v0, v8
	; TONGA-NEXT: v_ashrrev_i32_e32 v12, 31, v2			; TONGA-NEXT: v_ashrrev_i32_e32 v12, 31, v2
	; TONGA-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10			; TONGA-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10
	; TONGA-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11			; TONGA-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11
	; TONGA-NEXT: v_mul_lo_u32 v11, v8, v4			; TONGA-NEXT: v_mul_lo_u32 v11, v8, v4
	; TONGA-NEXT: v_cvt_u32_f32_e32 v9, v9			; TONGA-NEXT: v_cvt_u32_f32_e32 v9, v9
	Show All 14 Lines
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, 0, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, 0, v6
	; TONGA-NEXT: v_mul_lo_u32 v0, v0, v10			; TONGA-NEXT: v_mul_lo_u32 v0, v0, v10
	; TONGA-NEXT: v_xor_b32_e32 v4, v7, v14			; TONGA-NEXT: v_xor_b32_e32 v4, v7, v14
	; TONGA-NEXT: v_mul_hi_u32 v7, v9, v12			; TONGA-NEXT: v_mul_hi_u32 v7, v9, v12
	; TONGA-NEXT: v_cvt_f32_u32_e32 v12, v4			; TONGA-NEXT: v_cvt_f32_u32_e32 v12, v4
	; TONGA-NEXT: v_mul_hi_u32 v0, v10, v0			; TONGA-NEXT: v_mul_hi_u32 v0, v10, v0
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, v9, v7			; TONGA-NEXT: v_add_u32_e32 v7, vcc, v7, v9
	; TONGA-NEXT: v_mul_hi_u32 v7, v1, v7			; TONGA-NEXT: v_mul_hi_u32 v7, v1, v7
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v10			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v10, v0
	; TONGA-NEXT: v_mul_hi_u32 v0, v2, v0			; TONGA-NEXT: v_mul_hi_u32 v0, v2, v0
	; TONGA-NEXT: v_mul_lo_u32 v10, v7, v5			; TONGA-NEXT: v_mul_lo_u32 v10, v7, v5
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v12, v12			; TONGA-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4			; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; TONGA-NEXT: v_mul_lo_u32 v10, v0, v6			; TONGA-NEXT: v_mul_lo_u32 v10, v0, v6
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5			; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
	; TONGA-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12			; TONGA-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; TONGA-NEXT: v_cvt_u32_f32_e32 v12, v12			; TONGA-NEXT: v_cvt_u32_f32_e32 v12, v12
	; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v10, v2			; TONGA-NEXT: v_sub_u32_e32 v2, vcc, v2, v10
	; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v7			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v7
	; TONGA-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v0			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v0
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; TONGA-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]			; TONGA-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v5, v1			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v5, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v6, v2			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v6, v2
	Show All 15 Lines
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v12			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v12
	; TONGA-NEXT: v_mul_hi_u32 v5, v3, v5			; TONGA-NEXT: v_mul_hi_u32 v5, v3, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17
	; TONGA-NEXT: v_mul_lo_u32 v6, v5, v4			; TONGA-NEXT: v_mul_lo_u32 v6, v5, v4
	; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2			; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2
	; TONGA-NEXT: v_xor_b32_e32 v7, v8, v14			; TONGA-NEXT: v_xor_b32_e32 v7, v8, v14
	; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4			; TONGA-NEXT: v_subrev_u32_e32 v8, vcc, v4, v3
	; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; TONGA-NEXT: v_subrev_u32_e32 v6, vcc, v4, v3			; TONGA-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; TONGA-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7
	; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v7			; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v7, v3
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i32:			; GFX9-LABEL: sdiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s11, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_mov_b32 s6, s10			; GFX9-NEXT: s_mov_b32 s10, s2
	; GFX9-NEXT: s_mov_b32 s7, s11			; GFX9-NEXT: s_mov_b32 s11, s3
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, s2			; GFX9-NEXT: s_mov_b32 s8, s6
	; GFX9-NEXT: s_mov_b32 s5, s3			; GFX9-NEXT: s_mov_b32 s9, s7
	; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0 offset:16
	; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0
	; GFX9-NEXT: s_mov_b32 s8, s0			; GFX9-NEXT: s_mov_b32 s0, s4
	; GFX9-NEXT: s_mov_b32 s9, s1
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; GFX9-NEXT: v_readfirstlane_b32 s1, v0
				; GFX9-NEXT: s_ashr_i32 s4, s1, 31
				; GFX9-NEXT: s_add_i32 s1, s1, s4
				; GFX9-NEXT: s_xor_b32 s6, s1, s4
				; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; GFX9-NEXT: v_readfirstlane_b32 s8, v4
	; GFX9-NEXT: v_add_u32_e32 v4, v4, v9			; GFX9-NEXT: s_ashr_i32 s9, s8, 31
	; GFX9-NEXT: v_ashrrev_i32_e32 v11, 31, v5			; GFX9-NEXT: s_add_i32 s8, s8, s9
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v8			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_xor_b32_e32 v4, v4, v9			; GFX9-NEXT: s_xor_b32 s4, s9, s4
	; GFX9-NEXT: v_ashrrev_i32_e32 v10, 31, v1			; GFX9-NEXT: s_xor_b32 s8, s8, s9
	; GFX9-NEXT: v_ashrrev_i32_e32 v13, 31, v6			; GFX9-NEXT: s_sub_i32 s9, 0, s6
	; GFX9-NEXT: v_xor_b32_e32 v16, v8, v9			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v11			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8			; GFX9-NEXT: v_readfirstlane_b32 s7, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v4			; GFX9-NEXT: s_mov_b32 s1, s5
	; GFX9-NEXT: v_ashrrev_i32_e32 v12, 31, v2			; GFX9-NEXT: v_readfirstlane_b32 s5, v3
	; GFX9-NEXT: v_ashrrev_i32_e32 v15, 31, v7			; GFX9-NEXT: v_readfirstlane_b32 s10, v0
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v10			; GFX9-NEXT: s_mul_i32 s9, s9, s10
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v13			; GFX9-NEXT: s_mul_hi_u32 s9, s10, s9
	; GFX9-NEXT: v_xor_b32_e32 v5, v5, v11			; GFX9-NEXT: s_add_i32 s10, s10, s9
	; GFX9-NEXT: v_ashrrev_i32_e32 v14, 31, v3			; GFX9-NEXT: s_mul_hi_u32 s9, s8, s10
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v12			; GFX9-NEXT: s_mul_i32 s10, s9, s6
	; GFX9-NEXT: v_add_u32_e32 v7, v7, v15			; GFX9-NEXT: s_sub_i32 s8, s8, s10
	; GFX9-NEXT: v_xor_b32_e32 v17, v10, v11			; GFX9-NEXT: s_add_i32 s11, s9, 1
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v10			; GFX9-NEXT: s_sub_i32 s10, s8, s6
	; GFX9-NEXT: v_xor_b32_e32 v6, v6, v13			; GFX9-NEXT: s_cmp_ge_u32 s8, s6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v10, v5			; GFX9-NEXT: s_cselect_b32 s9, s11, s9
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v14			; GFX9-NEXT: s_cselect_b32 s8, s10, s8
	; GFX9-NEXT: v_xor_b32_e32 v18, v12, v13			; GFX9-NEXT: s_add_i32 s10, s9, 1
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v12			; GFX9-NEXT: s_cmp_ge_u32 s8, s6
	; GFX9-NEXT: v_xor_b32_e32 v7, v7, v15			; GFX9-NEXT: s_cselect_b32 s6, s10, s9
	; GFX9-NEXT: v_cvt_f32_u32_e32 v12, v6			; GFX9-NEXT: s_ashr_i32 s8, s7, 31
	; GFX9-NEXT: v_xor_b32_e32 v19, v14, v15			; GFX9-NEXT: s_add_i32 s7, s7, s8
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v14			; GFX9-NEXT: s_xor_b32 s7, s7, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v14, v7			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v8			; GFX9-NEXT: v_readfirstlane_b32 s10, v5
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v10, v10			; GFX9-NEXT: s_ashr_i32 s11, s10, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GFX9-NEXT: s_xor_b32 s6, s6, s4
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v14, v14			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8			; GFX9-NEXT: s_add_i32 s10, s10, s11
	; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v8			; GFX9-NEXT: s_xor_b32 s8, s11, s8
	; GFX9-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10			; GFX9-NEXT: s_sub_i32 s4, s6, s4
	; GFX9-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v10			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_sub_u32_e32 v9, 0, v4			; GFX9-NEXT: s_xor_b32 s6, s10, s11
	; GFX9-NEXT: v_mul_f32_e32 v14, 0x4f7ffffe, v14			; GFX9-NEXT: s_sub_i32 s10, 0, s7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v12, v12			; GFX9-NEXT: v_readfirstlane_b32 s9, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v14, v14			; GFX9-NEXT: v_readfirstlane_b32 s11, v0
	; GFX9-NEXT: v_mul_lo_u32 v9, v9, v8			; GFX9-NEXT: s_mul_i32 s10, s10, s11
	; GFX9-NEXT: v_sub_u32_e32 v11, 0, v5			; GFX9-NEXT: s_mul_hi_u32 s10, s11, s10
	; GFX9-NEXT: v_sub_u32_e32 v13, 0, v6			; GFX9-NEXT: s_add_i32 s11, s11, s10
	; GFX9-NEXT: v_mul_lo_u32 v11, v11, v10			; GFX9-NEXT: s_mul_hi_u32 s10, s6, s11
	; GFX9-NEXT: v_sub_u32_e32 v15, 0, v7			; GFX9-NEXT: s_mul_i32 s11, s10, s7
	; GFX9-NEXT: v_mul_lo_u32 v13, v13, v12			; GFX9-NEXT: s_sub_i32 s6, s6, s11
	; GFX9-NEXT: v_mul_lo_u32 v15, v15, v14			; GFX9-NEXT: s_add_i32 s12, s10, 1
	; GFX9-NEXT: v_mul_hi_u32 v9, v8, v9			; GFX9-NEXT: s_sub_i32 s11, s6, s7
	; GFX9-NEXT: v_mul_hi_u32 v11, v10, v11			; GFX9-NEXT: s_cmp_ge_u32 s6, s7
	; GFX9-NEXT: v_mul_hi_u32 v13, v12, v13			; GFX9-NEXT: s_cselect_b32 s10, s12, s10
	; GFX9-NEXT: v_mul_hi_u32 v15, v14, v15			; GFX9-NEXT: s_cselect_b32 s6, s11, s6
	; GFX9-NEXT: v_add_u32_e32 v8, v8, v9			; GFX9-NEXT: s_add_i32 s11, s10, 1
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v8			; GFX9-NEXT: s_cmp_ge_u32 s6, s7
	; GFX9-NEXT: v_add_u32_e32 v9, v10, v11			; GFX9-NEXT: s_cselect_b32 s6, s11, s10
	; GFX9-NEXT: v_add_u32_e32 v10, v12, v13			; GFX9-NEXT: s_ashr_i32 s7, s9, 31
	; GFX9-NEXT: v_mul_hi_u32 v9, v1, v9			; GFX9-NEXT: s_add_i32 s9, s9, s7
	; GFX9-NEXT: v_add_u32_e32 v11, v14, v15			; GFX9-NEXT: s_xor_b32 s9, s9, s7
	; GFX9-NEXT: v_mul_hi_u32 v10, v2, v10			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s9
	; GFX9-NEXT: v_mul_hi_u32 v11, v3, v11			; GFX9-NEXT: v_readfirstlane_b32 s11, v6
	; GFX9-NEXT: v_mul_lo_u32 v12, v8, v4			; GFX9-NEXT: s_ashr_i32 s12, s11, 31
	; GFX9-NEXT: v_mul_lo_u32 v14, v9, v5			; GFX9-NEXT: s_xor_b32 s6, s6, s8
	; GFX9-NEXT: v_mul_lo_u32 v15, v10, v6			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_add_u32_e32 v13, 1, v8			; GFX9-NEXT: s_add_i32 s11, s11, s12
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v12			; GFX9-NEXT: s_xor_b32 s7, s12, s7
	; GFX9-NEXT: v_mul_lo_u32 v12, v11, v7			; GFX9-NEXT: s_sub_i32 s6, s6, s8
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v14			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_add_u32_e32 v14, 1, v9			; GFX9-NEXT: s_xor_b32 s8, s11, s12
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v15			; GFX9-NEXT: s_sub_i32 s11, 0, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v8, v13, vcc			; GFX9-NEXT: v_readfirstlane_b32 s10, v7
	; GFX9-NEXT: v_sub_u32_e32 v13, v0, v4			; GFX9-NEXT: v_readfirstlane_b32 s12, v0
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v5			; GFX9-NEXT: s_mul_i32 s11, s11, s12
	; GFX9-NEXT: v_add_u32_e32 v15, 1, v10			; GFX9-NEXT: s_mul_hi_u32 s11, s12, s11
	; GFX9-NEXT: v_sub_u32_e32 v3, v3, v12			; GFX9-NEXT: s_add_i32 s12, s12, s11
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v14, s[0:1]			; GFX9-NEXT: s_mul_hi_u32 s11, s8, s12
	; GFX9-NEXT: v_sub_u32_e32 v14, v1, v5			; GFX9-NEXT: s_mul_i32 s12, s11, s9
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[2:3], v2, v6			; GFX9-NEXT: s_sub_i32 s8, s8, s12
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v13, vcc			; GFX9-NEXT: s_add_i32 s13, s11, 1
	; GFX9-NEXT: v_add_u32_e32 v12, 1, v11			; GFX9-NEXT: s_sub_i32 s12, s8, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v10, v10, v15, s[2:3]			; GFX9-NEXT: s_cmp_ge_u32 s8, s9
	; GFX9-NEXT: v_sub_u32_e32 v15, v2, v6			; GFX9-NEXT: s_cselect_b32 s11, s13, s11
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v3, v7			; GFX9-NEXT: s_cselect_b32 s8, s12, s8
	; GFX9-NEXT: v_add_u32_e32 v13, 1, v8			; GFX9-NEXT: s_add_i32 s12, s11, 1
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v14, s[0:1]			; GFX9-NEXT: s_cmp_ge_u32 s8, s9
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v4			; GFX9-NEXT: s_cselect_b32 s8, s12, s11
	; GFX9-NEXT: v_cndmask_b32_e64 v11, v11, v12, s[4:5]			; GFX9-NEXT: s_ashr_i32 s9, s5, 31
	; GFX9-NEXT: v_sub_u32_e32 v12, v3, v7			; GFX9-NEXT: s_add_i32 s5, s5, s9
	; GFX9-NEXT: v_add_u32_e32 v14, 1, v9			; GFX9-NEXT: s_xor_b32 s5, s5, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v15, s[2:3]			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v8, v13, vcc			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v5			; GFX9-NEXT: v_mov_b32_e32 v1, s6
	; GFX9-NEXT: v_add_u32_e32 v15, 1, v10			; GFX9-NEXT: s_ashr_i32 s4, s10, 31
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v12, s[4:5]			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v9, v14, vcc			; GFX9-NEXT: s_xor_b32 s6, s8, s7
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; GFX9-NEXT: s_xor_b32 s8, s4, s9
	; GFX9-NEXT: v_add_u32_e32 v12, 1, v11			; GFX9-NEXT: s_sub_i32 s6, s6, s7
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v10, v15, vcc			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v11, v12, vcc			; GFX9-NEXT: s_sub_i32 s7, 0, s5
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v16			; GFX9-NEXT: s_add_i32 s10, s10, s4
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v17			; GFX9-NEXT: s_xor_b32 s4, s10, s4
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v18			; GFX9-NEXT: v_readfirstlane_b32 s9, v2
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v19			; GFX9-NEXT: s_mul_i32 s7, s7, s9
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v16			; GFX9-NEXT: s_mul_hi_u32 s7, s9, s7
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v17			; GFX9-NEXT: s_add_i32 s9, s9, s7
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v18			; GFX9-NEXT: s_mul_hi_u32 s7, s4, s9
	; GFX9-NEXT: v_sub_u32_e32 v3, v3, v19			; GFX9-NEXT: s_mul_i32 s9, s7, s5
	; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX9-NEXT: s_sub_i32 s4, s4, s9
				; GFX9-NEXT: s_add_i32 s10, s7, 1
				; GFX9-NEXT: s_sub_i32 s9, s4, s5
				; GFX9-NEXT: s_cmp_ge_u32 s4, s5
				; GFX9-NEXT: s_cselect_b32 s7, s10, s7
				; GFX9-NEXT: s_cselect_b32 s4, s9, s4
				; GFX9-NEXT: s_add_i32 s9, s7, 1
				; GFX9-NEXT: s_cmp_ge_u32 s4, s5
				; GFX9-NEXT: s_cselect_b32 s4, s9, s7
				; GFX9-NEXT: s_xor_b32 s4, s4, s8
				; GFX9-NEXT: s_sub_i32 s4, s4, s8
				; GFX9-NEXT: v_mov_b32_e32 v2, s6
				; GFX9-NEXT: v_mov_b32_e32 v3, s4
				; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; EG-LABEL: sdiv_v4i32:			; EG-LABEL: sdiv_v4i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 1 @6			; EG-NEXT: TEX 1 @6
	; EG-NEXT: ALU 101, @11, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 101, @11, KC0[CB0:0-32], KC1[]
	; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T2.XYZW, T0.X, 1			; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T2.XYZW, T0.X, 1
	▲ Show 20 Lines • Show All 625 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-NEXT: v_mul_f32_e32 v2, v3, v4			; GCN-NEXT: v_mul_f32_e32 v2, v3, v4
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3			; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: v_sdiv_i24:			; TONGA-LABEL: v_sdiv_i24:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_xor_b32_e32 v5, v5, v0			; GCN-NEXT: v_xor_b32_e32 v5, v5, v0
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v1			; GCN-NEXT: v_xor_b32_e32 v0, v0, v1
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v3			; GCN-NEXT: v_mul_lo_u32 v4, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v3, v4			; GCN-NEXT: v_mul_hi_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_mul_hi_u32 v3, v5, v3			; GCN-NEXT: v_mul_hi_u32 v3, v5, v3
	; GCN-NEXT: v_mul_lo_u32 v1, v3, v2			; GCN-NEXT: v_mul_lo_u32 v1, v3, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v1, v5			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v5, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2			; GCN-NEXT: v_subrev_i32_e32 v5, vcc, v2, v1
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v1			; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v0			; GCN-NEXT: v_xor_b32_e32 v1, v1, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	Show All 27 Lines
	; TONGA-NEXT: v_xor_b32_e32 v5, v5, v0			; TONGA-NEXT: v_xor_b32_e32 v5, v5, v0
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4
	; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3
	; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2			; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v1, v5			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v5, v1
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2			; TONGA-NEXT: v_subrev_u32_e32 v5, vcc, v2, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v2, v1			; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; TONGA-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v0			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v0
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v0, v1			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v0, v1
	; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 25			; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 25
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_sdiv_i25:			; GFX9-LABEL: v_sdiv_i25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: s_mov_b32 s10, s6			; GFX9-NEXT: s_mov_b32 s10, s6
	; GFX9-NEXT: s_mov_b32 s11, s7			; GFX9-NEXT: s_mov_b32 s11, s7
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s8, s2			; GFX9-NEXT: s_mov_b32 s8, s2
	; GFX9-NEXT: s_mov_b32 s9, s3			; GFX9-NEXT: s_mov_b32 s9, s3
	; GFX9-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; GFX9-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_bfe_i32 v2, v1, 0, 25			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_bfe_i32 v1, v1, 24, 1			; GFX9-NEXT: s_bfe_i32 s3, s2, 0x190000
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v1			; GFX9-NEXT: s_bfe_i32 s2, s2, 0x10018
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v1			; GFX9-NEXT: s_add_i32 s3, s3, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v2			; GFX9-NEXT: s_xor_b32 s3, s3, s2
	; GFX9-NEXT: v_sub_u32_e32 v4, 0, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX9-NEXT: v_bfe_i32 v5, v0, 0, 25			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_bfe_i32 v0, v0, 24, 1			; GFX9-NEXT: s_bfe_i32 s1, s0, 0x190000
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX9-NEXT: s_bfe_i32 s0, s0, 0x10018
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v1
	; GFX9-NEXT: v_xor_b32_e32 v5, v5, v0			; GFX9-NEXT: s_add_i32 s1, s1, s0
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v1			; GFX9-NEXT: s_xor_b32 s2, s0, s2
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GFX9-NEXT: s_xor_b32 s0, s1, s0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX9-NEXT: s_sub_i32 s1, 0, s3
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v4			; GFX9-NEXT: v_readfirstlane_b32 s8, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3			; GFX9-NEXT: s_mul_i32 s1, s1, s8
	; GFX9-NEXT: v_mul_lo_u32 v4, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s1, s8, s1
	; GFX9-NEXT: v_add_u32_e32 v1, 1, v3			; GFX9-NEXT: s_add_i32 s8, s8, s1
	; GFX9-NEXT: v_sub_u32_e32 v4, v5, v4			; GFX9-NEXT: s_mul_hi_u32 s1, s0, s8
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v4, v2			; GFX9-NEXT: s_mul_i32 s8, s1, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-NEXT: s_sub_i32 s0, s0, s8
	; GFX9-NEXT: v_sub_u32_e32 v3, v4, v2			; GFX9-NEXT: s_add_i32 s9, s1, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX9-NEXT: s_sub_i32 s8, s0, s3
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: s_cmp_ge_u32 s0, s3
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v2			; GFX9-NEXT: s_cselect_b32 s1, s9, s1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: s_cselect_b32 s0, s8, s0
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v0			; GFX9-NEXT: s_add_i32 s8, s1, 1
	; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0			; GFX9-NEXT: s_cmp_ge_u32 s0, s3
	; GFX9-NEXT: v_bfe_i32 v0, v0, 0, 25			; GFX9-NEXT: s_cselect_b32 s0, s8, s1
				; GFX9-NEXT: s_xor_b32 s0, s0, s2
				; GFX9-NEXT: s_sub_i32 s0, s0, s2
				; GFX9-NEXT: s_bfe_i32 s0, s0, 0x190000
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_sdiv_i25:			; EG-LABEL: v_sdiv_i25:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 1, @10, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 1, @10, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 1 @6			; EG-NEXT: TEX 1 @6
	; EG-NEXT: ALU 37, @12, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 37, @12, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_lshrrev_b32_e32 v4, 31, v0			; TONGA-NEXT: v_lshrrev_b32_e32 v4, 31, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 12, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 12, v0
	; TONGA-NEXT: v_lshrrev_b32_e32 v5, 31, v1			; TONGA-NEXT: v_lshrrev_b32_e32 v5, 31, v1
	; TONGA-NEXT: v_ashrrev_i32_e32 v1, 12, v1			; TONGA-NEXT: v_ashrrev_i32_e32 v1, 12, v1
	; TONGA-NEXT: v_lshrrev_b32_e32 v6, 31, v2			; TONGA-NEXT: v_lshrrev_b32_e32 v6, 31, v2
	; TONGA-NEXT: v_ashrrev_i32_e32 v2, 12, v2			; TONGA-NEXT: v_ashrrev_i32_e32 v2, 12, v2
	; TONGA-NEXT: v_lshrrev_b32_e32 v7, 31, v3			; TONGA-NEXT: v_lshrrev_b32_e32 v7, 31, v3
	; TONGA-NEXT: v_ashrrev_i32_e32 v3, 12, v3			; TONGA-NEXT: v_ashrrev_i32_e32 v3, 12, v3
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v4
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v1, v5			; TONGA-NEXT: v_add_u32_e32 v1, vcc, v1, v5
	; TONGA-NEXT: v_add_u32_e32 v2, vcc, v2, v6			; TONGA-NEXT: v_add_u32_e32 v2, vcc, v6, v2
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v7, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v7
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: scalarize_mulhs_4xi32:			; GFX9-LABEL: scalarize_mulhs_4xi32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

	Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s4, v1			; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s4, v0			; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s5, v0			; GCN-NEXT: v_mul_lo_u32 v4, s5, v0
	; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]			; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, s4, v0			; GCN-NEXT: v_mul_lo_u32 v3, s4, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v2			; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v3			; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v2			; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v3			; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
	; GCN-NEXT: v_mul_lo_u32 v3, v1, v3			; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v2			; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	Show All 33 Lines
	; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3			; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3
	; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4
	; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 1, v0
	; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 2, v0
	; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
				; GCN-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v6, s3			; GCN-NEXT: v_mov_b32_e32 v6, s3
	; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s11, v2			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s11, v2
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s10, v3			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2
	; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]			; GCN-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, s0, v0			; GCN-NEXT: v_xor_b32_e32 v0, s0, v0
	; GCN-NEXT: v_xor_b32_e32 v1, s1, v1			; GCN-NEXT: v_xor_b32_e32 v1, s1, v1
	; GCN-NEXT: v_mov_b32_e32 v2, s1			; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv:			; GCN-IR-LABEL: s_test_sdiv:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
				; GCN-IR-NEXT: s_mov_b32 s15, 0
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31			; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31
	; GCN-IR-NEXT: s_mov_b32 s1, s0			; GCN-IR-NEXT: s_mov_b32 s1, s0
	; GCN-IR-NEXT: s_ashr_i32 s2, s9, 31			; GCN-IR-NEXT: s_ashr_i32 s2, s9, 31
	; GCN-IR-NEXT: s_xor_b64 s[6:7], s[0:1], s[6:7]			; GCN-IR-NEXT: s_xor_b64 s[6:7], s[0:1], s[6:7]
	; GCN-IR-NEXT: s_mov_b32 s3, s2			; GCN-IR-NEXT: s_mov_b32 s3, s2
	; GCN-IR-NEXT: s_sub_u32 s12, s6, s0			; GCN-IR-NEXT: s_sub_u32 s12, s6, s0
	; GCN-IR-NEXT: s_subb_u32 s13, s7, s0			; GCN-IR-NEXT: s_subb_u32 s13, s7, s0
	; GCN-IR-NEXT: s_xor_b64 s[6:7], s[2:3], s[8:9]			; GCN-IR-NEXT: s_xor_b64 s[6:7], s[2:3], s[8:9]
	; GCN-IR-NEXT: s_sub_u32 s6, s6, s2			; GCN-IR-NEXT: s_sub_u32 s6, s6, s2
	; GCN-IR-NEXT: s_subb_u32 s7, s7, s2			; GCN-IR-NEXT: s_subb_u32 s7, s7, s2
				; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[12:13], 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[6:7], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[6:7], 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[12:13], 0			; GCN-IR-NEXT: s_or_b64 s[10:11], s[10:11], s[8:9]
				; GCN-IR-NEXT: s_flbit_i32_b32 s8, s6
				; GCN-IR-NEXT: s_add_i32 s8, s8, 32
				; GCN-IR-NEXT: s_flbit_i32_b32 s9, s7
				; GCN-IR-NEXT: s_min_u32 s14, s8, s9
				; GCN-IR-NEXT: s_flbit_i32_b32 s8, s12
				; GCN-IR-NEXT: s_add_i32 s8, s8, 32
				; GCN-IR-NEXT: s_flbit_i32_b32 s9, s13
				; GCN-IR-NEXT: s_min_u32 s18, s8, s9
				; GCN-IR-NEXT: s_sub_u32 s16, s14, s18
				; GCN-IR-NEXT: s_subb_u32 s17, 0, 0
				; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[20:21], s[16:17], 63
				; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[16:17], 63
				; GCN-IR-NEXT: s_or_b64 s[20:21], s[10:11], s[20:21]
				; GCN-IR-NEXT: s_and_b64 s[10:11], s[20:21], exec
				; GCN-IR-NEXT: s_cselect_b32 s11, 0, s13
				; GCN-IR-NEXT: s_cselect_b32 s10, 0, s12
				; GCN-IR-NEXT: s_or_b64 s[20:21], s[20:21], s[22:23]
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: s_or_b64 s[16:17], s[10:11], s[14:15]
	; GCN-IR-NEXT: s_flbit_i32_b32 s10, s6
	; GCN-IR-NEXT: s_add_i32 s10, s10, 32
	; GCN-IR-NEXT: s_flbit_i32_b32 s11, s7
	; GCN-IR-NEXT: s_min_u32 s14, s10, s11
	; GCN-IR-NEXT: s_flbit_i32_b32 s10, s12
	; GCN-IR-NEXT: s_add_i32 s10, s10, 32
	; GCN-IR-NEXT: s_flbit_i32_b32 s11, s13
	; GCN-IR-NEXT: s_min_u32 s18, s10, s11
	; GCN-IR-NEXT: s_sub_u32 s10, s14, s18
	; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[20:21], s[10:11], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[10:11], 63
	; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[20:21]
	; GCN-IR-NEXT: s_or_b64 s[20:21], s[16:17], s[22:23]
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]
	; GCN-IR-NEXT: s_mov_b32 s15, 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s16, s10, 1			; GCN-IR-NEXT: s_add_u32 s20, s16, 1
	; GCN-IR-NEXT: s_addc_u32 s17, s11, 0			; GCN-IR-NEXT: s_addc_u32 s21, s17, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[16:17], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[20:21], 0
	; GCN-IR-NEXT: s_sub_i32 s10, 63, s10			; GCN-IR-NEXT: s_sub_i32 s16, 63, s16
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[10:11]
	; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[12:13], s10			; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[12:13], s16
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_lshr_b64 s[16:17], s[12:13], s16			; GCN-IR-NEXT: s_lshr_b64 s[16:17], s[12:13], s20
	; GCN-IR-NEXT: s_add_u32 s19, s6, -1			; GCN-IR-NEXT: s_add_u32 s19, s6, -1
	; GCN-IR-NEXT: s_addc_u32 s20, s7, -1			; GCN-IR-NEXT: s_addc_u32 s20, s7, -1
	; GCN-IR-NEXT: s_not_b64 s[8:9], s[14:15]			; GCN-IR-NEXT: s_not_b64 s[8:9], s[14:15]
	; GCN-IR-NEXT: s_add_u32 s12, s8, s18			; GCN-IR-NEXT: s_add_u32 s12, s8, s18
	; GCN-IR-NEXT: s_addc_u32 s13, s9, 0			; GCN-IR-NEXT: s_addc_u32 s13, s9, 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], 0			; GCN-IR-NEXT: s_mov_b64 s[14:15], 0
	; GCN-IR-NEXT: s_mov_b32 s9, 0			; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while			; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while
	Show All 14 Lines
	; GCN-IR-NEXT: s_add_u32 s12, s12, 1			; GCN-IR-NEXT: s_add_u32 s12, s12, 1
	; GCN-IR-NEXT: s_addc_u32 s13, s13, 0			; GCN-IR-NEXT: s_addc_u32 s13, s13, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[12:13], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[12:13], 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], s[8:9]			; GCN-IR-NEXT: s_mov_b64 s[14:15], s[8:9]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[22:23]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[22:23]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3
	; GCN-IR-NEXT: .LBB0_4: ; %Flow6			; GCN-IR-NEXT: .LBB0_4: ; %Flow6
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[10:11], 1			; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[10:11], 1
	; GCN-IR-NEXT: s_or_b64 s[6:7], s[8:9], s[6:7]			; GCN-IR-NEXT: s_or_b64 s[10:11], s[8:9], s[6:7]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s6			; GCN-IR-NEXT: .LBB0_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
	; GCN-IR-NEXT: s_branch .LBB0_6
	; GCN-IR-NEXT: .LBB0_5:
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s13
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s12
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]
	; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
	; GCN-IR-NEXT: s_xor_b64 s[0:1], s[2:3], s[0:1]			; GCN-IR-NEXT: s_xor_b64 s[0:1], s[2:3], s[0:1]
	; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0			; GCN-IR-NEXT: s_xor_b64 s[2:3], s[10:11], s[0:1]
	; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1			; GCN-IR-NEXT: s_sub_u32 s0, s2, s0
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s1			; GCN-IR-NEXT: s_subb_u32 s1, s3, s1
	; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0			; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-IR-NEXT: v_mov_b32_e32 v1, s1
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = sdiv i64 %x, %y			%result = sdiv i64 %x, %y
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define i64 @v_test_sdiv(i64 %x, i64 %y) {			define i64 @v_test_sdiv(i64 %x, i64 %y) {
	▲ Show 20 Lines • Show All 237 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40			; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: s_mov_b32 s1, s5			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40			; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_xor_b32 s4, s4, s8			; GCN-NEXT: s_xor_b32 s4, s4, s8
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s6, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_64:			; GCN-IR-LABEL: s_test_sdiv24_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe			; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_mov_b32 s0, s4			; GCN-IR-NEXT: s_mov_b32 s0, s4
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: s_mov_b32 s1, s5			; GCN-IR-NEXT: s_mov_b32 s1, s5
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-IR-NEXT: s_xor_b32 s4, s4, s8			; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_or_b32 s6, s4, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 40			%1 = ashr i64 %x, 40
	%2 = ashr i64 %y, 40			%2 = ashr i64 %y, 40
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s3			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s3
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_xor_b32 s0, s3, s8			; GCN-NEXT: s_xor_b32 s0, s3, s8
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s0, s0, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: s_or_b32 s2, s0, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_cselect_b32 s0, s2, 0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, s0, v2
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv32_64:			; GCN-IR-LABEL: s_test_sdiv32_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dword s8, s[0:1], 0xe			; GCN-IR-NEXT: s_load_dword s8, s[0:1], 0xe
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s3			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s3
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_xor_b32 s0, s3, s8			; GCN-IR-NEXT: s_xor_b32 s0, s3, s8
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30			; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
	; GCN-IR-NEXT: s_or_b32 s0, s0, 1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s0			; GCN-IR-NEXT: s_or_b32 s2, s0, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_cselect_b32 s0, s2, 0
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v2
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 32			%1 = ashr i64 %x, 32
	%2 = ashr i64 %y, 32			%2 = ashr i64 %y, 32
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	Show All 11 Lines
	; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33			; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: s_mov_b32 s1, s5			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33			; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_xor_b32 s4, s4, s8			; GCN-NEXT: s_xor_b32 s4, s4, s8
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s6, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv31_64:			; GCN-IR-LABEL: s_test_sdiv31_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe			; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_mov_b32 s0, s4			; GCN-IR-NEXT: s_mov_b32 s0, s4
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: s_mov_b32 s1, s5			; GCN-IR-NEXT: s_mov_b32 s1, s5
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-IR-NEXT: s_xor_b32 s4, s4, s8			; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_or_b32 s6, s4, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 33			%1 = ashr i64 %x, 33
	%2 = ashr i64 %y, 33			%2 = ashr i64 %y, 33
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	Show All 12 Lines
	; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41			; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: s_mov_b32 s1, s5			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41			; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_xor_b32 s4, s4, s8			; GCN-NEXT: s_xor_b32 s4, s4, s8
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s6, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv23_64:			; GCN-IR-LABEL: s_test_sdiv23_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe			; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_mov_b32 s0, s4			; GCN-IR-NEXT: s_mov_b32 s0, s4
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: s_mov_b32 s1, s5			; GCN-IR-NEXT: s_mov_b32 s1, s5
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-IR-NEXT: s_xor_b32 s4, s4, s8			; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_or_b32 s6, s4, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 23			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 23
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 41			%1 = ashr i64 %x, 41
	%2 = ashr i64 %y, 41			%2 = ashr i64 %y, 41
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	Show All 12 Lines
	; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39			; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: s_mov_b32 s1, s5			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39			; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_xor_b32 s4, s4, s8			; GCN-NEXT: s_xor_b32 s4, s4, s8
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s6, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv25_64:			; GCN-IR-LABEL: s_test_sdiv25_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe			; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_mov_b32 s0, s4			; GCN-IR-NEXT: s_mov_b32 s0, s4
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: s_mov_b32 s1, s5			; GCN-IR-NEXT: s_mov_b32 s1, s5
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-IR-NEXT: s_xor_b32 s4, s4, s8			; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_or_b32 s6, s4, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 39			%1 = ashr i64 %x, 39
	%2 = ashr i64 %y, 39			%2 = ashr i64 %y, 39
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	Show All 9 Lines
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 40			; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 40			; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: s_xor_b32 s4, s4, s8			; GCN-NEXT: s_xor_b32 s4, s4, s8
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
				; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_ashr_i64 s[10:11], s[10:11], 40
	; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: s_or_b32 s7, s4, 1
	; GCN-NEXT: s_ashr_i64 s[10:11], s[10:11], 40			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: s_cselect_b32 s4, s7, 0
				; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-NEXT: v_cvt_f32_i32_e32 v2, s10			; GCN-NEXT: v_cvt_f32_i32_e32 v2, s10
	; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v3, s6			; GCN-NEXT: v_cvt_f32_i32_e32 v3, s6
	; GCN-NEXT: s_xor_b32 s4, s6, s10			; GCN-NEXT: s_xor_b32 s4, s6, s10
	; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GCN-NEXT: s_ashr_i32 s4, s4, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GCN-NEXT: v_mov_b32_e32 v5, s4			; GCN-NEXT: s_or_b32 s6, s4, 1
				; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
				; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: v_mul_f32_e32 v4, v3, v4			; GCN-NEXT: v_mul_f32_e32 v4, v3, v4
	; GCN-NEXT: v_trunc_f32_e32 v4, v4			; GCN-NEXT: v_trunc_f32_e32 v4, v4
	; GCN-NEXT: v_mad_f32 v3, -v4, v2, v3			; GCN-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4			; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v2\|
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, s4, v4
	; GCN-NEXT: v_bfe_i32 v2, v2, 0, 24			; GCN-NEXT: v_bfe_i32 v2, v2, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v3, 31, v2			; GCN-NEXT: v_ashrrev_i32_e32 v3, 31, v2
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_v2i64:			; GCN-IR-LABEL: s_test_sdiv24_v2i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 40			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 40			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-IR-NEXT: s_xor_b32 s4, s4, s8			; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
				; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_ashr_i64 s[10:11], s[10:11], 40
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: s_or_b32 s7, s4, 1
	; GCN-IR-NEXT: s_ashr_i64 s[10:11], s[10:11], 40			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-IR-NEXT: s_cselect_b32 s4, s7, 0
				; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s4, v2
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v2, s10			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v2, s10
	; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v3, s6			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v3, s6
	; GCN-IR-NEXT: s_xor_b32 s4, s6, s10			; GCN-IR-NEXT: s_xor_b32 s4, s6, s10
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v5, s4			; GCN-IR-NEXT: s_or_b32 s6, s4, 1
				; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
				; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v4, v3, v4			; GCN-IR-NEXT: v_mul_f32_e32 v4, v3, v4
	; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4			; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4
	; GCN-IR-NEXT: v_mad_f32 v3, -v4, v2, v3			; GCN-IR-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v4, v4			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v2\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: s_cselect_b32 s4, s6, 0
	; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, s4, v4
	; GCN-IR-NEXT: v_bfe_i32 v2, v2, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v2, v2, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 31, v2			; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 31, v2
	; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr <2 x i64> %x, <i64 40, i64 40>			%1 = ashr <2 x i64> %x, <i64 40, i64 40>
	%2 = ashr <2 x i64> %y, <i64 40, i64 40>			%2 = ashr <2 x i64> %y, <i64 40, i64 40>
	%result = sdiv <2 x i64> %1, %2			%result = sdiv <2 x i64> %1, %2
	store <2 x i64> %result, <2 x i64> addrspace(1)* %out			store <2 x i64> %result, <2 x i64> addrspace(1)* %out
	ret void			ret void
	Show All 22 Lines
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-NEXT: v_mul_f32_e32 v2, v3, v4			; GCN-NEXT: v_mul_f32_e32 v2, v3, v4
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3			; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: buffer_store_short v1, off, s[0:3], 0 offset:4			; GCN-NEXT: buffer_store_short v1, off, s[0:3], 0 offset:4
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_48:			; GCN-IR-LABEL: s_test_sdiv24_48:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-IR-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GCN-IR-NEXT: s_mov_b32 s15, 0
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_sext_i32_i16 s7, s7			; GCN-IR-NEXT: s_sext_i32_i16 s7, s7
	; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31			; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31
	; GCN-IR-NEXT: s_sext_i32_i16 s3, s3			; GCN-IR-NEXT: s_sext_i32_i16 s3, s3
	; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[6:7], 24			; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[6:7], 24
	; GCN-IR-NEXT: s_mov_b32 s1, s0			; GCN-IR-NEXT: s_mov_b32 s1, s0
	; GCN-IR-NEXT: s_ashr_i64 s[10:11], s[2:3], 24			; GCN-IR-NEXT: s_ashr_i64 s[10:11], s[2:3], 24
	; GCN-IR-NEXT: s_ashr_i32 s2, s3, 31			; GCN-IR-NEXT: s_ashr_i32 s2, s3, 31
	; GCN-IR-NEXT: s_xor_b64 s[6:7], s[0:1], s[8:9]			; GCN-IR-NEXT: s_xor_b64 s[6:7], s[0:1], s[8:9]
	; GCN-IR-NEXT: s_mov_b32 s3, s2			; GCN-IR-NEXT: s_mov_b32 s3, s2
	; GCN-IR-NEXT: s_sub_u32 s12, s6, s0			; GCN-IR-NEXT: s_sub_u32 s12, s6, s0
	; GCN-IR-NEXT: s_subb_u32 s13, s7, s0			; GCN-IR-NEXT: s_subb_u32 s13, s7, s0
	; GCN-IR-NEXT: s_xor_b64 s[6:7], s[2:3], s[10:11]			; GCN-IR-NEXT: s_xor_b64 s[6:7], s[2:3], s[10:11]
	; GCN-IR-NEXT: s_sub_u32 s6, s6, s2			; GCN-IR-NEXT: s_sub_u32 s6, s6, s2
	; GCN-IR-NEXT: s_subb_u32 s7, s7, s2			; GCN-IR-NEXT: s_subb_u32 s7, s7, s2
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[6:7], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[6:7], 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[12:13], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[12:13], 0
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_or_b64 s[16:17], s[8:9], s[10:11]
	; GCN-IR-NEXT: s_or_b64 s[16:17], s[10:11], s[14:15]			; GCN-IR-NEXT: s_flbit_i32_b32 s8, s6
	; GCN-IR-NEXT: s_flbit_i32_b32 s10, s6			; GCN-IR-NEXT: s_add_i32 s8, s8, 32
	; GCN-IR-NEXT: s_add_i32 s10, s10, 32			; GCN-IR-NEXT: s_flbit_i32_b32 s9, s7
	; GCN-IR-NEXT: s_flbit_i32_b32 s11, s7			; GCN-IR-NEXT: s_min_u32 s14, s8, s9
	; GCN-IR-NEXT: s_min_u32 s14, s10, s11			; GCN-IR-NEXT: s_flbit_i32_b32 s8, s12
	; GCN-IR-NEXT: s_flbit_i32_b32 s10, s12			; GCN-IR-NEXT: s_add_i32 s8, s8, 32
	; GCN-IR-NEXT: s_add_i32 s10, s10, 32			; GCN-IR-NEXT: s_flbit_i32_b32 s9, s13
	; GCN-IR-NEXT: s_flbit_i32_b32 s11, s13			; GCN-IR-NEXT: s_min_u32 s18, s8, s9
	; GCN-IR-NEXT: s_min_u32 s18, s10, s11
	; GCN-IR-NEXT: s_sub_u32 s10, s14, s18			; GCN-IR-NEXT: s_sub_u32 s10, s14, s18
	; GCN-IR-NEXT: s_subb_u32 s11, 0, 0			; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[20:21], s[10:11], 63			; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[20:21], s[10:11], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[10:11], 63			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[10:11], 63
	; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[20:21]			; GCN-IR-NEXT: s_or_b64 s[20:21], s[16:17], s[20:21]
	; GCN-IR-NEXT: s_or_b64 s[20:21], s[16:17], s[22:23]			; GCN-IR-NEXT: s_and_b64 s[16:17], s[20:21], exec
				; GCN-IR-NEXT: s_cselect_b32 s17, 0, s13
				; GCN-IR-NEXT: s_cselect_b32 s16, 0, s12
				; GCN-IR-NEXT: s_or_b64 s[20:21], s[20:21], s[22:23]
				; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]
	; GCN-IR-NEXT: s_mov_b32 s15, 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB9_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB9_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s16, s10, 1			; GCN-IR-NEXT: s_add_u32 s16, s10, 1
	; GCN-IR-NEXT: s_addc_u32 s17, s11, 0			; GCN-IR-NEXT: s_addc_u32 s17, s11, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[16:17], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[16:17], 0
	; GCN-IR-NEXT: s_sub_i32 s10, 63, s10			; GCN-IR-NEXT: s_sub_i32 s10, 63, s10
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[20:21]
	; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[12:13], s10			; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[12:13], s10
	Show All 25 Lines
	; GCN-IR-NEXT: s_add_u32 s12, s12, 1			; GCN-IR-NEXT: s_add_u32 s12, s12, 1
	; GCN-IR-NEXT: s_addc_u32 s13, s13, 0			; GCN-IR-NEXT: s_addc_u32 s13, s13, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[12:13], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[22:23], s[12:13], 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], s[8:9]			; GCN-IR-NEXT: s_mov_b64 s[14:15], s[8:9]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[22:23]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[22:23]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB9_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB9_3
	; GCN-IR-NEXT: .LBB9_4: ; %Flow3			; GCN-IR-NEXT: .LBB9_4: ; %Flow3
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[10:11], 1			; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[10:11], 1
	; GCN-IR-NEXT: s_or_b64 s[6:7], s[8:9], s[6:7]			; GCN-IR-NEXT: s_or_b64 s[16:17], s[8:9], s[6:7]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s6			; GCN-IR-NEXT: .LBB9_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
	; GCN-IR-NEXT: s_branch .LBB9_6
	; GCN-IR-NEXT: .LBB9_5:
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s13
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s12
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]
	; GCN-IR-NEXT: .LBB9_6: ; %udiv-end
	; GCN-IR-NEXT: s_xor_b64 s[0:1], s[2:3], s[0:1]			; GCN-IR-NEXT: s_xor_b64 s[0:1], s[2:3], s[0:1]
	; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0			; GCN-IR-NEXT: s_xor_b64 s[2:3], s[16:17], s[0:1]
	; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1			; GCN-IR-NEXT: s_sub_u32 s0, s2, s0
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s1			; GCN-IR-NEXT: s_subb_u32 s1, s3, s1
	; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4			; GCN-IR-NEXT: v_mov_b32_e32 v0, s1
				; GCN-IR-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
				; GCN-IR-NEXT: s_waitcnt expcnt(0)
				; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
	; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i48 %x, 24			%1 = ashr i48 %x, 24
	%2 = ashr i48 %y, 24			%2 = ashr i48 %y, 24
	%result = sdiv i48 %1, %2			%result = sdiv i48 %1, %2
	store i48 %result, i48 addrspace(1)* %out			store i48 %result, i48 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2
	; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v4
	; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v3			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v3
	; GCN-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v4, s[0:1], 2, v0			; GCN-NEXT: v_add_i32_e64 v4, s[0:1], 1, v0
	; GCN-NEXT: v_addc_u32_e64 v5, s[0:1], 0, 0, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v5, s[0:1], 0, 0, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v6, s[0:1], 1, v0			; GCN-NEXT: v_add_i32_e64 v6, s[0:1], 2, v0
	; GCN-NEXT: v_addc_u32_e64 v7, s[0:1], 0, 0, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v7, s[0:1], 0, 0, s[0:1]
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GCN-NEXT: v_cndmask_b32_e64 v3, v7, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v6, s[0:1]
				; GCN-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v2			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v2, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v2, v6, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, s8, v0			; GCN-NEXT: v_xor_b32_e32 v0, s8, v0
	; GCN-NEXT: v_xor_b32_e32 v1, s8, v1			; GCN-NEXT: v_xor_b32_e32 v1, s8, v1
	; GCN-NEXT: v_mov_b32_e32 v2, s8			; GCN-NEXT: v_mov_b32_e32 v2, s8
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv_k_num_i64:			; GCN-IR-LABEL: s_test_sdiv_k_num_i64:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
				; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_ashr_i32 s4, s3, 31			; GCN-IR-NEXT: s_ashr_i32 s4, s3, 31
	; GCN-IR-NEXT: s_mov_b32 s5, s4			; GCN-IR-NEXT: s_mov_b32 s5, s4
	; GCN-IR-NEXT: s_xor_b64 s[2:3], s[4:5], s[2:3]			; GCN-IR-NEXT: s_xor_b64 s[2:3], s[4:5], s[2:3]
	; GCN-IR-NEXT: s_sub_u32 s2, s2, s4			; GCN-IR-NEXT: s_sub_u32 s2, s2, s4
	; GCN-IR-NEXT: s_subb_u32 s3, s3, s4			; GCN-IR-NEXT: s_subb_u32 s3, s3, s4
	; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2			; GCN-IR-NEXT: s_flbit_i32_b32 s10, s2
	; GCN-IR-NEXT: s_add_i32 s8, s8, 32			; GCN-IR-NEXT: s_add_i32 s10, s10, 32
	; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3			; GCN-IR-NEXT: s_flbit_i32_b32 s11, s3
	; GCN-IR-NEXT: s_min_u32 s10, s8, s9			; GCN-IR-NEXT: s_min_u32 s10, s10, s11
	; GCN-IR-NEXT: s_add_u32 s8, s10, 0xffffffc5			; GCN-IR-NEXT: s_add_u32 s12, s10, 0xffffffc5
	; GCN-IR-NEXT: s_addc_u32 s9, 0, -1			; GCN-IR-NEXT: s_addc_u32 s13, 0, -1
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[2:3], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[2:3], 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[12:13], s[8:9], 63			; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[14:15], s[12:13], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[8:9], 63			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 63
	; GCN-IR-NEXT: s_or_b64 s[12:13], s[6:7], s[12:13]			; GCN-IR-NEXT: s_or_b64 s[14:15], s[8:9], s[14:15]
	; GCN-IR-NEXT: s_or_b64 s[6:7], s[12:13], s[14:15]			; GCN-IR-NEXT: s_and_b64 s[8:9], s[14:15], exec
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[6:7]			; GCN-IR-NEXT: s_cselect_b32 s8, 0, 24
	; GCN-IR-NEXT: s_mov_b64 s[6:7], 0			; GCN-IR-NEXT: s_or_b64 s[14:15], s[14:15], s[16:17]
				; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[14:15]
				; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB10_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB10_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s12, s8, 1			; GCN-IR-NEXT: s_add_u32 s14, s12, 1
	; GCN-IR-NEXT: s_addc_u32 s13, s9, 0			; GCN-IR-NEXT: s_addc_u32 s15, s13, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[12:13], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[14:15], 0
	; GCN-IR-NEXT: s_sub_i32 s8, 63, s8			; GCN-IR-NEXT: s_sub_i32 s11, 63, s12
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[14:15]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[8:9]
	; GCN-IR-NEXT: s_lshl_b64 s[8:9], 24, s8			; GCN-IR-NEXT: s_lshl_b64 s[8:9], 24, s11
	; GCN-IR-NEXT: s_cbranch_vccz .LBB10_4			; GCN-IR-NEXT: s_cbranch_vccz .LBB10_4
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_lshr_b64 s[12:13], 24, s12			; GCN-IR-NEXT: s_lshr_b64 s[12:13], 24, s14
	; GCN-IR-NEXT: s_add_u32 s16, s2, -1			; GCN-IR-NEXT: s_add_u32 s16, s2, -1
	; GCN-IR-NEXT: s_addc_u32 s17, s3, -1			; GCN-IR-NEXT: s_addc_u32 s17, s3, -1
	; GCN-IR-NEXT: s_sub_u32 s10, 58, s10			; GCN-IR-NEXT: s_sub_u32 s10, 58, s10
	; GCN-IR-NEXT: s_subb_u32 s11, 0, 0			; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], 0			; GCN-IR-NEXT: s_mov_b64 s[14:15], 0
	; GCN-IR-NEXT: s_mov_b32 s7, 0			; GCN-IR-NEXT: s_mov_b32 s7, 0
	; GCN-IR-NEXT: .LBB10_3: ; %udiv-do-while			; GCN-IR-NEXT: .LBB10_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	Show All 13 Lines
	; GCN-IR-NEXT: s_add_u32 s10, s10, 1			; GCN-IR-NEXT: s_add_u32 s10, s10, 1
	; GCN-IR-NEXT: s_addc_u32 s11, s11, 0			; GCN-IR-NEXT: s_addc_u32 s11, s11, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]			; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB10_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB10_3
	; GCN-IR-NEXT: .LBB10_4: ; %Flow5			; GCN-IR-NEXT: .LBB10_4: ; %Flow5
	; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[8:9], 1			; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[8:9], 1
	; GCN-IR-NEXT: s_or_b64 s[2:3], s[6:7], s[2:3]			; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[2:3]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2			; GCN-IR-NEXT: .LBB10_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s3			; GCN-IR-NEXT: s_xor_b64 s[6:7], s[8:9], s[4:5]
	; GCN-IR-NEXT: s_branch .LBB10_6			; GCN-IR-NEXT: s_sub_u32 s4, s6, s4
	; GCN-IR-NEXT: .LBB10_5:			; GCN-IR-NEXT: s_subb_u32 s5, s7, s5
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[12:13]
	; GCN-IR-NEXT: .LBB10_6: ; %udiv-end
	; GCN-IR-NEXT: v_xor_b32_e32 v0, s4, v0
	; GCN-IR-NEXT: v_xor_b32_e32 v1, s5, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s5
	; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s4, v0
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = sdiv i64 24, %x			%result = sdiv i64 24, %x
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define i64 @v_test_sdiv_k_num_i64(i64 %x) {			define i64 @v_test_sdiv_k_num_i64(i64 %x) {
	▲ Show 20 Lines • Show All 494 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-NEXT: s_mov_b32 s3, 0x41c00000			; GCN-NEXT: s_mov_b32 s3, 0x41c00000
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_ashr_i32 s0, s2, 30			; GCN-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: s_or_b32 s0, s0, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
				; GCN-NEXT: s_or_b32 s2, s0, 1
	; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v2\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: s_cselect_b32 s0, s2, 0
				; GCN-NEXT: v_add_i32_e32 v0, vcc, s0, v1
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_k_num_i64:			; GCN-IR-LABEL: s_test_sdiv24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-IR-NEXT: s_mov_b32 s3, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s3, 0x41c00000
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30			; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: s_or_b32 s0, s0, 1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
				; GCN-IR-NEXT: s_or_b32 s2, s0, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v2\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-IR-NEXT: s_cselect_b32 s0, s2, 0
				; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v1
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%x.shr = ashr i64 %x, 40			%x.shr = ashr i64 %x, 40
	%result = sdiv i64 24, %x.shr			%result = sdiv i64 24, %x.shr
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_test_sdiv24_k_den_i64(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @s_test_sdiv24_k_den_i64(i64 addrspace(1)* %out, i64 %x) {
	; GCN-LABEL: s_test_sdiv24_k_den_i64:			; GCN-LABEL: s_test_sdiv24_k_den_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s8, 0x46b6fe00			; GCN-NEXT: s_mov_b32 s8, 0x46b6fe00
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_ashr_i32 s0, s2, 30			; GCN-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_mul_f32_e32 v1, 0x38331158, v0			; GCN-NEXT: v_mul_f32_e32 v1, 0x38331158, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v0, -v1, s8, v0			; GCN-NEXT: v_mad_f32 v0, -v1, s8, v0
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: s_or_b32 s2, s0, 1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s8			; GCN-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v0\|, s8
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v2, vcc			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: s_cselect_b32 s0, s2, 0
				; GCN-NEXT: v_add_i32_e32 v0, vcc, s0, v1
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_k_den_i64:			; GCN-IR-LABEL: s_test_sdiv24_k_den_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s8, 0x46b6fe00			; GCN-IR-NEXT: s_mov_b32 s8, 0x46b6fe00
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30			; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-IR-NEXT: s_or_b32 s0, s0, 1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x38331158, v0			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x38331158, v0
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mad_f32 v0, -v1, s8, v0			; GCN-IR-NEXT: v_mad_f32 v0, -v1, s8, v0
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s0			; GCN-IR-NEXT: s_or_b32 s2, s0, 1
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s8			; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v0\|, s8
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v2, vcc			; GCN-IR-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-IR-NEXT: s_cselect_b32 s0, s2, 0
				; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v1
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%x.shr = ashr i64 %x, 40			%x.shr = ashr i64 %x, 40
	%result = sdiv i64 %x.shr, 23423			%result = sdiv i64 %x.shr, 23423
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/select-constant-cttz.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GCN %s

	declare i32 @llvm.cttz.i32(i32, i1) nounwind readnone			declare i32 @llvm.cttz.i32(i32, i1) nounwind readnone
	declare i32 @llvm.amdgcn.sffbh.i32(i32) nounwind readnone speculatable			declare i32 @llvm.amdgcn.sffbh.i32(i32) nounwind readnone speculatable
	define amdgpu_kernel void @select_constant_cttz(i32 addrspace(1)* noalias %out, i32 addrspace(1)* nocapture readonly %arrayidx) nounwind {			define amdgpu_kernel void @select_constant_cttz(i32 addrspace(1)* noalias %out, i32 addrspace(1)* nocapture readonly %arrayidx) nounwind {
	; GCN-LABEL: select_constant_cttz:			; GCN-LABEL: select_constant_cttz:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_load_dword s2, s[2:3], 0x0			; GCN-NEXT: s_load_dword s2, s[2:3], 0x0
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s0, 1, s2			; GCN-NEXT: s_lshr_b32 s4, 1, s2
	; GCN-NEXT: s_ff1_i32_b32 s0, s0
	; GCN-NEXT: s_cmp_lg_u32 s2, 0			; GCN-NEXT: s_cmp_lg_u32 s2, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: s_ff1_i32_b32 s2, s4
	; GCN-NEXT: s_cselect_b64 s[2:3], -1, 0			; GCN-NEXT: s_cselect_b64 s[4:5], -1, 0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, -1, s[2:3]			; GCN-NEXT: s_and_b64 s[6:7], s[4:5], exec
	; GCN-NEXT: v_ffbh_i32_e32 v1, v0			; GCN-NEXT: s_cselect_b32 s2, -1, s2
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v0			; GCN-NEXT: s_flbit_i32 s6, s2
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 31, v1			; GCN-NEXT: s_sub_i32 s8, 31, s6
	; GCN-NEXT: s_or_b64 s[0:1], s[2:3], s[0:1]			; GCN-NEXT: s_cmp_eq_u32 s2, 0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, -1, s[0:1]			; GCN-NEXT: s_cselect_b64 s[6:7], -1, 0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
				; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
				; GCN-NEXT: s_cselect_b32 s4, -1, s8
				; GCN-NEXT: s_mov_b32 s2, -1
				; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%v = load i32, i32 addrspace(1)* %arrayidx, align 4			%v = load i32, i32 addrspace(1)* %arrayidx, align 4
	%sr = lshr i32 1, %v			%sr = lshr i32 1, %v
	%cmp = icmp ne i32 %v, 0			%cmp = icmp ne i32 %v, 0
	%cttz = call i32 @llvm.cttz.i32(i32 %sr, i1 true), !range !0			%cttz = call i32 @llvm.cttz.i32(i32 %sr, i1 true), !range !0
	%sel = select i1 %cmp, i32 -1, i32 %cttz			%sel = select i1 %cmp, i32 -1, i32 %cttz
	%ffbh = call i32 @llvm.amdgcn.sffbh.i32(i32 %sel)			%ffbh = call i32 @llvm.amdgcn.sffbh.i32(i32 %sel)
	%sub = sub i32 31, %ffbh			%sub = sub i32 31, %ffbh
	%cmp2 = icmp eq i32 %sel, 0			%cmp2 = icmp eq i32 %sel, 0
	%or = or i1 %cmp, %cmp2			%or = or i1 %cmp, %cmp2
	%sel2 = select i1 %or, i32 -1, i32 %sub			%sel2 = select i1 %or, i32 -1, i32 %sub
	store i32 %sel2, i32 addrspace(1)* %out			store i32 %sel2, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	!0 = !{i32 0, i32 33}			!0 = !{i32 0, i32 33}

llvm/test/CodeGen/AMDGPU/select-opt.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Make sure to test with f32 and i32 compares. If we have to use float			; Make sure to test with f32 and i32 compares. If we have to use float
	; compares, we always have multiple condition registers. If we can do			; compares, we always have multiple condition registers. If we can do
	; scalar compares, we don't want to use multiple condition registers.			; scalar compares, we don't want to use multiple condition registers.

	; GCN-LABEL: {{^}}opt_select_i32_and_cmp_i32:			; GCN-LABEL: {{^}}opt_select_i32_and_cmp_i32:
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN: s_and_b64 vcc, [[CMP1]], [[CMP2]]			; GCN: s_and_b64 [[AND1:s\[[0-9]+:[0-9]+\]]], [[CMP1]], [[CMP2]]
	; GCN: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND2:s\[[0-9]+:[0-9]+\]]], [[AND1]], exec
	; GCN-NOT: [[RESULT]]			; GCN: s_cselect_b32 [[RESULT:s[0-9]+]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]
				; GCN: buffer_store_dword [[VRESULT]]
	define amdgpu_kernel void @opt_select_i32_and_cmp_i32(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @opt_select_i32_and_cmp_i32(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %x, i32 %y) #0 {
	%icmp0 = icmp ne i32 %a, %b			%icmp0 = icmp ne i32 %a, %b
	%icmp1 = icmp ne i32 %a, %c			%icmp1 = icmp ne i32 %a, %c
	%and = and i1 %icmp0, %icmp1			%and = and i1 %icmp0, %icmp1
	%select = select i1 %and, i32 %x, i32 %y			%select = select i1 %and, i32 %x, i32 %y
	store i32 %select, i32 addrspace(1)* %out			store i32 %select, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i32_and_cmp_f32:			; GCN-LABEL: {{^}}opt_select_i32_and_cmp_f32:
	; GCN-DAG: v_cmp_lg_f32_e32 vcc			; GCN-DAG: v_cmp_lg_f32_e32 vcc
	; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]			; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]
	; GCN: s_and_b64 vcc, vcc, [[CMP1]]			; GCN: s_and_b64 [[CMP1]], vcc, [[CMP1]]
	; GCN: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[CMP1]], exec
	; GCN-NOT: [[RESULT]]			; GCN: s_cselect_b32 [[RESULT:s[0-9]+]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]
				; GCN: buffer_store_dword [[VRESULT]]
	define amdgpu_kernel void @opt_select_i32_and_cmp_f32(i32 addrspace(1)* %out, float %a, float %b, float %c, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @opt_select_i32_and_cmp_f32(i32 addrspace(1)* %out, float %a, float %b, float %c, i32 %x, i32 %y) #0 {
	%fcmp0 = fcmp one float %a, %b			%fcmp0 = fcmp one float %a, %b
	%fcmp1 = fcmp one float %a, %c			%fcmp1 = fcmp one float %a, %c
	%and = and i1 %fcmp0, %fcmp1			%and = and i1 %fcmp0, %fcmp1
	%select = select i1 %and, i32 %x, i32 %y			%select = select i1 %and, i32 %x, i32 %y
	store i32 %select, i32 addrspace(1)* %out			store i32 %select, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i64_and_cmp_i32:			; GCN-LABEL: {{^}}opt_select_i64_and_cmp_i32:
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN: s_and_b64 vcc, [[CMP1]], [[CMP2]]			; GCN: s_and_b64 [[AND1:s\[[0-9]+:[0-9]+\]]], [[CMP1]], [[CMP2]]
	; GCN: v_cndmask_b32_e32 v[[RESULT1:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND2:s\[[0-9]+:[0-9]+\]]], [[AND1]], exec
	; GCN: v_cndmask_b32_e32 v[[RESULT0:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN-DAG: s_cselect_b32 [[RESULT0:s[0-9]+]]
	; GCN: buffer_store_dwordx2 v[[[RESULT0]]:[[RESULT1]]]			; GCN-DAG: s_cselect_b32 [[RESULT1:s[0-9]+]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT1:[0-9]+]], [[RESULT0]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT0:[0-9]+]], [[RESULT1]]
				; GCN: buffer_store_dwordx2 v[[[VRESULT0]]:[[VRESULT1]]]
	define amdgpu_kernel void @opt_select_i64_and_cmp_i32(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i64 %x, i64 %y) #0 {			define amdgpu_kernel void @opt_select_i64_and_cmp_i32(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i64 %x, i64 %y) #0 {
	%icmp0 = icmp ne i32 %a, %b			%icmp0 = icmp ne i32 %a, %b
	%icmp1 = icmp ne i32 %a, %c			%icmp1 = icmp ne i32 %a, %c
	%and = and i1 %icmp0, %icmp1			%and = and i1 %icmp0, %icmp1
	%select = select i1 %and, i64 %x, i64 %y			%select = select i1 %and, i64 %x, i64 %y
	store i64 %select, i64 addrspace(1)* %out			store i64 %select, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i64_and_cmp_f32:			; GCN-LABEL: {{^}}opt_select_i64_and_cmp_f32:
	; GCN-DAG: v_cmp_lg_f32_e32 vcc,			; GCN-DAG: v_cmp_lg_f32_e32 vcc,
	; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]			; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]
	; GCN: s_and_b64 vcc, vcc, [[CMP1]]			; GCN: s_and_b64 [[AND1:s\[[0-9]+:[0-9]+\]]], vcc, [[CMP1]]
	; GCN: v_cndmask_b32_e32 v[[RESULT1:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND2:s\[[0-9]+:[0-9]+\]]], [[AND1]], exec
	; GCN: v_cndmask_b32_e32 v[[RESULT0:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN-DAG: s_cselect_b32 [[RESULT0:s[0-9]+]]
	; GCN: buffer_store_dwordx2 v[[[RESULT0]]:[[RESULT1]]]			; GCN-DAG: s_cselect_b32 [[RESULT1:s[0-9]+]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT1:[0-9]+]], [[RESULT0]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT0:[0-9]+]], [[RESULT1]]
				; GCN: buffer_store_dwordx2 v[[[VRESULT0]]:[[VRESULT1]]]
	define amdgpu_kernel void @opt_select_i64_and_cmp_f32(i64 addrspace(1)* %out, float %a, float %b, float %c, i64 %x, i64 %y) #0 {			define amdgpu_kernel void @opt_select_i64_and_cmp_f32(i64 addrspace(1)* %out, float %a, float %b, float %c, i64 %x, i64 %y) #0 {
	%fcmp0 = fcmp one float %a, %b			%fcmp0 = fcmp one float %a, %b
	%fcmp1 = fcmp one float %a, %c			%fcmp1 = fcmp one float %a, %c
	%and = and i1 %fcmp0, %fcmp1			%and = and i1 %fcmp0, %fcmp1
	%select = select i1 %and, i64 %x, i64 %y			%select = select i1 %and, i64 %x, i64 %y
	store i64 %select, i64 addrspace(1)* %out			store i64 %select, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i32_or_cmp_i32:			; GCN-LABEL: {{^}}opt_select_i32_or_cmp_i32:
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN: s_or_b64 vcc, [[CMP1]], [[CMP2]]			; GCN: s_or_b64 [[OR:s\[[0-9]+:[0-9]+\]]], [[CMP1]], [[CMP2]]
	; GCN: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[OR]], exec
	; GCN-NOT: [[RESULT]]			; GCN-DAG: s_cselect_b32 [[RESULT:s[0-9]+]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN-DAG: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]
				; GCN: buffer_store_dword [[VRESULT]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @opt_select_i32_or_cmp_i32(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @opt_select_i32_or_cmp_i32(i32 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i32 %x, i32 %y) #0 {
	%icmp0 = icmp ne i32 %a, %b			%icmp0 = icmp ne i32 %a, %b
	%icmp1 = icmp ne i32 %a, %c			%icmp1 = icmp ne i32 %a, %c
	%or = or i1 %icmp0, %icmp1			%or = or i1 %icmp0, %icmp1
	%select = select i1 %or, i32 %x, i32 %y			%select = select i1 %or, i32 %x, i32 %y
	store i32 %select, i32 addrspace(1)* %out			store i32 %select, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i32_or_cmp_f32:			; GCN-LABEL: {{^}}opt_select_i32_or_cmp_f32:
	; GCN-DAG: v_cmp_lg_f32_e32 vcc			; GCN-DAG: v_cmp_lg_f32_e32 vcc
	; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]			; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]
	; GCN: s_or_b64 vcc, vcc, [[CMP1]]			; GCN: s_or_b64 [[OR:s\[[0-9]+:[0-9]+\]]], vcc, [[CMP1]]
	; GCN: v_cndmask_b32_e32 [[RESULT:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[OR]], exec
	; GCN-NOT: [[RESULT]]			; GCN-DAG: s_cselect_b32 [[RESULT:s[0-9]+]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN-DAG: v_mov_b32_e32 [[VRESULT:v[0-9]+]], [[RESULT]]
				; GCN: buffer_store_dword [[VRESULT]]
	define amdgpu_kernel void @opt_select_i32_or_cmp_f32(i32 addrspace(1)* %out, float %a, float %b, float %c, i32 %x, i32 %y) #0 {			define amdgpu_kernel void @opt_select_i32_or_cmp_f32(i32 addrspace(1)* %out, float %a, float %b, float %c, i32 %x, i32 %y) #0 {
	%fcmp0 = fcmp one float %a, %b			%fcmp0 = fcmp one float %a, %b
	%fcmp1 = fcmp one float %a, %c			%fcmp1 = fcmp one float %a, %c
	%or = or i1 %fcmp0, %fcmp1			%or = or i1 %fcmp0, %fcmp1
	%select = select i1 %or, i32 %x, i32 %y			%select = select i1 %or, i32 %x, i32 %y
	store i32 %select, i32 addrspace(1)* %out			store i32 %select, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i64_or_cmp_i32:			; GCN-LABEL: {{^}}opt_select_i64_or_cmp_i32:
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP1:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN-DAG: s_cmp_lg_u32			; GCN-DAG: s_cmp_lg_u32
	; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0			; GCN: s_cselect_b64 [[CMP2:s\[[0-9]+:[0-9]+\]]], -1, 0
	; GCN: s_or_b64 vcc, [[CMP1]], [[CMP2]]			; GCN: s_or_b64 [[OR:s\[[0-9]+:[0-9]+\]]], [[CMP1]], [[CMP2]]
	; GCN: v_cndmask_b32_e32 v[[RESULT1:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[OR]], exec
	; GCN: v_cndmask_b32_e32 v[[RESULT0:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN-DAG: s_cselect_b32 [[RESULT0:s[0-9]+]]
	; GCN: buffer_store_dwordx2 v[[[RESULT0]]:[[RESULT1]]]			; GCN-DAG: s_cselect_b32 [[RESULT1:s[0-9]+]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT1:[0-9]+]], [[RESULT0]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT0:[0-9]+]], [[RESULT1]]
				; GCN: buffer_store_dwordx2 v[[[VRESULT0]]:[[VRESULT1]]]
	define amdgpu_kernel void @opt_select_i64_or_cmp_i32(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i64 %x, i64 %y) #0 {			define amdgpu_kernel void @opt_select_i64_or_cmp_i32(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c, i64 %x, i64 %y) #0 {
	%icmp0 = icmp ne i32 %a, %b			%icmp0 = icmp ne i32 %a, %b
	%icmp1 = icmp ne i32 %a, %c			%icmp1 = icmp ne i32 %a, %c
	%or = or i1 %icmp0, %icmp1			%or = or i1 %icmp0, %icmp1
	%select = select i1 %or, i64 %x, i64 %y			%select = select i1 %or, i64 %x, i64 %y
	store i64 %select, i64 addrspace(1)* %out			store i64 %select, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}opt_select_i64_or_cmp_f32:			; GCN-LABEL: {{^}}opt_select_i64_or_cmp_f32:
	; GCN-DAG: v_cmp_lg_f32_e32 vcc,			; GCN-DAG: v_cmp_lg_f32_e32 vcc,
	; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]			; GCN-DAG: v_cmp_lg_f32_e64 [[CMP1:s\[[0-9]+:[0-9]+\]]]
	; GCN: s_or_b64 vcc, vcc, [[CMP1]]			; GCN: s_or_b64 [[OR:s\[[0-9]+:[0-9]+\]]], vcc, [[CMP1]]
	; GCN: v_cndmask_b32_e32 v[[RESULT1:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN: s_and_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[OR]], exec
	; GCN: v_cndmask_b32_e32 v[[RESULT0:[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}, vcc			; GCN-DAG: s_cselect_b32 [[RESULT0:s[0-9]+]]
	; GCN: buffer_store_dwordx2 v[[[RESULT0]]:[[RESULT1]]]			; GCN-DAG: s_cselect_b32 [[RESULT1:s[0-9]+]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT1:[0-9]+]], [[RESULT0]]
				; GCN-DAG: v_mov_b32_e32 v[[VRESULT0:[0-9]+]], [[RESULT1]]
				; GCN: buffer_store_dwordx2 v[[[VRESULT0]]:[[VRESULT1]]]
	define amdgpu_kernel void @opt_select_i64_or_cmp_f32(i64 addrspace(1)* %out, float %a, float %b, float %c, i64 %x, i64 %y) #0 {			define amdgpu_kernel void @opt_select_i64_or_cmp_f32(i64 addrspace(1)* %out, float %a, float %b, float %c, i64 %x, i64 %y) #0 {
	%fcmp0 = fcmp one float %a, %b			%fcmp0 = fcmp one float %a, %b
	%fcmp1 = fcmp one float %a, %c			%fcmp1 = fcmp one float %a, %c
	%or = or i1 %fcmp0, %fcmp1			%or = or i1 %fcmp0, %fcmp1
	%select = select i1 %or, i64 %x, i64 %y			%select = select i1 %or, i64 %x, i64 %y
	store i64 %select, i64 addrspace(1)* %out			store i64 %select, i64 addrspace(1)* %out
	ret void			ret void
	}			}
	Show All 25 Lines

llvm/test/CodeGen/AMDGPU/select-vectors.ll

Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_select_v16i8(<16 x i8> addrspace(1)* %out, <16 x i8> addrspace(1)* %a.ptr, <16 x i8> addrspace(1)* %b.ptr, i32 %c) #0 {
store <16 x i8> %select, <16 x i8> addrspace(1)* %out, align 4		store <16 x i8> %select, <16 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v4i8:		; GCN-LABEL: {{^}}select_v4i8:
; GFX89: s_cselect_b32		; GFX89: s_cselect_b32
; GFX89-NOT: s_cselect_b32		; GFX89-NOT: s_cselect_b32

; SI: v_cndmask_b32		; SI: s_cselect_b32
; SI-NOT: cndmask		; SI-NOT: cndmask
define amdgpu_kernel void @select_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, <4 x i8> %b, i8 %c) #0 {		define amdgpu_kernel void @select_v4i8(<4 x i8> addrspace(1)* %out, <4 x i8> %a, <4 x i8> %b, i8 %c) #0 {
%cmp = icmp eq i8 %c, 0		%cmp = icmp eq i8 %c, 0
%select = select i1 %cmp, <4 x i8> %a, <4 x i8> %b		%select = select i1 %cmp, <4 x i8> %a, <4 x i8> %b
store <4 x i8> %select, <4 x i8> addrspace(1)* %out, align 4		store <4 x i8> %select, <4 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v2i16:		; GCN-LABEL: {{^}}select_v2i16:
; GFX89: s_load_dwordx4		; GFX89: s_load_dwordx4
; GFX89: s_cselect_b32		; GFX89: s_cselect_b32
; GFX89-NOT: s_cselect_b32		; GFX89-NOT: s_cselect_b32

; SI: v_cndmask_b32_e32		; SI: s_cselect_b32
; SI-NOT: v_cndmask_b32e		; SI-NOT: v_cndmask_b32e
define amdgpu_kernel void @select_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x i16> %a, <2 x i16> %b		%select = select i1 %cmp, <2 x i16> %a, <2 x i16> %b
store <2 x i16> %select, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %select, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

Show All 11 Lines	define amdgpu_kernel void @v_select_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %a.ptr, <2 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_select_v3i16:		; GCN-LABEL: {{^}}v_select_v3i16:
; SI: v_cndmask_b32_e32		; SI: v_cndmask_b32_e32
; SI: cndmask		; SI: cndmask
; SI-NOT: cndmask		; SI-NOT: cndmask

; GFX89: v_cndmask_b32_e32		; VI: s_cselect_b32
; GFX89: cndmask		; VI: s_cselect_b32
; VI: cndmask		; GFX9: cndmask
; GFX89-NOT: cndmask		; GFX9: cndmask
define amdgpu_kernel void @v_select_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %a.ptr, <3 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {		define amdgpu_kernel void @v_select_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %a.ptr, <3 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {
%a = load <3 x i16>, <3 x i16> addrspace(1)* %a.ptr		%a = load <3 x i16>, <3 x i16> addrspace(1)* %a.ptr
%b = load <3 x i16>, <3 x i16> addrspace(1)* %b.ptr		%b = load <3 x i16>, <3 x i16> addrspace(1)* %b.ptr
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <3 x i16> %a, <3 x i16> %b		%select = select i1 %cmp, <3 x i16> %a, <3 x i16> %b
store <3 x i16> %select, <3 x i16> addrspace(1)* %out, align 4		store <3 x i16> %select, <3 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}
Show All 25 Lines	define amdgpu_kernel void @v_select_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %a.ptr, <8 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {
store <8 x i16> %select, <8 x i16> addrspace(1)* %out, align 4		store <8 x i16> %select, <8 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; FIXME: Expansion with bitwise operations may be better if doing a		; FIXME: Expansion with bitwise operations may be better if doing a
; vector select with SGPR inputs.		; vector select with SGPR inputs.

; GCN-LABEL: {{^}}s_select_v2i32:		; GCN-LABEL: {{^}}s_select_v2i32:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
define amdgpu_kernel void @s_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, <2 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, <2 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x i32> %a, <2 x i32> %b		%select = select i1 %cmp, <2 x i32> %a, <2 x i32> %b
store <2 x i32> %select, <2 x i32> addrspace(1)* %out, align 8		store <2 x i32> %select, <2 x i32> addrspace(1)* %out, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v4i32:		; GCN-LABEL: {{^}}s_select_v4i32:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @s_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, <4 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, <4 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x i32> %a, <4 x i32> %b		%select = select i1 %cmp, <4 x i32> %a, <4 x i32> %b
store <4 x i32> %select, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %select, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

Show All 11 Lines	bb:
%tmp2 = icmp ult i32 %cond, 32		%tmp2 = icmp ult i32 %cond, 32
%val = load <4 x i32>, <4 x i32> addrspace(1)* %in		%val = load <4 x i32>, <4 x i32> addrspace(1)* %in
%tmp3 = select i1 %tmp2, <4 x i32> %val, <4 x i32> zeroinitializer		%tmp3 = select i1 %tmp2, <4 x i32> %val, <4 x i32> zeroinitializer
store <4 x i32> %tmp3, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %tmp3, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v8i32:		; GCN-LABEL: {{^}}select_v8i32:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
define amdgpu_kernel void @select_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x i32> %a, <8 x i32> %b		%select = select i1 %cmp, <8 x i32> %a, <8 x i32> %b
store <8 x i32> %select, <8 x i32> addrspace(1)* %out, align 16		store <8 x i32> %select, <8 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v2f32:		; GCN-LABEL: {{^}}s_select_v2f32:
; GCN-DAG: s_load_dwordx4 s[[[ALO:[0-9]+]]:[[BHI:[0-9]+]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}

; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[BHI]]
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[ALO]]
; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}
		; GCN-DAG: s_cselect_b32
; GCN-DAG: v_cndmask_b32_e32		; GCN-DAG: s_cselect_b32
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e32
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x float> %a, <2 x float> %b		%select = select i1 %cmp, <2 x float> %a, <2 x float> %b
store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16		store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v3f32:		; GCN-LABEL: {{^}}s_select_v3f32:
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32

; GCN: buffer_store_dwordx		; GCN: buffer_store_dwordx
define amdgpu_kernel void @s_select_v3f32(<3 x float> addrspace(1)* %out, <3 x float> %a, <3 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v3f32(<3 x float> addrspace(1)* %out, <3 x float> %a, <3 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <3 x float> %a, <3 x float> %b		%select = select i1 %cmp, <3 x float> %a, <3 x float> %b
store <3 x float> %select, <3 x float> addrspace(1)* %out, align 16		store <3 x float> %select, <3 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v4f32:		; GCN-LABEL: {{^}}s_select_v4f32:
; GCN: s_load_dwordx8		; GCN: s_load_dwordx8
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32

; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @s_select_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x float> %a, <4 x float> %b		%select = select i1 %cmp, <4 x float> %a, <4 x float> %b
store <4 x float> %select, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %select, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}
Show All 14 Lines	bb:
%tmp3 = select i1 %tmp2, <4 x float> %val, <4 x float> zeroinitializer		%tmp3 = select i1 %tmp2, <4 x float> %val, <4 x float> zeroinitializer
store <4 x float> %tmp3, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %tmp3, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v5f32:		; GCN-LABEL: {{^}}s_select_v5f32:
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32

; GCN: buffer_store_dwordx		; GCN: buffer_store_dwordx
define amdgpu_kernel void @s_select_v5f32(<5 x float> addrspace(1)* %out, <5 x float> %a, <5 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v5f32(<5 x float> addrspace(1)* %out, <5 x float> %a, <5 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <5 x float> %a, <5 x float> %b		%select = select i1 %cmp, <5 x float> %a, <5 x float> %b
store <5 x float> %select, <5 x float> addrspace(1)* %out, align 16		store <5 x float> %select, <5 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}
Show All 10 Lines
define amdgpu_kernel void @select_v8f32(<8 x float> addrspace(1)* %out, <8 x float> %a, <8 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8f32(<8 x float> addrspace(1)* %out, <8 x float> %a, <8 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x float> %a, <8 x float> %b		%select = select i1 %cmp, <8 x float> %a, <8 x float> %b
store <8 x float> %select, <8 x float> addrspace(1)* %out, align 16		store <8 x float> %select, <8 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v2f64:		; GCN-LABEL: {{^}}select_v2f64:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
define amdgpu_kernel void @select_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x double> %a, <2 x double> %b		%select = select i1 %cmp, <2 x double> %a, <2 x double> %b
store <2 x double> %select, <2 x double> addrspace(1)* %out, align 16		store <2 x double> %select, <2 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v4f64:		; GCN-LABEL: {{^}}select_v4f64:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
define amdgpu_kernel void @select_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x double> %a, <4 x double> %b		%select = select i1 %cmp, <4 x double> %a, <4 x double> %b
store <4 x double> %select, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %select, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v8f64:		; GCN-LABEL: {{^}}select_v8f64:
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
; GCN: v_cndmask_b32_e32		; GCN: s_cselect_b32
define amdgpu_kernel void @select_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x double> %a, <8 x double> %b		%select = select i1 %cmp, <8 x double> %a, <8 x double> %b
store <8 x double> %select, <8 x double> addrspace(1)* %out, align 16		store <8 x double> %select, <8 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_select_v2f16:		; GCN-LABEL: {{^}}v_select_v2f16:
▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/select64.ll

	; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck -check-prefixes=SI,GCN %s			; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck -check-prefix=GCN %s
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefixes=VI,GCN %s			; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: {{^}}select0:			; GCN-LABEL: {{^}}select0:
	; i64 select should be split into two i32 selects, and we shouldn't need			; i64 select should be split into two i32 selects, and we shouldn't need
	; to use a shfit to extract the hi dword of the input.			; to use a shfit to extract the hi dword of the input.
	; GCN-NOT: s_lshr_b64			; GCN-NOT: s_lshr_b64
	; GCN: v_cndmask			; GCN: s_cselect_b32
	; GCN: v_cndmask			; GCN: s_cselect_b32
	define amdgpu_kernel void @select0(i64 addrspace(1)* %out, i32 %cond, i64 %in) {			define amdgpu_kernel void @select0(i64 addrspace(1)* %out, i32 %cond, i64 %in) {
	entry:			entry:
	%0 = icmp ugt i32 %cond, 5			%0 = icmp ugt i32 %cond, 5
	%1 = select i1 %0, i64 0, i64 %in			%1 = select i1 %0, i64 0, i64 %in
	store i64 %1, i64 addrspace(1)* %out			store i64 %1, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_trunc_i64:			; GCN-LABEL: {{^}}select_trunc_i64:
	; VI: s_cselect_b32			; GCN: s_cselect_b32
	; VI-NOT: s_cselect_b32			; GCN-NOT: s_cselect_b32
	; SI: v_cndmask_b32
	; SI-NOT: v_cndmask_b32
	define amdgpu_kernel void @select_trunc_i64(i32 addrspace(1)* %out, i32 %cond, i64 %in) nounwind {			define amdgpu_kernel void @select_trunc_i64(i32 addrspace(1)* %out, i32 %cond, i64 %in) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%sel = select i1 %cmp, i64 0, i64 %in			%sel = select i1 %cmp, i64 0, i64 %in
	%trunc = trunc i64 %sel to i32			%trunc = trunc i64 %sel to i32
	store i32 %trunc, i32 addrspace(1)* %out, align 4			store i32 %trunc, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}select_trunc_i64_2:			; GCN-LABEL: {{^}}select_trunc_i64_2:
	; VI: s_cselect_b32			; GCN: s_cselect_b32
	; VI-NOT: s_cselect_b32			; GCN-NOT: s_cselect_b32
	; SI: v_cndmask_b32
	; SI-NOT: v_cndmask_b32
	define amdgpu_kernel void @select_trunc_i64_2(i32 addrspace(1)* %out, i32 %cond, i64 %a, i64 %b) nounwind {			define amdgpu_kernel void @select_trunc_i64_2(i32 addrspace(1)* %out, i32 %cond, i64 %a, i64 %b) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%sel = select i1 %cmp, i64 %a, i64 %b			%sel = select i1 %cmp, i64 %a, i64 %b
	%trunc = trunc i64 %sel to i32			%trunc = trunc i64 %sel to i32
	store i32 %trunc, i32 addrspace(1)* %out, align 4			store i32 %trunc, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_select_trunc_i64_2:			; GCN-LABEL: {{^}}v_select_trunc_i64_2:
	; VI: s_cselect_b32			; GCN: s_cselect_b32
	; VI-NOT: s_cselect_b32			; GCN-NOT: s_cselect_b32
	; SI: v_cndmask_b32
	; SI-NOT: v_cndmask_b32
	define amdgpu_kernel void @v_select_trunc_i64_2(i32 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {			define amdgpu_kernel void @v_select_trunc_i64_2(i32 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%a = load i64, i64 addrspace(1)* %aptr, align 8			%a = load i64, i64 addrspace(1)* %aptr, align 8
	%b = load i64, i64 addrspace(1)* %bptr, align 8			%b = load i64, i64 addrspace(1)* %bptr, align 8
	%sel = select i1 %cmp, i64 %a, i64 %b			%sel = select i1 %cmp, i64 %a, i64 %b
	%trunc = trunc i64 %sel to i32			%trunc = trunc i64 %sel to i32
	store i32 %trunc, i32 addrspace(1)* %out, align 4			store i32 %trunc, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_select_i64_split_imm:			; GCN-LABEL: {{^}}v_select_i64_split_imm:
	; GCN-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 0, {{v[0-9]+}}			; GCN-DAG: s_cselect_b32
	; GCN-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 63, {{v[0-9]+}}			; GCN-DAG: s_cselect_b32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_select_i64_split_imm(i64 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {			define amdgpu_kernel void @v_select_i64_split_imm(i64 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {
	%cmp = icmp ugt i32 %cond, 5			%cmp = icmp ugt i32 %cond, 5
	%a = load i64, i64 addrspace(1)* %aptr, align 8			%a = load i64, i64 addrspace(1)* %aptr, align 8
	%b = load i64, i64 addrspace(1)* %bptr, align 8			%b = load i64, i64 addrspace(1)* %bptr, align 8
	%sel = select i1 %cmp, i64 %a, i64 270582939648 ; 63 << 32			%sel = select i1 %cmp, i64 %a, i64 270582939648 ; 63 << 32
	store i64 %sel, i64 addrspace(1)* %out, align 8			store i64 %sel, i64 addrspace(1)* %out, align 8
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/selectcc.ll

	; RUN: llc -verify-machineinstrs -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s
	; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,SI -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,SI -check-prefix=FUNC %s
	; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefixes=GCN,VI -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefixes=GCN,VI -check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}selectcc_i64:			; FUNC-LABEL: {{^}}selectcc_i64:
	; EG: XOR_INT			; EG: XOR_INT
	; EG: XOR_INT			; EG: XOR_INT
	; EG: OR_INT			; EG: OR_INT
	; EG: CNDE_INT			; EG: CNDE_INT
	; EG: CNDE_INT			; EG: CNDE_INT
	; SI: v_cmp_eq_u64			; SI: v_cmp_eq_u64
	; VI: s_cmp_eq_u64			; VI: s_cmp_eq_u64
	; GCN: v_cndmask			; GCN: s_cselect_b32
	; GCN: v_cndmask
	define amdgpu_kernel void @selectcc_i64(i64 addrspace(1) * %out, i64 %lhs, i64 %rhs, i64 %true, i64 %false) {			define amdgpu_kernel void @selectcc_i64(i64 addrspace(1) * %out, i64 %lhs, i64 %rhs, i64 %true, i64 %false) {
	entry:			entry:
	%0 = icmp eq i64 %lhs, %rhs			%0 = icmp eq i64 %lhs, %rhs
	%1 = select i1 %0, i64 %true, i64 %false			%1 = select i1 %0, i64 %true, i64 %false
	store i64 %1, i64 addrspace(1)* %out			store i64 %1, i64 addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/setcc64.ll

	Show First 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	entry:			entry:
	%tmp0 = icmp sle i64 %a, %b			%tmp0 = icmp sle i64 %a, %b
	%tmp1 = sext i1 %tmp0 to i32			%tmp1 = sext i1 %tmp0 to i32
	store i32 %tmp1, i32 addrspace(1)* %out			store i32 %tmp1, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}i128_sle:			; GCN-LABEL: {{^}}i128_sle:
	; GCN: v_cmp_le_u64
	; GCN: v_cmp_le_i64			; GCN: v_cmp_le_i64
				; CGV: v_cndmask
	; SI: v_cmp_eq_u64			; SI: v_cmp_eq_u64
	; VI: s_cmp_eq_u64			; VI: s_cmp_eq_u64
	define amdgpu_kernel void @i128_sle(i32 addrspace(1)* %out, i128 %a, i128 %b) #0 {			define amdgpu_kernel void @i128_sle(i32 addrspace(1)* %out, i128 %a, i128 %b) #0 {
	entry:			entry:
	%tmp0 = icmp sle i128 %a, %b			%tmp0 = icmp sle i128 %a, %b
	%tmp1 = sext i1 %tmp0 to i32			%tmp1 = sext i1 %tmp0 to i32
	store i32 %tmp1, i32 addrspace(1)* %out			store i32 %tmp1, i32 addrspace(1)* %out
	ret void			ret void
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/shift-i128.ll

	Show First 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%shl = ashr i128 33, %rhs			%shl = ashr i128 33, %rhs
	ret i128 %shl			ret i128 %shl
	}			}

	define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {			define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {
	; GCN-LABEL: s_shl_i128_ss:			; GCN-LABEL: s_shl_i128_ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[4:11], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx8 s[0:7], s[4:5], 0x0
	; GCN-NEXT: v_mov_b32_e32 v4, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v5, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_sub_i32 s9, 64, s8			; GCN-NEXT: s_sub_i32 s5, s4, 64
	; GCN-NEXT: s_sub_i32 s2, s8, 64			; GCN-NEXT: s_sub_i32 s12, 64, s4
	; GCN-NEXT: s_lshl_b64 s[0:1], s[6:7], s8			; GCN-NEXT: s_lshl_b64 s[6:7], s[2:3], s4
	; GCN-NEXT: s_lshr_b64 s[10:11], s[4:5], s9			; GCN-NEXT: s_lshl_b64 s[8:9], s[0:1], s4
	; GCN-NEXT: s_lshl_b64 s[2:3], s[4:5], s2			; GCN-NEXT: s_lshl_b64 s[10:11], s[0:1], s5
	; GCN-NEXT: s_or_b64 s[10:11], s[0:1], s[10:11]			; GCN-NEXT: s_lshr_b64 s[0:1], s[0:1], s12
	; GCN-NEXT: s_cmp_lt_u32 s8, 64			; GCN-NEXT: s_or_b64 s[0:1], s[6:7], s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v0, s3			; GCN-NEXT: s_cmp_lt_u32 s4, 64
	; GCN-NEXT: v_mov_b32_e32 v1, s11			; GCN-NEXT: s_cselect_b32 s0, s0, s10
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s1, s1, s11
	; GCN-NEXT: s_cmp_eq_u32 s8, 0			; GCN-NEXT: s_cselect_b32 s5, s9, 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: s_cselect_b32 s6, s8, 0
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: s_cmp_eq_u32 s4, 0
	; GCN-NEXT: s_cselect_b64 s[0:1], -1, 0			; GCN-NEXT: s_cselect_b32 s1, s3, s1
	; GCN-NEXT: v_cndmask_b32_e64 v3, v0, v1, s[0:1]			; GCN-NEXT: s_cselect_b32 s0, s2, s0
	; GCN-NEXT: v_mov_b32_e32 v0, s2			; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: v_mov_b32_e32 v1, s10			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s6			; GCN-NEXT: v_mov_b32_e32 v3, s1
	; GCN-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]
	; GCN-NEXT: s_lshl_b64 s[0:1], s[4:5], s8
	; GCN-NEXT: v_mov_b32_e32 v0, s1
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = shl i128 %lhs, %rhs			%shift = shl i128 %lhs, %rhs
	store i128 %shift, i128 addrspace(1)* null			store i128 %shift, i128 addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_lshr_i128_ss(i128 %lhs, i128 %rhs) {			define amdgpu_kernel void @s_lshr_i128_ss(i128 %lhs, i128 %rhs) {
	; GCN-LABEL: s_lshr_i128_ss:			; GCN-LABEL: s_lshr_i128_ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[4:11], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx8 s[0:7], s[4:5], 0x0
	; GCN-NEXT: v_mov_b32_e32 v4, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v5, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_sub_i32 s9, 64, s8			; GCN-NEXT: s_sub_i32 s5, s4, 64
	; GCN-NEXT: s_sub_i32 s2, s8, 64			; GCN-NEXT: s_sub_i32 s12, 64, s4
	; GCN-NEXT: s_lshr_b64 s[0:1], s[4:5], s8			; GCN-NEXT: s_lshr_b64 s[6:7], s[0:1], s4
	; GCN-NEXT: s_lshl_b64 s[10:11], s[6:7], s9			; GCN-NEXT: s_lshr_b64 s[8:9], s[2:3], s4
	; GCN-NEXT: s_lshr_b64 s[2:3], s[6:7], s2			; GCN-NEXT: s_lshr_b64 s[10:11], s[2:3], s5
	; GCN-NEXT: s_or_b64 s[10:11], s[0:1], s[10:11]			; GCN-NEXT: s_lshl_b64 s[2:3], s[2:3], s12
	; GCN-NEXT: s_cmp_lt_u32 s8, 64			; GCN-NEXT: s_or_b64 s[2:3], s[6:7], s[2:3]
	; GCN-NEXT: v_mov_b32_e32 v0, s3			; GCN-NEXT: s_cmp_lt_u32 s4, 64
	; GCN-NEXT: v_mov_b32_e32 v1, s11			; GCN-NEXT: s_cselect_b32 s2, s2, s10
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s3, s3, s11
	; GCN-NEXT: s_cmp_eq_u32 s8, 0			; GCN-NEXT: s_cselect_b32 s5, s9, 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: s_cselect_b32 s6, s8, 0
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cmp_eq_u32 s4, 0
	; GCN-NEXT: s_cselect_b64 s[0:1], -1, 0			; GCN-NEXT: s_cselect_b32 s1, s1, s3
	; GCN-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]			; GCN-NEXT: s_cselect_b32 s0, s0, s2
	; GCN-NEXT: v_mov_b32_e32 v0, s2			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v2, s10			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GCN-NEXT: s_lshr_b64 s[0:1], s[6:7], s8
	; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = lshr i128 %lhs, %rhs			%shift = lshr i128 %lhs, %rhs
	store i128 %shift, i128 addrspace(1)* null			store i128 %shift, i128 addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_ashr_i128_ss(i128 %lhs, i128 %rhs) {			define amdgpu_kernel void @s_ashr_i128_ss(i128 %lhs, i128 %rhs) {
	; GCN-LABEL: s_ashr_i128_ss:			; GCN-LABEL: s_ashr_i128_ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[4:11], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx8 s[0:7], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s2, s7, 31
	; GCN-NEXT: s_ashr_i64 s[0:1], s[6:7], s8
	; GCN-NEXT: s_cmp_lt_u32 s8, 64
	; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GCN-NEXT: v_mov_b32_e32 v1, s0
	; GCN-NEXT: s_sub_i32 s0, s8, 64
	; GCN-NEXT: s_ashr_i64 s[2:3], s[6:7], s0
	; GCN-NEXT: s_sub_i32 s0, 64, s8
	; GCN-NEXT: s_lshl_b64 s[0:1], s[6:7], s0
	; GCN-NEXT: s_lshr_b64 s[6:7], s[4:5], s8
	; GCN-NEXT: s_or_b64 s[6:7], s[6:7], s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s3
	; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_cmp_eq_u32 s8, 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GCN-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: v_mov_b32_e32 v4, s6
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v6, s4
	; GCN-NEXT: v_mov_b32_e32 v4, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v5, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_sub_i32 s5, 64, s4
				; GCN-NEXT: s_lshr_b64 s[6:7], s[0:1], s4
				; GCN-NEXT: s_sub_i32 s10, s4, 64
				; GCN-NEXT: s_lshl_b64 s[8:9], s[2:3], s5
				; GCN-NEXT: s_ashr_i32 s12, s3, 31
				; GCN-NEXT: s_ashr_i64 s[10:11], s[2:3], s10
				; GCN-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]
				; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], s4
				; GCN-NEXT: s_cmp_lt_u32 s4, 64
				; GCN-NEXT: s_cselect_b32 s3, s3, s12
				; GCN-NEXT: s_cselect_b32 s2, s2, s12
				; GCN-NEXT: s_cselect_b32 s5, s6, s10
				; GCN-NEXT: s_cselect_b32 s6, s7, s11
				; GCN-NEXT: s_cmp_eq_u32 s4, 0
				; GCN-NEXT: s_cselect_b32 s1, s1, s6
				; GCN-NEXT: s_cselect_b32 s0, s0, s5
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: v_mov_b32_e32 v1, s1
				; GCN-NEXT: v_mov_b32_e32 v2, s2
				; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = ashr i128 %lhs, %rhs			%shift = ashr i128 %lhs, %rhs
	store i128 %shift, i128 addrspace(1)* null			store i128 %shift, i128 addrspace(1)* null
	ret void			ret void
	}			}

	define <2 x i128> @v_shl_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {			define <2 x i128> @v_shl_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
	▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%shl = ashr <2 x i128> %lhs, %rhs			%shl = ashr <2 x i128> %lhs, %rhs
	ret <2 x i128> %shl			ret <2 x i128> %shl
	}			}

	define amdgpu_kernel void @s_shl_v2i128ss(<2 x i128> %lhs, <2 x i128> %rhs) {			define amdgpu_kernel void @s_shl_v2i128ss(<2 x i128> %lhs, <2 x i128> %rhs) {
	; GCN-LABEL: s_shl_v2i128ss:			; GCN-LABEL: s_shl_v2i128ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx16 s[4:19], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx16 s[0:15], s[4:5], 0x0
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v6, 16
	; GCN-NEXT: v_mov_b32_e32 v8, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v7, 0
	; GCN-NEXT: v_mov_b32_e32 v9, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[12:13], 64			; GCN-NEXT: v_cmp_lt_u64_e64 s[16:17], s[8:9], 64
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[14:15], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
	; GCN-NEXT: s_sub_i32 s22, 64, s12			; GCN-NEXT: s_sub_i32 s22, 64, s8
	; GCN-NEXT: s_sub_i32 s20, s12, 64			; GCN-NEXT: s_sub_i32 s20, s8, 64
	; GCN-NEXT: s_lshr_b64 s[22:23], s[4:5], s22			; GCN-NEXT: s_lshr_b64 s[22:23], s[0:1], s22
	; GCN-NEXT: s_lshl_b64 s[24:25], s[6:7], s12			; GCN-NEXT: s_and_b64 s[16:17], s[18:19], s[16:17]
	; GCN-NEXT: s_lshl_b64 s[20:21], s[4:5], s20			; GCN-NEXT: s_lshl_b64 s[18:19], s[2:3], s8
	; GCN-NEXT: s_or_b64 s[22:23], s[24:25], s[22:23]			; GCN-NEXT: s_lshl_b64 s[20:21], s[0:1], s20
	; GCN-NEXT: s_and_b64 vcc, s[2:3], s[0:1]			; GCN-NEXT: s_or_b64 s[18:19], s[18:19], s[22:23]
	; GCN-NEXT: s_or_b64 s[0:1], s[12:13], s[14:15]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s21			; GCN-NEXT: s_cselect_b32 s19, s19, s21
	; GCN-NEXT: v_mov_b32_e32 v1, s23			; GCN-NEXT: s_or_b64 s[10:11], s[8:9], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[0:1], s[0:1], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[10:11], s[10:11], 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: s_and_b64 s[22:23], s[10:11], exec
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: s_cselect_b32 s9, s3, s19
	; GCN-NEXT: v_cndmask_b32_e64 v3, v0, v1, s[0:1]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s20			; GCN-NEXT: s_cselect_b32 s3, s18, s20
	; GCN-NEXT: v_mov_b32_e32 v1, s22			; GCN-NEXT: s_and_b64 s[10:11], s[10:11], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: v_cmp_lt_u64_e64 s[10:11], s[12:13], 64
	; GCN-NEXT: v_mov_b32_e32 v1, s6			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[14:15], 0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]			; GCN-NEXT: s_cselect_b32 s22, s2, s3
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[16:17], 64			; GCN-NEXT: s_and_b64 s[2:3], s[18:19], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[18:19], 0			; GCN-NEXT: s_sub_i32 s18, 64, s12
	; GCN-NEXT: s_sub_i32 s13, 64, s16			; GCN-NEXT: s_sub_i32 s10, s12, 64
	; GCN-NEXT: s_sub_i32 s6, s16, 64			; GCN-NEXT: s_lshr_b64 s[18:19], s[4:5], s18
	; GCN-NEXT: s_lshr_b64 s[14:15], s[8:9], s13			; GCN-NEXT: s_lshl_b64 s[20:21], s[6:7], s12
	; GCN-NEXT: s_lshl_b64 s[20:21], s[10:11], s16			; GCN-NEXT: s_lshl_b64 s[10:11], s[4:5], s10
	; GCN-NEXT: s_lshl_b64 s[6:7], s[8:9], s6			; GCN-NEXT: s_or_b64 s[18:19], s[20:21], s[18:19]
	; GCN-NEXT: s_or_b64 s[14:15], s[20:21], s[14:15]			; GCN-NEXT: s_and_b64 s[20:21], s[2:3], exec
	; GCN-NEXT: s_and_b64 s[0:1], s[2:3], s[0:1]			; GCN-NEXT: s_cselect_b32 s11, s19, s11
	; GCN-NEXT: s_or_b64 s[2:3], s[16:17], s[18:19]			; GCN-NEXT: s_or_b64 s[14:15], s[12:13], s[14:15]
				; GCN-NEXT: v_cmp_eq_u64_e64 s[14:15], s[14:15], 0
				; GCN-NEXT: s_and_b64 s[20:21], s[14:15], exec
				; GCN-NEXT: s_cselect_b32 s13, s7, s11
				; GCN-NEXT: s_and_b64 s[20:21], s[2:3], exec
				; GCN-NEXT: s_cselect_b32 s7, s18, s10
				; GCN-NEXT: s_and_b64 s[10:11], s[14:15], exec
				; GCN-NEXT: s_cselect_b32 s10, s6, s7
				; GCN-NEXT: s_lshl_b64 s[0:1], s[0:1], s8
				; GCN-NEXT: s_and_b64 s[6:7], s[16:17], exec
				; GCN-NEXT: s_cselect_b32 s6, s1, 0
				; GCN-NEXT: s_cselect_b32 s7, s0, 0
				; GCN-NEXT: s_lshl_b64 s[0:1], s[4:5], s12
				; GCN-NEXT: s_and_b64 s[2:3], s[2:3], exec
				; GCN-NEXT: s_cselect_b32 s1, s1, 0
				; GCN-NEXT: s_cselect_b32 s0, s0, 0
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: v_mov_b32_e32 v1, s1
				; GCN-NEXT: v_mov_b32_e32 v2, s10
				; GCN-NEXT: v_mov_b32_e32 v3, s13
				; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
				; GCN-NEXT: s_nop 0
	; GCN-NEXT: v_mov_b32_e32 v0, s7			; GCN-NEXT: v_mov_b32_e32 v0, s7
	; GCN-NEXT: v_mov_b32_e32 v1, s15			; GCN-NEXT: v_mov_b32_e32 v1, s6
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[2:3], 0			; GCN-NEXT: v_mov_b32_e32 v2, s22
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v1, s[0:1]			; GCN-NEXT: v_mov_b32_e32 v3, s9
	; GCN-NEXT: v_mov_b32_e32 v1, s11			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: v_cndmask_b32_e64 v7, v0, v1, s[2:3]
	; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: v_mov_b32_e32 v1, s14
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v1, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v1, s10
	; GCN-NEXT: v_cndmask_b32_e64 v6, v0, v1, s[2:3]
	; GCN-NEXT: s_lshl_b64 s[2:3], s[4:5], s12
	; GCN-NEXT: v_mov_b32_e32 v0, s3
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: s_lshl_b64 s[2:3], s[8:9], s16
	; GCN-NEXT: v_mov_b32_e32 v4, s3
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, v4, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v4, s2
	; GCN-NEXT: v_cndmask_b32_e64 v4, 0, v4, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = shl <2 x i128> %lhs, %rhs			%shift = shl <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_lshr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {			define amdgpu_kernel void @s_lshr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {
	; GCN-LABEL: s_lshr_v2i128_ss:			; GCN-LABEL: s_lshr_v2i128_ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx16 s[4:19], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx16 s[0:15], s[4:5], 0x0
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v6, 16
	; GCN-NEXT: v_mov_b32_e32 v8, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v7, 0
	; GCN-NEXT: v_mov_b32_e32 v9, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[12:13], 64			; GCN-NEXT: v_cmp_lt_u64_e64 s[16:17], s[8:9], 64
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[14:15], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
	; GCN-NEXT: s_sub_i32 s22, 64, s12			; GCN-NEXT: s_sub_i32 s22, 64, s8
	; GCN-NEXT: s_sub_i32 s20, s12, 64			; GCN-NEXT: s_sub_i32 s20, s8, 64
	; GCN-NEXT: s_lshl_b64 s[22:23], s[6:7], s22			; GCN-NEXT: s_lshl_b64 s[22:23], s[2:3], s22
	; GCN-NEXT: s_lshr_b64 s[24:25], s[4:5], s12			; GCN-NEXT: s_and_b64 s[16:17], s[18:19], s[16:17]
	; GCN-NEXT: s_lshr_b64 s[20:21], s[6:7], s20			; GCN-NEXT: s_lshr_b64 s[18:19], s[0:1], s8
	; GCN-NEXT: s_or_b64 s[22:23], s[24:25], s[22:23]			; GCN-NEXT: s_lshr_b64 s[20:21], s[2:3], s20
	; GCN-NEXT: s_and_b64 vcc, s[2:3], s[0:1]			; GCN-NEXT: s_or_b64 s[18:19], s[18:19], s[22:23]
	; GCN-NEXT: s_or_b64 s[0:1], s[12:13], s[14:15]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s21			; GCN-NEXT: s_cselect_b32 s19, s19, s21
	; GCN-NEXT: v_mov_b32_e32 v1, s23			; GCN-NEXT: s_or_b64 s[10:11], s[8:9], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[0:1], s[0:1], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[10:11], s[10:11], 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: s_and_b64 s[22:23], s[10:11], exec
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cselect_b32 s9, s1, s19
	; GCN-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s20			; GCN-NEXT: s_cselect_b32 s1, s18, s20
	; GCN-NEXT: v_mov_b32_e32 v2, s22			; GCN-NEXT: s_and_b64 s[10:11], s[10:11], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cmp_lt_u64_e64 s[10:11], s[12:13], 64
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[14:15], 0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: s_cselect_b32 s22, s0, s1
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[16:17], 64			; GCN-NEXT: s_and_b64 s[0:1], s[18:19], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[18:19], 0			; GCN-NEXT: s_sub_i32 s18, 64, s12
	; GCN-NEXT: s_sub_i32 s13, 64, s16			; GCN-NEXT: s_sub_i32 s10, s12, 64
	; GCN-NEXT: s_sub_i32 s4, s16, 64			; GCN-NEXT: s_lshl_b64 s[18:19], s[6:7], s18
	; GCN-NEXT: s_lshl_b64 s[14:15], s[10:11], s13			; GCN-NEXT: s_lshr_b64 s[20:21], s[4:5], s12
	; GCN-NEXT: s_lshr_b64 s[20:21], s[8:9], s16			; GCN-NEXT: s_lshr_b64 s[10:11], s[6:7], s10
	; GCN-NEXT: s_lshr_b64 s[4:5], s[10:11], s4			; GCN-NEXT: s_or_b64 s[18:19], s[20:21], s[18:19]
	; GCN-NEXT: s_or_b64 s[14:15], s[20:21], s[14:15]			; GCN-NEXT: s_and_b64 s[20:21], s[0:1], exec
	; GCN-NEXT: s_and_b64 s[0:1], s[2:3], s[0:1]			; GCN-NEXT: s_cselect_b32 s11, s19, s11
	; GCN-NEXT: s_or_b64 s[2:3], s[16:17], s[18:19]			; GCN-NEXT: s_or_b64 s[14:15], s[12:13], s[14:15]
	; GCN-NEXT: v_mov_b32_e32 v2, s5			; GCN-NEXT: v_cmp_eq_u64_e64 s[14:15], s[14:15], 0
	; GCN-NEXT: v_mov_b32_e32 v3, s15			; GCN-NEXT: s_and_b64 s[20:21], s[14:15], exec
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[2:3], 0			; GCN-NEXT: s_cselect_b32 s13, s5, s11
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GCN-NEXT: s_and_b64 s[20:21], s[0:1], exec
	; GCN-NEXT: v_mov_b32_e32 v3, s9			; GCN-NEXT: s_cselect_b32 s5, s18, s10
	; GCN-NEXT: v_cndmask_b32_e64 v5, v2, v3, s[2:3]			; GCN-NEXT: s_and_b64 s[10:11], s[14:15], exec
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: s_cselect_b32 s10, s4, s5
	; GCN-NEXT: v_mov_b32_e32 v3, s14			; GCN-NEXT: s_lshr_b64 s[2:3], s[2:3], s8
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GCN-NEXT: s_and_b64 s[4:5], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v3, s8			; GCN-NEXT: s_cselect_b32 s4, s3, 0
	; GCN-NEXT: v_cndmask_b32_e64 v4, v2, v3, s[2:3]			; GCN-NEXT: s_cselect_b32 s5, s2, 0
	; GCN-NEXT: s_lshr_b64 s[2:3], s[6:7], s12			; GCN-NEXT: s_lshr_b64 s[2:3], s[6:7], s12
	; GCN-NEXT: v_mov_b32_e32 v2, s3			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GCN-NEXT: s_cselect_b32 s0, s3, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s2			; GCN-NEXT: s_cselect_b32 s1, s2, 0
	; GCN-NEXT: s_lshr_b64 s[2:3], s[10:11], s16			; GCN-NEXT: v_mov_b32_e32 v0, s10
	; GCN-NEXT: v_mov_b32_e32 v6, s3			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: v_cndmask_b32_e64 v7, 0, v6, s[0:1]			; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: v_mov_b32_e32 v6, s2			; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, v6, s[0:1]			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GCN-NEXT: s_nop 0
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: v_mov_b32_e32 v0, s22
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GCN-NEXT: v_mov_b32_e32 v1, s9
				; GCN-NEXT: v_mov_b32_e32 v2, s5
				; GCN-NEXT: v_mov_b32_e32 v3, s4
				; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = lshr <2 x i128> %lhs, %rhs			%shift = lshr <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_ashr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {			define amdgpu_kernel void @s_ashr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {
	; GCN-LABEL: s_ashr_v2i128_ss:			; GCN-LABEL: s_ashr_v2i128_ss:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx16 s[4:19], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx16 s[0:15], s[4:5], 0x0
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v6, 16
	; GCN-NEXT: v_mov_b32_e32 v8, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v7, 0
	; GCN-NEXT: v_mov_b32_e32 v9, 0			; GCN-NEXT: v_mov_b32_e32 v5, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[12:13], 64			; GCN-NEXT: v_cmp_lt_u64_e64 s[16:17], s[8:9], 64
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[14:15], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
	; GCN-NEXT: s_sub_i32 s22, 64, s12			; GCN-NEXT: s_sub_i32 s22, 64, s8
	; GCN-NEXT: s_sub_i32 s20, s12, 64			; GCN-NEXT: s_sub_i32 s20, s8, 64
	; GCN-NEXT: s_lshl_b64 s[22:23], s[6:7], s22			; GCN-NEXT: s_lshl_b64 s[22:23], s[2:3], s22
	; GCN-NEXT: s_lshr_b64 s[24:25], s[4:5], s12			; GCN-NEXT: s_and_b64 s[16:17], s[18:19], s[16:17]
	; GCN-NEXT: s_ashr_i64 s[20:21], s[6:7], s20			; GCN-NEXT: s_lshr_b64 s[18:19], s[0:1], s8
	; GCN-NEXT: s_or_b64 s[22:23], s[24:25], s[22:23]			; GCN-NEXT: s_ashr_i64 s[20:21], s[2:3], s20
	; GCN-NEXT: s_and_b64 vcc, s[2:3], s[0:1]			; GCN-NEXT: s_or_b64 s[18:19], s[18:19], s[22:23]
	; GCN-NEXT: s_or_b64 s[0:1], s[12:13], s[14:15]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s21			; GCN-NEXT: s_cselect_b32 s19, s19, s21
	; GCN-NEXT: v_mov_b32_e32 v1, s23			; GCN-NEXT: s_or_b64 s[10:11], s[8:9], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[0:1], s[0:1], 0			; GCN-NEXT: v_cmp_eq_u64_e64 s[10:11], s[10:11], 0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GCN-NEXT: s_and_b64 s[22:23], s[10:11], exec
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cselect_b32 s9, s1, s19
	; GCN-NEXT: v_cndmask_b32_e64 v1, v0, v1, s[0:1]			; GCN-NEXT: s_and_b64 s[22:23], s[16:17], exec
	; GCN-NEXT: v_mov_b32_e32 v0, s20			; GCN-NEXT: s_cselect_b32 s1, s18, s20
	; GCN-NEXT: v_mov_b32_e32 v2, s22			; GCN-NEXT: s_and_b64 s[10:11], s[10:11], exec
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cmp_lt_u64_e64 s[10:11], s[12:13], 64
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_cmp_eq_u64_e64 s[18:19], s[14:15], 0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: s_cselect_b32 s22, s0, s1
	; GCN-NEXT: v_cmp_lt_u64_e64 s[0:1], s[16:17], 64			; GCN-NEXT: s_and_b64 s[0:1], s[18:19], s[10:11]
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[18:19], 0			; GCN-NEXT: s_sub_i32 s18, 64, s12
	; GCN-NEXT: s_sub_i32 s13, 64, s16			; GCN-NEXT: s_sub_i32 s10, s12, 64
	; GCN-NEXT: s_sub_i32 s4, s16, 64			; GCN-NEXT: s_lshl_b64 s[18:19], s[6:7], s18
	; GCN-NEXT: s_lshl_b64 s[14:15], s[10:11], s13			; GCN-NEXT: s_lshr_b64 s[20:21], s[4:5], s12
	; GCN-NEXT: s_lshr_b64 s[20:21], s[8:9], s16			; GCN-NEXT: s_ashr_i64 s[10:11], s[6:7], s10
	; GCN-NEXT: s_ashr_i64 s[4:5], s[10:11], s4			; GCN-NEXT: s_or_b64 s[18:19], s[20:21], s[18:19]
	; GCN-NEXT: s_or_b64 s[14:15], s[20:21], s[14:15]			; GCN-NEXT: s_and_b64 s[20:21], s[0:1], exec
	; GCN-NEXT: s_and_b64 s[0:1], s[2:3], s[0:1]			; GCN-NEXT: s_cselect_b32 s11, s19, s11
	; GCN-NEXT: s_or_b64 s[2:3], s[16:17], s[18:19]			; GCN-NEXT: s_or_b64 s[14:15], s[12:13], s[14:15]
	; GCN-NEXT: v_mov_b32_e32 v2, s5			; GCN-NEXT: v_cmp_eq_u64_e64 s[14:15], s[14:15], 0
	; GCN-NEXT: v_mov_b32_e32 v3, s15			; GCN-NEXT: s_and_b64 s[20:21], s[14:15], exec
	; GCN-NEXT: v_cmp_eq_u64_e64 s[2:3], s[2:3], 0			; GCN-NEXT: s_cselect_b32 s13, s5, s11
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GCN-NEXT: s_and_b64 s[20:21], s[0:1], exec
	; GCN-NEXT: v_mov_b32_e32 v3, s9			; GCN-NEXT: s_cselect_b32 s5, s18, s10
	; GCN-NEXT: v_cndmask_b32_e64 v5, v2, v3, s[2:3]			; GCN-NEXT: s_and_b64 s[10:11], s[14:15], exec
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: s_cselect_b32 s10, s4, s5
	; GCN-NEXT: v_mov_b32_e32 v3, s14			; GCN-NEXT: s_ashr_i32 s11, s3, 31
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], s8
	; GCN-NEXT: v_mov_b32_e32 v3, s8			; GCN-NEXT: s_and_b64 s[4:5], s[16:17], exec
	; GCN-NEXT: v_cndmask_b32_e64 v4, v2, v3, s[2:3]			; GCN-NEXT: s_cselect_b32 s4, s3, s11
	; GCN-NEXT: s_ashr_i32 s4, s7, 31			; GCN-NEXT: s_cselect_b32 s5, s2, s11
				; GCN-NEXT: s_ashr_i32 s8, s7, 31
	; GCN-NEXT: s_ashr_i64 s[2:3], s[6:7], s12			; GCN-NEXT: s_ashr_i64 s[2:3], s[6:7], s12
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GCN-NEXT: v_mov_b32_e32 v3, s3			; GCN-NEXT: s_cselect_b32 s0, s3, s8
	; GCN-NEXT: v_mov_b32_e32 v6, s2			; GCN-NEXT: s_cselect_b32 s1, s2, s8
	; GCN-NEXT: s_ashr_i32 s4, s11, 31			; GCN-NEXT: v_mov_b32_e32 v0, s10
	; GCN-NEXT: s_ashr_i64 s[2:3], s[10:11], s16			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: v_cndmask_b32_e32 v3, v2, v3, vcc			; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: v_mov_b32_e32 v6, s4			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: v_mov_b32_e32 v7, s3			; GCN-NEXT: s_nop 0
	; GCN-NEXT: v_mov_b32_e32 v12, s2			; GCN-NEXT: v_mov_b32_e32 v0, s22
	; GCN-NEXT: v_cndmask_b32_e64 v7, v6, v7, s[0:1]			; GCN-NEXT: v_mov_b32_e32 v1, s9
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v12, s[0:1]			; GCN-NEXT: v_mov_b32_e32 v2, s5
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = ashr <2 x i128> %lhs, %rhs			%shift = ashr <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/sint_to_fp.f64.ll

Show All 9 Lines	define amdgpu_kernel void @sint_to_fp_i32_to_f64(double addrspace(1)* %out, i32 %in) {
store double %result, double addrspace(1)* %out		store double %result, double addrspace(1)* %out
ret void		ret void
}		}

; We can't fold the SGPRs into v_cndmask_b32_e64, because it already		; We can't fold the SGPRs into v_cndmask_b32_e64, because it already
; uses an SGPR (implicit vcc).		; uses an SGPR (implicit vcc).

; GCN-LABEL: {{^}}sint_to_fp_i1_f64:		; GCN-LABEL: {{^}}sint_to_fp_i1_f64:
; VI-DAG: s_cmp_eq_u32		; GCN-DAG: s_cmp_eq_u32
; VI-DAG: s_cselect_b32 s[[SSEL:[0-9]+]], 0xbff00000, 0		; GCN-DAG: s_cselect_b32 s[[SSEL:[0-9]+]], 0xbff00000, 0
; VI-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; VI-DAG: v_mov_b32_e32 v[[SEL:[0-9]+]], s[[SSEL]]		; GCN-DAG: v_mov_b32_e32 v[[SEL:[0-9]+]], s[[SSEL]]
; VI: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v[[[ZERO]]:[[SEL]]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v[[[ZERO]]:[[SEL]]]
; VI: s_endpgm		; GCN: s_endpgm

; CI-DAG: s_cmp_eq_u32
; CI-DAG: s_cselect_b64 vcc, -1, 0
; CI-DAG: v_cndmask_b32_e32 v[[SEL:[0-9]+]], 0, v{{[0-9]+}}, vcc
; CI-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; CI: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v[[[ZERO]]:[[SEL]]]
; CI: s_endpgm
define amdgpu_kernel void @sint_to_fp_i1_f64(double addrspace(1)* %out, i32 %in) {		define amdgpu_kernel void @sint_to_fp_i1_f64(double addrspace(1)* %out, i32 %in) {
%cmp = icmp eq i32 %in, 0		%cmp = icmp eq i32 %in, 0
%fp = sitofp i1 %cmp to double		%fp = sitofp i1 %cmp to double
store double %fp, double addrspace(1)* %out, align 4		store double %fp, double addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}sint_to_fp_i1_f64_load:		; GCN-LABEL: {{^}}sint_to_fp_i1_f64_load:
▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s0, v1		; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
; GCN-NEXT: v_mul_hi_u32 v3, s0, v0		; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
; GCN-NEXT: v_mul_lo_u32 v4, s1, v0		; GCN-NEXT: v_mul_lo_u32 v4, s1, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, s0, v0		; GCN-NEXT: v_mul_lo_u32 v3, s0, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v3		; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v2		; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v1, v3		; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
; GCN-NEXT: v_mul_lo_u32 v3, v1, v3		; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
; GCN-NEXT: v_mul_hi_u32 v4, v1, v2		; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
Show All 36 Lines
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4		; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v5, s11		; GCN-NEXT: v_mov_b32_e32 v4, s11
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem:		; GCN-IR-LABEL: s_test_srem:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[4:5], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[4:5], 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[2:3], 0
; GCN-IR-NEXT: s_flbit_i32_b32 s12, s4		; GCN-IR-NEXT: s_flbit_i32_b32 s10, s4
; GCN-IR-NEXT: s_add_i32 s14, s12, 32		; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[8:9]
; GCN-IR-NEXT: s_or_b64 s[12:13], s[8:9], s[10:11]		; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
; GCN-IR-NEXT: s_flbit_i32_b32 s8, s5		; GCN-IR-NEXT: s_flbit_i32_b32 s11, s5
; GCN-IR-NEXT: s_min_u32 s10, s14, s8		; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2		; GCN-IR-NEXT: s_add_i32 s6, s6, 32
; GCN-IR-NEXT: s_add_i32 s8, s8, 32		; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3		; GCN-IR-NEXT: s_min_u32 s10, s10, s11
; GCN-IR-NEXT: s_min_u32 s14, s8, s9		; GCN-IR-NEXT: s_min_u32 s14, s6, s7
; GCN-IR-NEXT: s_sub_u32 s8, s10, s14		; GCN-IR-NEXT: s_sub_u32 s12, s10, s14
; GCN-IR-NEXT: s_subb_u32 s9, 0, 0		; GCN-IR-NEXT: s_subb_u32 s13, 0, 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[8:9], 63		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[12:13], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[8:9], 63		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[12:13], 63
; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[16:17]		; GCN-IR-NEXT: s_or_b64 s[16:17], s[8:9], s[16:17]
; GCN-IR-NEXT: s_or_b64 s[16:17], s[12:13], s[18:19]		; GCN-IR-NEXT: s_and_b64 s[8:9], s[16:17], exec
		; GCN-IR-NEXT: s_cselect_b32 s9, 0, s3
		; GCN-IR-NEXT: s_cselect_b32 s8, 0, s2
		; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[18:19]
		; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_mov_b32 s11, 0		; GCN-IR-NEXT: s_mov_b32 s11, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s12, s8, 1		; GCN-IR-NEXT: s_add_u32 s16, s12, 1
; GCN-IR-NEXT: s_addc_u32 s13, s9, 0		; GCN-IR-NEXT: s_addc_u32 s17, s13, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[16:17], 0
; GCN-IR-NEXT: s_sub_i32 s8, 63, s8		; GCN-IR-NEXT: s_sub_i32 s12, 63, s12
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[8:9]
; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s8		; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s12
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s12		; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s16
; GCN-IR-NEXT: s_add_u32 s16, s4, -1		; GCN-IR-NEXT: s_add_u32 s16, s4, -1
; GCN-IR-NEXT: s_addc_u32 s17, s5, -1		; GCN-IR-NEXT: s_addc_u32 s17, s5, -1
; GCN-IR-NEXT: s_not_b64 s[6:7], s[10:11]		; GCN-IR-NEXT: s_not_b64 s[6:7], s[10:11]
; GCN-IR-NEXT: s_add_u32 s10, s6, s14		; GCN-IR-NEXT: s_add_u32 s10, s6, s14
; GCN-IR-NEXT: s_addc_u32 s11, s7, 0		; GCN-IR-NEXT: s_addc_u32 s11, s7, 0
; GCN-IR-NEXT: s_mov_b64 s[14:15], 0		; GCN-IR-NEXT: s_mov_b64 s[14:15], 0
; GCN-IR-NEXT: s_mov_b32 s7, 0		; GCN-IR-NEXT: s_mov_b32 s7, 0
; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while
Show All 14 Lines
; GCN-IR-NEXT: s_add_u32 s10, s10, 1		; GCN-IR-NEXT: s_add_u32 s10, s10, 1
; GCN-IR-NEXT: s_addc_u32 s11, s11, 0		; GCN-IR-NEXT: s_addc_u32 s11, s11, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]		; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3
; GCN-IR-NEXT: .LBB0_4: ; %Flow6		; GCN-IR-NEXT: .LBB0_4: ; %Flow6
; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1		; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1
; GCN-IR-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]		; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[8:9]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s6		; GCN-IR-NEXT: .LBB0_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s7		; GCN-IR-NEXT: v_mov_b32_e32 v0, s8
; GCN-IR-NEXT: s_branch .LBB0_6		; GCN-IR-NEXT: v_mul_hi_u32 v0, s4, v0
; GCN-IR-NEXT: .LBB0_5:		; GCN-IR-NEXT: s_mov_b32 s12, s0
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: s_mul_i32 s0, s4, s9
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[12:13]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3		; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v0
		; GCN-IR-NEXT: s_mul_i32 s0, s5, s8
		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s0, v0
		; GCN-IR-NEXT: s_mul_i32 s0, s4, s8
		; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-IR-NEXT: s_mov_b32 s10, -1		; GCN-IR-NEXT: s_mov_b32 s15, 0xf000
; GCN-IR-NEXT: s_mov_b32 s8, s0		; GCN-IR-NEXT: s_mov_b32 s14, -1
; GCN-IR-NEXT: s_mov_b32 s9, s1		; GCN-IR-NEXT: s_mov_b32 s13, s1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[12:15], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = urem i64 %x, %y		%result = urem i64 %x, %y
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_srem(i64 %x, i64 %y) {		define i64 @v_test_srem(i64 %x, i64 %y) {
; GCN-LABEL: v_test_srem:		; GCN-LABEL: v_test_srem:
▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %x, %y		%result = srem i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem23_64:		; GCN-LABEL: s_test_srem23_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 41		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 41		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_xor_b32 s3, s2, s4		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_ashr_i32 s3, s3, 30		; GCN-NEXT: s_xor_b32 s5, s4, s8
; GCN-NEXT: s_or_b32 s3, s3, 1		; GCN-NEXT: s_ashr_i32 s5, s5, 30
; GCN-NEXT: v_mov_b32_e32 v3, s3		; GCN-NEXT: s_or_b32 s5, s5, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_cselect_b32 s5, s5, 0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; GCN-NEXT: v_readfirstlane_b32 s6, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: s_add_i32 s5, s6, s5
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mul_i32 s5, s5, s8
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: s_sub_i32 s4, s4, s5
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-NEXT: s_bfe_i32 s4, s4, 0x170000
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: s_ashr_i32 s5, s4, 31
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: v_mov_b32_e32 v0, s4
		; GCN-NEXT: v_mov_b32_e32 v1, s5
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem23_64:		; GCN-IR-LABEL: s_test_srem23_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 41		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 41		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_xor_b32 s3, s2, s4		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_ashr_i32 s3, s3, 30		; GCN-IR-NEXT: s_xor_b32 s5, s4, s8
; GCN-IR-NEXT: s_or_b32 s3, s3, 1		; GCN-IR-NEXT: s_ashr_i32 s5, s5, 30
; GCN-IR-NEXT: v_mov_b32_e32 v3, s3		; GCN-IR-NEXT: s_or_b32 s5, s5, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_cselect_b32 s5, s5, 0
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_readfirstlane_b32 s6, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: s_add_i32 s5, s6, s5
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mul_i32 s5, s5, s8
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: s_sub_i32 s4, s4, s5
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-IR-NEXT: s_bfe_i32 s4, s4, 0x170000
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: s_ashr_i32 s5, s4, 31
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 41		%1 = ashr i64 %x, 41
%2 = ashr i64 %y, 41		%2 = ashr i64 %y, 41
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem24_64:		; GCN-LABEL: s_test_srem24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 40		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_xor_b32 s3, s2, s4		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_ashr_i32 s3, s3, 30		; GCN-NEXT: s_xor_b32 s5, s4, s8
; GCN-NEXT: s_or_b32 s3, s3, 1		; GCN-NEXT: s_ashr_i32 s5, s5, 30
; GCN-NEXT: v_mov_b32_e32 v3, s3		; GCN-NEXT: s_or_b32 s5, s5, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_cselect_b32 s5, s5, 0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; GCN-NEXT: v_readfirstlane_b32 s6, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: s_add_i32 s5, s6, s5
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mul_i32 s5, s5, s8
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: s_sub_i32 s4, s4, s5
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: s_bfe_i32 s4, s4, 0x180000
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: s_ashr_i32 s5, s4, 31
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: v_mov_b32_e32 v0, s4
		; GCN-NEXT: v_mov_b32_e32 v1, s5
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_64:		; GCN-IR-LABEL: s_test_srem24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 40		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_xor_b32 s3, s2, s4		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_ashr_i32 s3, s3, 30		; GCN-IR-NEXT: s_xor_b32 s5, s4, s8
; GCN-IR-NEXT: s_or_b32 s3, s3, 1		; GCN-IR-NEXT: s_ashr_i32 s5, s5, 30
; GCN-IR-NEXT: v_mov_b32_e32 v3, s3		; GCN-IR-NEXT: s_or_b32 s5, s5, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_cselect_b32 s5, s5, 0
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; GCN-IR-NEXT: v_readfirstlane_b32 s6, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: s_add_i32 s5, s6, s5
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mul_i32 s5, s5, s8
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: s_sub_i32 s4, s4, s5
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-IR-NEXT: s_bfe_i32 s4, s4, 0x180000
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: s_ashr_i32 s5, s4, 31
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 40		%1 = ashr i64 %x, 40
%2 = ashr i64 %y, 40		%2 = ashr i64 %y, 40
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%2 = ashr i64 %y, 40		%2 = ashr i64 %y, 40
%result = srem i64 %1, %2		%result = srem i64 %1, %2
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem25_64:		; GCN-LABEL: s_test_srem25_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 39		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 39		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_xor_b32 s3, s2, s4		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_ashr_i32 s3, s3, 30		; GCN-NEXT: s_xor_b32 s5, s4, s8
; GCN-NEXT: s_or_b32 s3, s3, 1		; GCN-NEXT: s_ashr_i32 s5, s5, 30
; GCN-NEXT: v_mov_b32_e32 v3, s3		; GCN-NEXT: s_or_b32 s5, s5, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_cselect_b32 s5, s5, 0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_readfirstlane_b32 s6, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: s_add_i32 s5, s6, s5
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mul_i32 s5, s5, s8
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: s_sub_i32 s4, s4, s5
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-NEXT: s_bfe_i32 s4, s4, 0x190000
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: s_ashr_i32 s5, s4, 31
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: v_mov_b32_e32 v0, s4
		; GCN-NEXT: v_mov_b32_e32 v1, s5
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem25_64:		; GCN-IR-LABEL: s_test_srem25_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 39		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 39		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_xor_b32 s3, s2, s4		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_ashr_i32 s3, s3, 30		; GCN-IR-NEXT: s_xor_b32 s5, s4, s8
; GCN-IR-NEXT: s_or_b32 s3, s3, 1		; GCN-IR-NEXT: s_ashr_i32 s5, s5, 30
; GCN-IR-NEXT: v_mov_b32_e32 v3, s3		; GCN-IR-NEXT: s_or_b32 s5, s5, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_cselect_b32 s5, s5, 0
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; GCN-IR-NEXT: v_readfirstlane_b32 s6, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: s_add_i32 s5, s6, s5
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mul_i32 s5, s5, s8
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: s_sub_i32 s4, s4, s5
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-IR-NEXT: s_bfe_i32 s4, s4, 0x190000
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: s_ashr_i32 s5, s4, 31
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 39		%1 = ashr i64 %x, 39
%2 = ashr i64 %y, 39		%2 = ashr i64 %y, 39
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem31_64:		; GCN-LABEL: s_test_srem31_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[4:5], s[4:5], 33		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 33		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_xor_b32 s3, s2, s4		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_ashr_i32 s3, s3, 30		; GCN-NEXT: s_xor_b32 s5, s4, s8
; GCN-NEXT: s_or_b32 s3, s3, 1		; GCN-NEXT: s_ashr_i32 s5, s5, 30
; GCN-NEXT: v_mov_b32_e32 v3, s3		; GCN-NEXT: s_or_b32 s5, s5, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_cselect_b32 s5, s5, 0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_readfirstlane_b32 s6, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: s_add_i32 s5, s6, s5
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mul_i32 s5, s5, s8
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: s_sub_i32 s4, s4, s5
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-NEXT: s_bfe_i32 s4, s4, 0x1f0000
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: s_ashr_i32 s5, s4, 31
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: v_mov_b32_e32 v0, s4
		; GCN-NEXT: v_mov_b32_e32 v1, s5
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem31_64:		; GCN-IR-LABEL: s_test_srem31_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[4:5], 33		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 33		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s2		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_xor_b32 s3, s2, s4		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_ashr_i32 s3, s3, 30		; GCN-IR-NEXT: s_xor_b32 s5, s4, s8
; GCN-IR-NEXT: s_or_b32 s3, s3, 1		; GCN-IR-NEXT: s_ashr_i32 s5, s5, 30
; GCN-IR-NEXT: v_mov_b32_e32 v3, s3		; GCN-IR-NEXT: s_or_b32 s5, s5, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[6:7], s[6:7], exec
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_cselect_b32 s5, s5, 0
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_readfirstlane_b32 s6, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: s_add_i32 s5, s6, s5
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mul_i32 s5, s5, s8
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: s_sub_i32 s4, s4, s5
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-IR-NEXT: s_bfe_i32 s4, s4, 0x1f0000
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: s_ashr_i32 s5, s4, 31
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 33		%1 = ashr i64 %x, 33
%2 = ashr i64 %y, 33		%2 = ashr i64 %y, 33
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; 32 known sign bits		; 32 known sign bits
define amdgpu_kernel void @s_test_srem32_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem32_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem32_64:		; GCN-LABEL: s_test_srem32_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s4, s[0:1], 0xe		; GCN-NEXT: s_load_dword s8, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s3		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s3
; GCN-NEXT: s_xor_b32 s2, s3, s4		; GCN-NEXT: s_xor_b32 s2, s3, s8
; GCN-NEXT: s_ashr_i32 s2, s2, 30		; GCN-NEXT: s_ashr_i32 s2, s2, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_or_b32 s2, s2, 1		; GCN-NEXT: s_or_b32 s2, s2, 1
; GCN-NEXT: v_mov_b32_e32 v3, s2
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[4:5], s[4:5], exec
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: s_cselect_b32 s2, s2, 0
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: v_add_i32_e32 v0, vcc, s2, v2
		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s3, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s3, v0
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem32_64:		; GCN-IR-LABEL: s_test_srem32_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s4, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dword s8, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s3		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s3
; GCN-IR-NEXT: s_xor_b32 s2, s3, s4		; GCN-IR-NEXT: s_xor_b32 s2, s3, s8
; GCN-IR-NEXT: s_ashr_i32 s2, s2, 30		; GCN-IR-NEXT: s_ashr_i32 s2, s2, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_or_b32 s2, s2, 1		; GCN-IR-NEXT: s_or_b32 s2, s2, 1
; GCN-IR-NEXT: v_mov_b32_e32 v3, s2
; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], exec
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: s_cselect_b32 s2, s2, 0
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s2, v2
		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mov_b32 s4, s0
		; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s3, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s3, v0
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 32		%1 = ashr i64 %x, 32
%2 = ashr i64 %y, 32		%2 = ashr i64 %y, 32
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s0, v1		; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
; GCN-NEXT: v_mul_hi_u32 v3, s0, v0		; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
; GCN-NEXT: v_mul_lo_u32 v4, s1, v0		; GCN-NEXT: v_mul_lo_u32 v4, s1, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, s0, v0		; GCN-NEXT: v_mul_lo_u32 v3, s0, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v3		; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v2		; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v1, v3		; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
; GCN-NEXT: v_mul_lo_u32 v3, v1, v3		; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
; GCN-NEXT: v_mul_hi_u32 v4, v1, v2		; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
Show All 39 Lines
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4		; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v5, s15		; GCN-NEXT: v_mov_b32_e32 v4, s15
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_xor_b32_e32 v0, s6, v0		; GCN-NEXT: v_xor_b32_e32 v0, s6, v0
; GCN-NEXT: v_xor_b32_e32 v1, s6, v1		; GCN-NEXT: v_xor_b32_e32 v1, s6, v1
; GCN-NEXT: v_mov_b32_e32 v2, s6		; GCN-NEXT: v_mov_b32_e32 v2, s6
; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0		; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem33_64:		; GCN-IR-LABEL: s_test_srem33_64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GCN-IR-NEXT: s_mov_b32 s13, 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[6:7], 31		; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[6:7], 31
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 31		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 31
; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31		; GCN-IR-NEXT: s_ashr_i32 s0, s7, 31
; GCN-IR-NEXT: s_ashr_i32 s6, s1, 31		; GCN-IR-NEXT: s_ashr_i32 s6, s1, 31
; GCN-IR-NEXT: s_mov_b32 s1, s0		; GCN-IR-NEXT: s_mov_b32 s1, s0
; GCN-IR-NEXT: s_mov_b32 s7, s6		; GCN-IR-NEXT: s_mov_b32 s7, s6
; GCN-IR-NEXT: s_xor_b64 s[2:3], s[2:3], s[0:1]		; GCN-IR-NEXT: s_xor_b64 s[2:3], s[2:3], s[0:1]
; GCN-IR-NEXT: s_xor_b64 s[8:9], s[8:9], s[6:7]		; GCN-IR-NEXT: s_xor_b64 s[8:9], s[8:9], s[6:7]
; GCN-IR-NEXT: s_sub_u32 s2, s2, s0		; GCN-IR-NEXT: s_sub_u32 s2, s2, s0
; GCN-IR-NEXT: s_subb_u32 s3, s3, s0		; GCN-IR-NEXT: s_subb_u32 s3, s3, s0
; GCN-IR-NEXT: s_sub_u32 s8, s8, s6		; GCN-IR-NEXT: s_sub_u32 s8, s8, s6
; GCN-IR-NEXT: s_subb_u32 s9, s9, s6		; GCN-IR-NEXT: s_subb_u32 s9, s9, s6
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[8:9], 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[2:3], 0
		; GCN-IR-NEXT: s_or_b64 s[10:11], s[6:7], s[10:11]
		; GCN-IR-NEXT: s_flbit_i32_b32 s6, s8
		; GCN-IR-NEXT: s_add_i32 s6, s6, 32
		; GCN-IR-NEXT: s_flbit_i32_b32 s7, s9
		; GCN-IR-NEXT: s_min_u32 s12, s6, s7
		; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
		; GCN-IR-NEXT: s_add_i32 s6, s6, 32
		; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
		; GCN-IR-NEXT: s_min_u32 s16, s6, s7
		; GCN-IR-NEXT: s_sub_u32 s14, s12, s16
		; GCN-IR-NEXT: s_subb_u32 s15, 0, 0
		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[18:19], s[14:15], 63
		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[14:15], 63
		; GCN-IR-NEXT: s_or_b64 s[18:19], s[10:11], s[18:19]
		; GCN-IR-NEXT: s_and_b64 s[10:11], s[18:19], exec
		; GCN-IR-NEXT: s_cselect_b32 s11, 0, s3
		; GCN-IR-NEXT: s_cselect_b32 s10, 0, s2
		; GCN-IR-NEXT: s_or_b64 s[18:19], s[18:19], s[20:21]
; GCN-IR-NEXT: s_mov_b64 s[6:7], 0		; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_or_b64 s[14:15], s[10:11], s[12:13]
; GCN-IR-NEXT: s_flbit_i32_b32 s10, s8
; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s11, s9
; GCN-IR-NEXT: s_min_u32 s12, s10, s11
; GCN-IR-NEXT: s_flbit_i32_b32 s10, s2
; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s11, s3
; GCN-IR-NEXT: s_min_u32 s16, s10, s11
; GCN-IR-NEXT: s_sub_u32 s10, s12, s16
; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[18:19], s[10:11], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[10:11], 63
; GCN-IR-NEXT: s_or_b64 s[14:15], s[14:15], s[18:19]
; GCN-IR-NEXT: s_or_b64 s[18:19], s[14:15], s[20:21]
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]
; GCN-IR-NEXT: s_mov_b32 s13, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s14, s10, 1		; GCN-IR-NEXT: s_add_u32 s18, s14, 1
; GCN-IR-NEXT: s_addc_u32 s15, s11, 0		; GCN-IR-NEXT: s_addc_u32 s19, s15, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[14:15], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[18:19], 0
; GCN-IR-NEXT: s_sub_i32 s10, 63, s10		; GCN-IR-NEXT: s_sub_i32 s14, 63, s14
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[10:11]
; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[2:3], s10		; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[2:3], s14
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[14:15], s[2:3], s14		; GCN-IR-NEXT: s_lshr_b64 s[14:15], s[2:3], s18
; GCN-IR-NEXT: s_add_u32 s18, s8, -1		; GCN-IR-NEXT: s_add_u32 s18, s8, -1
; GCN-IR-NEXT: s_addc_u32 s19, s9, -1		; GCN-IR-NEXT: s_addc_u32 s19, s9, -1
; GCN-IR-NEXT: s_not_b64 s[6:7], s[12:13]		; GCN-IR-NEXT: s_not_b64 s[6:7], s[12:13]
; GCN-IR-NEXT: s_add_u32 s12, s6, s16		; GCN-IR-NEXT: s_add_u32 s12, s6, s16
; GCN-IR-NEXT: s_addc_u32 s13, s7, 0		; GCN-IR-NEXT: s_addc_u32 s13, s7, 0
; GCN-IR-NEXT: s_mov_b64 s[16:17], 0		; GCN-IR-NEXT: s_mov_b64 s[16:17], 0
; GCN-IR-NEXT: s_mov_b32 s7, 0		; GCN-IR-NEXT: s_mov_b32 s7, 0
; GCN-IR-NEXT: .LBB8_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB8_3: ; %udiv-do-while
Show All 14 Lines
; GCN-IR-NEXT: s_add_u32 s12, s12, 1		; GCN-IR-NEXT: s_add_u32 s12, s12, 1
; GCN-IR-NEXT: s_addc_u32 s13, s13, 0		; GCN-IR-NEXT: s_addc_u32 s13, s13, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[12:13], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[12:13], 0
; GCN-IR-NEXT: s_mov_b64 s[16:17], s[6:7]		; GCN-IR-NEXT: s_mov_b64 s[16:17], s[6:7]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[20:21]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[20:21]
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_3
; GCN-IR-NEXT: .LBB8_4: ; %Flow6		; GCN-IR-NEXT: .LBB8_4: ; %Flow6
; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1		; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1
; GCN-IR-NEXT: s_or_b64 s[6:7], s[6:7], s[10:11]		; GCN-IR-NEXT: s_or_b64 s[10:11], s[6:7], s[10:11]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s6		; GCN-IR-NEXT: .LBB8_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s7		; GCN-IR-NEXT: v_mov_b32_e32 v0, s10
; GCN-IR-NEXT: s_branch .LBB8_6		; GCN-IR-NEXT: v_mul_hi_u32 v0, s8, v0
; GCN-IR-NEXT: .LBB8_5:		; GCN-IR-NEXT: s_mul_i32 s11, s8, s11
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: s_mul_i32 s9, s9, s10
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]		; GCN-IR-NEXT: s_mul_i32 s8, s8, s10
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_readfirstlane_b32 s12, v0
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]		; GCN-IR-NEXT: s_add_i32 s11, s12, s11
; GCN-IR-NEXT: .LBB8_6: ; %udiv-end		; GCN-IR-NEXT: s_add_i32 s11, s11, s9
; GCN-IR-NEXT: v_mul_lo_u32 v1, s8, v1		; GCN-IR-NEXT: s_sub_u32 s2, s2, s8
; GCN-IR-NEXT: v_mul_hi_u32 v2, s8, v0		; GCN-IR-NEXT: s_subb_u32 s3, s3, s11
; GCN-IR-NEXT: v_mul_lo_u32 v3, s9, v0		; GCN-IR-NEXT: s_xor_b64 s[2:3], s[2:3], s[0:1]
; GCN-IR-NEXT: v_mul_lo_u32 v0, s8, v0		; GCN-IR-NEXT: s_sub_u32 s0, s2, s0
		; GCN-IR-NEXT: s_subb_u32 s1, s3, s1
		; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0
; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1
; GCN-IR-NEXT: v_mov_b32_e32 v2, s1
; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_mov_b32_e32 v1, s1
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 31		%1 = ashr i64 %x, 31
%2 = ashr i64 %y, 31		%2 = ashr i64 %y, 31
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}
Show All 20 Lines
; GCN-NEXT: v_or_b32_e32 v5, 1, v5		; GCN-NEXT: v_or_b32_e32 v5, 1, v5
; GCN-NEXT: v_mul_f32_e32 v4, v3, v4		; GCN-NEXT: v_mul_f32_e32 v4, v3, v4
; GCN-NEXT: v_trunc_f32_e32 v4, v4		; GCN-NEXT: v_trunc_f32_e32 v4, v4
; GCN-NEXT: v_mad_f32 v3, -v4, v1, v3		; GCN-NEXT: v_mad_f32 v3, -v4, v1, v3
; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v5, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v5, vcc
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4		; GCN-NEXT: v_add_i32_e32 v1, vcc, v4, v1
; GCN-NEXT: v_mul_lo_u32 v0, v1, v0		; GCN-NEXT: v_mul_lo_u32 v0, v1, v0
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v2, v0		; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GCN-NEXT: buffer_store_short v1, off, s[0:3], 0 offset:4		; GCN-NEXT: buffer_store_short v1, off, s[0:3], 0 offset:4
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_48:		; GCN-IR-LABEL: s_test_srem24_48:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
Show All 9 Lines
; GCN-IR-NEXT: s_mov_b32 s1, s0		; GCN-IR-NEXT: s_mov_b32 s1, s0
; GCN-IR-NEXT: s_mov_b32 s13, s12		; GCN-IR-NEXT: s_mov_b32 s13, s12
; GCN-IR-NEXT: s_xor_b64 s[2:3], s[8:9], s[0:1]		; GCN-IR-NEXT: s_xor_b64 s[2:3], s[8:9], s[0:1]
; GCN-IR-NEXT: s_xor_b64 s[6:7], s[10:11], s[12:13]		; GCN-IR-NEXT: s_xor_b64 s[6:7], s[10:11], s[12:13]
; GCN-IR-NEXT: s_sub_u32 s2, s2, s0		; GCN-IR-NEXT: s_sub_u32 s2, s2, s0
; GCN-IR-NEXT: s_subb_u32 s3, s3, s0		; GCN-IR-NEXT: s_subb_u32 s3, s3, s0
; GCN-IR-NEXT: s_sub_u32 s6, s6, s12		; GCN-IR-NEXT: s_sub_u32 s6, s6, s12
; GCN-IR-NEXT: s_subb_u32 s7, s7, s12		; GCN-IR-NEXT: s_subb_u32 s7, s7, s12
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[6:7], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[6:7], 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[2:3], 0
		; GCN-IR-NEXT: s_mov_b32 s13, 0
		; GCN-IR-NEXT: s_or_b64 s[10:11], s[8:9], s[10:11]
		; GCN-IR-NEXT: s_flbit_i32_b32 s8, s6
		; GCN-IR-NEXT: s_add_i32 s8, s8, 32
		; GCN-IR-NEXT: s_flbit_i32_b32 s9, s7
		; GCN-IR-NEXT: s_min_u32 s12, s8, s9
		; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2
		; GCN-IR-NEXT: s_add_i32 s8, s8, 32
		; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3
		; GCN-IR-NEXT: s_min_u32 s16, s8, s9
		; GCN-IR-NEXT: s_sub_u32 s14, s12, s16
		; GCN-IR-NEXT: s_subb_u32 s15, 0, 0
		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[18:19], s[14:15], 63
		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[14:15], 63
		; GCN-IR-NEXT: s_or_b64 s[18:19], s[10:11], s[18:19]
		; GCN-IR-NEXT: s_and_b64 s[10:11], s[18:19], exec
		; GCN-IR-NEXT: s_cselect_b32 s11, 0, s3
		; GCN-IR-NEXT: s_cselect_b32 s10, 0, s2
		; GCN-IR-NEXT: s_or_b64 s[18:19], s[18:19], s[20:21]
; GCN-IR-NEXT: s_mov_b64 s[8:9], 0		; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
; GCN-IR-NEXT: s_or_b64 s[14:15], s[10:11], s[12:13]
; GCN-IR-NEXT: s_flbit_i32_b32 s10, s6
; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s11, s7
; GCN-IR-NEXT: s_min_u32 s12, s10, s11
; GCN-IR-NEXT: s_flbit_i32_b32 s10, s2
; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s11, s3
; GCN-IR-NEXT: s_min_u32 s16, s10, s11
; GCN-IR-NEXT: s_sub_u32 s10, s12, s16
; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[18:19], s[10:11], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[10:11], 63
; GCN-IR-NEXT: s_or_b64 s[14:15], s[14:15], s[18:19]
; GCN-IR-NEXT: s_or_b64 s[18:19], s[14:15], s[20:21]
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]
; GCN-IR-NEXT: s_mov_b32 s13, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB9_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB9_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s14, s10, 1		; GCN-IR-NEXT: s_add_u32 s18, s14, 1
; GCN-IR-NEXT: s_addc_u32 s15, s11, 0		; GCN-IR-NEXT: s_addc_u32 s19, s15, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[14:15], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[18:19], 0
; GCN-IR-NEXT: s_sub_i32 s10, 63, s10		; GCN-IR-NEXT: s_sub_i32 s14, 63, s14
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[10:11]
; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[2:3], s10		; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[2:3], s14
; GCN-IR-NEXT: s_cbranch_vccz .LBB9_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB9_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[14:15], s[2:3], s14		; GCN-IR-NEXT: s_lshr_b64 s[14:15], s[2:3], s18
; GCN-IR-NEXT: s_add_u32 s18, s6, -1		; GCN-IR-NEXT: s_add_u32 s18, s6, -1
; GCN-IR-NEXT: s_addc_u32 s19, s7, -1		; GCN-IR-NEXT: s_addc_u32 s19, s7, -1
; GCN-IR-NEXT: s_not_b64 s[8:9], s[12:13]		; GCN-IR-NEXT: s_not_b64 s[8:9], s[12:13]
; GCN-IR-NEXT: s_add_u32 s12, s8, s16		; GCN-IR-NEXT: s_add_u32 s12, s8, s16
; GCN-IR-NEXT: s_addc_u32 s13, s9, 0		; GCN-IR-NEXT: s_addc_u32 s13, s9, 0
; GCN-IR-NEXT: s_mov_b64 s[16:17], 0		; GCN-IR-NEXT: s_mov_b64 s[16:17], 0
; GCN-IR-NEXT: s_mov_b32 s9, 0		; GCN-IR-NEXT: s_mov_b32 s9, 0
; GCN-IR-NEXT: .LBB9_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB9_3: ; %udiv-do-while
Show All 14 Lines
; GCN-IR-NEXT: s_add_u32 s12, s12, 1		; GCN-IR-NEXT: s_add_u32 s12, s12, 1
; GCN-IR-NEXT: s_addc_u32 s13, s13, 0		; GCN-IR-NEXT: s_addc_u32 s13, s13, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[12:13], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[20:21], s[12:13], 0
; GCN-IR-NEXT: s_mov_b64 s[16:17], s[8:9]		; GCN-IR-NEXT: s_mov_b64 s[16:17], s[8:9]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[20:21]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[20:21]
; GCN-IR-NEXT: s_cbranch_vccz .LBB9_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB9_3
; GCN-IR-NEXT: .LBB9_4: ; %Flow3		; GCN-IR-NEXT: .LBB9_4: ; %Flow3
; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1		; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1
; GCN-IR-NEXT: s_or_b64 s[8:9], s[8:9], s[10:11]		; GCN-IR-NEXT: s_or_b64 s[10:11], s[8:9], s[10:11]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s8		; GCN-IR-NEXT: .LBB9_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s9		; GCN-IR-NEXT: v_mov_b32_e32 v0, s10
; GCN-IR-NEXT: s_branch .LBB9_6		; GCN-IR-NEXT: v_mul_hi_u32 v0, s6, v0
; GCN-IR-NEXT: .LBB9_5:		; GCN-IR-NEXT: s_mul_i32 s8, s6, s11
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: s_mul_i32 s7, s7, s10
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]		; GCN-IR-NEXT: s_mul_i32 s6, s6, s10
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s8, v0
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s7, v0
; GCN-IR-NEXT: .LBB9_6: ; %udiv-end		; GCN-IR-NEXT: v_mov_b32_e32 v1, s6
; GCN-IR-NEXT: v_mul_lo_u32 v1, s6, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s6, v0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s7, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s6, v0
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3		; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v1, vcc, s2, v1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v0, vcc, v2, v0, vcc
; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0		; GCN-IR-NEXT: v_xor_b32_e32 v1, s0, v1
; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1		; GCN-IR-NEXT: v_xor_b32_e32 v0, s1, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s1		; GCN-IR-NEXT: v_mov_b32_e32 v2, s1
; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0		; GCN-IR-NEXT: v_subrev_i32_e32 v1, vcc, s0, v1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v0, vcc, v0, v2, vcc
		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4		; GCN-IR-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dword v1, off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i48 %x, 24		%1 = ashr i48 %x, 24
%2 = ashr i48 %y, 24		%2 = ashr i48 %y, 24
%result = srem i48 %1, %2		%result = srem i48 %1, %2
store i48 %result, i48 addrspace(1)* %out		store i48 %result, i48 addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s2, v1		; GCN-NEXT: v_mul_lo_u32 v2, s2, v1
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_mul_hi_u32 v3, s2, v0
; GCN-NEXT: v_mul_lo_u32 v4, s3, v0		; GCN-NEXT: v_mul_lo_u32 v4, s3, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, s2, v0		; GCN-NEXT: v_mul_lo_u32 v3, s2, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v3		; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v2		; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v1, v3		; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
; GCN-NEXT: v_mul_lo_u32 v3, v1, v3		; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
; GCN-NEXT: v_mul_hi_u32 v4, v1, v2		; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
Show All 27 Lines
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v5		; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v5
; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s8, v4		; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s8, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
		; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem_k_num_i64:		; GCN-IR-LABEL: s_test_srem_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
		; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i32 s6, s3, 31		; GCN-IR-NEXT: s_ashr_i32 s8, s3, 31
; GCN-IR-NEXT: s_mov_b32 s7, s6		; GCN-IR-NEXT: s_mov_b32 s9, s8
; GCN-IR-NEXT: s_xor_b64 s[2:3], s[2:3], s[6:7]		; GCN-IR-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
; GCN-IR-NEXT: s_sub_u32 s4, s2, s6		; GCN-IR-NEXT: s_sub_u32 s4, s2, s8
; GCN-IR-NEXT: s_subb_u32 s5, s3, s6		; GCN-IR-NEXT: s_subb_u32 s5, s3, s8
; GCN-IR-NEXT: s_flbit_i32_b32 s6, s4		; GCN-IR-NEXT: s_flbit_i32_b32 s2, s4
; GCN-IR-NEXT: s_add_i32 s6, s6, 32		; GCN-IR-NEXT: s_add_i32 s2, s2, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s7, s5		; GCN-IR-NEXT: s_flbit_i32_b32 s3, s5
; GCN-IR-NEXT: s_min_u32 s8, s6, s7		; GCN-IR-NEXT: s_min_u32 s8, s2, s3
; GCN-IR-NEXT: s_add_u32 s6, s8, 0xffffffc5		; GCN-IR-NEXT: s_add_u32 s2, s8, 0xffffffc5
; GCN-IR-NEXT: s_addc_u32 s7, 0, -1		; GCN-IR-NEXT: s_addc_u32 s3, 0, -1
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[2:3], s[4:5], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[4:5], 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[10:11], s[6:7], 63		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[12:13], s[2:3], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[6:7], 63		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[2:3], 63
; GCN-IR-NEXT: s_or_b64 s[10:11], s[2:3], s[10:11]		; GCN-IR-NEXT: s_or_b64 s[12:13], s[10:11], s[12:13]
; GCN-IR-NEXT: s_or_b64 s[2:3], s[10:11], s[12:13]		; GCN-IR-NEXT: s_and_b64 s[10:11], s[12:13], exec
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[2:3]		; GCN-IR-NEXT: s_cselect_b32 s10, 0, 24
; GCN-IR-NEXT: s_mov_b64 s[2:3], 0		; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[14:15]
		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]
		; GCN-IR-NEXT: s_mov_b32 s11, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB10_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB10_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s10, s6, 1		; GCN-IR-NEXT: s_add_u32 s10, s2, 1
; GCN-IR-NEXT: s_addc_u32 s11, s7, 0		; GCN-IR-NEXT: s_addc_u32 s11, s3, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 0
; GCN-IR-NEXT: s_sub_i32 s6, 63, s6		; GCN-IR-NEXT: s_sub_i32 s2, 63, s2
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]
; GCN-IR-NEXT: s_lshl_b64 s[6:7], 24, s6		; GCN-IR-NEXT: s_lshl_b64 s[2:3], 24, s2
; GCN-IR-NEXT: s_cbranch_vccz .LBB10_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB10_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s10		; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s10
; GCN-IR-NEXT: s_add_u32 s14, s4, -1		; GCN-IR-NEXT: s_add_u32 s14, s4, -1
; GCN-IR-NEXT: s_addc_u32 s15, s5, -1		; GCN-IR-NEXT: s_addc_u32 s15, s5, -1
; GCN-IR-NEXT: s_sub_u32 s8, 58, s8		; GCN-IR-NEXT: s_sub_u32 s8, 58, s8
; GCN-IR-NEXT: s_subb_u32 s9, 0, 0		; GCN-IR-NEXT: s_subb_u32 s9, 0, 0
; GCN-IR-NEXT: s_mov_b64 s[12:13], 0		; GCN-IR-NEXT: s_mov_b64 s[12:13], 0
; GCN-IR-NEXT: s_mov_b32 s3, 0		; GCN-IR-NEXT: s_mov_b32 s7, 0
; GCN-IR-NEXT: .LBB10_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB10_3: ; %udiv-do-while
; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1		; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1		; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1
; GCN-IR-NEXT: s_lshr_b32 s2, s7, 31		; GCN-IR-NEXT: s_lshr_b32 s6, s3, 31
; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[2:3], 1
; GCN-IR-NEXT: s_or_b64 s[10:11], s[10:11], s[2:3]		; GCN-IR-NEXT: s_or_b64 s[10:11], s[10:11], s[6:7]
; GCN-IR-NEXT: s_or_b64 s[6:7], s[12:13], s[6:7]		; GCN-IR-NEXT: s_or_b64 s[2:3], s[12:13], s[2:3]
; GCN-IR-NEXT: s_sub_u32 s2, s14, s10		; GCN-IR-NEXT: s_sub_u32 s6, s14, s10
; GCN-IR-NEXT: s_subb_u32 s2, s15, s11		; GCN-IR-NEXT: s_subb_u32 s6, s15, s11
; GCN-IR-NEXT: s_ashr_i32 s12, s2, 31		; GCN-IR-NEXT: s_ashr_i32 s12, s6, 31
; GCN-IR-NEXT: s_mov_b32 s13, s12		; GCN-IR-NEXT: s_mov_b32 s13, s12
; GCN-IR-NEXT: s_and_b32 s2, s12, 1		; GCN-IR-NEXT: s_and_b32 s6, s12, 1
; GCN-IR-NEXT: s_and_b64 s[12:13], s[12:13], s[4:5]		; GCN-IR-NEXT: s_and_b64 s[12:13], s[12:13], s[4:5]
; GCN-IR-NEXT: s_sub_u32 s10, s10, s12		; GCN-IR-NEXT: s_sub_u32 s10, s10, s12
; GCN-IR-NEXT: s_subb_u32 s11, s11, s13		; GCN-IR-NEXT: s_subb_u32 s11, s11, s13
; GCN-IR-NEXT: s_add_u32 s8, s8, 1		; GCN-IR-NEXT: s_add_u32 s8, s8, 1
; GCN-IR-NEXT: s_addc_u32 s9, s9, 0		; GCN-IR-NEXT: s_addc_u32 s9, s9, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0
; GCN-IR-NEXT: s_mov_b64 s[12:13], s[2:3]		; GCN-IR-NEXT: s_mov_b64 s[12:13], s[6:7]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_cbranch_vccz .LBB10_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB10_3
; GCN-IR-NEXT: .LBB10_4: ; %Flow5		; GCN-IR-NEXT: .LBB10_4: ; %Flow5
; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[2:3], 1
; GCN-IR-NEXT: s_or_b64 s[2:3], s[2:3], s[6:7]		; GCN-IR-NEXT: s_or_b64 s[10:11], s[6:7], s[2:3]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: .LBB10_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s10
; GCN-IR-NEXT: s_branch .LBB10_6		; GCN-IR-NEXT: v_mul_hi_u32 v0, s4, v0
; GCN-IR-NEXT: .LBB10_5:		; GCN-IR-NEXT: s_mul_i32 s6, s4, s11
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: s_mul_i32 s5, s5, s10
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]		; GCN-IR-NEXT: s_mul_i32 s4, s4, s10
; GCN-IR-NEXT: .LBB10_6: ; %udiv-end		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s6, v0
; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s5, v0
; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0		; GCN-IR-NEXT: v_sub_i32_e64 v0, vcc, 24, s4
; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = srem i64 24, %x		%result = srem i64 24, %x
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 488 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %x, 32768		%result = srem i64 %x, 32768
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem24_k_num_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_srem24_k_num_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_srem24_k_num_i64:		; GCN-LABEL: s_test_srem24_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
		; GCN-NEXT: s_mov_b32 s7, 0xf000
		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[4:5], s[2:3], 40		; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2
; GCN-NEXT: s_mov_b32 s5, 0x41c00000		; GCN-NEXT: s_mov_b32 s3, 0x41c00000
; GCN-NEXT: s_ashr_i32 s6, s4, 30		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: s_or_b32 s6, s6, 1		; GCN-NEXT: s_ashr_i32 s0, s2, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GCN-NEXT: v_mov_b32_e32 v3, s6		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_or_b32 s8, s0, 1
; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1		; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
; GCN-NEXT: v_trunc_f32_e32 v1, v1		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mad_f32 v2, -v1, v0, s5		; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3
; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v2\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0		; GCN-NEXT: s_cselect_b32 s0, s8, 0
; GCN-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-NEXT: v_readfirstlane_b32 s1, v1
; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-NEXT: s_add_i32 s0, s1, s0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: s_mul_i32 s0, s0, s2
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: s_sub_i32 s0, 24, s0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: s_bfe_i32 s0, s0, 0x180000
		; GCN-NEXT: s_ashr_i32 s1, s0, 31
		; GCN-NEXT: v_mov_b32_e32 v0, s0
		; GCN-NEXT: v_mov_b32_e32 v1, s1
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_k_num_i64:		; GCN-IR-LABEL: s_test_srem24_k_num_i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[2:3], 40		; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2
; GCN-IR-NEXT: s_mov_b32 s5, 0x41c00000		; GCN-IR-NEXT: s_mov_b32 s3, 0x41c00000
; GCN-IR-NEXT: s_ashr_i32 s6, s4, 30		; GCN-IR-NEXT: s_mov_b32 s4, s0
; GCN-IR-NEXT: s_or_b32 s6, s6, 1		; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GCN-IR-NEXT: v_mov_b32_e32 v3, s6		; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_or_b32 s8, s0, 1
; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1		; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1		; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s5		; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v2\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: s_and_b64 s[0:1], s[0:1], exec
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GCN-IR-NEXT: s_cselect_b32 s0, s8, 0
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4		; GCN-IR-NEXT: v_readfirstlane_b32 s1, v1
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-IR-NEXT: s_add_i32 s0, s1, s0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-IR-NEXT: s_mul_i32 s0, s0, s2
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: s_sub_i32 s0, 24, s0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: s_bfe_i32 s0, s0, 0x180000
		; GCN-IR-NEXT: s_ashr_i32 s1, s0, 31
		; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s1
		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%x.shr = ashr i64 %x, 40		%x.shr = ashr i64 %x, 40
%result = srem i64 24, %x.shr		%result = srem i64 24, %x.shr
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem24_k_den_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_srem24_k_den_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_srem24_k_den_i64:		; GCN-LABEL: s_test_srem24_k_den_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s4, 0x46b6fe00		; GCN-NEXT: s_mov_b32 s8, 0x46b6fe00
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40		; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2
; GCN-NEXT: s_ashr_i32 s3, s2, 30
; GCN-NEXT: s_or_b32 s3, s3, 1
; GCN-NEXT: v_mov_b32_e32 v1, s3
; GCN-NEXT: v_mul_f32_e32 v2, 0x38331158, v0
; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v0, -v2, s4, v0
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc
; GCN-NEXT: s_movk_i32 s3, 0x5b7f
; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_mul_lo_u32 v0, v0, s3
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
		; GCN-NEXT: s_ashr_i32 s0, s2, 30
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x38331158, v0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_mad_f32 v0, -v1, s8, v0
		; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
		; GCN-NEXT: s_or_b32 s3, s0, 1
		; GCN-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v0\|, s8
		; GCN-NEXT: s_and_b64 s[0:1], s[0:1], exec
		; GCN-NEXT: s_cselect_b32 s0, s3, 0
		; GCN-NEXT: v_readfirstlane_b32 s1, v1
		; GCN-NEXT: s_add_i32 s0, s1, s0
		; GCN-NEXT: s_mulk_i32 s0, 0x5b7f
		; GCN-NEXT: s_sub_i32 s0, s2, s0
		; GCN-NEXT: s_bfe_i32 s0, s0, 0x180000
		; GCN-NEXT: s_ashr_i32 s1, s0, 31
		; GCN-NEXT: v_mov_b32_e32 v0, s0
		; GCN-NEXT: v_mov_b32_e32 v1, s1
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_k_den_i64:		; GCN-IR-LABEL: s_test_srem24_k_den_i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b32 s4, 0x46b6fe00		; GCN-IR-NEXT: s_mov_b32 s8, 0x46b6fe00
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40		; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2
; GCN-IR-NEXT: s_ashr_i32 s3, s2, 30
; GCN-IR-NEXT: s_or_b32 s3, s3, 1
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3
; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x38331158, v0
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v0, -v2, s4, v0
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc
; GCN-IR-NEXT: s_movk_i32 s3, 0x5b7f
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s3
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mov_b32 s4, s0
		; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x38331158, v0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_mad_f32 v0, -v1, s8, v0
		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
		; GCN-IR-NEXT: s_or_b32 s3, s0, 1
		; GCN-IR-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v0\|, s8
		; GCN-IR-NEXT: s_and_b64 s[0:1], s[0:1], exec
		; GCN-IR-NEXT: s_cselect_b32 s0, s3, 0
		; GCN-IR-NEXT: v_readfirstlane_b32 s1, v1
		; GCN-IR-NEXT: s_add_i32 s0, s1, s0
		; GCN-IR-NEXT: s_mulk_i32 s0, 0x5b7f
		; GCN-IR-NEXT: s_sub_i32 s0, s2, s0
		; GCN-IR-NEXT: s_bfe_i32 s0, s0, 0x180000
		; GCN-IR-NEXT: s_ashr_i32 s1, s0, 31
		; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s1
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%x.shr = ashr i64 %x, 40		%x.shr = ashr i64 %x, 40
%result = srem i64 %x.shr, 23423		%result = srem i64 %x.shr, 23423
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 135 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/trunc.ll

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @sgpr_trunc_i32_to_i1(i32 addrspace(1)* %out, i32 %a) {
store i32 %result, i32 addrspace(1)* %out, align 4		store i32 %result, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_trunc_i64_to_i1:		; GCN-LABEL: {{^}}s_trunc_i64_to_i1:
; SI: s_load_dwordx2 s[[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x13		; SI: s_load_dwordx2 s[[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x13
; VI: s_load_dwordx2 s[[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x4c		; VI: s_load_dwordx2 s[[[SLO:[0-9]+]]:{{[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0x4c
; GCN: s_bitcmp1_b32 s[[SLO]], 0		; GCN: s_bitcmp1_b32 s[[SLO]], 0
; SI: s_cselect_b64 s[[[VLO:[0-9]+]]:[[VHI:[0-9]+]]], -1, 0		; GCN: s_cselect_b32 {{s[0-9]+}}, 63, -12
; SI: v_cndmask_b32_e64 {{v[0-9]+}}, -12, 63, s[[[VLO]]:[[VHI]]]
; VI: s_cselect_b32 {{s[0-9]+}}, 63, -12
define amdgpu_kernel void @s_trunc_i64_to_i1(i32 addrspace(1)* %out, [8 x i32], i64 %x) {		define amdgpu_kernel void @s_trunc_i64_to_i1(i32 addrspace(1)* %out, [8 x i32], i64 %x) {
%trunc = trunc i64 %x to i1		%trunc = trunc i64 %x to i1
%sel = select i1 %trunc, i32 63, i32 -12		%sel = select i1 %trunc, i32 63, i32 -12
store i32 %sel, i32 addrspace(1)* %out		store i32 %sel, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_trunc_i64_to_i1:		; GCN-LABEL: {{^}}v_trunc_i64_to_i1:
Show All 16 Lines

llvm/test/CodeGen/AMDGPU/udiv.ll

	Show All 25 Lines
	; SI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; SI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; SI-NEXT: v_cvt_u32_f32_e32 v2, v2			; SI-NEXT: v_cvt_u32_f32_e32 v2, v2
	; SI-NEXT: v_mul_lo_u32 v3, v3, v2			; SI-NEXT: v_mul_lo_u32 v3, v3, v2
	; SI-NEXT: v_mul_hi_u32 v3, v2, v3			; SI-NEXT: v_mul_hi_u32 v3, v2, v3
	; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; SI-NEXT: v_mul_hi_u32 v2, v0, v2			; SI-NEXT: v_mul_hi_u32 v2, v0, v2
	; SI-NEXT: v_mul_lo_u32 v3, v2, v1			; SI-NEXT: v_mul_lo_u32 v3, v2, v1
	; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; SI-NEXT: v_subrev_i32_e32 v0, vcc, v3, v0			; SI-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; SI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v3, vcc, v1, v0			; SI-NEXT: v_subrev_i32_e32 v3, vcc, v1, v0
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; SI-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; SI-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v2			; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v2
	; SI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; SI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: udiv_i32:			; VI-LABEL: udiv_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	Show All 15 Lines
	; VI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; VI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v2			; VI-NEXT: v_cvt_u32_f32_e32 v2, v2
	; VI-NEXT: v_mul_lo_u32 v3, v3, v2			; VI-NEXT: v_mul_lo_u32 v3, v3, v2
	; VI-NEXT: v_mul_hi_u32 v3, v2, v3			; VI-NEXT: v_mul_hi_u32 v3, v2, v3
	; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; VI-NEXT: v_mul_hi_u32 v2, v0, v2			; VI-NEXT: v_mul_hi_u32 v2, v0, v2
	; VI-NEXT: v_mul_lo_u32 v3, v2, v1			; VI-NEXT: v_mul_lo_u32 v3, v2, v1
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, v3, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v3
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; VI-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; VI-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v2
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: udiv_i32:			; GCN-LABEL: udiv_i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	Show All 11 Lines
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v2			; GCN-NEXT: v_mul_lo_u32 v3, v3, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v2, v3			; GCN-NEXT: v_mul_hi_u32 v3, v2, v3
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v3, s1			; GCN-NEXT: v_mov_b32_e32 v3, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v1			; GCN-NEXT: v_mul_lo_u32 v5, v4, v1
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v5, v0			; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v1, v0			; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
				; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc
	; GCN-NEXT: flat_store_dword v[2:3], v0			; GCN-NEXT: flat_store_dword v[2:3], v0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: udiv_i32:			; GFX1030-LABEL: udiv_i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v2, 0			; GFX1030-NEXT: v_mov_b32_e32 v2, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]			; GFX1030-NEXT: global_load_dwordx2 v[0:1], v2, s[2:3]
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v3, v1			; GFX1030-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v4, 0, v1			; GFX1030-NEXT: v_readfirstlane_b32 s5, v0
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX1030-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX1030-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GFX1030-NEXT: s_sub_i32 s4, 0, s2
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX1030-NEXT: v_mul_lo_u32 v4, v4, v3			; GFX1030-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX1030-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX1030-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX1030-NEXT: v_add_nc_u32_e32 v3, v3, v4			; GFX1030-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1030-NEXT: v_mul_hi_u32 v3, v0, v3			; GFX1030-NEXT: s_mul_i32 s4, s4, s3
	; GFX1030-NEXT: v_mul_lo_u32 v4, v3, v1			; GFX1030-NEXT: s_mul_hi_u32 s4, s3, s4
	; GFX1030-NEXT: v_sub_nc_u32_e32 v0, v0, v4			; GFX1030-NEXT: s_add_i32 s3, s3, s4
	; GFX1030-NEXT: v_add_nc_u32_e32 v4, 1, v3			; GFX1030-NEXT: s_mul_hi_u32 s3, s5, s3
	; GFX1030-NEXT: v_sub_nc_u32_e32 v5, v0, v1			; GFX1030-NEXT: s_mul_i32 s4, s3, s2
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v1			; GFX1030-NEXT: s_sub_i32 s4, s5, s4
	; GFX1030-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc_lo			; GFX1030-NEXT: s_add_i32 s5, s3, 1
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc_lo			; GFX1030-NEXT: s_sub_i32 s6, s4, s2
	; GFX1030-NEXT: v_add_nc_u32_e32 v4, 1, v3			; GFX1030-NEXT: s_cmp_ge_u32 s4, s2
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v1			; GFX1030-NEXT: s_cselect_b32 s3, s5, s3
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc_lo			; GFX1030-NEXT: s_cselect_b32 s4, s6, s4
				; GFX1030-NEXT: s_add_i32 s5, s3, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s4, s2
				; GFX1030-NEXT: s_cselect_b32 s2, s5, s3
				; GFX1030-NEXT: v_mov_b32_e32 v0, s2
	; GFX1030-NEXT: global_store_dword v2, v0, s[0:1]			; GFX1030-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: udiv_i32:			; EG-LABEL: udiv_i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 17, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 17, @9, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_sub_i32 s4, 0, s3			; SI-NEXT: s_sub_i32 s4, 0, s3
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: v_rcp_iflag_f32_e32 v0, v0			; SI-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; SI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; SI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; SI-NEXT: v_cvt_u32_f32_e32 v0, v0			; SI-NEXT: v_cvt_u32_f32_e32 v0, v0
	; SI-NEXT: v_mul_lo_u32 v1, s4, v0			; SI-NEXT: v_mul_lo_u32 v1, s4, v0
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: v_mul_hi_u32 v1, v0, v1			; SI-NEXT: v_mul_hi_u32 v1, v0, v1
	; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; SI-NEXT: v_mul_hi_u32 v0, s2, v0			; SI-NEXT: v_mul_hi_u32 v0, s2, v0
	; SI-NEXT: v_mul_lo_u32 v1, v0, s3			; SI-NEXT: v_readfirstlane_b32 s0, v0
	; SI-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; SI-NEXT: s_mul_i32 s0, s0, s3
	; SI-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; SI-NEXT: s_sub_i32 s0, s2, s0
	; SI-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; SI-NEXT: s_sub_i32 s1, s0, s3
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; SI-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; SI-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; SI-NEXT: s_cmp_ge_u32 s0, s3
	; SI-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; SI-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; SI-NEXT: s_cselect_b32 s0, s1, s0
	; SI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; SI-NEXT: v_add_i32_e32 v1, vcc, 1, v0
				; SI-NEXT: s_cmp_ge_u32 s0, s3
				; SI-NEXT: s_cselect_b64 vcc, -1, 0
				; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: s_udiv_i32:			; VI-LABEL: s_udiv_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_cvt_f32_u32_e32 v0, s3			; VI-NEXT: v_cvt_f32_u32_e32 v0, s3
	; VI-NEXT: s_sub_i32 s4, 0, s3			; VI-NEXT: s_sub_i32 s4, 0, s3
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: v_rcp_iflag_f32_e32 v0, v0			; VI-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; VI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; VI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; VI-NEXT: v_cvt_u32_f32_e32 v0, v0			; VI-NEXT: v_cvt_u32_f32_e32 v0, v0
	; VI-NEXT: v_mul_lo_u32 v1, s4, v0			; VI-NEXT: v_mul_lo_u32 v1, s4, v0
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: v_mul_hi_u32 v1, v0, v1			; VI-NEXT: v_mul_hi_u32 v1, v0, v1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: v_mul_hi_u32 v0, s2, v0			; VI-NEXT: v_mul_hi_u32 v0, s2, v0
	; VI-NEXT: v_mul_lo_u32 v1, v0, s3			; VI-NEXT: v_readfirstlane_b32 s0, v0
	; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; VI-NEXT: s_mul_i32 s0, s0, s3
	; VI-NEXT: v_sub_u32_e32 v1, vcc, s2, v1			; VI-NEXT: s_sub_i32 s0, s2, s0
	; VI-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; VI-NEXT: s_sub_i32 s1, s0, s3
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; VI-NEXT: v_add_u32_e32 v1, vcc, 1, v0
	; VI-NEXT: v_subrev_u32_e32 v2, vcc, s3, v1			; VI-NEXT: s_cmp_ge_u32 s0, s3
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; VI-NEXT: s_cselect_b64 vcc, -1, 0
	; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; VI-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; VI-NEXT: s_cselect_b32 s0, s1, s0
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_add_u32_e32 v1, vcc, 1, v0
				; VI-NEXT: s_cmp_ge_u32 s0, s3
				; VI-NEXT: s_cselect_b64 vcc, -1, 0
				; VI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: s_udiv_i32:			; GCN-LABEL: s_udiv_i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s7			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GCN-NEXT: s_sub_i32 s0, 0, s7			; GCN-NEXT: s_sub_i32 s4, 0, s3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v1, s0, v0			; GCN-NEXT: v_mul_lo_u32 v1, s4, v0
	; GCN-NEXT: v_mul_hi_u32 v1, v0, v1			; GCN-NEXT: v_mul_hi_u32 v1, v0, v1
	; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s6, v0			; GCN-NEXT: v_mul_hi_u32 v0, s2, v0
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s7			; GCN-NEXT: v_readfirstlane_b32 s4, v0
	; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; GCN-NEXT: s_mul_i32 s4, s4, s3
	; GCN-NEXT: v_sub_u32_e32 v1, vcc, s6, v1			; GCN-NEXT: s_sub_i32 s2, s2, s4
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s7, v1			; GCN-NEXT: s_sub_i32 s4, s2, s3
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_add_u32_e32 v1, vcc, 1, v0
	; GCN-NEXT: v_subrev_u32_e32 v2, vcc, s7, v1			; GCN-NEXT: s_cmp_ge_u32 s2, s3
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GCN-NEXT: s_cselect_b32 s2, s4, s2
	; GCN-NEXT: v_cndmask_b32_e32 v2, v0, v2, vcc			; GCN-NEXT: v_add_u32_e32 v1, vcc, 1, v0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: s_cmp_ge_u32 s2, s3
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cselect_b64 vcc, -1, 0
				; GCN-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: s_udiv_i32:			; GFX1030-LABEL: s_udiv_i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v3, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX1030-NEXT: s_sub_i32 s5, 0, s3			; GFX1030-NEXT: s_sub_i32 s5, 0, s3
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX1030-NEXT: v_readfirstlane_b32 s4, v0			; GFX1030-NEXT: v_readfirstlane_b32 s4, v0
				; GFX1030-NEXT: v_mov_b32_e32 v0, 0
	; GFX1030-NEXT: s_mul_i32 s5, s5, s4			; GFX1030-NEXT: s_mul_i32 s5, s5, s4
	; GFX1030-NEXT: s_mul_hi_u32 s5, s4, s5			; GFX1030-NEXT: s_mul_hi_u32 s5, s4, s5
	; GFX1030-NEXT: s_add_i32 s4, s4, s5			; GFX1030-NEXT: s_add_i32 s4, s4, s5
	; GFX1030-NEXT: s_mul_hi_u32 s4, s2, s4			; GFX1030-NEXT: s_mul_hi_u32 s4, s2, s4
	; GFX1030-NEXT: s_mul_i32 s5, s4, s3			; GFX1030-NEXT: s_mul_i32 s5, s4, s3
	; GFX1030-NEXT: s_sub_i32 s2, s2, s5			; GFX1030-NEXT: s_sub_i32 s2, s2, s5
				; GFX1030-NEXT: s_add_i32 s5, s4, 1
				; GFX1030-NEXT: s_sub_i32 s6, s2, s3
	; GFX1030-NEXT: s_cmp_ge_u32 s2, s3			; GFX1030-NEXT: s_cmp_ge_u32 s2, s3
	; GFX1030-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX1030-NEXT: s_cselect_b32 s4, s5, s4
				; GFX1030-NEXT: s_cselect_b32 s2, s6, s2
	; GFX1030-NEXT: s_add_i32 s5, s4, 1			; GFX1030-NEXT: s_add_i32 s5, s4, 1
	; GFX1030-NEXT: v_mov_b32_e32 v0, s5			; GFX1030-NEXT: s_cmp_ge_u32 s2, s3
	; GFX1030-NEXT: s_sub_i32 s5, s2, s3			; GFX1030-NEXT: s_cselect_b32 s2, s5, s4
	; GFX1030-NEXT: v_mov_b32_e32 v1, s5			; GFX1030-NEXT: v_mov_b32_e32 v1, s2
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, s4, v0, vcc_lo			; GFX1030-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, s2, v1, vcc_lo
	; GFX1030-NEXT: v_add_nc_u32_e32 v2, 1, v0
	; GFX1030-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v1
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX1030-NEXT: global_store_dword v3, v0, s[0:1]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: s_udiv_i32:			; EG-LABEL: s_udiv_i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 17, @4, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 17, @4, KC0[CB0:0-32], KC1[]
	; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1			; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
	; EG-NEXT: CF_END			; EG-NEXT: CF_END
	; EG-NEXT: PAD			; EG-NEXT: PAD
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5			; SI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; SI-NEXT: v_cvt_u32_f32_e32 v4, v4			; SI-NEXT: v_cvt_u32_f32_e32 v4, v4
	; SI-NEXT: v_cvt_u32_f32_e32 v5, v5			; SI-NEXT: v_cvt_u32_f32_e32 v5, v5
	; SI-NEXT: v_mul_lo_u32 v6, v6, v4			; SI-NEXT: v_mul_lo_u32 v6, v6, v4
	; SI-NEXT: v_mul_lo_u32 v7, v7, v5			; SI-NEXT: v_mul_lo_u32 v7, v7, v5
	; SI-NEXT: v_mul_hi_u32 v6, v4, v6			; SI-NEXT: v_mul_hi_u32 v6, v4, v6
	; SI-NEXT: v_mul_hi_u32 v7, v5, v7			; SI-NEXT: v_mul_hi_u32 v7, v5, v7
	; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; SI-NEXT: v_add_i32_e32 v5, vcc, v5, v7
	; SI-NEXT: v_mul_hi_u32 v4, v0, v4			; SI-NEXT: v_mul_hi_u32 v4, v0, v4
	; SI-NEXT: v_mul_hi_u32 v5, v1, v5			; SI-NEXT: v_mul_hi_u32 v5, v1, v5
	; SI-NEXT: v_mul_lo_u32 v6, v4, v2			; SI-NEXT: v_mul_lo_u32 v6, v4, v2
	; SI-NEXT: v_mul_lo_u32 v8, v5, v3			; SI-NEXT: v_mul_lo_u32 v8, v5, v3
	; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v4			; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v4
	; SI-NEXT: v_subrev_i32_e32 v0, vcc, v6, v0			; SI-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
	; SI-NEXT: v_sub_i32_e32 v1, vcc, v1, v8			; SI-NEXT: v_sub_i32_e32 v1, vcc, v1, v8
	; SI-NEXT: v_add_i32_e32 v9, vcc, 1, v5			; SI-NEXT: v_add_i32_e32 v9, vcc, 1, v5
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; SI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0			; SI-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0
	; SI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1			; SI-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1
				; SI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; SI-NEXT: v_add_i32_e32 v6, vcc, 1, v4			; SI-NEXT: v_add_i32_e32 v6, vcc, 1, v4
	; SI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v5			; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v5
	; SI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; SI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; SI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; SI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	Show All 24 Lines
	; VI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5			; VI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; VI-NEXT: v_cvt_u32_f32_e32 v4, v4			; VI-NEXT: v_cvt_u32_f32_e32 v4, v4
	; VI-NEXT: v_cvt_u32_f32_e32 v5, v5			; VI-NEXT: v_cvt_u32_f32_e32 v5, v5
	; VI-NEXT: v_mul_lo_u32 v6, v6, v4			; VI-NEXT: v_mul_lo_u32 v6, v6, v4
	; VI-NEXT: v_mul_lo_u32 v7, v7, v5			; VI-NEXT: v_mul_lo_u32 v7, v7, v5
	; VI-NEXT: v_mul_hi_u32 v6, v4, v6			; VI-NEXT: v_mul_hi_u32 v6, v4, v6
	; VI-NEXT: v_mul_hi_u32 v7, v5, v7			; VI-NEXT: v_mul_hi_u32 v7, v5, v7
	; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4
	; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5			; VI-NEXT: v_add_u32_e32 v5, vcc, v5, v7
	; VI-NEXT: v_mul_hi_u32 v4, v0, v4			; VI-NEXT: v_mul_hi_u32 v4, v0, v4
	; VI-NEXT: v_mul_hi_u32 v5, v1, v5			; VI-NEXT: v_mul_hi_u32 v5, v1, v5
	; VI-NEXT: v_mul_lo_u32 v6, v4, v2			; VI-NEXT: v_mul_lo_u32 v6, v4, v2
	; VI-NEXT: v_mul_lo_u32 v8, v5, v3			; VI-NEXT: v_mul_lo_u32 v8, v5, v3
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_subrev_u32_e32 v1, vcc, v8, v1			; VI-NEXT: v_sub_u32_e32 v1, vcc, v1, v8
	; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
				; VI-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; VI-NEXT: v_sub_u32_e32 v6, vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1			; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1
				; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; VI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	Show All 21 Lines
	; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v3			; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v3
	; GCN-NEXT: v_mul_lo_u32 v8, v4, v7			; GCN-NEXT: v_mul_lo_u32 v8, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v6, v5			; GCN-NEXT: v_mul_hi_u32 v9, v6, v5
	; GCN-NEXT: v_mov_b32_e32 v4, s0			; GCN-NEXT: v_mov_b32_e32 v4, s0
	; GCN-NEXT: v_mov_b32_e32 v5, s1			; GCN-NEXT: v_mov_b32_e32 v5, s1
	; GCN-NEXT: v_mul_hi_u32 v8, v7, v8			; GCN-NEXT: v_mul_hi_u32 v8, v7, v8
	; GCN-NEXT: v_add_u32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_u32_e32 v6, vcc, v9, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v6			; GCN-NEXT: v_mul_hi_u32 v6, v0, v6
	; GCN-NEXT: v_add_u32_e32 v7, vcc, v8, v7			; GCN-NEXT: v_add_u32_e32 v7, vcc, v7, v8
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v7			; GCN-NEXT: v_mul_hi_u32 v7, v1, v7
	; GCN-NEXT: v_mul_lo_u32 v8, v6, v2			; GCN-NEXT: v_mul_lo_u32 v8, v6, v2
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6
	; GCN-NEXT: v_mul_lo_u32 v10, v7, v3			; GCN-NEXT: v_mul_lo_u32 v10, v7, v3
	; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v8			; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v8
	; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7
	; GCN-NEXT: v_subrev_u32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
				; GCN-NEXT: v_subrev_u32_e32 v8, vcc, v2, v0
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]
	; GCN-NEXT: v_sub_u32_e32 v8, vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]
	; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1			; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1
				; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]
	; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GCN-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc
	; GCN-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; GCN-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: udiv_v2i32:			; GFX1030-LABEL: udiv_v2i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v4, 0			; GFX1030-NEXT: v_mov_b32_e32 v4, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: global_load_dwordx4 v[0:3], v4, s[6:7]			; GFX1030-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v5, v2			; GFX1030-NEXT: v_readfirstlane_b32 s2, v2
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v6, v3			; GFX1030-NEXT: v_readfirstlane_b32 s3, v3
	; GFX1030-NEXT: v_sub_nc_u32_e32 v7, 0, v2			; GFX1030-NEXT: v_readfirstlane_b32 s6, v0
	; GFX1030-NEXT: v_sub_nc_u32_e32 v8, 0, v3			; GFX1030-NEXT: v_cvt_f32_u32_e32 v2, s2
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX1030-NEXT: v_cvt_f32_u32_e32 v3, s3
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v6, v6			; GFX1030-NEXT: s_sub_i32 s5, 0, s2
	; GFX1030-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX1030-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX1030-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v3
	; GFX1030-NEXT: v_mul_lo_u32 v7, v7, v5			; GFX1030-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX1030-NEXT: v_mul_lo_u32 v8, v8, v6			; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX1030-NEXT: v_mul_hi_u32 v7, v5, v7			; GFX1030-NEXT: v_readfirstlane_b32 s4, v2
	; GFX1030-NEXT: v_mul_hi_u32 v8, v6, v8			; GFX1030-NEXT: v_readfirstlane_b32 s8, v0
	; GFX1030-NEXT: v_add_nc_u32_e32 v5, v5, v7			; GFX1030-NEXT: s_mul_i32 s5, s5, s4
	; GFX1030-NEXT: v_add_nc_u32_e32 v6, v6, v8			; GFX1030-NEXT: s_mul_hi_u32 s5, s4, s5
	; GFX1030-NEXT: v_mul_hi_u32 v5, v0, v5			; GFX1030-NEXT: s_add_i32 s4, s4, s5
	; GFX1030-NEXT: v_mul_hi_u32 v6, v1, v6			; GFX1030-NEXT: s_mul_hi_u32 s4, s6, s4
	; GFX1030-NEXT: v_mul_lo_u32 v7, v5, v2			; GFX1030-NEXT: s_mul_i32 s5, s4, s2
	; GFX1030-NEXT: v_mul_lo_u32 v8, v6, v3			; GFX1030-NEXT: s_sub_i32 s5, s6, s5
	; GFX1030-NEXT: v_sub_nc_u32_e32 v0, v0, v7			; GFX1030-NEXT: s_add_i32 s6, s4, 1
	; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v5			; GFX1030-NEXT: s_sub_i32 s7, s5, s2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v1, v1, v8			; GFX1030-NEXT: s_cmp_ge_u32 s5, s2
	; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v6			; GFX1030-NEXT: s_cselect_b32 s4, s6, s4
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2			; GFX1030-NEXT: s_cselect_b32 s5, s7, s5
	; GFX1030-NEXT: v_sub_nc_u32_e32 v9, v1, v3			; GFX1030-NEXT: s_add_i32 s6, s4, 1
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v1, v3			; GFX1030-NEXT: s_cmp_ge_u32 s5, s2
	; GFX1030-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc_lo			; GFX1030-NEXT: v_readfirstlane_b32 s5, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v0, v2			; GFX1030-NEXT: s_cselect_b32 s2, s6, s4
	; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v8, s0			; GFX1030-NEXT: s_sub_i32 s4, 0, s3
	; GFX1030-NEXT: v_cndmask_b32_e64 v1, v1, v9, s0			; GFX1030-NEXT: v_mov_b32_e32 v0, s2
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc_lo			; GFX1030-NEXT: s_mul_i32 s4, s4, s8
	; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v5			; GFX1030-NEXT: s_mul_hi_u32 s4, s8, s4
	; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v6			; GFX1030-NEXT: s_add_i32 s8, s8, s4
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2			; GFX1030-NEXT: s_mul_hi_u32 s4, s5, s8
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v5, v7, vcc_lo			; GFX1030-NEXT: s_mul_i32 s6, s4, s3
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v1, v3			; GFX1030-NEXT: s_sub_i32 s5, s5, s6
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v6, v8, vcc_lo			; GFX1030-NEXT: s_add_i32 s6, s4, 1
	; GFX1030-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX1030-NEXT: s_sub_i32 s7, s5, s3
				; GFX1030-NEXT: s_cmp_ge_u32 s5, s3
				; GFX1030-NEXT: s_cselect_b32 s4, s6, s4
				; GFX1030-NEXT: s_cselect_b32 s5, s7, s5
				; GFX1030-NEXT: s_add_i32 s6, s4, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s5, s3
				; GFX1030-NEXT: s_cselect_b32 s3, s6, s4
				; GFX1030-NEXT: v_mov_b32_e32 v1, s3
				; GFX1030-NEXT: global_store_dwordx2 v4, v[0:1], s[0:1]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: udiv_v2i32:			; EG-LABEL: udiv_v2i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 33, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 33, @9, KC0[CB0:0-32], KC1[]
	; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.XY, T0.X, 1			; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.XY, T0.X, 1
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_lo_u32 v9, v9, v8			; SI-NEXT: v_mul_lo_u32 v9, v9, v8
	; SI-NEXT: v_mul_lo_u32 v11, v11, v10			; SI-NEXT: v_mul_lo_u32 v11, v11, v10
	; SI-NEXT: v_mul_lo_u32 v13, v13, v12			; SI-NEXT: v_mul_lo_u32 v13, v13, v12
	; SI-NEXT: v_mul_lo_u32 v15, v15, v14			; SI-NEXT: v_mul_lo_u32 v15, v15, v14
	; SI-NEXT: v_mul_hi_u32 v9, v8, v9			; SI-NEXT: v_mul_hi_u32 v9, v8, v9
	; SI-NEXT: v_mul_hi_u32 v11, v10, v11			; SI-NEXT: v_mul_hi_u32 v11, v10, v11
	; SI-NEXT: v_mul_hi_u32 v13, v12, v13			; SI-NEXT: v_mul_hi_u32 v13, v12, v13
	; SI-NEXT: v_mul_hi_u32 v15, v14, v15			; SI-NEXT: v_mul_hi_u32 v15, v14, v15
	; SI-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; SI-NEXT: v_add_i32_e32 v8, vcc, v8, v9
	; SI-NEXT: v_add_i32_e32 v9, vcc, v11, v10			; SI-NEXT: v_add_i32_e32 v9, vcc, v11, v10
	; SI-NEXT: v_add_i32_e32 v10, vcc, v13, v12			; SI-NEXT: v_add_i32_e32 v10, vcc, v12, v13
	; SI-NEXT: v_add_i32_e32 v11, vcc, v15, v14			; SI-NEXT: v_add_i32_e32 v11, vcc, v15, v14
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_mul_hi_u32 v8, v4, v8			; SI-NEXT: v_mul_hi_u32 v8, v4, v8
	; SI-NEXT: v_mul_hi_u32 v9, v5, v9			; SI-NEXT: v_mul_hi_u32 v9, v5, v9
	; SI-NEXT: v_mul_hi_u32 v10, v6, v10			; SI-NEXT: v_mul_hi_u32 v10, v6, v10
	; SI-NEXT: v_mul_hi_u32 v11, v7, v11			; SI-NEXT: v_mul_hi_u32 v11, v7, v11
	; SI-NEXT: v_mul_lo_u32 v12, v8, v0			; SI-NEXT: v_mul_lo_u32 v12, v8, v0
	; SI-NEXT: v_mul_lo_u32 v14, v9, v1			; SI-NEXT: v_mul_lo_u32 v14, v9, v1
	; SI-NEXT: v_mul_lo_u32 v16, v10, v2			; SI-NEXT: v_mul_lo_u32 v16, v10, v2
	; SI-NEXT: v_mul_lo_u32 v18, v11, v3			; SI-NEXT: v_mul_lo_u32 v18, v11, v3
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, v12, v4			; SI-NEXT: v_sub_i32_e32 v4, vcc, v4, v12
	; SI-NEXT: v_sub_i32_e32 v5, vcc, v5, v14			; SI-NEXT: v_sub_i32_e32 v5, vcc, v5, v14
	; SI-NEXT: v_sub_i32_e32 v6, vcc, v6, v16			; SI-NEXT: v_sub_i32_e32 v6, vcc, v6, v16
	; SI-NEXT: v_sub_i32_e32 v7, vcc, v7, v18			; SI-NEXT: v_sub_i32_e32 v7, vcc, v7, v18
	; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v8			; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v8
	; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v9			; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v9
	; SI-NEXT: v_add_i32_e32 v17, vcc, 1, v10			; SI-NEXT: v_add_i32_e32 v17, vcc, 1, v10
	; SI-NEXT: v_add_i32_e32 v19, vcc, 1, v11			; SI-NEXT: v_add_i32_e32 v19, vcc, 1, v11
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; SI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; SI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; SI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; SI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	; SI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v12, vcc, v0, v4			; SI-NEXT: v_subrev_i32_e32 v12, vcc, v0, v4
	; SI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v13, vcc, v1, v5			; SI-NEXT: v_subrev_i32_e32 v13, vcc, v1, v5
	; SI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]
	; SI-NEXT: v_subrev_i32_e32 v14, vcc, v2, v6			; SI-NEXT: v_subrev_i32_e32 v14, vcc, v2, v6
				; SI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]
				; SI-NEXT: v_subrev_i32_e32 v15, vcc, v3, v7
	; SI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]			; SI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]
	; SI-NEXT: v_sub_i32_e32 v15, vcc, v7, v3
	; SI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]
	; SI-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; SI-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; SI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]
	; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v9			; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v9
	; SI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]
	; SI-NEXT: v_add_i32_e32 v14, vcc, 1, v10			; SI-NEXT: v_add_i32_e32 v14, vcc, 1, v10
	; SI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]			; SI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]
	; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v11			; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v11
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mul_lo_u32 v9, v9, v8			; VI-NEXT: v_mul_lo_u32 v9, v9, v8
	; VI-NEXT: v_mul_lo_u32 v11, v11, v10			; VI-NEXT: v_mul_lo_u32 v11, v11, v10
	; VI-NEXT: v_mul_lo_u32 v13, v13, v12			; VI-NEXT: v_mul_lo_u32 v13, v13, v12
	; VI-NEXT: v_mul_lo_u32 v15, v15, v14			; VI-NEXT: v_mul_lo_u32 v15, v15, v14
	; VI-NEXT: v_mul_hi_u32 v9, v8, v9			; VI-NEXT: v_mul_hi_u32 v9, v8, v9
	; VI-NEXT: v_mul_hi_u32 v11, v10, v11			; VI-NEXT: v_mul_hi_u32 v11, v10, v11
	; VI-NEXT: v_mul_hi_u32 v13, v12, v13			; VI-NEXT: v_mul_hi_u32 v13, v12, v13
	; VI-NEXT: v_mul_hi_u32 v15, v14, v15			; VI-NEXT: v_mul_hi_u32 v15, v14, v15
	; VI-NEXT: v_add_u32_e32 v8, vcc, v9, v8			; VI-NEXT: v_add_u32_e32 v8, vcc, v8, v9
	; VI-NEXT: v_add_u32_e32 v9, vcc, v10, v11			; VI-NEXT: v_add_u32_e32 v9, vcc, v11, v10
	; VI-NEXT: v_add_u32_e32 v10, vcc, v12, v13			; VI-NEXT: v_add_u32_e32 v10, vcc, v12, v13
	; VI-NEXT: v_add_u32_e32 v11, vcc, v15, v14			; VI-NEXT: v_add_u32_e32 v11, vcc, v15, v14
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_mul_hi_u32 v8, v4, v8			; VI-NEXT: v_mul_hi_u32 v8, v4, v8
	; VI-NEXT: v_mul_hi_u32 v9, v5, v9			; VI-NEXT: v_mul_hi_u32 v9, v5, v9
	; VI-NEXT: v_mul_hi_u32 v10, v6, v10			; VI-NEXT: v_mul_hi_u32 v10, v6, v10
	; VI-NEXT: v_mul_hi_u32 v11, v7, v11			; VI-NEXT: v_mul_hi_u32 v11, v7, v11
	; VI-NEXT: v_mul_lo_u32 v12, v8, v0			; VI-NEXT: v_mul_lo_u32 v12, v8, v0
	; VI-NEXT: v_mul_lo_u32 v14, v9, v1			; VI-NEXT: v_mul_lo_u32 v14, v9, v1
	; VI-NEXT: v_mul_lo_u32 v16, v10, v2			; VI-NEXT: v_mul_lo_u32 v16, v10, v2
	; VI-NEXT: v_mul_lo_u32 v18, v11, v3			; VI-NEXT: v_mul_lo_u32 v18, v11, v3
	; VI-NEXT: v_sub_u32_e32 v4, vcc, v4, v12			; VI-NEXT: v_sub_u32_e32 v4, vcc, v4, v12
	; VI-NEXT: v_subrev_u32_e32 v5, vcc, v14, v5			; VI-NEXT: v_sub_u32_e32 v5, vcc, v5, v14
	; VI-NEXT: v_subrev_u32_e32 v6, vcc, v16, v6			; VI-NEXT: v_sub_u32_e32 v6, vcc, v6, v16
	; VI-NEXT: v_sub_u32_e32 v7, vcc, v7, v18			; VI-NEXT: v_sub_u32_e32 v7, vcc, v7, v18
	; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8			; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8
	; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9			; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9
	; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10			; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10
	; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11			; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	; VI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v12, vcc, v0, v4			; VI-NEXT: v_subrev_u32_e32 v12, vcc, v0, v4
	; VI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v13, vcc, v1, v5			; VI-NEXT: v_subrev_u32_e32 v13, vcc, v1, v5
	; VI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]
	; VI-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6			; VI-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6
	; VI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]			; VI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]
	; VI-NEXT: v_subrev_u32_e32 v15, vcc, v3, v7			; VI-NEXT: v_subrev_u32_e32 v15, vcc, v3, v7
				; VI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]
	; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v8			; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v8
	; VI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]
	; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v9			; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v9
	; VI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]
	; VI-NEXT: v_add_u32_e32 v14, vcc, 1, v10			; VI-NEXT: v_add_u32_e32 v14, vcc, 1, v10
	; VI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]			; VI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]
	; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v11			; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v11
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_lo_u32 v11, v11, v10			; GCN-NEXT: v_mul_lo_u32 v11, v11, v10
	; GCN-NEXT: v_mul_lo_u32 v13, v13, v12			; GCN-NEXT: v_mul_lo_u32 v13, v13, v12
	; GCN-NEXT: v_mul_lo_u32 v15, v15, v14			; GCN-NEXT: v_mul_lo_u32 v15, v15, v14
	; GCN-NEXT: v_mul_lo_u32 v17, v17, v16			; GCN-NEXT: v_mul_lo_u32 v17, v17, v16
	; GCN-NEXT: v_mul_hi_u32 v11, v10, v11			; GCN-NEXT: v_mul_hi_u32 v11, v10, v11
	; GCN-NEXT: v_mul_hi_u32 v13, v12, v13			; GCN-NEXT: v_mul_hi_u32 v13, v12, v13
	; GCN-NEXT: v_mul_hi_u32 v15, v14, v15			; GCN-NEXT: v_mul_hi_u32 v15, v14, v15
	; GCN-NEXT: v_mul_hi_u32 v17, v16, v17			; GCN-NEXT: v_mul_hi_u32 v17, v16, v17
	; GCN-NEXT: v_add_u32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_u32_e32 v10, vcc, v10, v11
	; GCN-NEXT: v_add_u32_e32 v11, vcc, v12, v13			; GCN-NEXT: v_add_u32_e32 v11, vcc, v13, v12
	; GCN-NEXT: v_add_u32_e32 v12, vcc, v14, v15			; GCN-NEXT: v_add_u32_e32 v12, vcc, v14, v15
	; GCN-NEXT: v_add_u32_e32 v13, vcc, v17, v16			; GCN-NEXT: v_add_u32_e32 v13, vcc, v17, v16
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v10, v4, v10			; GCN-NEXT: v_mul_hi_u32 v10, v4, v10
	; GCN-NEXT: v_mul_hi_u32 v11, v5, v11			; GCN-NEXT: v_mul_hi_u32 v11, v5, v11
	; GCN-NEXT: v_mul_hi_u32 v12, v6, v12			; GCN-NEXT: v_mul_hi_u32 v12, v6, v12
	; GCN-NEXT: v_mul_hi_u32 v13, v7, v13			; GCN-NEXT: v_mul_hi_u32 v13, v7, v13
	; GCN-NEXT: v_mul_lo_u32 v14, v10, v0			; GCN-NEXT: v_mul_lo_u32 v14, v10, v0
	; GCN-NEXT: v_mul_lo_u32 v16, v11, v1			; GCN-NEXT: v_mul_lo_u32 v16, v11, v1
	; GCN-NEXT: v_mul_lo_u32 v18, v12, v2			; GCN-NEXT: v_mul_lo_u32 v18, v12, v2
	; GCN-NEXT: v_mul_lo_u32 v19, v13, v3			; GCN-NEXT: v_mul_lo_u32 v19, v13, v3
	; GCN-NEXT: v_sub_u32_e32 v4, vcc, v4, v14			; GCN-NEXT: v_sub_u32_e32 v4, vcc, v4, v14
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v16, v5			; GCN-NEXT: v_sub_u32_e32 v5, vcc, v5, v16
	; GCN-NEXT: v_subrev_u32_e32 v6, vcc, v18, v6			; GCN-NEXT: v_sub_u32_e32 v6, vcc, v6, v18
	; GCN-NEXT: v_sub_u32_e32 v7, vcc, v7, v19			; GCN-NEXT: v_sub_u32_e32 v7, vcc, v7, v19
	; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10			; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10
	; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11			; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11
	; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12			; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12
	; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13			; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
				; GCN-NEXT: v_subrev_u32_e32 v18, vcc, v0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v10, v10, v15, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v10, v10, v15, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v15, vcc, v0, v4			; GCN-NEXT: v_subrev_u32_e32 v15, vcc, v1, v5
	; GCN-NEXT: v_cndmask_b32_e64 v11, v11, v17, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v11, v11, v17, s[2:3]
	; GCN-NEXT: v_subrev_u32_e32 v17, vcc, v1, v5			; GCN-NEXT: v_subrev_u32_e32 v17, vcc, v2, v6
	; GCN-NEXT: v_cndmask_b32_e64 v12, v12, v14, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v12, v12, v14, s[4:5]
	; GCN-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6			; GCN-NEXT: v_subrev_u32_e32 v14, vcc, v3, v7
	; GCN-NEXT: v_cndmask_b32_e64 v13, v13, v16, s[6:7]			; GCN-NEXT: v_cndmask_b32_e64 v13, v13, v16, s[6:7]
	; GCN-NEXT: v_subrev_u32_e32 v16, vcc, v3, v7			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v18, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v15, s[0:1]			; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v10
	; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10			; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v15, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v17, s[2:3]			; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v11
	; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v17, s[4:5]
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v12
	; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v14, s[6:7]
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v16, s[6:7]			; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v13
	; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v0			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v10, v15, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v10, v16, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v11, v17, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v11, v15, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v6, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v6, v2
	; GCN-NEXT: v_cndmask_b32_e32 v2, v12, v14, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v12, v17, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v3
	; GCN-NEXT: v_cndmask_b32_e32 v3, v13, v16, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, v13, v14, vcc
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: udiv_v4i32:			; GFX1030-LABEL: udiv_v4i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v8, 0			; GFX1030-NEXT: v_mov_b32_e32 v8, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: s_clause 0x1			; GFX1030-NEXT: s_clause 0x1
	; GFX1030-NEXT: global_load_dwordx4 v[0:3], v8, s[6:7] offset:16			; GFX1030-NEXT: global_load_dwordx4 v[0:3], v8, s[2:3] offset:16
	; GFX1030-NEXT: global_load_dwordx4 v[4:7], v8, s[6:7]			; GFX1030-NEXT: global_load_dwordx4 v[4:7], v8, s[2:3]
	; GFX1030-NEXT: s_waitcnt vmcnt(1)			; GFX1030-NEXT: s_waitcnt vmcnt(1)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v9, v0			; GFX1030-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v10, v1			; GFX1030-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v11, v2
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v12, v3
	; GFX1030-NEXT: v_sub_nc_u32_e32 v13, 0, v0
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v9, v9
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v11, v11
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; GFX1030-NEXT: v_sub_nc_u32_e32 v14, 0, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v15, 0, v2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v16, 0, v3
	; GFX1030-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v9
	; GFX1030-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10
	; GFX1030-NEXT: v_mul_f32_e32 v11, 0x4f7ffffe, v11
	; GFX1030-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v9, v9
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v11, v11
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GFX1030-NEXT: v_mul_lo_u32 v13, v13, v9
	; GFX1030-NEXT: v_mul_lo_u32 v14, v14, v10
	; GFX1030-NEXT: v_mul_lo_u32 v15, v15, v11
	; GFX1030-NEXT: v_mul_lo_u32 v16, v16, v12
	; GFX1030-NEXT: v_mul_hi_u32 v13, v9, v13
	; GFX1030-NEXT: v_mul_hi_u32 v14, v10, v14
	; GFX1030-NEXT: v_mul_hi_u32 v15, v11, v15
	; GFX1030-NEXT: v_mul_hi_u32 v16, v12, v16
	; GFX1030-NEXT: v_add_nc_u32_e32 v9, v9, v13
	; GFX1030-NEXT: v_add_nc_u32_e32 v10, v10, v14
	; GFX1030-NEXT: v_add_nc_u32_e32 v11, v11, v15
	; GFX1030-NEXT: v_add_nc_u32_e32 v12, v12, v16
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: v_mul_hi_u32 v9, v4, v9			; GFX1030-NEXT: v_readfirstlane_b32 s7, v4
	; GFX1030-NEXT: v_mul_hi_u32 v10, v5, v10			; GFX1030-NEXT: v_readfirstlane_b32 s5, v2
	; GFX1030-NEXT: v_mul_hi_u32 v11, v6, v11			; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX1030-NEXT: v_mul_hi_u32 v12, v7, v12			; GFX1030-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX1030-NEXT: v_mul_lo_u32 v13, v9, v0			; GFX1030-NEXT: s_sub_i32 s6, 0, s2
	; GFX1030-NEXT: v_mul_lo_u32 v14, v10, v1			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX1030-NEXT: v_mul_lo_u32 v15, v11, v2			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX1030-NEXT: v_mul_lo_u32 v16, v12, v3			; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX1030-NEXT: v_add_nc_u32_e32 v17, 1, v9			; GFX1030-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX1030-NEXT: v_add_nc_u32_e32 v18, 1, v10			; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX1030-NEXT: v_add_nc_u32_e32 v19, 1, v11			; GFX1030-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v4, v4, v13			; GFX1030-NEXT: v_readfirstlane_b32 s4, v0
	; GFX1030-NEXT: v_sub_nc_u32_e32 v5, v5, v14			; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s5
	; GFX1030-NEXT: v_sub_nc_u32_e32 v6, v6, v15			; GFX1030-NEXT: v_readfirstlane_b32 s9, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v7, v16			; GFX1030-NEXT: s_mul_i32 s6, s6, s4
	; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v12			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0			; GFX1030-NEXT: s_mul_hi_u32 s6, s4, s6
	; GFX1030-NEXT: v_sub_nc_u32_e32 v14, v4, v0			; GFX1030-NEXT: s_add_i32 s4, s4, s6
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v5, v1			; GFX1030-NEXT: s_mul_hi_u32 s4, s7, s4
	; GFX1030-NEXT: v_sub_nc_u32_e32 v15, v5, v1			; GFX1030-NEXT: s_mul_i32 s6, s4, s2
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s1, v6, v2			; GFX1030-NEXT: s_sub_i32 s6, s7, s6
	; GFX1030-NEXT: v_cndmask_b32_e32 v9, v9, v17, vcc_lo			; GFX1030-NEXT: s_add_i32 s7, s4, 1
	; GFX1030-NEXT: v_cndmask_b32_e32 v4, v4, v14, vcc_lo			; GFX1030-NEXT: s_sub_i32 s8, s6, s2
	; GFX1030-NEXT: v_cndmask_b32_e64 v10, v10, v18, s0			; GFX1030-NEXT: s_cmp_ge_u32 s6, s2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v16, v6, v2			; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s2, v7, v3			; GFX1030-NEXT: s_cselect_b32 s4, s7, s4
	; GFX1030-NEXT: v_add_nc_u32_e32 v14, 1, v9			; GFX1030-NEXT: s_cselect_b32 s6, s8, s6
	; GFX1030-NEXT: v_cndmask_b32_e64 v5, v5, v15, s0			; GFX1030-NEXT: s_add_i32 s7, s4, 1
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0			; GFX1030-NEXT: s_cmp_ge_u32 s6, s2
	; GFX1030-NEXT: v_cndmask_b32_e64 v11, v11, v19, s1			; GFX1030-NEXT: v_readfirstlane_b32 s2, v3
	; GFX1030-NEXT: v_cndmask_b32_e64 v12, v12, v13, s2			; GFX1030-NEXT: s_cselect_b32 s4, s7, s4
	; GFX1030-NEXT: v_sub_nc_u32_e32 v13, v7, v3			; GFX1030-NEXT: s_sub_i32 s6, 0, s3
	; GFX1030-NEXT: v_add_nc_u32_e32 v15, 1, v10			; GFX1030-NEXT: v_readfirstlane_b32 s7, v5
	; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v16, s1			; GFX1030-NEXT: s_mul_i32 s6, s6, s9
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v9, v14, vcc_lo			; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v5, v1			; GFX1030-NEXT: s_mul_hi_u32 s6, s9, s6
	; GFX1030-NEXT: v_add_nc_u32_e32 v16, 1, v11			; GFX1030-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX1030-NEXT: v_cndmask_b32_e64 v7, v7, v13, s2			; GFX1030-NEXT: s_add_i32 s9, s9, s6
	; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v12			; GFX1030-NEXT: s_mul_hi_u32 s6, s7, s9
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v10, v15, vcc_lo			; GFX1030-NEXT: v_readfirstlane_b32 s10, v0
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v6, v2			; GFX1030-NEXT: s_mul_i32 s8, s6, s3
	; GFX1030-NEXT: v_cndmask_b32_e32 v2, v11, v16, vcc_lo			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v7, v3			; GFX1030-NEXT: s_sub_i32 s7, s7, s8
	; GFX1030-NEXT: v_cndmask_b32_e32 v3, v12, v13, vcc_lo			; GFX1030-NEXT: s_add_i32 s8, s6, 1
	; GFX1030-NEXT: global_store_dwordx4 v8, v[0:3], s[4:5]			; GFX1030-NEXT: s_sub_i32 s9, s7, s3
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s3
				; GFX1030-NEXT: s_cselect_b32 s6, s8, s6
				; GFX1030-NEXT: s_cselect_b32 s7, s9, s7
				; GFX1030-NEXT: s_add_i32 s8, s6, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s3
				; GFX1030-NEXT: v_readfirstlane_b32 s7, v6
				; GFX1030-NEXT: s_cselect_b32 s3, s8, s6
				; GFX1030-NEXT: s_sub_i32 s6, 0, s5
				; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v1
				; GFX1030-NEXT: s_mul_i32 s6, s6, s10
				; GFX1030-NEXT: v_mov_b32_e32 v1, s3
				; GFX1030-NEXT: s_mul_hi_u32 s6, s10, s6
				; GFX1030-NEXT: s_add_i32 s10, s10, s6
				; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX1030-NEXT: s_mul_hi_u32 s6, s7, s10
				; GFX1030-NEXT: s_mul_i32 s8, s6, s5
				; GFX1030-NEXT: s_sub_i32 s7, s7, s8
				; GFX1030-NEXT: s_add_i32 s8, s6, 1
				; GFX1030-NEXT: s_sub_i32 s9, s7, s5
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s5
				; GFX1030-NEXT: v_readfirstlane_b32 s10, v0
				; GFX1030-NEXT: s_cselect_b32 s6, s8, s6
				; GFX1030-NEXT: s_cselect_b32 s7, s9, s7
				; GFX1030-NEXT: s_add_i32 s8, s6, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s5
				; GFX1030-NEXT: v_readfirstlane_b32 s7, v7
				; GFX1030-NEXT: s_cselect_b32 s5, s8, s6
				; GFX1030-NEXT: s_sub_i32 s6, 0, s2
				; GFX1030-NEXT: v_mov_b32_e32 v0, s4
				; GFX1030-NEXT: s_mul_i32 s6, s6, s10
				; GFX1030-NEXT: v_mov_b32_e32 v2, s5
				; GFX1030-NEXT: s_mul_hi_u32 s6, s10, s6
				; GFX1030-NEXT: s_add_i32 s10, s10, s6
				; GFX1030-NEXT: s_mul_hi_u32 s6, s7, s10
				; GFX1030-NEXT: s_mul_i32 s8, s6, s2
				; GFX1030-NEXT: s_sub_i32 s7, s7, s8
				; GFX1030-NEXT: s_add_i32 s8, s6, 1
				; GFX1030-NEXT: s_sub_i32 s9, s7, s2
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s2
				; GFX1030-NEXT: s_cselect_b32 s6, s8, s6
				; GFX1030-NEXT: s_cselect_b32 s7, s9, s7
				; GFX1030-NEXT: s_add_i32 s8, s6, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s7, s2
				; GFX1030-NEXT: s_cselect_b32 s2, s8, s6
				; GFX1030-NEXT: v_mov_b32_e32 v3, s2
				; GFX1030-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: udiv_v4i32:			; EG-LABEL: udiv_v4i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 1 @6			; EG-NEXT: TEX 1 @6
	; EG-NEXT: ALU 65, @11, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 65, @11, KC0[CB0:0-32], KC1[]
	; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T4.XYZW, T0.X, 1			; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T4.XYZW, T0.X, 1
	▲ Show 20 Lines • Show All 869 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; SI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; SI-NEXT: v_cvt_u32_f32_e32 v1, v1			; SI-NEXT: v_cvt_u32_f32_e32 v1, v1
	; SI-NEXT: v_mul_lo_u32 v4, v4, v1			; SI-NEXT: v_mul_lo_u32 v4, v4, v1
	; SI-NEXT: v_mul_hi_u32 v4, v1, v4			; SI-NEXT: v_mul_hi_u32 v4, v1, v4
	; SI-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; SI-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; SI-NEXT: v_mul_hi_u32 v1, v2, v1			; SI-NEXT: v_mul_hi_u32 v1, v2, v1
	; SI-NEXT: v_mul_lo_u32 v3, v1, v0			; SI-NEXT: v_mul_lo_u32 v3, v1, v0
	; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v1			; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; SI-NEXT: v_subrev_i32_e32 v2, vcc, v3, v2			; SI-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0
	; SI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v3, vcc, v0, v2			; SI-NEXT: v_subrev_i32_e32 v3, vcc, v0, v2
	; SI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
				; SI-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
				; SI-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; SI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc
	; SI-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_udiv_i24:			; VI-LABEL: v_udiv_i24:
	Show All 27 Lines
	; VI-NEXT: v_cvt_u32_f32_e32 v1, v1			; VI-NEXT: v_cvt_u32_f32_e32 v1, v1
	; VI-NEXT: v_mul_lo_u32 v4, v4, v1			; VI-NEXT: v_mul_lo_u32 v4, v4, v1
	; VI-NEXT: v_mul_hi_u32 v4, v1, v4			; VI-NEXT: v_mul_hi_u32 v4, v1, v4
	; VI-NEXT: v_add_u32_e32 v1, vcc, v1, v4			; VI-NEXT: v_add_u32_e32 v1, vcc, v1, v4
	; VI-NEXT: v_mul_hi_u32 v1, v2, v1			; VI-NEXT: v_mul_hi_u32 v1, v2, v1
	; VI-NEXT: v_mul_lo_u32 v3, v1, v0			; VI-NEXT: v_mul_lo_u32 v3, v1, v0
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1
	; VI-NEXT: v_sub_u32_e32 v2, vcc, v2, v3			; VI-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; VI-NEXT: v_sub_u32_e32 v3, vcc, v2, v0			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; VI-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc
	; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: v_udiv_i24:			; GCN-LABEL: v_udiv_i24:
	Show All 35 Lines
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v4			; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v2, v0			; GCN-NEXT: v_mul_hi_u32 v4, v2, v0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v3			; GCN-NEXT: v_mul_lo_u32 v5, v4, v3
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_sub_u32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_sub_u32_e32 v2, vcc, v2, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v3			; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v3, v2
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3
	; GCN-NEXT: v_sub_u32_e32 v5, vcc, v2, v3			; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3
	; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc
	; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2			; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: v_udiv_i24:			; GFX1030-LABEL: v_udiv_i24:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v0, 0			; GFX1030-NEXT: v_mov_b32_e32 v0, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: s_clause 0x3			; GFX1030-NEXT: s_clause 0x3
	; GFX1030-NEXT: global_load_ubyte v1, v0, s[2:3] offset:6			; GFX1030-NEXT: global_load_ubyte v1, v0, s[2:3] offset:6
	; GFX1030-NEXT: global_load_ushort v2, v0, s[2:3] offset:4			; GFX1030-NEXT: global_load_ushort v2, v0, s[2:3] offset:4
	; GFX1030-NEXT: global_load_ubyte v3, v0, s[2:3] offset:2			; GFX1030-NEXT: global_load_ubyte v3, v0, s[2:3] offset:2
	; GFX1030-NEXT: global_load_ushort v4, v0, s[2:3]			; GFX1030-NEXT: global_load_ushort v4, v0, s[2:3]
	; GFX1030-NEXT: s_waitcnt vmcnt(3)			; GFX1030-NEXT: s_waitcnt vmcnt(3)
	; GFX1030-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX1030-NEXT: v_readfirstlane_b32 s2, v1
				; GFX1030-NEXT: s_waitcnt vmcnt(2)
				; GFX1030-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1030-NEXT: s_waitcnt vmcnt(1)			; GFX1030-NEXT: s_waitcnt vmcnt(1)
	; GFX1030-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX1030-NEXT: v_readfirstlane_b32 s4, v3
	; GFX1030-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: v_or_b32_e32 v3, v4, v3			; GFX1030-NEXT: v_readfirstlane_b32 s5, v4
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v2, v1			; GFX1030-NEXT: s_lshl_b32 s2, s2, 16
	; GFX1030-NEXT: v_sub_nc_u32_e32 v5, 0, v1			; GFX1030-NEXT: s_or_b32 s2, s3, s2
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX1030-NEXT: s_lshl_b32 s4, s4, 16
	; GFX1030-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; GFX1030-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX1030-NEXT: s_sub_i32 s6, 0, s2
	; GFX1030-NEXT: v_mul_lo_u32 v5, v5, v2			; GFX1030-NEXT: s_or_b32 s4, s5, s4
	; GFX1030-NEXT: v_mul_hi_u32 v5, v2, v5			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX1030-NEXT: v_add_nc_u32_e32 v2, v2, v5			; GFX1030-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX1030-NEXT: v_mul_hi_u32 v2, v3, v2			; GFX1030-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX1030-NEXT: v_mul_lo_u32 v4, v2, v1			; GFX1030-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v3, v3, v4			; GFX1030-NEXT: s_mul_i32 s6, s6, s3
	; GFX1030-NEXT: v_add_nc_u32_e32 v4, 1, v2			; GFX1030-NEXT: s_mul_hi_u32 s6, s3, s6
	; GFX1030-NEXT: v_sub_nc_u32_e32 v5, v3, v1			; GFX1030-NEXT: s_add_i32 s3, s3, s6
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v3, v1			; GFX1030-NEXT: s_mul_hi_u32 s3, s4, s3
	; GFX1030-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo			; GFX1030-NEXT: s_mul_i32 s5, s3, s2
	; GFX1030-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo			; GFX1030-NEXT: s_sub_i32 s4, s4, s5
	; GFX1030-NEXT: v_add_nc_u32_e32 v4, 1, v2			; GFX1030-NEXT: s_add_i32 s5, s3, 1
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v3, v1			; GFX1030-NEXT: s_sub_i32 s6, s4, s2
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v2, v4, vcc_lo			; GFX1030-NEXT: s_cmp_ge_u32 s4, s2
	; GFX1030-NEXT: v_and_b32_e32 v1, 0xffffff, v1			; GFX1030-NEXT: s_cselect_b32 s3, s5, s3
				; GFX1030-NEXT: s_cselect_b32 s4, s6, s4
				; GFX1030-NEXT: s_add_i32 s5, s3, 1
				; GFX1030-NEXT: s_cmp_ge_u32 s4, s2
				; GFX1030-NEXT: s_cselect_b32 s2, s5, s3
				; GFX1030-NEXT: s_and_b32 s2, s2, 0xffffff
				; GFX1030-NEXT: v_mov_b32_e32 v1, s2
	; GFX1030-NEXT: global_store_dword v0, v1, s[0:1]			; GFX1030-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_udiv_i24:			; EG-LABEL: v_udiv_i24:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @14, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @14, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 3 @6			; EG-NEXT: TEX 3 @6
	; EG-NEXT: ALU 23, @15, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 23, @15, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 330 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_rcp_iflag_f32_e32 v4, v2			; SI-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; SI-NEXT: v_or_b32_e32 v0, 1, v0			; SI-NEXT: v_or_b32_e32 v0, 1, v0
	; SI-NEXT: v_mul_f32_e32 v1, v3, v4			; SI-NEXT: v_mul_f32_e32 v1, v3, v4
	; SI-NEXT: v_trunc_f32_e32 v1, v1			; SI-NEXT: v_trunc_f32_e32 v1, v1
	; SI-NEXT: v_mad_f32 v3, -v1, v2, v3			; SI-NEXT: v_mad_f32 v3, -v1, v2, v3
	; SI-NEXT: v_cvt_i32_f32_e32 v1, v1			; SI-NEXT: v_cvt_i32_f32_e32 v1, v1
	; SI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; SI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; SI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0			; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fdiv_test_denormals:			; VI-LABEL: fdiv_test_denormals:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s0, 0			; VI-NEXT: s_mov_b32 s0, 0
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	Show All 9 Lines
	; VI-NEXT: v_rcp_iflag_f32_e32 v4, v2			; VI-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; VI-NEXT: v_or_b32_e32 v0, 1, v0			; VI-NEXT: v_or_b32_e32 v0, 1, v0
	; VI-NEXT: v_mul_f32_e32 v1, v3, v4			; VI-NEXT: v_mul_f32_e32 v1, v3, v4
	; VI-NEXT: v_trunc_f32_e32 v1, v1			; VI-NEXT: v_trunc_f32_e32 v1, v1
	; VI-NEXT: v_mad_f32 v3, -v1, v2, v3			; VI-NEXT: v_mad_f32 v3, -v1, v2, v3
	; VI-NEXT: v_cvt_i32_f32_e32 v1, v1			; VI-NEXT: v_cvt_i32_f32_e32 v1, v1
	; VI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; VI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; VI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v1			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0			; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: fdiv_test_denormals:			; GCN-LABEL: fdiv_test_denormals:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: flat_load_sbyte v2, v[0:1]			; GCN-NEXT: flat_load_sbyte v2, v[0:1]
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: flat_load_sbyte v3, v[0:1]			; GCN-NEXT: flat_load_sbyte v3, v[0:1]
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: v_cvt_f32_i32_e32 v4, v2			; GCN-NEXT: v_cvt_f32_i32_e32 v4, v2
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cvt_f32_i32_e32 v5, v3			; GCN-NEXT: v_cvt_f32_i32_e32 v5, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-NEXT: v_xor_b32_e32 v2, v3, v2			; GCN-NEXT: v_xor_b32_e32 v2, v3, v2
	; GCN-NEXT: v_ashrrev_i32_e32 v2, 30, v2			; GCN-NEXT: v_ashrrev_i32_e32 v2, 30, v2
	; GCN-NEXT: v_or_b32_e32 v2, 1, v2			; GCN-NEXT: v_or_b32_e32 v2, 1, v2
	; GCN-NEXT: v_mul_f32_e32 v3, v5, v6			; GCN-NEXT: v_mul_f32_e32 v3, v5, v6
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mad_f32 v5, -v3, v4, v5			; GCN-NEXT: v_mad_f32 v5, -v3, v4, v5
	; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_u32_e32 v2, vcc, v3, v2
	; GCN-NEXT: flat_store_byte v[0:1], v2			; GCN-NEXT: flat_store_byte v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: fdiv_test_denormals:			; GFX1030-LABEL: fdiv_test_denormals:
	; GFX1030: ; %bb.0: ; %bb			; GFX1030: ; %bb.0: ; %bb
	; GFX1030-NEXT: global_load_sbyte v2, v[0:1], off			; GFX1030-NEXT: global_load_sbyte v2, v[0:1], off
	; GFX1030-NEXT: v_mov_b32_e32 v0, 0			; GFX1030-NEXT: v_mov_b32_e32 v0, 0
	; GFX1030-NEXT: v_mov_b32_e32 v1, 0			; GFX1030-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; SI-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; SI-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; SI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
	; SI-NEXT: v_mul_hi_u32 v4, v2, s4			; SI-NEXT: v_mul_hi_u32 v4, v2, s4
	; SI-NEXT: v_mul_lo_u32 v5, v3, s4			; SI-NEXT: v_mul_lo_u32 v5, v3, s4
	; SI-NEXT: v_mul_lo_u32 v6, v2, s4			; SI-NEXT: v_mul_lo_u32 v6, v2, s4
	; SI-NEXT: s_mov_b32 s4, 0x186a0			; SI-NEXT: s_mov_b32 s4, 0x186a0
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4			; SI-NEXT: v_sub_i32_e32 v4, vcc, v4, v2
	; SI-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; SI-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; SI-NEXT: v_mul_lo_u32 v5, v2, v4			; SI-NEXT: v_mul_lo_u32 v5, v2, v4
	; SI-NEXT: v_mul_hi_u32 v7, v2, v6			; SI-NEXT: v_mul_hi_u32 v7, v2, v6
	; SI-NEXT: v_mul_hi_u32 v8, v2, v4			; SI-NEXT: v_mul_hi_u32 v8, v2, v4
	; SI-NEXT: v_mul_hi_u32 v9, v3, v4			; SI-NEXT: v_mul_hi_u32 v9, v3, v4
	; SI-NEXT: v_mul_lo_u32 v4, v3, v4			; SI-NEXT: v_mul_lo_u32 v4, v3, v4
	; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	; SI-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; SI-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; VI-NEXT: v_trunc_f32_e32 v3, v3			; VI-NEXT: v_trunc_f32_e32 v3, v3
	; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; VI-NEXT: v_cvt_u32_f32_e32 v6, v2			; VI-NEXT: v_cvt_u32_f32_e32 v6, v2
	; VI-NEXT: v_cvt_u32_f32_e32 v7, v3			; VI-NEXT: v_cvt_u32_f32_e32 v7, v3
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; VI-NEXT: v_mul_lo_u32 v4, v7, s6			; VI-NEXT: v_mul_lo_u32 v4, v7, s6
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; VI-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; VI-NEXT: v_add_u32_e32 v8, vcc, v3, v4			; VI-NEXT: v_add_u32_e32 v8, vcc, v4, v3
	; VI-NEXT: v_mul_hi_u32 v5, v6, v2			; VI-NEXT: v_mul_hi_u32 v5, v6, v2
	; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0			; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0
	; VI-NEXT: v_add_u32_e32 v9, vcc, v5, v3			; VI-NEXT: v_add_u32_e32 v9, vcc, v5, v3
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; VI-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc
	; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0
	; VI-NEXT: v_add_u32_e32 v2, vcc, v9, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v9, v2
	; VI-NEXT: v_addc_u32_e32 v2, vcc, v10, v3, vcc			; VI-NEXT: v_addc_u32_e32 v2, vcc, v10, v3, vcc
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v2			; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; VI-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; VI-NEXT: v_mul_lo_u32 v4, v7, s6			; VI-NEXT: v_mul_lo_u32 v4, v7, s6
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; VI-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; VI-NEXT: v_add_u32_e32 v5, vcc, v3, v4			; VI-NEXT: v_add_u32_e32 v5, vcc, v3, v4
	; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0			; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; VI-NEXT: v_mul_hi_u32 v8, v6, v2			; VI-NEXT: v_mul_hi_u32 v8, v6, v2
	; VI-NEXT: v_add_u32_e32 v8, vcc, v8, v3			; VI-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v4, vcc
	; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; VI-NEXT: v_add_u32_e32 v2, vcc, v8, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; GCN-NEXT: v_mul_lo_u32 v4, v7, s6			; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
	; GCN-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_add_u32_e32 v8, vcc, v3, v4			; GCN-NEXT: v_add_u32_e32 v8, vcc, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v6, v2			; GCN-NEXT: v_mul_hi_u32 v5, v6, v2
	; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0			; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0
	; GCN-NEXT: v_add_u32_e32 v9, vcc, v5, v3			; GCN-NEXT: v_add_u32_e32 v9, vcc, v5, v3
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; GCN-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc
	; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v9, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v9, v2
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v10, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v10, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GCN-NEXT: v_add_u32_e32 v6, vcc, v6, v2			; GCN-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; GCN-NEXT: v_mul_lo_u32 v4, v7, s6			; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
	; GCN-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_add_u32_e32 v5, vcc, v3, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, v3, v4
	; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0			; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GCN-NEXT: v_mul_hi_u32 v8, v6, v2			; GCN-NEXT: v_mul_hi_u32 v8, v6, v2
	; GCN-NEXT: v_add_u32_e32 v8, vcc, v8, v3			; GCN-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, 0, v4, vcc
	; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v8, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	▲ Show 20 Lines • Show All 123 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv64.ll

Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s4, v1		; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
; GCN-NEXT: v_mul_hi_u32 v3, s4, v0		; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
; GCN-NEXT: v_mul_lo_u32 v4, s5, v0		; GCN-NEXT: v_mul_lo_u32 v4, s5, v0
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, s4, v0		; GCN-NEXT: v_mul_lo_u32 v3, s4, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v3		; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v2		; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v1, v3		; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
; GCN-NEXT: v_mul_lo_u32 v3, v1, v3		; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
; GCN-NEXT: v_mul_hi_u32 v4, v1, v2		; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
Show All 33 Lines
; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v3		; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v3
; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v4		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0		; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 1, v0
; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 2, v0
; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v6, s3		; GCN-NEXT: v_mov_b32_e32 v6, s3
; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v2		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v3		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2
; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_i64:		; GCN-IR-LABEL: s_test_udiv_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[4:5], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[4:5], 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[2:3], 0
; GCN-IR-NEXT: s_flbit_i32_b32 s12, s4		; GCN-IR-NEXT: s_flbit_i32_b32 s10, s4
; GCN-IR-NEXT: s_add_i32 s14, s12, 32		; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[8:9]
; GCN-IR-NEXT: s_or_b64 s[12:13], s[8:9], s[10:11]		; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
; GCN-IR-NEXT: s_flbit_i32_b32 s8, s5		; GCN-IR-NEXT: s_flbit_i32_b32 s11, s5
; GCN-IR-NEXT: s_min_u32 s10, s14, s8		; GCN-IR-NEXT: s_add_i32 s10, s10, 32
; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2		; GCN-IR-NEXT: s_add_i32 s6, s6, 32
; GCN-IR-NEXT: s_add_i32 s8, s8, 32		; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3		; GCN-IR-NEXT: s_min_u32 s10, s10, s11
; GCN-IR-NEXT: s_min_u32 s14, s8, s9		; GCN-IR-NEXT: s_min_u32 s14, s6, s7
; GCN-IR-NEXT: s_sub_u32 s8, s10, s14		; GCN-IR-NEXT: s_sub_u32 s12, s10, s14
; GCN-IR-NEXT: s_subb_u32 s9, 0, 0		; GCN-IR-NEXT: s_subb_u32 s13, 0, 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[8:9], 63		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[12:13], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[8:9], 63		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[12:13], 63
; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[16:17]		; GCN-IR-NEXT: s_or_b64 s[16:17], s[8:9], s[16:17]
; GCN-IR-NEXT: s_or_b64 s[16:17], s[12:13], s[18:19]		; GCN-IR-NEXT: s_and_b64 s[8:9], s[16:17], exec
		; GCN-IR-NEXT: s_cselect_b32 s9, 0, s3
		; GCN-IR-NEXT: s_cselect_b32 s8, 0, s2
		; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[18:19]
		; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_mov_b32 s11, 0		; GCN-IR-NEXT: s_mov_b32 s11, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s12, s8, 1		; GCN-IR-NEXT: s_add_u32 s16, s12, 1
; GCN-IR-NEXT: s_addc_u32 s13, s9, 0		; GCN-IR-NEXT: s_addc_u32 s17, s13, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[16:17], 0
; GCN-IR-NEXT: s_sub_i32 s8, 63, s8		; GCN-IR-NEXT: s_sub_i32 s12, 63, s12
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[8:9]
; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s8		; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s12
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s12		; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s16
; GCN-IR-NEXT: s_add_u32 s15, s4, -1		; GCN-IR-NEXT: s_add_u32 s15, s4, -1
; GCN-IR-NEXT: s_addc_u32 s16, s5, -1		; GCN-IR-NEXT: s_addc_u32 s16, s5, -1
; GCN-IR-NEXT: s_not_b64 s[2:3], s[10:11]		; GCN-IR-NEXT: s_not_b64 s[2:3], s[10:11]
; GCN-IR-NEXT: s_add_u32 s2, s2, s14		; GCN-IR-NEXT: s_add_u32 s2, s2, s14
; GCN-IR-NEXT: s_addc_u32 s3, s3, 0		; GCN-IR-NEXT: s_addc_u32 s3, s3, 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], 0		; GCN-IR-NEXT: s_mov_b64 s[10:11], 0
; GCN-IR-NEXT: s_mov_b32 s7, 0		; GCN-IR-NEXT: s_mov_b32 s7, 0
; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while
Show All 14 Lines
; GCN-IR-NEXT: s_add_u32 s2, s2, 1		; GCN-IR-NEXT: s_add_u32 s2, s2, 1
; GCN-IR-NEXT: s_addc_u32 s3, s3, 0		; GCN-IR-NEXT: s_addc_u32 s3, s3, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[2:3], 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], s[6:7]		; GCN-IR-NEXT: s_mov_b64 s[10:11], s[6:7]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]
; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3
; GCN-IR-NEXT: .LBB0_4: ; %Flow6		; GCN-IR-NEXT: .LBB0_4: ; %Flow6
; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[8:9], 1		; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[8:9], 1
; GCN-IR-NEXT: s_or_b64 s[2:3], s[6:7], s[2:3]		; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[2:3]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: .LBB0_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s8
; GCN-IR-NEXT: s_branch .LBB0_6
; GCN-IR-NEXT: .LBB0_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[12:13]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s9
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = udiv i64 %x, %y		%result = udiv i64 %x, %y
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_udiv_i64(i64 %x, i64 %y) {		define i64 @v_test_udiv_i64(i64 %x, i64 %y) {
▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
%result = udiv i64 %1, %2		%result = udiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_udiv24_i48(i48 addrspace(1)* %out, i48 %x, i48 %y) {		define amdgpu_kernel void @s_test_udiv24_i48(i48 addrspace(1)* %out, i48 %x, i48 %y) {
; GCN-LABEL: s_test_udiv24_i48:		; GCN-LABEL: s_test_udiv24_i48:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000		; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000
; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_and_b32 s4, s4, 0xff000000		; GCN-NEXT: s_and_b32 s0, s2, 0xff000000
; GCN-NEXT: s_and_b32 s5, s5, 0xffff		; GCN-NEXT: s_and_b32 s1, s3, 0xffff
; GCN-NEXT: v_mov_b32_e32 v0, s4		; GCN-NEXT: v_mov_b32_e32 v0, s0
; GCN-NEXT: v_alignbit_b32 v0, s5, v0, 24		; GCN-NEXT: v_alignbit_b32 v0, s1, v0, 24
; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0
; GCN-NEXT: s_and_b32 s8, s3, 0xffff		; GCN-NEXT: s_and_b32 s7, s7, 0xffff
; GCN-NEXT: s_and_b32 s9, s2, 0xff000000		; GCN-NEXT: s_and_b32 s6, s6, 0xff000000
; GCN-NEXT: s_lshr_b64 s[2:3], s[4:5], 24		; GCN-NEXT: s_lshr_b64 s[0:1], s[0:1], 24
; GCN-NEXT: v_mac_f32_e32 v1, 0, v2		; GCN-NEXT: v_mac_f32_e32 v1, 0, v2
; GCN-NEXT: v_rcp_f32_e32 v1, v1		; GCN-NEXT: v_rcp_f32_e32 v1, v1
; GCN-NEXT: s_sub_u32 s2, 0, s2		; GCN-NEXT: s_sub_u32 s8, 0, s0
; GCN-NEXT: s_subb_u32 s3, 0, s3		; GCN-NEXT: s_subb_u32 s9, 0, s1
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1		; GCN-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1		; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2		; GCN-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_mul_lo_u32 v3, s2, v2		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_mul_hi_u32 v4, s2, v1		; GCN-NEXT: v_mul_lo_u32 v3, s8, v2
; GCN-NEXT: v_mul_lo_u32 v5, s3, v1		; GCN-NEXT: v_mul_hi_u32 v4, s8, v1
; GCN-NEXT: v_mul_lo_u32 v6, s2, v1		; GCN-NEXT: v_mul_lo_u32 v5, s9, v1
		; GCN-NEXT: v_mul_lo_u32 v6, s8, v1
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_mul_lo_u32 v4, v1, v3		; GCN-NEXT: v_mul_lo_u32 v4, v1, v3
; GCN-NEXT: v_mul_hi_u32 v5, v1, v6		; GCN-NEXT: v_mul_hi_u32 v5, v1, v6
; GCN-NEXT: v_mul_hi_u32 v7, v1, v3		; GCN-NEXT: v_mul_hi_u32 v7, v1, v3
; GCN-NEXT: v_mul_hi_u32 v8, v2, v3		; GCN-NEXT: v_mul_hi_u32 v8, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3		; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v2, v6		; GCN-NEXT: v_mul_lo_u32 v7, v2, v6
; GCN-NEXT: v_mul_hi_u32 v6, v2, v6		; GCN-NEXT: v_mul_hi_u32 v6, v2, v6
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v5, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v5, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v8, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s2, v2		; GCN-NEXT: v_mul_lo_u32 v3, s8, v2
; GCN-NEXT: v_mul_hi_u32 v4, s2, v1		; GCN-NEXT: v_mul_hi_u32 v4, s8, v1
; GCN-NEXT: v_mul_lo_u32 v5, s3, v1		; GCN-NEXT: v_mul_lo_u32 v5, s9, v1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_mul_lo_u32 v4, s2, v1		; GCN-NEXT: v_mul_lo_u32 v4, s8, v1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_mul_lo_u32 v7, v1, v3		; GCN-NEXT: v_mul_lo_u32 v7, v1, v3
; GCN-NEXT: v_mul_hi_u32 v8, v1, v4		; GCN-NEXT: v_mul_hi_u32 v8, v1, v4
; GCN-NEXT: v_mul_hi_u32 v9, v1, v3		; GCN-NEXT: v_mul_hi_u32 v9, v1, v3
; GCN-NEXT: v_mul_hi_u32 v6, v2, v4		; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4		; GCN-NEXT: v_mul_lo_u32 v4, v2, v4
; GCN-NEXT: v_mul_hi_u32 v5, v2, v3		; GCN-NEXT: v_mul_hi_u32 v5, v2, v3
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v9, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3		; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_mov_b32_e32 v3, s9		; GCN-NEXT: v_mov_b32_e32 v3, s6
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_alignbit_b32 v3, s8, v3, 24		; GCN-NEXT: v_alignbit_b32 v3, s7, v3, 24
; GCN-NEXT: v_mul_lo_u32 v4, v3, v2		; GCN-NEXT: v_mul_lo_u32 v4, v3, v2
; GCN-NEXT: v_mul_hi_u32 v1, v3, v1		; GCN-NEXT: v_mul_hi_u32 v1, v3, v1
; GCN-NEXT: v_mul_hi_u32 v2, v3, v2		; GCN-NEXT: v_mul_hi_u32 v2, v3, v2
; GCN-NEXT: v_mov_b32_e32 v5, 0		; GCN-NEXT: v_mov_b32_e32 v5, 0
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1
; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v1		; GCN-NEXT: v_mul_hi_u32 v7, v0, v1
; GCN-NEXT: v_add_i32_e32 v4, vcc, 2, v1		; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v1
; GCN-NEXT: v_mul_lo_u32 v10, v0, v1		; GCN-NEXT: v_mul_lo_u32 v10, v0, v1
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v2, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, 1, v1		; GCN-NEXT: v_add_i32_e32 v8, vcc, 2, v1
; GCN-NEXT: v_addc_u32_e32 v9, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v9, vcc, 0, v2, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v10		; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v10
; GCN-NEXT: v_subb_u32_e32 v6, vcc, 0, v6, vcc		; GCN-NEXT: v_subb_u32_e32 v6, vcc, 0, v6, vcc
; GCN-NEXT: v_sub_i32_e32 v7, vcc, v3, v0		; GCN-NEXT: v_sub_i32_e32 v7, vcc, v3, v0
; GCN-NEXT: v_subbrev_u32_e32 v10, vcc, 0, v6, vcc		; GCN-NEXT: v_subbrev_u32_e32 v10, vcc, 0, v6, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v0		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v0
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v0
; GCN-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc		; GCN-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v9, vcc
; GCN-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v8, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v4, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v9, v5, vcc		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v4, vcc
		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v5, vcc
		; GCN-NEXT: buffer_store_short v1, off, s[0:3], 0 offset:4
		; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv24_i48:		; GCN-IR-LABEL: s_test_udiv24_i48:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GCN-IR-NEXT: s_mov_b32 s11, 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_and_b32 s3, s7, 0xffff		; GCN-IR-NEXT: s_and_b32 s3, s7, 0xffff
; GCN-IR-NEXT: s_and_b32 s2, s6, 0xff000000		; GCN-IR-NEXT: s_and_b32 s2, s6, 0xff000000
; GCN-IR-NEXT: s_and_b32 s1, s1, 0xffff		; GCN-IR-NEXT: s_and_b32 s1, s1, 0xffff
; GCN-IR-NEXT: s_and_b32 s0, s0, 0xff000000		; GCN-IR-NEXT: s_and_b32 s0, s0, 0xff000000
; GCN-IR-NEXT: s_lshr_b64 s[8:9], s[2:3], 24		; GCN-IR-NEXT: s_lshr_b64 s[8:9], s[2:3], 24
; GCN-IR-NEXT: s_lshr_b64 s[2:3], s[0:1], 24		; GCN-IR-NEXT: s_lshr_b64 s[0:1], s[0:1], 24
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[2:3], s[0:1], 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[8:9], 0
; GCN-IR-NEXT: s_mov_b64 s[0:1], 0		; GCN-IR-NEXT: s_or_b64 s[12:13], s[2:3], s[6:7]
; GCN-IR-NEXT: s_or_b64 s[12:13], s[6:7], s[10:11]		; GCN-IR-NEXT: s_flbit_i32_b32 s2, s0
; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2		; GCN-IR-NEXT: s_add_i32 s2, s2, 32
; GCN-IR-NEXT: s_add_i32 s6, s6, 32		; GCN-IR-NEXT: s_flbit_i32_b32 s3, s1
; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3		; GCN-IR-NEXT: s_min_u32 s10, s2, s3
; GCN-IR-NEXT: s_min_u32 s10, s6, s7		; GCN-IR-NEXT: s_flbit_i32_b32 s2, s8
; GCN-IR-NEXT: s_flbit_i32_b32 s6, s8		; GCN-IR-NEXT: s_add_i32 s2, s2, 32
; GCN-IR-NEXT: s_add_i32 s6, s6, 32		; GCN-IR-NEXT: s_flbit_i32_b32 s3, s9
; GCN-IR-NEXT: s_flbit_i32_b32 s7, s9		; GCN-IR-NEXT: s_min_u32 s14, s2, s3
; GCN-IR-NEXT: s_min_u32 s14, s6, s7
; GCN-IR-NEXT: s_sub_u32 s6, s10, s14		; GCN-IR-NEXT: s_sub_u32 s6, s10, s14
; GCN-IR-NEXT: s_subb_u32 s7, 0, 0		; GCN-IR-NEXT: s_subb_u32 s7, 0, 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[6:7], 63		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[6:7], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[6:7], 63		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[6:7], 63
; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[16:17]		; GCN-IR-NEXT: s_or_b64 s[16:17], s[12:13], s[16:17]
; GCN-IR-NEXT: s_or_b64 s[16:17], s[12:13], s[18:19]		; GCN-IR-NEXT: s_and_b64 s[12:13], s[16:17], exec
		; GCN-IR-NEXT: s_cselect_b32 s13, 0, s9
		; GCN-IR-NEXT: s_cselect_b32 s12, 0, s8
		; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[18:19]
		; GCN-IR-NEXT: s_mov_b64 s[2:3], 0
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_mov_b32 s11, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB7_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB7_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s12, s6, 1		; GCN-IR-NEXT: s_add_u32 s12, s6, 1
; GCN-IR-NEXT: s_addc_u32 s13, s7, 0		; GCN-IR-NEXT: s_addc_u32 s13, s7, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 0
; GCN-IR-NEXT: s_sub_i32 s6, 63, s6		; GCN-IR-NEXT: s_sub_i32 s6, 63, s6
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[8:9], s6		; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[8:9], s6
; GCN-IR-NEXT: s_cbranch_vccz .LBB7_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB7_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[8:9], s12		; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[8:9], s12
; GCN-IR-NEXT: s_add_u32 s15, s2, -1		; GCN-IR-NEXT: s_add_u32 s15, s0, -1
; GCN-IR-NEXT: s_addc_u32 s16, s3, -1		; GCN-IR-NEXT: s_addc_u32 s16, s1, -1
; GCN-IR-NEXT: s_not_b64 s[0:1], s[10:11]		; GCN-IR-NEXT: s_not_b64 s[2:3], s[10:11]
; GCN-IR-NEXT: s_add_u32 s8, s0, s14		; GCN-IR-NEXT: s_add_u32 s8, s2, s14
; GCN-IR-NEXT: s_addc_u32 s9, s1, 0		; GCN-IR-NEXT: s_addc_u32 s9, s3, 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], 0		; GCN-IR-NEXT: s_mov_b64 s[10:11], 0
; GCN-IR-NEXT: s_mov_b32 s1, 0		; GCN-IR-NEXT: s_mov_b32 s3, 0
; GCN-IR-NEXT: .LBB7_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB7_3: ; %udiv-do-while
; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1		; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
; GCN-IR-NEXT: s_lshl_b64 s[12:13], s[12:13], 1		; GCN-IR-NEXT: s_lshl_b64 s[12:13], s[12:13], 1
; GCN-IR-NEXT: s_lshr_b32 s0, s7, 31		; GCN-IR-NEXT: s_lshr_b32 s2, s7, 31
; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1
; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[0:1]		; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[2:3]
; GCN-IR-NEXT: s_or_b64 s[6:7], s[10:11], s[6:7]		; GCN-IR-NEXT: s_or_b64 s[6:7], s[10:11], s[6:7]
; GCN-IR-NEXT: s_sub_u32 s0, s15, s12		; GCN-IR-NEXT: s_sub_u32 s2, s15, s12
; GCN-IR-NEXT: s_subb_u32 s0, s16, s13		; GCN-IR-NEXT: s_subb_u32 s2, s16, s13
; GCN-IR-NEXT: s_ashr_i32 s10, s0, 31		; GCN-IR-NEXT: s_ashr_i32 s10, s2, 31
; GCN-IR-NEXT: s_mov_b32 s11, s10		; GCN-IR-NEXT: s_mov_b32 s11, s10
; GCN-IR-NEXT: s_and_b32 s0, s10, 1		; GCN-IR-NEXT: s_and_b32 s2, s10, 1
; GCN-IR-NEXT: s_and_b64 s[10:11], s[10:11], s[2:3]		; GCN-IR-NEXT: s_and_b64 s[10:11], s[10:11], s[0:1]
; GCN-IR-NEXT: s_sub_u32 s12, s12, s10		; GCN-IR-NEXT: s_sub_u32 s12, s12, s10
; GCN-IR-NEXT: s_subb_u32 s13, s13, s11		; GCN-IR-NEXT: s_subb_u32 s13, s13, s11
; GCN-IR-NEXT: s_add_u32 s8, s8, 1		; GCN-IR-NEXT: s_add_u32 s8, s8, 1
; GCN-IR-NEXT: s_addc_u32 s9, s9, 0		; GCN-IR-NEXT: s_addc_u32 s9, s9, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[8:9], 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], s[0:1]		; GCN-IR-NEXT: s_mov_b64 s[10:11], s[2:3]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]
; GCN-IR-NEXT: s_cbranch_vccz .LBB7_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB7_3
; GCN-IR-NEXT: .LBB7_4: ; %Flow3		; GCN-IR-NEXT: .LBB7_4: ; %Flow3
; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[0:1], s[6:7], 1
; GCN-IR-NEXT: s_or_b64 s[0:1], s[0:1], s[2:3]		; GCN-IR-NEXT: s_or_b64 s[12:13], s[2:3], s[0:1]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s0		; GCN-IR-NEXT: .LBB7_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s1
; GCN-IR-NEXT: s_branch .LBB7_6
; GCN-IR-NEXT: .LBB7_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s9
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[12:13]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s8
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
; GCN-IR-NEXT: .LBB7_6: ; %udiv-end
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4		; GCN-IR-NEXT: v_mov_b32_e32 v0, s13
		; GCN-IR-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
		; GCN-IR-NEXT: s_waitcnt expcnt(0)
		; GCN-IR-NEXT: v_mov_b32_e32 v0, s12
; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = lshr i48 %x, 24		%1 = lshr i48 %x, 24
%2 = lshr i48 %y, 24		%2 = lshr i48 %y, 24
%result = udiv i48 %1, %2		%result = udiv i48 %1, %2
store i48 %result, i48 addrspace(1)* %out		store i48 %result, i48 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2
; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v3		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v3
; GCN-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]
; GCN-NEXT: v_add_i32_e64 v4, s[0:1], 2, v0		; GCN-NEXT: v_add_i32_e64 v4, s[0:1], 1, v0
; GCN-NEXT: v_addc_u32_e64 v5, s[0:1], 0, 0, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v5, s[0:1], 0, 0, s[0:1]
; GCN-NEXT: v_add_i32_e64 v6, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v6, s[0:1], 2, v0
; GCN-NEXT: v_addc_u32_e64 v7, s[0:1], 0, 0, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v7, s[0:1], 0, 0, s[0:1]
; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cndmask_b32_e64 v3, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v6, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v4, v5, v7, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v2		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v2, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; GCN-NEXT: v_cndmask_b32_e64 v2, v6, v4, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_k_num_i64:		; GCN-IR-LABEL: s_test_udiv_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
; GCN-IR-NEXT: s_add_i32 s6, s6, 32
; GCN-IR-NEXT: s_min_u32 s8, s6, s7
; GCN-IR-NEXT: s_add_u32 s6, s8, 0xffffffc5
; GCN-IR-NEXT: s_addc_u32 s7, 0, -1
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[10:11], s[6:7], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[6:7], 63
; GCN-IR-NEXT: s_or_b64 s[10:11], s[4:5], s[10:11]
; GCN-IR-NEXT: s_or_b64 s[4:5], s[10:11], s[12:13]
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]
; GCN-IR-NEXT: s_mov_b64 s[4:5], 0		; GCN-IR-NEXT: s_mov_b64 s[4:5], 0
		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2
		; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3
		; GCN-IR-NEXT: s_add_i32 s8, s8, 32
		; GCN-IR-NEXT: s_min_u32 s8, s8, s9
		; GCN-IR-NEXT: s_add_u32 s10, s8, 0xffffffc5
		; GCN-IR-NEXT: s_addc_u32 s11, 0, -1
		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[2:3], 0
		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[12:13], s[10:11], 63
		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[10:11], 63
		; GCN-IR-NEXT: s_or_b64 s[12:13], s[6:7], s[12:13]
		; GCN-IR-NEXT: s_and_b64 s[6:7], s[12:13], exec
		; GCN-IR-NEXT: s_cselect_b32 s6, 0, 24
		; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[14:15]
		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]
		; GCN-IR-NEXT: s_mov_b32 s7, 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s10, s6, 1		; GCN-IR-NEXT: s_add_u32 s12, s10, 1
; GCN-IR-NEXT: s_addc_u32 s11, s7, 0		; GCN-IR-NEXT: s_addc_u32 s13, s11, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[12:13], 0
; GCN-IR-NEXT: s_sub_i32 s6, 63, s6		; GCN-IR-NEXT: s_sub_i32 s9, 63, s10
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[6:7]
; GCN-IR-NEXT: s_lshl_b64 s[6:7], 24, s6		; GCN-IR-NEXT: s_lshl_b64 s[6:7], 24, s9
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s10		; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s12
; GCN-IR-NEXT: s_add_u32 s14, s2, -1		; GCN-IR-NEXT: s_add_u32 s14, s2, -1
; GCN-IR-NEXT: s_addc_u32 s15, s3, -1		; GCN-IR-NEXT: s_addc_u32 s15, s3, -1
; GCN-IR-NEXT: s_sub_u32 s8, 58, s8		; GCN-IR-NEXT: s_sub_u32 s8, 58, s8
; GCN-IR-NEXT: s_subb_u32 s9, 0, 0		; GCN-IR-NEXT: s_subb_u32 s9, 0, 0
; GCN-IR-NEXT: s_mov_b64 s[12:13], 0		; GCN-IR-NEXT: s_mov_b64 s[12:13], 0
; GCN-IR-NEXT: s_mov_b32 s5, 0		; GCN-IR-NEXT: s_mov_b32 s5, 0
; GCN-IR-NEXT: .LBB8_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB8_3: ; %udiv-do-while
; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1		; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
Show All 13 Lines
; GCN-IR-NEXT: s_add_u32 s8, s8, 1		; GCN-IR-NEXT: s_add_u32 s8, s8, 1
; GCN-IR-NEXT: s_addc_u32 s9, s9, 0		; GCN-IR-NEXT: s_addc_u32 s9, s9, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0
; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]		; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]
; GCN-IR-NEXT: s_cbranch_vccz .LBB8_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB8_3
; GCN-IR-NEXT: .LBB8_4: ; %Flow5		; GCN-IR-NEXT: .LBB8_4: ; %Flow5
; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[6:7], 1
; GCN-IR-NEXT: s_or_b64 s[2:3], s[4:5], s[2:3]		; GCN-IR-NEXT: s_or_b64 s[6:7], s[4:5], s[2:3]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: .LBB8_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s6
; GCN-IR-NEXT: s_branch .LBB8_6
; GCN-IR-NEXT: .LBB8_5:
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]
; GCN-IR-NEXT: .LBB8_6: ; %udiv-end
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = udiv i64 24, %x		%result = udiv i64 24, %x
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; define i64 @v_test_udiv_k_num_i64(i64 %x) {		; define i64 @v_test_udiv_k_num_i64(i64 %x) {
▲ Show 20 Lines • Show All 266 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @s_test_udiv_k_den_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_udiv_k_den_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_udiv_k_den_i64:		; GCN-LABEL: s_test_udiv_k_den_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000		; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000
; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000		; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: s_movk_i32 s4, 0xffe8		; GCN-NEXT: s_movk_i32 s8, 0xffe8
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v1, v1		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: v_mul_hi_u32 v2, v0, s8
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4		; GCN-NEXT: v_mul_lo_u32 v4, v1, s8
; GCN-NEXT: v_mul_lo_u32 v4, v1, s4		; GCN-NEXT: v_mul_lo_u32 v3, v0, s8
; GCN-NEXT: v_mul_lo_u32 v3, v0, s4		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0		; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_mul_hi_u32 v5, v0, v3		; GCN-NEXT: v_mul_hi_u32 v5, v0, v3
; GCN-NEXT: v_mul_lo_u32 v4, v0, v2		; GCN-NEXT: v_mul_lo_u32 v4, v0, v2
; GCN-NEXT: v_mul_hi_u32 v6, v0, v2		; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v1, v2		; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2		; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v1, v3		; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
; GCN-NEXT: v_mul_hi_u32 v3, v1, v3		; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4		; GCN-NEXT: v_mul_hi_u32 v2, v0, s8
; GCN-NEXT: v_mul_lo_u32 v3, v1, s4		; GCN-NEXT: v_mul_lo_u32 v3, v1, s8
; GCN-NEXT: v_mul_lo_u32 v4, v0, s4		; GCN-NEXT: v_mul_lo_u32 v4, v0, s8
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v0, v2		; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v0, v4		; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
; GCN-NEXT: v_mul_hi_u32 v6, v0, v2		; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v1, v2		; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2		; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v1, v4		; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4		; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s2, v1		; GCN-NEXT: v_mul_lo_u32 v2, s6, v1
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_mul_hi_u32 v3, s6, v0
; GCN-NEXT: v_mul_hi_u32 v4, s2, v1		; GCN-NEXT: v_mul_hi_u32 v4, s6, v1
; GCN-NEXT: v_mul_hi_u32 v5, s3, v1		; GCN-NEXT: v_mul_hi_u32 v5, s7, v1
; GCN-NEXT: v_mul_lo_u32 v1, s3, v1		; GCN-NEXT: v_mul_lo_u32 v1, s7, v1
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s3, v0		; GCN-NEXT: v_mul_lo_u32 v4, s7, v0
; GCN-NEXT: v_mul_hi_u32 v0, s3, v0		; GCN-NEXT: v_mul_hi_u32 v0, s7, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v1, 24		; GCN-NEXT: v_mul_lo_u32 v4, v1, 24
; GCN-NEXT: v_mul_hi_u32 v5, v0, 24		; GCN-NEXT: v_mul_hi_u32 v5, v0, 24
; GCN-NEXT: v_add_i32_e32 v2, vcc, 2, v0		; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0
; GCN-NEXT: v_mul_lo_u32 v8, v0, 24		; GCN-NEXT: v_mul_lo_u32 v8, v0, 24
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v0		; GCN-NEXT: v_add_i32_e32 v6, vcc, 2, v0
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mov_b32_e32 v5, s3		; GCN-NEXT: v_mov_b32_e32 v5, s7
; GCN-NEXT: v_sub_i32_e32 v8, vcc, s2, v8		; GCN-NEXT: v_sub_i32_e32 v8, vcc, s6, v8
; GCN-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc		; GCN-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc
; GCN-NEXT: v_subrev_i32_e32 v5, vcc, 24, v8		; GCN-NEXT: v_subrev_i32_e32 v5, vcc, 24, v8
; GCN-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc		; GCN-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc
; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v5		; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
; GCN-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc
; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], 23, v8
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
; GCN-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]		; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v8
; GCN-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, -1, v5, vcc
; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_k_den_i64:		; GCN-IR-LABEL: s_test_udiv_k_den_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2		; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3		; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
; GCN-IR-NEXT: s_add_i32 s6, s6, 32		; GCN-IR-NEXT: s_add_i32 s6, s6, 32
; GCN-IR-NEXT: s_min_u32 s10, s6, s7		; GCN-IR-NEXT: s_min_u32 s10, s6, s7
; GCN-IR-NEXT: s_sub_u32 s6, 59, s10		; GCN-IR-NEXT: s_sub_u32 s8, 59, s10
; GCN-IR-NEXT: s_subb_u32 s7, 0, 0		; GCN-IR-NEXT: s_subb_u32 s9, 0, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0
; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[8:9], s[6:7], 63		; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[6:7], s[8:9], 63
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[6:7], 63		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[8:9], 63
; GCN-IR-NEXT: s_or_b64 s[8:9], s[4:5], s[8:9]		; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
; GCN-IR-NEXT: s_or_b64 s[4:5], s[8:9], s[12:13]		; GCN-IR-NEXT: s_and_b64 s[6:7], s[4:5], exec
		; GCN-IR-NEXT: s_cselect_b32 s7, 0, s3
		; GCN-IR-NEXT: s_cselect_b32 s6, 0, s2
		; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[12:13]
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]
; GCN-IR-NEXT: s_mov_b64 s[4:5], 0		; GCN-IR-NEXT: s_mov_b64 s[4:5], 0
; GCN-IR-NEXT: s_cbranch_vccz .LBB11_5		; GCN-IR-NEXT: s_cbranch_vccz .LBB11_5
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: s_add_u32 s8, s6, 1		; GCN-IR-NEXT: s_add_u32 s12, s8, 1
; GCN-IR-NEXT: s_addc_u32 s9, s7, 0		; GCN-IR-NEXT: s_addc_u32 s13, s9, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[8:9], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[12:13], 0
; GCN-IR-NEXT: s_sub_i32 s6, 63, s6		; GCN-IR-NEXT: s_sub_i32 s8, 63, s8
; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]		; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[6:7]
; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[2:3], s6		; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[2:3], s8
; GCN-IR-NEXT: s_cbranch_vccz .LBB11_4		; GCN-IR-NEXT: s_cbranch_vccz .LBB11_4
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
; GCN-IR-NEXT: s_lshr_b64 s[8:9], s[2:3], s8		; GCN-IR-NEXT: s_lshr_b64 s[8:9], s[2:3], s12
; GCN-IR-NEXT: s_add_u32 s2, s10, 0xffffffc4		; GCN-IR-NEXT: s_add_u32 s2, s10, 0xffffffc4
; GCN-IR-NEXT: s_addc_u32 s3, 0, -1		; GCN-IR-NEXT: s_addc_u32 s3, 0, -1
; GCN-IR-NEXT: s_mov_b64 s[10:11], 0		; GCN-IR-NEXT: s_mov_b64 s[10:11], 0
; GCN-IR-NEXT: s_mov_b32 s5, 0		; GCN-IR-NEXT: s_mov_b32 s5, 0
; GCN-IR-NEXT: .LBB11_3: ; %udiv-do-while		; GCN-IR-NEXT: .LBB11_3: ; %udiv-do-while
; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1		; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1		; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1
; GCN-IR-NEXT: s_lshr_b32 s4, s7, 31		; GCN-IR-NEXT: s_lshr_b32 s4, s7, 31
Show All 10 Lines
; GCN-IR-NEXT: s_add_u32 s2, s2, 1		; GCN-IR-NEXT: s_add_u32 s2, s2, 1
; GCN-IR-NEXT: s_addc_u32 s3, s3, 0		; GCN-IR-NEXT: s_addc_u32 s3, s3, 0
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[2:3], 0		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[2:3], 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], s[4:5]		; GCN-IR-NEXT: s_mov_b64 s[10:11], s[4:5]
; GCN-IR-NEXT: s_and_b64 vcc, exec, s[12:13]		; GCN-IR-NEXT: s_and_b64 vcc, exec, s[12:13]
; GCN-IR-NEXT: s_cbranch_vccz .LBB11_3		; GCN-IR-NEXT: s_cbranch_vccz .LBB11_3
; GCN-IR-NEXT: .LBB11_4: ; %Flow5		; GCN-IR-NEXT: .LBB11_4: ; %Flow5
; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[6:7], 1		; GCN-IR-NEXT: s_lshl_b64 s[2:3], s[6:7], 1
; GCN-IR-NEXT: s_or_b64 s[2:3], s[4:5], s[2:3]		; GCN-IR-NEXT: s_or_b64 s[6:7], s[4:5], s[2:3]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: .LBB11_5: ; %udiv-end
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s6
; GCN-IR-NEXT: s_branch .LBB11_6
; GCN-IR-NEXT: .LBB11_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[8:9]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[8:9]
; GCN-IR-NEXT: .LBB11_6: ; %udiv-end
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
		; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = udiv i64 %x, 24		%result = udiv i64 %x, 24
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_udiv_k_den_i64(i64 %x) {		define i64 @v_test_udiv_k_den_i64(i64 %x) {
▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udivrem.ll

	Show All 30 Lines
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	; R600-NEXT: ADD_INT * T1.W, PV.W, 1,			; R600-NEXT: ADD_INT * T1.W, PV.W, 1,
	; R600-NEXT: CNDE_INT T2.X, T3.W, T0.W, PV.W,			; R600-NEXT: CNDE_INT T2.X, T3.W, T0.W, PV.W,
	; R600-NEXT: LSHR * T3.X, KC0[2].Y, literal.x,			; R600-NEXT: LSHR * T3.X, KC0[2].Y, literal.x,
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	;			;
	; GFX6-LABEL: test_udivrem:			; GFX6-LABEL: test_udivrem:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s2, s[0:1], 0x26			; GFX6-NEXT: s_load_dword s8, s[0:1], 0x26
				; GFX6-NEXT: s_load_dword s9, s[0:1], 0x1d
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x13			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x13
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_mov_b32 s10, s6
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: s_sub_i32 s3, 0, s2			; GFX6-NEXT: s_sub_i32 s2, 0, s8
	; GFX6-NEXT: s_mov_b32 s11, s7			; GFX6-NEXT: s_mov_b32 s3, s7
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX6-NEXT: s_load_dword s3, s[0:1], 0x1d			; GFX6-NEXT: s_mov_b32 s2, s6
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: v_mul_hi_u32 v0, s9, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_readfirstlane_b32 s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s2			; GFX6-NEXT: s_mul_i32 s10, s10, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: s_sub_i32 s9, s9, s10
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s3, v1			; GFX6-NEXT: s_sub_i32 s10, s9, s8
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: s_cmp_ge_u32 s9, s8
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v1			; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GFX6-NEXT: s_cselect_b32 s9, s10, s9
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v1			; GFX6-NEXT: s_sub_i32 s10, s9, s8
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_add_i32_e32 v1, vcc, 1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v1			; GFX6-NEXT: s_cmp_ge_u32 s9, s8
				; GFX6-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX6-NEXT: s_cselect_b32 s8, s10, s9
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v1, v2, s[0:1]			; GFX6-NEXT: v_mov_b32_e32 v0, s8
	; GFX6-NEXT: buffer_store_dword v0, off, s[8:11], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem:			; GFX8-LABEL: test_udivrem:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s6, s[0:1], 0x98			; GFX8-NEXT: s_load_dword s4, s[0:1], 0x98
	; GFX8-NEXT: s_load_dword s7, s[0:1], 0x74			; GFX8-NEXT: s_load_dword s5, s[0:1], 0x74
	; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x4c
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GFX8-NEXT: s_sub_i32 s2, 0, s6			; GFX8-NEXT: s_sub_i32 s2, 0, s4
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0			; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x4c
	; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8-NEXT: v_mov_b32_e32 v3, s1
				; GFX8-NEXT: v_mov_b32_e32 v2, s0
				; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
				; GFX8-NEXT: v_mul_hi_u32 v4, s5, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6			; GFX8-NEXT: v_readfirstlane_b32 s0, v4
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; GFX8-NEXT: s_mul_i32 s0, s0, s4
	; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s7, v3			; GFX8-NEXT: s_sub_i32 s0, s5, s0
	; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3			; GFX8-NEXT: s_sub_i32 s1, s0, s4
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s6, v3			; GFX8-NEXT: s_cmp_ge_u32 s0, s4
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX8-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; GFX8-NEXT: s_cselect_b32 s0, s1, s0
	; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3			; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX8-NEXT: s_sub_i32 s1, s0, s4
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s6, v3			; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: s_cmp_ge_u32 s0, s4
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: s_cselect_b32 s0, s1, s0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v4
				; GFX8-NEXT: v_mov_b32_e32 v0, s0
				; GFX8-NEXT: flat_store_dword v[2:3], v0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	%result0 = udiv i32 %x, %y			%result0 = udiv i32 %x, %y
	store i32 %result0, i32 addrspace(1)* %out0			store i32 %result0, i32 addrspace(1)* %out0
	%result1 = urem i32 %x, %y			%result1 = urem i32 %x, %y
	store i32 %result1, i32 addrspace(1)* %out1			store i32 %result1, i32 addrspace(1)* %out1
	ret void			ret void
	}			}

	Show All 35 Lines
	; R600-NEXT: CNDE_INT T0.X, PV.W, T0.Z, PS,			; R600-NEXT: CNDE_INT T0.X, PV.W, T0.Z, PS,
	; R600-NEXT: LSHR * T1.X, KC0[2].Y, literal.x,			; R600-NEXT: LSHR * T1.X, KC0[2].Y, literal.x,
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	;			;
	; GFX6-LABEL: test_udivrem_v2:			; GFX6-LABEL: test_udivrem_v2:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7
	; GFX6-NEXT: s_sub_i32 s2, 0, s6			; GFX6-NEXT: s_sub_i32 s2, 0, s6
				; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s7
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
				; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
				; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
				; GFX6-NEXT: s_mul_i32 s2, s2, s6
				; GFX6-NEXT: s_sub_i32 s2, s4, s2
				; GFX6-NEXT: s_sub_i32 s3, s2, s6
				; GFX6-NEXT: s_cmp_ge_u32 s2, s6
				; GFX6-NEXT: s_cselect_b32 s2, s3, s2
				; GFX6-NEXT: s_sub_i32 s3, s2, s6
				; GFX6-NEXT: s_cmp_ge_u32 s2, s6
				; GFX6-NEXT: s_cselect_b32 s4, s3, s2
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_sub_i32 s2, 0, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_readfirstlane_b32 s6, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: s_mul_i32 s6, s6, s7
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: s_sub_i32 s5, s5, s6
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: s_sub_i32 s6, s5, s7
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: s_cmp_ge_u32 s5, s7
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_cselect_b32 s5, s6, s5
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: s_sub_i32 s6, s5, s7
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: s_cmp_ge_u32 s5, s7
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s7, v1			; GFX6-NEXT: s_cselect_b32 s5, s6, s5
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v2:			; GFX8-LABEL: test_udivrem_v2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	Show All 19 Lines
	; GFX8-NEXT: s_cselect_b32 s2, s3, s2			; GFX8-NEXT: s_cselect_b32 s2, s3, s2
	; GFX8-NEXT: s_sub_i32 s3, s2, s6			; GFX8-NEXT: s_sub_i32 s3, s2, s6
	; GFX8-NEXT: s_cmp_ge_u32 s2, s6			; GFX8-NEXT: s_cmp_ge_u32 s2, s6
	; GFX8-NEXT: s_cselect_b32 s2, s3, s2			; GFX8-NEXT: s_cselect_b32 s2, s3, s2
	; GFX8-NEXT: s_sub_i32 s3, 0, s7			; GFX8-NEXT: s_sub_i32 s3, 0, s7
	; GFX8-NEXT: v_mul_lo_u32 v0, s3, v1			; GFX8-NEXT: v_mul_lo_u32 v0, s3, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0			; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_hi_u32 v1, s5, v0			; GFX8-NEXT: v_mul_hi_u32 v1, s5, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_readfirstlane_b32 s2, v1			; GFX8-NEXT: v_readfirstlane_b32 s2, v1
	; GFX8-NEXT: s_mul_i32 s2, s2, s7			; GFX8-NEXT: s_mul_i32 s2, s2, s7
	; GFX8-NEXT: s_sub_i32 s2, s5, s2			; GFX8-NEXT: s_sub_i32 s2, s5, s2
	; GFX8-NEXT: s_sub_i32 s3, s2, s7			; GFX8-NEXT: s_sub_i32 s3, s2, s7
	; GFX8-NEXT: s_cmp_ge_u32 s2, s7			; GFX8-NEXT: s_cmp_ge_u32 s2, s7
	; GFX8-NEXT: s_cselect_b32 s2, s3, s2			; GFX8-NEXT: s_cselect_b32 s2, s3, s2
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; R600-NEXT: CNDE_INT T3.X, PV.W, T0.Y, PS,			; R600-NEXT: CNDE_INT T3.X, PV.W, T0.Y, PS,
	; R600-NEXT: LSHR * T0.X, KC0[2].Y, literal.x,			; R600-NEXT: LSHR * T0.X, KC0[2].Y, literal.x,
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	;			;
	; GFX6-LABEL: test_udivrem_v4:			; GFX6-LABEL: test_udivrem_v4:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: s_sub_i32 s2, 0, s8
	; GFX6-NEXT: s_sub_i32 s12, 0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s9
	; GFX6-NEXT: s_sub_i32 s13, 0, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s8
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: s_sub_i32 s2, s4, s2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s3, s2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s2, s8
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: s_sub_i32 s3, s2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: s_cmp_ge_u32 s2, s8
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: s_cselect_b32 s4, s3, s2
	; GFX6-NEXT: s_sub_i32 s4, 0, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s11
	; GFX6-NEXT: s_sub_i32 s4, 0, s11			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s9
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4			; GFX6-NEXT: s_sub_i32 s2, s5, s2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s9
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: s_cmp_ge_u32 s2, s9
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s9
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: s_cmp_ge_u32 s2, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: s_cselect_b32 s5, s3, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s10, v2			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX6-NEXT: v_readfirstlane_b32 s2, v0
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s10, v2			; GFX6-NEXT: s_mul_i32 s2, s2, s10
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: s_sub_i32 s2, s6, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: s_sub_i32 s3, s2, s10
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3			; GFX6-NEXT: s_cmp_ge_u32 s2, s10
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: s_cselect_b32 s2, s3, s2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: s_sub_i32 s3, s2, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: s_cmp_ge_u32 s2, s10
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: s_cselect_b32 s6, s3, s2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: s_sub_i32 s2, 0, s11
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_mul_lo_u32 v0, s2, v1
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
				; GFX6-NEXT: v_mul_hi_u32 v0, v1, v0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
				; GFX6-NEXT: v_mul_hi_u32 v2, s7, v0
				; GFX6-NEXT: v_mov_b32_e32 v0, s4
				; GFX6-NEXT: v_mov_b32_e32 v1, s5
				; GFX6-NEXT: v_readfirstlane_b32 s4, v2
				; GFX6-NEXT: s_mul_i32 s4, s4, s11
				; GFX6-NEXT: s_sub_i32 s4, s7, s4
				; GFX6-NEXT: s_sub_i32 s5, s4, s11
				; GFX6-NEXT: s_cmp_ge_u32 s4, s11
				; GFX6-NEXT: s_cselect_b32 s4, s5, s4
				; GFX6-NEXT: s_sub_i32 s5, s4, s11
				; GFX6-NEXT: s_cmp_ge_u32 s4, s11
				; GFX6-NEXT: s_cselect_b32 s4, s5, s4
				; GFX6-NEXT: v_mov_b32_e32 v2, s6
				; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v4:			; GFX8-LABEL: test_udivrem_v4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	Show All 39 Lines
	; GFX8-NEXT: s_cselect_b32 s3, s4, s3			; GFX8-NEXT: s_cselect_b32 s3, s4, s3
	; GFX8-NEXT: s_sub_i32 s4, s3, s9			; GFX8-NEXT: s_sub_i32 s4, s3, s9
	; GFX8-NEXT: s_cmp_ge_u32 s3, s9			; GFX8-NEXT: s_cmp_ge_u32 s3, s9
	; GFX8-NEXT: s_cselect_b32 s3, s4, s3			; GFX8-NEXT: s_cselect_b32 s3, s4, s3
	; GFX8-NEXT: s_sub_i32 s4, 0, s10			; GFX8-NEXT: s_sub_i32 s4, 0, s10
	; GFX8-NEXT: v_mul_lo_u32 v0, s4, v1			; GFX8-NEXT: v_mul_lo_u32 v0, s4, v1
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0			; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX8-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: v_readfirstlane_b32 s4, v0			; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: s_mul_i32 s4, s4, s10			; GFX8-NEXT: s_mul_i32 s4, s4, s10
	; GFX8-NEXT: s_sub_i32 s4, s6, s4			; GFX8-NEXT: s_sub_i32 s4, s6, s4
	; GFX8-NEXT: s_sub_i32 s5, s4, s10			; GFX8-NEXT: s_sub_i32 s5, s4, s10
	; GFX8-NEXT: s_cmp_ge_u32 s4, s10			; GFX8-NEXT: s_cmp_ge_u32 s4, s10
	Show All 30 Lines

llvm/test/CodeGen/AMDGPU/uint_to_fp.f64.ll

Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_uint_to_fp_v4i32_to_v4f64(<4 x double> addrspace(1)* %out, <4 x i32> %in) {
ret void		ret void
}		}

; We can't fold the SGPRs into v_cndmask_b32_e32, because it already		; We can't fold the SGPRs into v_cndmask_b32_e32, because it already
; uses an SGPR (implicit vcc).		; uses an SGPR (implicit vcc).

; GCN-LABEL: {{^}}uint_to_fp_i1_to_f64:		; GCN-LABEL: {{^}}uint_to_fp_i1_to_f64:
; VI-DAG: s_cmp_eq_u32		; VI-DAG: s_cmp_eq_u32
; VI-DAG: s_cselect_b32 s[[SSEL:[0-9]+]], 0x3ff00000, 0		; GCN-DAG: s_cselect_b32 s[[SSEL:[0-9]+]], 0x3ff00000, 0
; VI-DAG: v_mov_b32_e32 v[[SEL:[0-9]+]], s[[SSEL]]
; SI-DAG: s_cmp_eq_u32
; SI-DAG: s_cselect_b64 vcc, -1, 0
; SI-DAG: v_cndmask_b32_e32 v[[SEL:[0-9]+]], 0, {{v[0-9]+}}, vcc
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
		; GCN-DAG: v_mov_b32_e32 v[[SEL:[0-9]+]], s[[SSEL]]
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v[[[ZERO]]:[[SEL]]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v[[[ZERO]]:[[SEL]]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @uint_to_fp_i1_to_f64(double addrspace(1)* %out, i32 %in) {		define amdgpu_kernel void @uint_to_fp_i1_to_f64(double addrspace(1)* %out, i32 %in) {
%cmp = icmp eq i32 %in, 0		%cmp = icmp eq i32 %in, 0
%fp = uitofp i1 %cmp to double		%fp = uitofp i1 %cmp to double
store double %fp, double addrspace(1)* %out, align 4		store double %fp, double addrspace(1)* %out, align 4
ret void		ret void
}		}
Show All 37 Lines

llvm/test/CodeGen/AMDGPU/urem64.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s1, v0			; GCN-NEXT: v_mul_lo_u32 v4, s1, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, s0, v0			; GCN-NEXT: v_mul_lo_u32 v3, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v2			; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v3			; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v2			; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v3			; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
	; GCN-NEXT: v_mul_lo_u32 v3, v1, v3			; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v2			; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	Show All 36 Lines
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5
	; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4			; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v5, s11			; GCN-NEXT: v_mov_b32_e32 v4, s11
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v4, v1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
				; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
	; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem_i64:			; GCN-IR-LABEL: s_test_urem_i64:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[4:5], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[4:5], 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[10:11], s[2:3], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[2:3], 0
	; GCN-IR-NEXT: s_flbit_i32_b32 s12, s4			; GCN-IR-NEXT: s_flbit_i32_b32 s10, s4
	; GCN-IR-NEXT: s_add_i32 s14, s12, 32			; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[8:9]
	; GCN-IR-NEXT: s_or_b64 s[12:13], s[8:9], s[10:11]			; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
	; GCN-IR-NEXT: s_flbit_i32_b32 s8, s5			; GCN-IR-NEXT: s_flbit_i32_b32 s11, s5
	; GCN-IR-NEXT: s_min_u32 s10, s14, s8			; GCN-IR-NEXT: s_add_i32 s10, s10, 32
	; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2			; GCN-IR-NEXT: s_add_i32 s6, s6, 32
	; GCN-IR-NEXT: s_add_i32 s8, s8, 32			; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
	; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3			; GCN-IR-NEXT: s_min_u32 s10, s10, s11
	; GCN-IR-NEXT: s_min_u32 s14, s8, s9			; GCN-IR-NEXT: s_min_u32 s14, s6, s7
	; GCN-IR-NEXT: s_sub_u32 s8, s10, s14			; GCN-IR-NEXT: s_sub_u32 s12, s10, s14
	; GCN-IR-NEXT: s_subb_u32 s9, 0, 0			; GCN-IR-NEXT: s_subb_u32 s13, 0, 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[8:9], 63			; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[16:17], s[12:13], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[8:9], 63			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[12:13], 63
	; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[16:17]			; GCN-IR-NEXT: s_or_b64 s[16:17], s[8:9], s[16:17]
	; GCN-IR-NEXT: s_or_b64 s[16:17], s[12:13], s[18:19]			; GCN-IR-NEXT: s_and_b64 s[8:9], s[16:17], exec
				; GCN-IR-NEXT: s_cselect_b32 s9, 0, s3
				; GCN-IR-NEXT: s_cselect_b32 s8, 0, s2
				; GCN-IR-NEXT: s_or_b64 s[16:17], s[16:17], s[18:19]
				; GCN-IR-NEXT: s_mov_b64 s[6:7], 0
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]
	; GCN-IR-NEXT: s_mov_b32 s11, 0			; GCN-IR-NEXT: s_mov_b32 s11, 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s12, s8, 1			; GCN-IR-NEXT: s_add_u32 s16, s12, 1
	; GCN-IR-NEXT: s_addc_u32 s13, s9, 0			; GCN-IR-NEXT: s_addc_u32 s17, s13, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[12:13], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[8:9], s[16:17], 0
	; GCN-IR-NEXT: s_sub_i32 s8, 63, s8			; GCN-IR-NEXT: s_sub_i32 s12, 63, s12
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[16:17]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[8:9]
	; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s8			; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[2:3], s12
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_4
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s12			; GCN-IR-NEXT: s_lshr_b64 s[12:13], s[2:3], s16
	; GCN-IR-NEXT: s_add_u32 s16, s4, -1			; GCN-IR-NEXT: s_add_u32 s16, s4, -1
	; GCN-IR-NEXT: s_addc_u32 s17, s5, -1			; GCN-IR-NEXT: s_addc_u32 s17, s5, -1
	; GCN-IR-NEXT: s_not_b64 s[6:7], s[10:11]			; GCN-IR-NEXT: s_not_b64 s[6:7], s[10:11]
	; GCN-IR-NEXT: s_add_u32 s10, s6, s14			; GCN-IR-NEXT: s_add_u32 s10, s6, s14
	; GCN-IR-NEXT: s_addc_u32 s11, s7, 0			; GCN-IR-NEXT: s_addc_u32 s11, s7, 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], 0			; GCN-IR-NEXT: s_mov_b64 s[14:15], 0
	; GCN-IR-NEXT: s_mov_b32 s7, 0			; GCN-IR-NEXT: s_mov_b32 s7, 0
	; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while			; GCN-IR-NEXT: .LBB0_3: ; %udiv-do-while
	Show All 14 Lines
	; GCN-IR-NEXT: s_add_u32 s10, s10, 1			; GCN-IR-NEXT: s_add_u32 s10, s10, 1
	; GCN-IR-NEXT: s_addc_u32 s11, s11, 0			; GCN-IR-NEXT: s_addc_u32 s11, s11, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[18:19], s[10:11], 0
	; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]			; GCN-IR-NEXT: s_mov_b64 s[14:15], s[6:7]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[18:19]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB0_3
	; GCN-IR-NEXT: .LBB0_4: ; %Flow6			; GCN-IR-NEXT: .LBB0_4: ; %Flow6
	; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1			; GCN-IR-NEXT: s_lshl_b64 s[8:9], s[8:9], 1
	; GCN-IR-NEXT: s_or_b64 s[6:7], s[6:7], s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], s[6:7], s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s6			; GCN-IR-NEXT: .LBB0_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s7			; GCN-IR-NEXT: v_mov_b32_e32 v0, s8
	; GCN-IR-NEXT: s_branch .LBB0_6			; GCN-IR-NEXT: v_mul_hi_u32 v0, s4, v0
	; GCN-IR-NEXT: .LBB0_5:			; GCN-IR-NEXT: s_mov_b32 s12, s0
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s3			; GCN-IR-NEXT: s_mul_i32 s0, s4, s9
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[12:13]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
	; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
	; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
				; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v0
				; GCN-IR-NEXT: s_mul_i32 s0, s5, s8
				; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s0, v0
				; GCN-IR-NEXT: s_mul_i32 s0, s4, s8
				; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s10, -1			; GCN-IR-NEXT: s_mov_b32 s15, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s8, s0			; GCN-IR-NEXT: s_mov_b32 s14, -1
	; GCN-IR-NEXT: s_mov_b32 s9, s1			; GCN-IR-NEXT: s_mov_b32 s13, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[12:15], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = urem i64 %x, %y			%result = urem i64 %x, %y
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define i64 @v_test_urem_i64(i64 %x, i64 %y) {			define i64 @v_test_urem_i64(i64 %x, i64 %y) {
	; GCN-LABEL: v_test_urem_i64:			; GCN-LABEL: v_test_urem_i64:
	▲ Show 20 Lines • Show All 527 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s1, v0			; GCN-NEXT: v_mul_lo_u32 v4, s1, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, s0, v0			; GCN-NEXT: v_mul_lo_u32 v3, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v2			; GCN-NEXT: v_mul_lo_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v3			; GCN-NEXT: v_mul_hi_u32 v7, v0, v3
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v2			; GCN-NEXT: v_mul_hi_u32 v8, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v3			; GCN-NEXT: v_mul_hi_u32 v5, v1, v3
	; GCN-NEXT: v_mul_lo_u32 v3, v1, v3			; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v2			; GCN-NEXT: v_mul_hi_u32 v4, v1, v2
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	Show All 9 Lines
	; GCN-NEXT: v_mul_hi_u32 v0, v0, 24			; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
	; GCN-NEXT: v_mul_hi_u32 v1, v1, 24			; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
	; GCN-NEXT: v_mov_b32_e32 v3, s7			; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s7, v0			; GCN-NEXT: v_mul_lo_u32 v1, s7, v0
	; GCN-NEXT: v_mul_hi_u32 v2, s6, v0			; GCN-NEXT: v_mul_hi_u32 v2, s6, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s6, v0			; GCN-NEXT: v_mul_lo_u32 v0, s6, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s7, v5			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s7, v5
	; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s6, v4			; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s6, v4
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
				; GCN-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
				; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
				; GCN-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s7, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s7, v1
	; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem_k_num_i64:			; GCN-IR-LABEL: s_test_urem_k_num_i64:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
	; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
	; GCN-IR-NEXT: s_add_i32 s6, s6, 32
	; GCN-IR-NEXT: s_min_u32 s8, s6, s7
	; GCN-IR-NEXT: s_add_u32 s6, s8, 0xffffffc5
	; GCN-IR-NEXT: s_addc_u32 s7, 0, -1
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[10:11], s[6:7], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[6:7], 63
	; GCN-IR-NEXT: s_or_b64 s[10:11], s[4:5], s[10:11]
	; GCN-IR-NEXT: s_or_b64 s[4:5], s[10:11], s[12:13]
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]
	; GCN-IR-NEXT: s_mov_b64 s[4:5], 0			; GCN-IR-NEXT: s_mov_b64 s[4:5], 0
				; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-IR-NEXT: s_flbit_i32_b32 s8, s2
				; GCN-IR-NEXT: s_flbit_i32_b32 s9, s3
				; GCN-IR-NEXT: s_add_i32 s8, s8, 32
				; GCN-IR-NEXT: s_min_u32 s8, s8, s9
				; GCN-IR-NEXT: s_add_u32 s10, s8, 0xffffffc5
				; GCN-IR-NEXT: s_addc_u32 s11, 0, -1
				; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[2:3], 0
				; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[12:13], s[10:11], 63
				; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[10:11], 63
				; GCN-IR-NEXT: s_or_b64 s[12:13], s[6:7], s[12:13]
				; GCN-IR-NEXT: s_and_b64 s[6:7], s[12:13], exec
				; GCN-IR-NEXT: s_cselect_b32 s6, 0, 24
				; GCN-IR-NEXT: s_or_b64 s[12:13], s[12:13], s[14:15]
				; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]
				; GCN-IR-NEXT: s_mov_b32 s7, 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB6_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB6_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s10, s6, 1			; GCN-IR-NEXT: s_add_u32 s12, s10, 1
	; GCN-IR-NEXT: s_addc_u32 s11, s7, 0			; GCN-IR-NEXT: s_addc_u32 s13, s11, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[12:13], 0
	; GCN-IR-NEXT: s_sub_i32 s6, 63, s6			; GCN-IR-NEXT: s_sub_i32 s9, 63, s10
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[6:7]
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], 24, s6			; GCN-IR-NEXT: s_lshl_b64 s[6:7], 24, s9
	; GCN-IR-NEXT: s_cbranch_vccz .LBB6_4			; GCN-IR-NEXT: s_cbranch_vccz .LBB6_4
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s10			; GCN-IR-NEXT: s_lshr_b64 s[10:11], 24, s12
	; GCN-IR-NEXT: s_add_u32 s14, s2, -1			; GCN-IR-NEXT: s_add_u32 s14, s2, -1
	; GCN-IR-NEXT: s_addc_u32 s15, s3, -1			; GCN-IR-NEXT: s_addc_u32 s15, s3, -1
	; GCN-IR-NEXT: s_sub_u32 s8, 58, s8			; GCN-IR-NEXT: s_sub_u32 s8, 58, s8
	; GCN-IR-NEXT: s_subb_u32 s9, 0, 0			; GCN-IR-NEXT: s_subb_u32 s9, 0, 0
	; GCN-IR-NEXT: s_mov_b64 s[12:13], 0			; GCN-IR-NEXT: s_mov_b64 s[12:13], 0
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: .LBB6_3: ; %udiv-do-while			; GCN-IR-NEXT: .LBB6_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	Show All 13 Lines
	; GCN-IR-NEXT: s_add_u32 s8, s8, 1			; GCN-IR-NEXT: s_add_u32 s8, s8, 1
	; GCN-IR-NEXT: s_addc_u32 s9, s9, 0			; GCN-IR-NEXT: s_addc_u32 s9, s9, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[16:17], s[8:9], 0
	; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]			; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[16:17]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB6_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB6_3
	; GCN-IR-NEXT: .LBB6_4: ; %Flow5			; GCN-IR-NEXT: .LBB6_4: ; %Flow5
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1			; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1
	; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]			; GCN-IR-NEXT: s_or_b64 s[6:7], s[4:5], s[6:7]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s4			; GCN-IR-NEXT: .LBB6_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s5			; GCN-IR-NEXT: v_mov_b32_e32 v0, s6
	; GCN-IR-NEXT: s_branch .LBB6_6			; GCN-IR-NEXT: v_mul_hi_u32 v0, s2, v0
	; GCN-IR-NEXT: .LBB6_5:			; GCN-IR-NEXT: s_mov_b32 s8, s0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: s_mul_i32 s0, s2, s7
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]			; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
	; GCN-IR-NEXT: .LBB6_6: ; %udiv-end			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, s0, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s2, v1			; GCN-IR-NEXT: s_mul_i32 s0, s3, s6
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s2, v0			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s0, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s3, v0			; GCN-IR-NEXT: s_mul_i32 s0, s2, s6
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s2, v0			; GCN-IR-NEXT: v_sub_i32_e64 v0, vcc, 24, s0
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s10, -1
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GCN-IR-NEXT: s_mov_b32 s9, s1
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = urem i64 24, %x			%result = urem i64 24, %x
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_test_urem_k_den_i64(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @s_test_urem_k_den_i64(i64 addrspace(1)* %out, i64 %x) {
	; GCN-LABEL: s_test_urem_k_den_i64:			; GCN-LABEL: s_test_urem_k_den_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000			; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000
	; GCN-NEXT: v_rcp_f32_e32 v0, v0			; GCN-NEXT: v_rcp_f32_e32 v0, v0
	; GCN-NEXT: s_movk_i32 s4, 0xffe8			; GCN-NEXT: s_movk_i32 s2, 0xffe8
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s0, s4
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s2
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s4			; GCN-NEXT: v_mul_lo_u32 v4, v1, s2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s4			; GCN-NEXT: v_mul_lo_u32 v3, v0, s2
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v3			; GCN-NEXT: v_mul_hi_u32 v5, v0, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v0, v2			; GCN-NEXT: v_mul_lo_u32 v4, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s2
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s4			; GCN-NEXT: v_mul_lo_u32 v3, v1, s2
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s4			; GCN-NEXT: v_mul_lo_u32 v4, v0, s2
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, v2			; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v4			; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v4			; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s2, v1			; GCN-NEXT: v_mul_lo_u32 v2, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s2, v0			; GCN-NEXT: v_mul_hi_u32 v3, s6, v0
	; GCN-NEXT: v_mul_hi_u32 v4, s2, v1			; GCN-NEXT: v_mul_hi_u32 v4, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v5, s3, v1			; GCN-NEXT: v_mul_hi_u32 v5, s7, v1
	; GCN-NEXT: v_mul_lo_u32 v1, s3, v1			; GCN-NEXT: v_mul_lo_u32 v1, s7, v1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, s3, v0			; GCN-NEXT: v_mul_lo_u32 v4, s7, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s3, v0			; GCN-NEXT: v_mul_hi_u32 v0, s7, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, v1, 24			; GCN-NEXT: v_mul_lo_u32 v1, v1, 24
	; GCN-NEXT: v_mul_hi_u32 v2, v0, 24			; GCN-NEXT: v_mul_hi_u32 v2, v0, 24
	; GCN-NEXT: v_mul_lo_u32 v0, v0, 24			; GCN-NEXT: v_mul_lo_u32 v0, v0, 24
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_mov_b32_e32 v2, s3			; GCN-NEXT: v_mov_b32_e32 v2, s7
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0
	; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc			; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2			; GCN-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
	; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc			; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v2			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v2
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GCN-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], 23, v0
	; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
				; GCN-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
				; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
				; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
				; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem_k_den_i64:			; GCN-IR-LABEL: s_test_urem_k_den_i64:
	; GCN-IR: ; %bb.0: ; %_udiv-special-cases			; GCN-IR: ; %bb.0: ; %_udiv-special-cases
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2			; GCN-IR-NEXT: s_flbit_i32_b32 s6, s2
	; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3			; GCN-IR-NEXT: s_flbit_i32_b32 s7, s3
	; GCN-IR-NEXT: s_add_i32 s6, s6, 32			; GCN-IR-NEXT: s_add_i32 s6, s6, 32
	; GCN-IR-NEXT: s_min_u32 s8, s6, s7			; GCN-IR-NEXT: s_min_u32 s8, s6, s7
	; GCN-IR-NEXT: s_sub_u32 s6, 59, s8			; GCN-IR-NEXT: s_sub_u32 s10, 59, s8
	; GCN-IR-NEXT: s_subb_u32 s7, 0, 0			; GCN-IR-NEXT: s_subb_u32 s11, 0, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], s[2:3], 0
	; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[10:11], s[6:7], 63			; GCN-IR-NEXT: v_cmp_gt_u64_e64 s[6:7], s[10:11], 63
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[6:7], 63			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 63
	; GCN-IR-NEXT: s_or_b64 s[10:11], s[4:5], s[10:11]			; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
	; GCN-IR-NEXT: s_or_b64 s[4:5], s[10:11], s[12:13]			; GCN-IR-NEXT: s_and_b64 s[6:7], s[4:5], exec
				; GCN-IR-NEXT: s_cselect_b32 s7, 0, s3
				; GCN-IR-NEXT: s_cselect_b32 s6, 0, s2
				; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[12:13]
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[4:5]
	; GCN-IR-NEXT: s_mov_b64 s[4:5], 0			; GCN-IR-NEXT: s_mov_b64 s[4:5], 0
	; GCN-IR-NEXT: s_cbranch_vccz .LBB7_5			; GCN-IR-NEXT: s_cbranch_vccz .LBB7_5
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: s_add_u32 s10, s6, 1			; GCN-IR-NEXT: s_add_u32 s12, s10, 1
	; GCN-IR-NEXT: s_addc_u32 s11, s7, 0			; GCN-IR-NEXT: s_addc_u32 s13, s11, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[12:13], s[10:11], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[6:7], s[12:13], 0
	; GCN-IR-NEXT: s_sub_i32 s6, 63, s6			; GCN-IR-NEXT: s_sub_i32 s9, 63, s10
	; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[12:13]			; GCN-IR-NEXT: s_andn2_b64 vcc, exec, s[6:7]
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[2:3], s6			; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[2:3], s9
	; GCN-IR-NEXT: s_cbranch_vccz .LBB7_4			; GCN-IR-NEXT: s_cbranch_vccz .LBB7_4
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_lshr_b64 s[10:11], s[2:3], s10			; GCN-IR-NEXT: s_lshr_b64 s[10:11], s[2:3], s12
	; GCN-IR-NEXT: s_add_u32 s8, s8, 0xffffffc4			; GCN-IR-NEXT: s_add_u32 s8, s8, 0xffffffc4
	; GCN-IR-NEXT: s_addc_u32 s9, 0, -1			; GCN-IR-NEXT: s_addc_u32 s9, 0, -1
	; GCN-IR-NEXT: s_mov_b64 s[12:13], 0			; GCN-IR-NEXT: s_mov_b64 s[12:13], 0
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: .LBB7_3: ; %udiv-do-while			; GCN-IR-NEXT: .LBB7_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1			; GCN-IR-NEXT: s_lshl_b64 s[10:11], s[10:11], 1
	; GCN-IR-NEXT: s_lshr_b32 s4, s7, 31			; GCN-IR-NEXT: s_lshr_b32 s4, s7, 31
	Show All 10 Lines
	; GCN-IR-NEXT: s_add_u32 s8, s8, 1			; GCN-IR-NEXT: s_add_u32 s8, s8, 1
	; GCN-IR-NEXT: s_addc_u32 s9, s9, 0			; GCN-IR-NEXT: s_addc_u32 s9, s9, 0
	; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[8:9], 0			; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[14:15], s[8:9], 0
	; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]			; GCN-IR-NEXT: s_mov_b64 s[12:13], s[4:5]
	; GCN-IR-NEXT: s_and_b64 vcc, exec, s[14:15]			; GCN-IR-NEXT: s_and_b64 vcc, exec, s[14:15]
	; GCN-IR-NEXT: s_cbranch_vccz .LBB7_3			; GCN-IR-NEXT: s_cbranch_vccz .LBB7_3
	; GCN-IR-NEXT: .LBB7_4: ; %Flow5			; GCN-IR-NEXT: .LBB7_4: ; %Flow5
	; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1			; GCN-IR-NEXT: s_lshl_b64 s[6:7], s[6:7], 1
	; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]			; GCN-IR-NEXT: s_or_b64 s[6:7], s[4:5], s[6:7]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s4			; GCN-IR-NEXT: .LBB7_5: ; %udiv-end
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s5			; GCN-IR-NEXT: v_mul_hi_u32 v0, s6, 24
	; GCN-IR-NEXT: s_branch .LBB7_6			; GCN-IR-NEXT: s_mov_b32 s8, s0
	; GCN-IR-NEXT: .LBB7_5:			; GCN-IR-NEXT: s_mul_i32 s0, s7, 24
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[10:11]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[10:11]
	; GCN-IR-NEXT: .LBB7_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, 24
	; GCN-IR-NEXT: v_mul_hi_u32 v2, v0, 24
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, 24
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
				; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s0, v0
				; GCN-IR-NEXT: s_mul_i32 s0, s6, 24
				; GCN-IR-NEXT: v_mov_b32_e32 v0, s0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s10, -1
				; GCN-IR-NEXT: s_mov_b32 s9, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = urem i64 %x, 24			%result = urem i64 %x, 24
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Constant bus violation			; FIXME: Constant bus violation
	; define i64 @v_test_urem_k_num_i64(i64 %x) {			; define i64 @v_test_urem_k_num_i64(i64 %x) {
	▲ Show 20 Lines • Show All 497 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vselect.ll

	;RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck --check-prefix=SI --check-prefix=FUNC %s			;RUN: llc < %s -march=amdgcn -verify-machineinstrs \| FileCheck --check-prefix=SI --check-prefix=FUNC %s
	;RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck --check-prefix=VI --check-prefix=FUNC %s			;RUN: llc < %s -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs \| FileCheck --check-prefix=VI --check-prefix=FUNC %s
	;RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck --check-prefix=EG --check-prefix=FUNC %s			;RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck --check-prefix=EG --check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}test_select_v2i32:			; FUNC-LABEL: {{^}}test_select_v2i32:

	; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Z			; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Z
	; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Y			; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Y

	; VI: s_cmp_gt_i32			; VI: s_cmp_gt_i32
	; VI: s_cselect_b32			; VI: s_cselect_b32
	; VI: s_cmp_gt_i32			; VI: s_cmp_gt_i32
	; VI: s_cselect_b32			; VI: s_cselect_b32

	; SI-DAG: s_cmp_gt_i32			; SI-DAG: s_cmp_gt_i32
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: s_cselect_b32
	; SI-DAG: s_cmp_gt_i32			; SI-DAG: s_cmp_gt_i32
	; SI-DAG: v_cndmask_b32_e32			; SI-DAG: s_cselect_b32

	define amdgpu_kernel void @test_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in0, <2 x i32> addrspace(1)* %in1, <2 x i32> %val) {			define amdgpu_kernel void @test_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in0, <2 x i32> addrspace(1)* %in1, <2 x i32> %val) {
	entry:			entry:
	%load0 = load <2 x i32>, <2 x i32> addrspace(1)* %in0			%load0 = load <2 x i32>, <2 x i32> addrspace(1)* %in0
	%load1 = load <2 x i32>, <2 x i32> addrspace(1)* %in1			%load1 = load <2 x i32>, <2 x i32> addrspace(1)* %in1
	%cmp = icmp sgt <2 x i32> %load0, %load1			%cmp = icmp sgt <2 x i32> %load0, %load1
	%result = select <2 x i1> %cmp, <2 x i32> %val, <2 x i32> %load0			%result = select <2 x i1> %cmp, <2 x i32> %val, <2 x i32> %load0
	store <2 x i32> %result, <2 x i32> addrspace(1)* %out			store <2 x i32> %result, <2 x i32> addrspace(1)* %out
	Show All 27 Lines
	; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Z			; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Z
	; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Y			; EG-DAG: CNDE_INT {{\** *}}T{{[0-9]+\.[XYZW], PV\.[XYZW], T[0-9]+\.[XYZW]}}, KC0[3].Y

	; VI: s_cselect_b32			; VI: s_cselect_b32
	; VI: s_cselect_b32			; VI: s_cselect_b32
	; VI: s_cselect_b32			; VI: s_cselect_b32
	; VI: s_cselect_b32			; VI: s_cselect_b32

	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: s_cselect_b32
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: s_cselect_b32
	; SI-DAG: v_cndmask_b32_e64			; SI-DAG: s_cselect_b32
	; SI-DAG: v_cndmask_b32_e32			; SI-DAG: s_cselect_b32

	define amdgpu_kernel void @test_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(1)* %in0, <4 x i32> addrspace(1)* %in1, <4 x i32> %val) {			define amdgpu_kernel void @test_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(1)* %in0, <4 x i32> addrspace(1)* %in1, <4 x i32> %val) {
	entry:			entry:
	%load0 = load <4 x i32>, <4 x i32> addrspace(1)* %in0			%load0 = load <4 x i32>, <4 x i32> addrspace(1)* %in0
	%load1 = load <4 x i32>, <4 x i32> addrspace(1)* %in1			%load1 = load <4 x i32>, <4 x i32> addrspace(1)* %in1
	%cmp = icmp sgt <4 x i32> %load0, %load1			%cmp = icmp sgt <4 x i32> %load0, %load1
	%result = select <4 x i1> %cmp, <4 x i32> %val, <4 x i32> %load0			%result = select <4 x i1> %cmp, <4 x i32> %val, <4 x i32> %load0
	store <4 x i32> %result, <4 x i32> addrspace(1)* %out			store <4 x i32> %result, <4 x i32> addrspace(1)* %out
	Show All 22 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Always select s_cselect_b32 for uniform 'select' SDNodeClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 459130

llvm/include/llvm/CodeGen/TargetLowering.h

llvm/lib/CodeGen/MachineRegisterInfo.cpp

llvm/lib/CodeGen/SelectionDAG/ScheduleDAGSDNodes.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp

llvm/lib/Target/AMDGPU/SOPInstructions.td

llvm/test/CodeGen/AMDGPU/32-bit-local-address-space.ll

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/dagcombine-select.ll

llvm/test/CodeGen/AMDGPU/expand-scalar-carry-out-select-user.ll

llvm/test/CodeGen/AMDGPU/extract_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/extract_vector_elt-f64.ll

llvm/test/CodeGen/AMDGPU/extract_vector_elt-i64.ll

llvm/test/CodeGen/AMDGPU/fceil64.ll

llvm/test/CodeGen/AMDGPU/frem.ll

llvm/test/CodeGen/AMDGPU/ftrunc.f64.ll

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

llvm/test/CodeGen/AMDGPU/indirect-call-known-callees.ll

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

llvm/test/CodeGen/AMDGPU/load-select-ptr.ll

llvm/test/CodeGen/AMDGPU/mad_uint24.ll

llvm/test/CodeGen/AMDGPU/sad.ll

llvm/test/CodeGen/AMDGPU/sdiv.ll

llvm/test/CodeGen/AMDGPU/sdiv64.ll

llvm/test/CodeGen/AMDGPU/select-constant-cttz.ll

llvm/test/CodeGen/AMDGPU/select-opt.ll

llvm/test/CodeGen/AMDGPU/select-vectors.ll

llvm/test/CodeGen/AMDGPU/select64.ll

llvm/test/CodeGen/AMDGPU/selectcc.ll

llvm/test/CodeGen/AMDGPU/setcc64.ll

llvm/test/CodeGen/AMDGPU/shift-i128.ll

llvm/test/CodeGen/AMDGPU/sint_to_fp.f64.ll

llvm/test/CodeGen/AMDGPU/srem64.ll

llvm/test/CodeGen/AMDGPU/trunc.ll

llvm/test/CodeGen/AMDGPU/udiv.ll

llvm/test/CodeGen/AMDGPU/udiv64.ll

llvm/test/CodeGen/AMDGPU/udivrem.ll

llvm/test/CodeGen/AMDGPU/uint_to_fp.f64.ll

llvm/test/CodeGen/AMDGPU/urem64.ll

llvm/test/CodeGen/AMDGPU/vselect.ll

[AMDGPU] Always select s_cselect_b32 for uniform 'select' SDNode
ClosedPublic