This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32
ClosedPublic

Authored by foad on Nov 16 2021, 4:26 AM.

Download Raw Diff

Details

Reviewers

arsenm
rampitec

Commits

rGd7e03df71946: [AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32

Summary

Select SelectionDAG ops smul_lohi/umul_lohi to
v_mad_i64_i32/v_mad_u64_u32 respectively, with an addend of 0.
v_mul_lo, v_mul_hi and v_mad_i64/u64 are all quarter-rate instructions
so it is better to use one instruction than two.

Further improvements are possible to make better use of the addend
operand, but this is already a strict improvement over what we have
now.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Nov 16 2021, 4:26 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptNov 16 2021, 4:26 AM

foad requested review of this revision.Nov 16 2021, 4:26 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 16 2021, 4:26 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

foad added a parent revision: D113985: [AMDGPU] Generate test checks for mad_64_32.ll.Nov 16 2021, 4:26 AM

Harbormaster completed remote builds in B134485: Diff 387573.Nov 16 2021, 4:26 AM

The change in the instruction mix in the generated lit tests looks like this:

$ git show | awk '/^-/&&$3~/[sv]_/{a[$3]--}/^+/&&$3~/[sv]_/{a[$3]++}END{for(i in a)if(a[i])printf"%+d %s\n",a[i],i}' | sort -n
-604 v_mul_hi_u32
-567 v_mul_lo_u32
-31 s_mul_i32
-15 v_mul_hi_i32
-10 s_and_b32
-4 v_cndmask_b32_e32
-2 s_mov_b32
-2 v_cmp_ne_u32_e32
-2 v_lshlrev_b32_e32
-2 v_lshrrev_b32_e32
-2 v_mov_b32_e32
+15 v_mad_i64_i32
+1 v_mul_hi_i32_i24_e32
+20 v_addc_u32_e32
+21 v_add_i32_e32
+2 s_waitcnt
+2 v_cmp_ne_u32_e64
+2 v_mul_i32_i24_e64
+2 v_mul_u32_u24_e64
+4 v_cndmask_b32_e64
+4 v_mul_i32_i24_e32
+4 v_mul_u32_u24_e32
+617 v_mad_u64_u32

So it is mostly replacing v_mul_hi_u32+v_mul_lo_u32 with v_mad_u64_u32.

GlobalISel version?

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1014	Could this try to do better than 0 if the source is an add?
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
812–813	Seems missing a subtarget check, I'm pretty sure gfx6 didn't have mad_u64_u32

In D113986#3134553, @arsenm wrote:

GlobalISel version?

Yes that would be nice, but GlobalISel doesn't seem to have a GMIR opcode corresponding to [su]mul_lohi, at least not yet, so I'm not sure what the best approach would be. Anyway this patch is big enough already so I'd prefer to keep it for SelectionDAG and work on GlobalISel later.

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1014	No, not if the source is an add. It would have to be if the result is used in an add, like what SITargetLowering::performAddCombine does for i64 mul. That's the further improvement I alluded to in the commit message.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
812–813	Good point, will fix.

Add missing subtarget check.

Harbormaster completed remote builds in B135410: Diff 388893.Nov 22 2021, 10:50 AM

arsenm accepted this revision.Nov 23 2021, 3:04 PM

This revision is now accepted and ready to land.Nov 23 2021, 3:04 PM

Closed by commit rGd7e03df71946: [AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32 (authored by foad). · Explain WhyNov 24 2021, 3:28 AM

This revision was automatically updated to reflect the committed changes.

foad added a commit: rGd7e03df71946: [AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUISelDAGToDAG.h

1 line

AMDGPUISelDAGToDAG.cpp

29 lines

AMDGPUISelLowering.h

1 line

AMDGPUISelLowering.cpp

49 lines

SIISelLowering.h

1 line

SIISelLowering.cpp

21 lines

test/

CodeGen/

AMDGPU/

amdgpu-codegenprepare-idiv.ll

2039 lines

atomic_optimizations_global_pointer.ll

146 lines

atomic_optimizations_local_pointer.ll

158 lines

1076 lines

368 lines

154 lines

86 lines

18 lines

58 lines

960 lines

1149 lines

502 lines

1114 lines

686 lines

wwm-reserved-spill.ll

126 lines

wwm-reserved.ll

16 lines

Diff 387573

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h

Show First 20 Lines • Show All 225 Lines • ▼ Show 20 Lines	private:

SDValue getMaterializedScalarImm32(int64_t Val, const SDLoc &DL) const;		SDValue getMaterializedScalarImm32(int64_t Val, const SDLoc &DL) const;

void SelectADD_SUB_I64(SDNode *N);		void SelectADD_SUB_I64(SDNode *N);
void SelectAddcSubb(SDNode *N);		void SelectAddcSubb(SDNode *N);
void SelectUADDO_USUBO(SDNode *N);		void SelectUADDO_USUBO(SDNode *N);
void SelectDIV_SCALE(SDNode *N);		void SelectDIV_SCALE(SDNode *N);
void SelectMAD_64_32(SDNode *N);		void SelectMAD_64_32(SDNode *N);
		void SelectMUL_LOHI(SDNode *N);
void SelectFMA_W_CHAIN(SDNode *N);		void SelectFMA_W_CHAIN(SDNode *N);
void SelectFMUL_W_CHAIN(SDNode *N);		void SelectFMUL_W_CHAIN(SDNode *N);
SDNode *getBFE32(bool IsSigned, const SDLoc &DL, SDValue Val, uint32_t Offset,		SDNode *getBFE32(bool IsSigned, const SDLoc &DL, SDValue Val, uint32_t Offset,
uint32_t Width);		uint32_t Width);
void SelectS_BFEFromShifts(SDNode *N);		void SelectS_BFEFromShifts(SDNode *N);
void SelectS_BFE(SDNode *N);		void SelectS_BFE(SDNode *N);
bool isCBranchSCC(const SDNode *N) const;		bool isCBranchSCC(const SDNode *N) const;
void SelectBRCOND(SDNode *N);		void SelectBRCOND(SDNode *N);
Show All 15 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 648 Lines • ▼ Show 20 Lines	case AMDGPUISD::DIV_SCALE: {
SelectDIV_SCALE(N);		SelectDIV_SCALE(N);
return;		return;
}		}
case AMDGPUISD::MAD_I64_I32:		case AMDGPUISD::MAD_I64_I32:
case AMDGPUISD::MAD_U64_U32: {		case AMDGPUISD::MAD_U64_U32: {
SelectMAD_64_32(N);		SelectMAD_64_32(N);
return;		return;
}		}
		case ISD::SMUL_LOHI:
		case ISD::UMUL_LOHI:
		return SelectMUL_LOHI(N);
case ISD::CopyToReg: {		case ISD::CopyToReg: {
const SITargetLowering& Lowering =		const SITargetLowering& Lowering =
static_cast<const SITargetLowering>(getTargetLowering());		static_cast<const SITargetLowering>(getTargetLowering());
N = Lowering.legalizeTargetIndependentNode(N, *CurDAG);		N = Lowering.legalizeTargetIndependentNode(N, *CurDAG);
break;		break;
}		}
case ISD::AND:		case ISD::AND:
case ISD::SRL:		case ISD::SRL:
▲ Show 20 Lines • Show All 331 Lines • ▼ Show 20 Lines	void AMDGPUDAGToDAGISel::SelectMAD_64_32(SDNode *N) {
unsigned Opc = Signed ? AMDGPU::V_MAD_I64_I32_e64 : AMDGPU::V_MAD_U64_U32_e64;		unsigned Opc = Signed ? AMDGPU::V_MAD_I64_I32_e64 : AMDGPU::V_MAD_U64_U32_e64;

SDValue Clamp = CurDAG->getTargetConstant(0, SL, MVT::i1);		SDValue Clamp = CurDAG->getTargetConstant(0, SL, MVT::i1);
SDValue Ops[] = { N->getOperand(0), N->getOperand(1), N->getOperand(2),		SDValue Ops[] = { N->getOperand(0), N->getOperand(1), N->getOperand(2),
Clamp };		Clamp };
CurDAG->SelectNodeTo(N, Opc, N->getVTList(), Ops);		CurDAG->SelectNodeTo(N, Opc, N->getVTList(), Ops);
}		}

		// We need to handle this here because tablegen doesn't support matching
		// instructions with multiple outputs.
		void AMDGPUDAGToDAGISel::SelectMUL_LOHI(SDNode *N) {
		SDLoc SL(N);
		bool Signed = N->getOpcode() == ISD::SMUL_LOHI;
		unsigned Opc = Signed ? AMDGPU::V_MAD_I64_I32_e64 : AMDGPU::V_MAD_U64_U32_e64;

		SDValue Zero = CurDAG->getTargetConstant(0, SL, MVT::i64);
		arsenmUnsubmitted Not Done Reply Inline Actions Could this try to do better than 0 if the source is an add? arsenm: Could this try to do better than 0 if the source is an add?
		foadAuthorUnsubmitted Done Reply Inline Actions No, not if the source is an add. It would have to be if the result is used in an add, like what SITargetLowering::performAddCombine does for i64 mul. That's the further improvement I alluded to in the commit message. foad: No, not if the source is an add. It would have to be if the result is used in an add, like what…
		SDValue Clamp = CurDAG->getTargetConstant(0, SL, MVT::i1);
		SDValue Ops[] = {N->getOperand(0), N->getOperand(1), Zero, Clamp};
		SDNode *Mad = CurDAG->getMachineNode(Opc, SL, N->getVTList(), Ops);
		if (!SDValue(N, 0).use_empty()) {
		SDValue Sub0 = CurDAG->getTargetConstant(AMDGPU::sub0, SL, MVT::i32);
		SDNode *Lo = CurDAG->getMachineNode(TargetOpcode::EXTRACT_SUBREG, SL,
		MVT::i32, SDValue(Mad, 0), Sub0);
		ReplaceUses(SDValue(N, 0), SDValue(Lo, 0));
		}
		if (!SDValue(N, 1).use_empty()) {
		SDValue Sub1 = CurDAG->getTargetConstant(AMDGPU::sub1, SL, MVT::i32);
		SDNode *Hi = CurDAG->getMachineNode(TargetOpcode::EXTRACT_SUBREG, SL,
		MVT::i32, SDValue(Mad, 0), Sub1);
		ReplaceUses(SDValue(N, 1), SDValue(Hi, 0));
		}
		CurDAG->RemoveDeadNode(N);
		}

bool AMDGPUDAGToDAGISel::isDSOffsetLegal(SDValue Base, unsigned Offset) const {		bool AMDGPUDAGToDAGISel::isDSOffsetLegal(SDValue Base, unsigned Offset) const {
if (!isUInt<16>(Offset))		if (!isUInt<16>(Offset))
return false;		return false;

if (!Base \|\| Subtarget->hasUsableDSOffset() \|\|		if (!Base \|\| Subtarget->hasUsableDSOffset() \|\|
Subtarget->unsafeDSOffsetFoldingEnabled())		Subtarget->unsafeDSOffsetFoldingEnabled())
return true;		return true;

▲ Show 20 Lines • Show All 1,851 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 85 Lines • ▼ Show 20 Lines	protected:
SDValue splitBinaryBitConstantOpImpl(DAGCombinerInfo &DCI, const SDLoc &SL,		SDValue splitBinaryBitConstantOpImpl(DAGCombinerInfo &DCI, const SDLoc &SL,
unsigned Opc, SDValue LHS,		unsigned Opc, SDValue LHS,
uint32_t ValLo, uint32_t ValHi) const;		uint32_t ValLo, uint32_t ValHi) const;
SDValue performShlCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performShlCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performSraCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performSraCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performSrlCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performSrlCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performTruncateCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performTruncateCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performMulCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performMulCombine(SDNode *N, DAGCombinerInfo &DCI) const;
		SDValue performMulLoHiCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performMulhsCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performMulhsCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performMulhuCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performMulhuCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performCtlz_CttzCombine(const SDLoc &SL, SDValue Cond, SDValue LHS,		SDValue performCtlz_CttzCombine(const SDLoc &SL, SDValue Cond, SDValue LHS,
SDValue RHS, DAGCombinerInfo &DCI) const;		SDValue RHS, DAGCombinerInfo &DCI) const;
SDValue performSelectCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performSelectCombine(SDNode *N, DAGCombinerInfo &DCI) const;

bool isConstantCostlierToNegate(SDValue N) const;		bool isConstantCostlierToNegate(SDValue N) const;
SDValue performFNegCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performFNegCombine(SDNode *N, DAGCombinerInfo &DCI) const;
▲ Show 20 Lines • Show All 443 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 588 Lines • ▼ Show 20 Lines	if (AMDGPUBypassSlowDiv)
addBypassSlowDiv(64, 32);		addBypassSlowDiv(64, 32);

setTargetDAGCombine(ISD::BITCAST);		setTargetDAGCombine(ISD::BITCAST);
setTargetDAGCombine(ISD::SHL);		setTargetDAGCombine(ISD::SHL);
setTargetDAGCombine(ISD::SRA);		setTargetDAGCombine(ISD::SRA);
setTargetDAGCombine(ISD::SRL);		setTargetDAGCombine(ISD::SRL);
setTargetDAGCombine(ISD::TRUNCATE);		setTargetDAGCombine(ISD::TRUNCATE);
setTargetDAGCombine(ISD::MUL);		setTargetDAGCombine(ISD::MUL);
		setTargetDAGCombine(ISD::SMUL_LOHI);
		setTargetDAGCombine(ISD::UMUL_LOHI);
setTargetDAGCombine(ISD::MULHU);		setTargetDAGCombine(ISD::MULHU);
setTargetDAGCombine(ISD::MULHS);		setTargetDAGCombine(ISD::MULHS);
setTargetDAGCombine(ISD::SELECT);		setTargetDAGCombine(ISD::SELECT);
setTargetDAGCombine(ISD::SELECT_CC);		setTargetDAGCombine(ISD::SELECT_CC);
setTargetDAGCombine(ISD::STORE);		setTargetDAGCombine(ISD::STORE);
setTargetDAGCombine(ISD::FADD);		setTargetDAGCombine(ISD::FADD);
setTargetDAGCombine(ISD::FSUB);		setTargetDAGCombine(ISD::FSUB);
setTargetDAGCombine(ISD::FNEG);		setTargetDAGCombine(ISD::FNEG);
▲ Show 20 Lines • Show All 2,852 Lines • ▼ Show 20 Lines	if (Subtarget->hasMulU24() && isU24(N0, DAG) && isU24(N1, DAG)) {
return SDValue();		return SDValue();
}		}

// We need to use sext even for MUL_U24, because MUL_U24 is used		// We need to use sext even for MUL_U24, because MUL_U24 is used
// for signed multiply of 8 and 16-bit types.		// for signed multiply of 8 and 16-bit types.
return DAG.getSExtOrTrunc(Mul, DL, VT);		return DAG.getSExtOrTrunc(Mul, DL, VT);
}		}

		SDValue
		AMDGPUTargetLowering::performMulLoHiCombine(SDNode *N,
		DAGCombinerInfo &DCI) const {
		if (N->getValueType(0) != MVT::i32)
		return SDValue();

		SelectionDAG &DAG = DCI.DAG;
		SDLoc DL(N);

		SDValue N0 = N->getOperand(0);
		SDValue N1 = N->getOperand(1);

		// SimplifyDemandedBits has the annoying habit of turning useful zero_extends
		// in the source into any_extends if the result of the mul is truncated. Since
		// we can assume the high bits are whatever we want, use the underlying value
		// to avoid the unknown high bits from interfering.
		if (N0.getOpcode() == ISD::ANY_EXTEND)
		N0 = N0.getOperand(0);
		if (N1.getOpcode() == ISD::ANY_EXTEND)
		N1 = N1.getOperand(0);

		// Try to use two fast 24-bit multiplies (one for each half of the result)
		// instead of one slow extending multiply.
		unsigned LoOpcode, HiOpcode;
		if (Subtarget->hasMulU24() && isU24(N0, DAG) && isU24(N1, DAG)) {
		N0 = DAG.getZExtOrTrunc(N0, DL, MVT::i32);
		N1 = DAG.getZExtOrTrunc(N1, DL, MVT::i32);
		LoOpcode = AMDGPUISD::MUL_U24;
		HiOpcode = AMDGPUISD::MULHI_U24;
		} else if (Subtarget->hasMulI24() && isI24(N0, DAG) && isI24(N1, DAG)) {
		N0 = DAG.getSExtOrTrunc(N0, DL, MVT::i32);
		N1 = DAG.getSExtOrTrunc(N1, DL, MVT::i32);
		LoOpcode = AMDGPUISD::MUL_I24;
		HiOpcode = AMDGPUISD::MULHI_I24;
		} else {
		return SDValue();
		}

		SDValue Lo = DAG.getNode(LoOpcode, DL, MVT::i32, N0, N1);
		SDValue Hi = DAG.getNode(HiOpcode, DL, MVT::i32, N0, N1);
		DCI.CombineTo(N, Lo, Hi);
		return SDValue(N, 0);
		}

SDValue AMDGPUTargetLowering::performMulhsCombine(SDNode *N,		SDValue AMDGPUTargetLowering::performMulhsCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

if (!Subtarget->hasMulI24() \|\| VT.isVector())		if (!Subtarget->hasMulI24() \|\| VT.isVector())
return SDValue();		return SDValue();

// Don't generate 24-bit multiplies on values that are in SGPRs, since		// Don't generate 24-bit multiplies on values that are in SGPRs, since
▲ Show 20 Lines • Show All 625 Lines • ▼ Show 20 Lines	if (DCI.getDAGCombineLevel() < AfterLegalizeDAG)
break;		break;

return performSraCombine(N, DCI);		return performSraCombine(N, DCI);
}		}
case ISD::TRUNCATE:		case ISD::TRUNCATE:
return performTruncateCombine(N, DCI);		return performTruncateCombine(N, DCI);
case ISD::MUL:		case ISD::MUL:
return performMulCombine(N, DCI);		return performMulCombine(N, DCI);
		case ISD::SMUL_LOHI:
		case ISD::UMUL_LOHI:
		return performMulLoHiCombine(N, DCI);
case ISD::MULHS:		case ISD::MULHS:
return performMulhsCombine(N, DCI);		return performMulhsCombine(N, DCI);
case ISD::MULHU:		case ISD::MULHU:
return performMulhuCombine(N, DCI);		return performMulhuCombine(N, DCI);
case AMDGPUISD::MUL_I24:		case AMDGPUISD::MUL_I24:
case AMDGPUISD::MUL_U24:		case AMDGPUISD::MUL_U24:
case AMDGPUISD::MULHI_I24:		case AMDGPUISD::MULHI_I24:
case AMDGPUISD::MULHI_U24:		case AMDGPUISD::MULHI_U24:
▲ Show 20 Lines • Show All 748 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	private:
SDValue convertArgType(		SDValue convertArgType(
SelectionDAG &DAG, EVT VT, EVT MemVT, const SDLoc &SL, SDValue Val,		SelectionDAG &DAG, EVT VT, EVT MemVT, const SDLoc &SL, SDValue Val,
bool Signed, const ISD::InputArg *Arg = nullptr) const;		bool Signed, const ISD::InputArg *Arg = nullptr) const;

/// Custom lowering for ISD::FP_ROUND for MVT::f16.		/// Custom lowering for ISD::FP_ROUND for MVT::f16.
SDValue lowerFP_ROUND(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerFP_ROUND(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerFMINNUM_FMAXNUM(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerFMINNUM_FMAXNUM(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerXMULO(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerXMULO(SDValue Op, SelectionDAG &DAG) const;
		SDValue lowerXMUL_LOHI(SDValue Op, SelectionDAG &DAG) const;

SDValue getSegmentAperture(unsigned AS, const SDLoc &DL,		SDValue getSegmentAperture(unsigned AS, const SDLoc &DL,
SelectionDAG &DAG) const;		SelectionDAG &DAG) const;

SDValue lowerADDRSPACECAST(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerADDRSPACECAST(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerINSERT_SUBVECTOR(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerINSERT_SUBVECTOR(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerEXTRACT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerEXTRACT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;
▲ Show 20 Lines • Show All 354 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 803 Lines • ▼ Show 20 Lines	#endif

for (MVT VT : { MVT::v4i16, MVT::v4f16, MVT::v2i8, MVT::v4i8, MVT::v8i8 }) {		for (MVT VT : { MVT::v4i16, MVT::v4f16, MVT::v2i8, MVT::v4i8, MVT::v8i8 }) {
setOperationAction(ISD::SELECT, VT, Custom);		setOperationAction(ISD::SELECT, VT, Custom);
}		}

setOperationAction(ISD::SMULO, MVT::i64, Custom);		setOperationAction(ISD::SMULO, MVT::i64, Custom);
setOperationAction(ISD::UMULO, MVT::i64, Custom);		setOperationAction(ISD::UMULO, MVT::i64, Custom);

		setOperationAction(ISD::SMUL_LOHI, MVT::i32, Custom);
		setOperationAction(ISD::UMUL_LOHI, MVT::i32, Custom);
		arsenmUnsubmitted Not Done Reply Inline Actions Seems missing a subtarget check, I'm pretty sure gfx6 didn't have mad_u64_u32 arsenm: Seems missing a subtarget check, I'm pretty sure gfx6 didn't have mad_u64_u32
		foadAuthorUnsubmitted Done Reply Inline Actions Good point, will fix. foad: Good point, will fix.

setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::i16, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::i16, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f16, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f16, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2i16, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2i16, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2f16, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2f16, Custom);

▲ Show 20 Lines • Show All 3,866 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::UADDSAT:		case ISD::UADDSAT:
case ISD::USUBSAT:		case ISD::USUBSAT:
case ISD::SADDSAT:		case ISD::SADDSAT:
case ISD::SSUBSAT:		case ISD::SSUBSAT:
return splitBinaryVectorOp(Op, DAG);		return splitBinaryVectorOp(Op, DAG);
case ISD::SMULO:		case ISD::SMULO:
case ISD::UMULO:		case ISD::UMULO:
return lowerXMULO(Op, DAG);		return lowerXMULO(Op, DAG);
		case ISD::SMUL_LOHI:
		case ISD::UMUL_LOHI:
		return lowerXMUL_LOHI(Op, DAG);
case ISD::DYNAMIC_STACKALLOC:		case ISD::DYNAMIC_STACKALLOC:
return LowerDYNAMIC_STACKALLOC(Op, DAG);		return LowerDYNAMIC_STACKALLOC(Op, DAG);
}		}
return SDValue();		return SDValue();
}		}

// Used for D16: Casts the result of an instruction into the right vector,		// Used for D16: Casts the result of an instruction into the right vector,
// packs values if loads return unpacked values.		// packs values if loads return unpacked values.
▲ Show 20 Lines • Show All 597 Lines • ▼ Show 20 Lines	SDValue Sign = isSigned
? DAG.getNode(ISD::SRA, SL, VT, Result,		? DAG.getNode(ISD::SRA, SL, VT, Result,
DAG.getConstant(VT.getScalarSizeInBits() - 1, SL, MVT::i32))		DAG.getConstant(VT.getScalarSizeInBits() - 1, SL, MVT::i32))
: DAG.getConstant(0, SL, VT);		: DAG.getConstant(0, SL, VT);
SDValue Overflow = DAG.getSetCC(SL, MVT::i1, Top, Sign, ISD::SETNE);		SDValue Overflow = DAG.getSetCC(SL, MVT::i1, Top, Sign, ISD::SETNE);

return DAG.getMergeValues({ Result, Overflow }, SL);		return DAG.getMergeValues({ Result, Overflow }, SL);
}		}

		SDValue SITargetLowering::lowerXMUL_LOHI(SDValue Op, SelectionDAG &DAG) const {
		if (Op->isDivergent()) {
		// Select to V_MAD_[IU]64_[IU]32.
		return Op;
		}
		if (Subtarget->hasSMulHi()) {
		// Expand to S_MUL_I32 + S_MUL_HI_[IU]32.
		return SDValue();
		}
		// The multiply is uniform but we would have to use V_MUL_HI_[IU]32 to
		// calculate the high part, so we might as well do the whole thing with
		// V_MAD_[IU]64_[IU]32.
		return Op;
		}

SDValue SITargetLowering::lowerTRAP(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::lowerTRAP(SDValue Op, SelectionDAG &DAG) const {
if (!Subtarget->isTrapHandlerEnabled() \|\|		if (!Subtarget->isTrapHandlerEnabled() \|\|
Subtarget->getTrapHandlerAbi() != GCNSubtarget::TrapHandlerAbi::AMDHSA)		Subtarget->getTrapHandlerAbi() != GCNSubtarget::TrapHandlerAbi::AMDHSA)
return lowerTrapEndpgm(Op, DAG);		return lowerTrapEndpgm(Op, DAG);

if (Optional<uint8_t> HsaAbiVer = AMDGPU::getHsaAbiVersion(Subtarget)) {		if (Optional<uint8_t> HsaAbiVer = AMDGPU::getHsaAbiVersion(Subtarget)) {
switch (*HsaAbiVer) {		switch (*HsaAbiVer) {
case ELF::ELFABIVERSION_AMDGPU_HSA_V2:		case ELF::ELFABIVERSION_AMDGPU_HSA_V2:
▲ Show 20 Lines • Show All 7,106 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 9,250 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_movk_i32 s4, 0xfee0			; GFX6-NEXT: s_movk_i32 s4, 0xfee0
	; GFX6-NEXT: s_mov_b32 s5, 0x68958c89			; GFX6-NEXT: s_mov_b32 s5, 0x68958c89
	; GFX6-NEXT: v_mov_b32_e32 v8, 0			; GFX6-NEXT: v_mov_b32_e32 v8, 0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1
	; GFX6-NEXT: v_mov_b32_e32 v7, 0			; GFX6-NEXT: v_mov_b32_e32 v7, 0
				; GFX6-NEXT: s_movk_i32 s10, 0x11f
				; GFX6-NEXT: v_mul_lo_u32 v2, v4, s4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, v5, s5
				; GFX6-NEXT: s_mov_b32 s11, 0x976a7377
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v1
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
				; GFX6-NEXT: s_mov_b32 s7, 0xf000
				; GFX6-NEXT: s_mov_b32 s6, -1
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
				; GFX6-NEXT: v_mul_lo_u32 v2, v4, s4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, v5, s5
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
	; GFX6-NEXT: s_movk_i32 s8, 0x11f			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
	; GFX6-NEXT: s_mov_b32 s9, 0x976a7377			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[8:9], s3, v2, 0
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[8:9], s3, v3, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v4, v2, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[8:9], v2, s11, 0
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1			; GFX6-NEXT: v_mul_lo_u32 v5, v3, s11
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1			; GFX6-NEXT: s_mov_b32 s8, 0x976a7376
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_mov_b32_e32 v5, s10
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s9
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s9
	; GFX6-NEXT: v_mov_b32_e32 v5, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s9
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s9, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s11, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: s_movk_i32 s2, 0x11e			; GFX6-NEXT: s_movk_i32 s2, 0x11e
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s2, v4			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s2, v4
	; GFX6-NEXT: s_mov_b32 s9, 0x976a7376
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s9, v5			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s8, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s8, v4			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s10, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v2
	; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v6, s3			; GFX6-NEXT: v_mov_b32_e32 v6, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v2			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s2, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s9, v3			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s8, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s8, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s10, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v7, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_i64_oddk_denom:			; GFX9-LABEL: udiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	▲ Show 20 Lines • Show All 398 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store <2 x i64> [[TMP6]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <2 x i64> [[TMP6]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: udiv_v2i64_mixed_pow2k_denom:			; GFX6-LABEL: udiv_v2i64_mixed_pow2k_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000			; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_movk_i32 s6, 0xf001			; GFX6-NEXT: s_movk_i32 s4, 0xf001
	; GFX6-NEXT: v_mov_b32_e32 v8, 0			; GFX6-NEXT: v_mov_b32_e32 v8, 0
	; GFX6-NEXT: v_mov_b32_e32 v7, 0			; GFX6-NEXT: v_mov_b32_e32 v7, 0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1
				; GFX6-NEXT: s_movk_i32 s10, 0xfff
				; GFX6-NEXT: s_mov_b32 s7, 0xf000
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
				; GFX6-NEXT: v_mul_lo_u32 v2, v5, s4
				; GFX6-NEXT: s_mov_b32 s6, -1
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v2, v1
				; GFX6-NEXT: v_mul_hi_u32 v3, v4, v0
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v6, 0
				; GFX6-NEXT: v_add_i32_e32 v9, vcc, v3, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v10, vcc, v8, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v9, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
				; GFX6-NEXT: v_mul_lo_u32 v2, v5, s4
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v2
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[8:9], v5, v0, 0
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s6			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[8:9], v5, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v0
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[8:9], s2, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX6-NEXT: s_lshr_b64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_lshr_b64 s[8:9], s[0:1], 12
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s3, v2, 0
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v4			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s3, v3, 0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v3, s10
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v2, s10, 0
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 2, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc			; GFX6-NEXT: v_add_i32_e32 v7, vcc, 1, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v6
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_mov_b32_e32 v6, s3
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s6			; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v1, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0xfff
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s0
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mov_b32_e32 v5, s3
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s0, v8
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0xffe			; GFX6-NEXT: s_movk_i32 s0, 0xffe
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8			; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e32 v0, v7, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v6, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v0, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v0, s8			; GFX6-NEXT: v_mov_b32_e32 v0, s8
	; GFX6-NEXT: v_mov_b32_e32 v1, s9			; GFX6-NEXT: v_mov_b32_e32 v1, s9
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v2i64_mixed_pow2k_denom:			; GFX9-LABEL: udiv_v2i64_mixed_pow2k_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000
	▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_i64_oddk_denom:			; GFX6-LABEL: urem_i64_oddk_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f1761f8			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f1761f8
	; GFX6-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX6-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX6-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_movk_i32 s2, 0xfee0			; GFX6-NEXT: s_movk_i32 s4, 0xfee0
	; GFX6-NEXT: s_mov_b32 s3, 0x689e0837			; GFX6-NEXT: s_mov_b32 s5, 0x689e0837
	; GFX6-NEXT: v_mov_b32_e32 v8, 0			; GFX6-NEXT: v_mov_b32_e32 v8, 0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1
	; GFX6-NEXT: v_mov_b32_e32 v7, 0			; GFX6-NEXT: v_mov_b32_e32 v7, 0
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v2, v4, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s5, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX6-NEXT: v_mul_lo_u32 v3, v5, s5
	; GFX6-NEXT: s_mov_b32 s12, 0x9761f7c9			; GFX6-NEXT: s_mov_b32 s12, 0x9761f7c9
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v1
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
				; GFX6-NEXT: s_mov_b32 s7, 0xf000
				; GFX6-NEXT: s_mov_b32 s6, -1
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
				; GFX6-NEXT: v_mul_lo_u32 v2, v4, s4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, v5, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s8, s4			; GFX6-NEXT: s_mov_b32 s4, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v3			; GFX6-NEXT: s_movk_i32 s8, 0x11f
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v2			; GFX6-NEXT: s_mov_b32 s5, s9
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2			; GFX6-NEXT: s_movk_i32 s9, 0x11e
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v5, v0, 0
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v5, v3, 0
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s10, v3, 0
	; GFX6-NEXT: s_movk_i32 s4, 0x11f			; GFX6-NEXT: v_mul_hi_u32 v4, s10, v2
	; GFX6-NEXT: s_mov_b32 s9, s5			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s11, v2, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s11, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: s_movk_i32 s5, 0x11e
	; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s8
	; GFX6-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v0, s12, 0
	; GFX6-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s12
	; GFX6-NEXT: v_mul_hi_u32 v5, s7, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s11, v1
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s10, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s7, v0
	; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s12
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s12
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s5, v5			; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s9, v5
	; GFX6-NEXT: s_mov_b32 s6, 0x9761f7c8			; GFX6-NEXT: s_mov_b32 s10, 0x9761f7c8
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s6, v4			; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s10, v4
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, v5			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s8, v5
	; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4			; GFX6-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v5, s7			; GFX6-NEXT: v_mov_b32_e32 v5, s11
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s5, v1			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s4, v1			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s8, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i64_oddk_denom:			; GFX9-LABEL: urem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	▲ Show 20 Lines • Show All 494 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_i64_oddk_denom:			; GFX6-LABEL: sdiv_i64_oddk_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX6-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s5, 0xffed2705			; GFX6-NEXT: s_mov_b32 s8, 0xffed2705
	; GFX6-NEXT: v_mov_b32_e32 v8, 0			; GFX6-NEXT: v_mov_b32_e32 v8, 0
	; GFX6-NEXT: v_mov_b32_e32 v7, 0			; GFX6-NEXT: v_mov_b32_e32 v7, 0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v4, s8
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s5			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s8, v5, 0
				; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, v5, v1
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v5, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v5, v0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v5, v0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s8, v6, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, v9, s8
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
				; GFX6-NEXT: v_mul_hi_u32 v10, v6, v0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v6, v1, 0
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v10, v4
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v5, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v10, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v9, v6
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v4, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: s_mov_b32 s9, 0x12d8fb
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s3, v2, 0
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s3, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s0			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0			; GFX6-NEXT: v_mul_lo_u32 v6, v3, s9
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s9, v2, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 2, v2
	; GFX6-NEXT: v_mov_b32_e32 v5, s3			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s2, v8			; GFX6-NEXT: v_add_i32_e32 v7, vcc, 1, v2
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s0, v8			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v6
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc			; GFX6-NEXT: v_mov_b32_e32 v6, s3
				; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
				; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
				; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, s9, v0
				; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v1, vcc
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cndmask_b32_e32 v1, v7, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v3, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s8, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s8			; GFX6-NEXT: v_xor_b32_e32 v2, s8, v0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v1
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v3, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i64_oddk_denom:			; GFX9-LABEL: sdiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	▲ Show 20 Lines • Show All 282 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_i64_pow2_shl_denom:			; GFX6-LABEL: sdiv_i64_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xd			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xd
	; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s4			; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s4
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: s_xor_b64 s[10:11], s[2:3], s[8:9]			; GFX6-NEXT: s_xor_b64 s[10:11], s[2:3], s[8:9]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s10
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s11			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s11
	; GFX6-NEXT: s_sub_u32 s4, 0, s10			; GFX6-NEXT: s_sub_u32 s6, 0, s10
	; GFX6-NEXT: s_subb_u32 s5, 0, s11			; GFX6-NEXT: s_subb_u32 s12, 0, s11
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s12, s3, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
				; GFX6-NEXT: v_mul_lo_u32 v2, s6, v4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s6, v5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, s12, v5
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
				; GFX6-NEXT: v_mul_hi_u32 v6, v5, v0
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v5, v3, 0
				; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mov_b32_e32 v6, 0
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
				; GFX6-NEXT: v_mov_b32_e32 v7, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v8, vcc, v5, v0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, s6, v9
				; GFX6-NEXT: v_mul_lo_u32 v5, s12, v8
				; GFX6-NEXT: v_mul_hi_u32 v10, v8, v0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v5, v1
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v1, 0
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v10, v4
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
				; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: s_ashr_i32 s12, s3, 31
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
	; GFX6-NEXT: s_add_u32 s2, s2, s12			; GFX6-NEXT: s_add_u32 s2, s2, s12
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v8, v0
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: s_mov_b32 s13, s12
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0
	; GFX6-NEXT: s_addc_u32 s3, s3, s12			; GFX6-NEXT: s_addc_u32 s3, s3, s12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GFX6-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX6-NEXT: v_mov_b32_e32 v4, 0
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v4, vcc
	; GFX6-NEXT: v_mov_b32_e32 v6, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v10, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v7, s3, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v6, v2, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[14:15], s3, v2, 0
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[14:15], s3, v3, 0
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mul_lo_u32 v4, s10, v3
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[14:15], s10, v2, 0
				; GFX6-NEXT: v_mul_lo_u32 v5, s11, v2
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5
				; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v1
	; GFX6-NEXT: v_mov_b32_e32 v5, s11			; GFX6-NEXT: v_mov_b32_e32 v5, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, s10, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GFX6-NEXT: v_add_i32_e64 v5, s[0:1], 2, v2
	; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v6, s3			; GFX6-NEXT: v_mov_b32_e32 v6, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s11, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v7, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]			; GFX6-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s0, v0			; GFX6-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX6-NEXT: v_xor_b32_e32 v1, s1, v1			; GFX6-NEXT: v_xor_b32_e32 v2, s1, v0
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: v_mov_b32_e32 v3, s1
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s0, v1
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v3, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i64_pow2_shl_denom:			; GFX9-LABEL: sdiv_i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x34			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	▲ Show 20 Lines • Show All 358 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: ssdiv_v2i64_mixed_pow2k_denom:			; GFX6-LABEL: ssdiv_v2i64_mixed_pow2k_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v0, 0x457ff000			; GFX6-NEXT: v_mov_b32_e32 v0, 0x457ff000
	; GFX6-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX6-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX6-NEXT: v_mac_f32_e32 v0, 0, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_movk_i32 s6, 0xf001			; GFX6-NEXT: s_movk_i32 s10, 0xf001
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s10, v4, 0
				; GFX6-NEXT: v_mul_lo_u32 v2, v5, s10
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s1, 31			; GFX6-NEXT: s_ashr_i32 s6, s1, 31
	; GFX6-NEXT: s_lshr_b32 s8, s8, 20			; GFX6-NEXT: s_lshr_b32 s8, s6, 20
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v6, v4, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, v4, v1
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[6:7], v4, v3, 0
	; GFX6-NEXT: s_add_u32 s0, s0, s8			; GFX6-NEXT: s_add_u32 s0, s0, s8
	; GFX6-NEXT: s_addc_u32 s1, s1, 0			; GFX6-NEXT: s_addc_u32 s1, s1, 0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[6:7], v5, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[6:7], v5, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mov_b32_e32 v6, 0
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
				; GFX6-NEXT: v_mov_b32_e32 v7, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v8, vcc, v4, v0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s10, v8, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, v9, s10
	; GFX6-NEXT: s_ashr_i64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_ashr_i64 s[8:9], s[0:1], 12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_mul_hi_u32 v10, v8, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v9, v0, 0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, v8, v1
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v1, 0
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v9, v1, 0
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v10, v4
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: s_ashr_i32 s10, s3, 31			; GFX6-NEXT: s_ashr_i32 s10, s3, 31
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
	; GFX6-NEXT: s_add_u32 s0, s2, s10			; GFX6-NEXT: s_add_u32 s0, s2, s10
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v8, v0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v4, 0
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v4, vcc
	; GFX6-NEXT: v_mov_b32_e32 v6, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s6
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s6
	; GFX6-NEXT: s_mov_b32 s11, s10			; GFX6-NEXT: s_mov_b32 s11, s10
	; GFX6-NEXT: s_addc_u32 s1, s3, s10			; GFX6-NEXT: s_addc_u32 s1, s3, s10
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
	; GFX6-NEXT: s_xor_b64 s[0:1], s[0:1], s[10:11]			; GFX6-NEXT: s_xor_b64 s[0:1], s[0:1], s[10:11]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s0, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v4, s0, v2
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: s_movk_i32 s11, 0xfff
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, v2			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v9, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v10, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s0, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, s0, v1
	; GFX6-NEXT: v_mul_hi_u32 v7, s1, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s1, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, s1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0
	; GFX6-NEXT: s_movk_i32 s2, 0xfff
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s1, v2, 0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s1, v3, 0
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v6, v2, vcc			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s2			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, s2			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, s2			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v7, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_mul_lo_u32 v6, v3, s11
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v0			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s11, v2, 0
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 2, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v5, s1			; GFX6-NEXT: v_add_i32_e32 v7, vcc, 1, v2
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, s0, v8			; GFX6-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v6
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s2, v8			; GFX6-NEXT: v_mov_b32_e32 v6, s1
	; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0
				; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
				; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, s11, v0
				; GFX6-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v1, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0xffe			; GFX6-NEXT: s_movk_i32 s0, 0xffe
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v5			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v8			; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v7, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v3, v5, s[0:1]
	; GFX6-NEXT: v_xor_b32_e32 v0, s10, v0
	; GFX6-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s10, v1
				; GFX6-NEXT: v_xor_b32_e32 v0, s10, v0
	; GFX6-NEXT: v_mov_b32_e32 v3, s10			; GFX6-NEXT: v_mov_b32_e32 v3, s10
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s10, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s10, v1
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v1, v3, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v0, s8			; GFX6-NEXT: v_mov_b32_e32 v0, s8
	; GFX6-NEXT: v_mov_b32_e32 v1, s9			; GFX6-NEXT: v_mov_b32_e32 v1, s9
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: ssdiv_v2i64_mixed_pow2k_denom:			; GFX9-LABEL: ssdiv_v2i64_mixed_pow2k_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x457ff000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x457ff000
	▲ Show 20 Lines • Show All 251 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP7:%.*]] = sdiv i64 [[TMP5]], [[TMP6]]			; CHECK-NEXT: [[TMP7:%.*]] = sdiv i64 [[TMP5]], [[TMP6]]
	; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1			; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1
	; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v2i64_pow2_shl_denom:			; GFX6-LABEL: sdiv_v2i64_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x11			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x11
	; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX6-NEXT: s_mov_b64 s[8:9], 0x1000
	; GFX6-NEXT: s_mov_b32 s18, 0x4f800000			; GFX6-NEXT: s_mov_b32 s18, 0x4f800000
	; GFX6-NEXT: s_mov_b32 s19, 0x5f7ffffc			; GFX6-NEXT: s_mov_b32 s19, 0x5f7ffffc
	; GFX6-NEXT: s_mov_b32 s20, 0x2f800000			; GFX6-NEXT: s_mov_b32 s20, 0x2f800000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[2:3], s6			; GFX6-NEXT: s_lshl_b64 s[4:5], s[8:9], s4
	; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s4			; GFX6-NEXT: s_lshl_b64 s[2:3], s[8:9], s6
	; GFX6-NEXT: s_ashr_i32 s12, s3, 31			; GFX6-NEXT: s_ashr_i32 s14, s5, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s12			; GFX6-NEXT: s_add_u32 s4, s4, s14
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: s_mov_b32 s15, s14
	; GFX6-NEXT: s_addc_u32 s3, s3, s12			; GFX6-NEXT: s_addc_u32 s5, s5, s14
	; GFX6-NEXT: s_xor_b64 s[10:11], s[2:3], s[12:13]			; GFX6-NEXT: s_xor_b64 s[12:13], s[4:5], s[14:15]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s11			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s13
	; GFX6-NEXT: s_mov_b32 s21, 0xcf800000			; GFX6-NEXT: s_mov_b32 s21, 0xcf800000
	; GFX6-NEXT: s_sub_u32 s6, 0, s10			; GFX6-NEXT: s_sub_u32 s6, 0, s12
	; GFX6-NEXT: s_subb_u32 s7, 0, s11			; GFX6-NEXT: s_subb_u32 s7, 0, s13
	; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1			; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0			; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0			; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1			; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s14, s1, 31			; GFX6-NEXT: s_ashr_i32 s16, s9, 31
	; GFX6-NEXT: s_add_u32 s0, s0, s14			; GFX6-NEXT: s_mov_b32 s17, s16
	; GFX6-NEXT: v_mul_lo_u32 v0, s6, v2			; GFX6-NEXT: v_mul_lo_u32 v2, s6, v4
	; GFX6-NEXT: v_mul_hi_u32 v1, s6, v3			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v5, 0
	; GFX6-NEXT: v_mul_lo_u32 v4, s7, v3			; GFX6-NEXT: v_mul_lo_u32 v3, s7, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, s6, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: s_mov_b32 s15, s14			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v5, v3, 0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v6, v5, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v3, v1			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
	; GFX6-NEXT: v_mul_hi_u32 v6, v3, v1			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v2, v1			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
	; GFX6-NEXT: s_addc_u32 s1, s1, s14			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0			; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v7, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v2, v5
	; GFX6-NEXT: s_xor_b64 s[16:17], s[0:1], s[14:15]
	; GFX6-NEXT: s_xor_b64 s[14:15], s[14:15], s[12:13]
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v6
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v2, v1
	; GFX6-NEXT: v_mov_b32_e32 v0, 0
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v7, v0, vcc
	; GFX6-NEXT: v_mov_b32_e32 v1, 0			; GFX6-NEXT: v_mov_b32_e32 v1, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v1, v6, vcc			; GFX6-NEXT: v_mov_b32_e32 v0, 0
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v2, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s6, v2			; GFX6-NEXT: v_add_i32_e32 v8, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, s6, v3			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s7, v3			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s6, v8, 0
	; GFX6-NEXT: s_ashr_i32 s12, s9, 31			; GFX6-NEXT: v_mul_lo_u32 v6, s6, v9
	; GFX6-NEXT: s_add_u32 s8, s8, s12			; GFX6-NEXT: v_mul_lo_u32 v7, s7, v8
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_mul_hi_u32 v10, v8, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s6, v3			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v9, v2, 0
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v7, v3
				; GFX6-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v3, 0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v10, v6
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v8, v3, v4			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
	; GFX6-NEXT: v_mul_hi_u32 v9, v3, v5			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v10, v3, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v2, v5			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v2, v5			; GFX6-NEXT: s_add_u32 s4, s8, s16
	; GFX6-NEXT: v_mul_hi_u32 v6, v2, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v8, v2
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; GFX6-NEXT: s_addc_u32 s5, s9, s16
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v2, v4			; GFX6-NEXT: s_xor_b64 s[8:9], s[4:5], s[16:17]
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v8, v5			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s8, v5, 0
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc			; GFX6-NEXT: v_mul_hi_u32 v6, s8, v4
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v6, v0, vcc			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: s_xor_b64 s[16:17], s[16:17], s[14:15]
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v1, v6, vcc			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v2, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s16, v2			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s9, v4, 0
	; GFX6-NEXT: v_mul_hi_u32 v5, s16, v3			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], s9, v5, 0
	; GFX6-NEXT: v_mul_hi_u32 v6, s16, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, s17, v2			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s17, v2			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s17, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s12, v4
	; GFX6-NEXT: v_mul_hi_u32 v3, s17, v3			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s12, v5, 0
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: v_mul_lo_u32 v7, s13, v5
	; GFX6-NEXT: s_addc_u32 s9, s9, s12			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v7
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v0, vcc			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s9, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_mov_b32_e32 v7, s13
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v1, v4, vcc			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s8, v2
	; GFX6-NEXT: v_mul_lo_u32 v4, s10, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, s10, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, s11, v2
	; GFX6-NEXT: v_mov_b32_e32 v7, s11
	; GFX6-NEXT: s_xor_b64 s[8:9], s[8:9], s[12:13]
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, s10, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s17, v4
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, s16, v5
	; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc			; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s10, v5			; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s12, v2
	; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v6			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s13, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v2			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v5
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 1, v2			; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 1, v5
	; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v3, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v4, s[0:1]
				; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
				; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[0:1]
				; GFX6-NEXT: v_mov_b32_e32 v8, s9
				; GFX6-NEXT: s_mov_b32 s9, s8
				; GFX6-NEXT: s_addc_u32 s3, s3, s8
				; GFX6-NEXT: s_xor_b64 s[14:15], s[2:3], s[8:9]
				; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v8, v3, vcc
				; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s14
				; GFX6-NEXT: v_cvt_f32_u32_e32 v10, s15
				; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s13, v3
				; GFX6-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc
				; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s12, v2
				; GFX6-NEXT: v_mac_f32_e32 v8, s18, v10
				; GFX6-NEXT: v_rcp_f32_e32 v8, v8
				; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
				; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s13, v3
				; GFX6-NEXT: v_cndmask_b32_e32 v2, v11, v2, vcc
				; GFX6-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, v2
				; GFX6-NEXT: v_mul_f32_e32 v2, s19, v8
				; GFX6-NEXT: v_mul_f32_e32 v3, s20, v2
				; GFX6-NEXT: v_trunc_f32_e32 v3, v3
				; GFX6-NEXT: v_mac_f32_e32 v2, s21, v3
				; GFX6-NEXT: v_cndmask_b32_e64 v10, v4, v6, s[2:3]
				; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v2
				; GFX6-NEXT: v_cvt_u32_f32_e32 v8, v3
				; GFX6-NEXT: s_sub_u32 s18, 0, s14
				; GFX6-NEXT: s_subb_u32 s19, 0, s15
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[12:13], s18, v6, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, s18, v8
				; GFX6-NEXT: v_mul_lo_u32 v11, s19, v6
				; GFX6-NEXT: v_mul_hi_u32 v12, v6, v2
				; GFX6-NEXT: v_cndmask_b32_e64 v7, v9, v7, s[0:1]
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
				; GFX6-NEXT: v_add_i32_e32 v11, vcc, v3, v11
				; GFX6-NEXT: v_mad_u64_u32 v[3:4], s[12:13], v6, v11, 0
				; GFX6-NEXT: v_cndmask_b32_e64 v7, v5, v7, s[2:3]
				; GFX6-NEXT: s_ashr_i32 s2, s11, 31
				; GFX6-NEXT: v_add_i32_e32 v9, vcc, v12, v3
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v8, v2, 0
				; GFX6-NEXT: v_addc_u32_e32 v12, vcc, 0, v4, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v11, 0
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v9, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v12, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
				; GFX6-NEXT: v_add_i32_e32 v9, vcc, v6, v2
				; GFX6-NEXT: v_addc_u32_e32 v8, vcc, v8, v3, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s18, v9, 0
				; GFX6-NEXT: v_mul_lo_u32 v6, s18, v8
				; GFX6-NEXT: v_xor_b32_e32 v11, s16, v7
				; GFX6-NEXT: v_mul_lo_u32 v7, s19, v9
				; GFX6-NEXT: v_mul_hi_u32 v12, v9, v2
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v7, v3
				; GFX6-NEXT: v_mad_u64_u32 v[6:7], s[0:1], v9, v3, 0
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v2, 0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v8, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v12, v6
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
				; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
				; GFX6-NEXT: s_add_u32 s0, s10, s2
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v9, v2
				; GFX6-NEXT: s_mov_b32 s3, s2
				; GFX6-NEXT: s_addc_u32 s1, s11, s2
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v3, vcc
				; GFX6-NEXT: s_xor_b64 s[10:11], s[0:1], s[2:3]
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s10, v5, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, s10, v4
				; GFX6-NEXT: v_xor_b32_e32 v7, s17, v10
	; GFX6-NEXT: v_mov_b32_e32 v8, s17			; GFX6-NEXT: v_mov_b32_e32 v8, s17
	; GFX6-NEXT: v_cvt_f32_u32_e32 v10, s8			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v11, s9			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v3, vcc
	; GFX6-NEXT: v_subb_u32_e32 v4, vcc, v8, v4, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s11, v4, 0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v4			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], s11, v5, 0
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v5			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v9, v3, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v5, v1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s11, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v2, v4
	; GFX6-NEXT: v_mac_f32_e32 v10, s18, v11			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v0, v1, vcc
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v5, vcc			; GFX6-NEXT: v_mul_lo_u32 v6, s14, v5
	; GFX6-NEXT: v_rcp_f32_e32 v5, v10			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s14, v4, 0
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s16, v11
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v7, v8, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v9, v7, s[0:1]			; GFX6-NEXT: v_mul_lo_u32 v7, s15, v4
	; GFX6-NEXT: v_mul_f32_e32 v5, s19, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_mul_f32_e32 v6, s20, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v7
	; GFX6-NEXT: v_trunc_f32_e32 v6, v6			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s11, v3
	; GFX6-NEXT: v_mac_f32_e32 v5, s21, v6			; GFX6-NEXT: v_mov_b32_e32 v7, s15
	; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s10, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6
	; GFX6-NEXT: s_sub_u32 s0, 0, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_mul_hi_u32 v4, s0, v5
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v6
	; GFX6-NEXT: s_subb_u32 s1, 0, s9
	; GFX6-NEXT: v_mul_lo_u32 v8, s1, v5
	; GFX6-NEXT: s_ashr_i32 s10, s3, 31
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v7
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v5
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v8
	; GFX6-NEXT: v_mul_lo_u32 v8, v5, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, v5, v7
	; GFX6-NEXT: v_mul_hi_u32 v10, v5, v4
	; GFX6-NEXT: v_mul_hi_u32 v11, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v6, v4
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v10, v6, v7
	; GFX6-NEXT: v_mul_hi_u32 v7, v6, v7
	; GFX6-NEXT: s_mov_b32 s11, s10
	; GFX6-NEXT: v_xor_b32_e32 v2, s14, v2
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v8, v10
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v8, vcc, v11, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v1, v8, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v6, v7, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s0, v5
	; GFX6-NEXT: v_mul_hi_u32 v7, s0, v4
	; GFX6-NEXT: v_mul_lo_u32 v8, s1, v4
	; GFX6-NEXT: v_xor_b32_e32 v3, s15, v3
	; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v4
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v8, v6
	; GFX6-NEXT: v_mul_lo_u32 v10, v4, v6
	; GFX6-NEXT: v_mul_hi_u32 v11, v4, v7
	; GFX6-NEXT: v_mul_hi_u32 v12, v4, v6
	; GFX6-NEXT: v_mul_hi_u32 v9, v5, v7
	; GFX6-NEXT: v_mul_lo_u32 v7, v5, v7
	; GFX6-NEXT: v_mul_hi_u32 v8, v5, v6
	; GFX6-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GFX6-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX6-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GFX6-NEXT: v_addc_u32_e32 v8, vcc, v8, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v1, v8, vcc
	; GFX6-NEXT: s_add_u32 s0, s2, s10
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: s_addc_u32 s1, s3, s10
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v7, vcc
	; GFX6-NEXT: s_xor_b64 s[2:3], s[0:1], s[10:11]
	; GFX6-NEXT: v_mul_lo_u32 v6, s2, v5
	; GFX6-NEXT: v_mul_hi_u32 v7, s2, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, s2, v5
	; GFX6-NEXT: v_mul_hi_u32 v10, s3, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, s3, v5
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v9, vcc
	; GFX6-NEXT: v_mul_lo_u32 v9, s3, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, s3, v4
	; GFX6-NEXT: v_mov_b32_e32 v8, s15
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v9
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v10, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v1, v0, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s8, v5
	; GFX6-NEXT: v_mul_hi_u32 v7, s8, v4
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s14, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v4
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v3, v8, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v7, v6
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, s8, v4
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s3, v2
	; GFX6-NEXT: v_mov_b32_e32 v7, s9
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc			; GFX6-NEXT: v_subb_u32_e64 v6, s[0:1], v6, v7, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s8, v3			; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s14, v2
	; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v6, s[0:1], 0, v6, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s15, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s14, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v6			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], s15, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v4			; GFX6-NEXT: v_add_i32_e64 v7, s[0:1], 2, v4
	; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v5, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v5, s[0:1]
	; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 1, v4			; GFX6-NEXT: v_add_i32_e64 v9, s[0:1], 1, v4
	; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v5, s[0:1]			; GFX6-NEXT: v_addc_u32_e64 v10, s[0:1], 0, v5, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v8, s3			; GFX6-NEXT: v_mov_b32_e32 v8, s11
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v8, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v8, v3, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s15, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s14, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s15, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v9, v7, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v9, v7, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX6-NEXT: s_xor_b64 s[0:1], s[10:11], s[12:13]			; GFX6-NEXT: s_xor_b64 s[0:1], s[2:3], s[8:9]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v5, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v5, v6, vcc
	; GFX6-NEXT: v_xor_b32_e32 v3, s0, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s0, v3
	; GFX6-NEXT: v_xor_b32_e32 v4, s1, v2			; GFX6-NEXT: v_xor_b32_e32 v4, s1, v2
	; GFX6-NEXT: v_mov_b32_e32 v5, s1			; GFX6-NEXT: v_mov_b32_e32 v5, s1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v3			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v3
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v4, v5, vcc
				; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:			; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x44			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x44
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX9-NEXT: s_mov_b32 s16, 0x4f800000			; GFX9-NEXT: s_mov_b32 s16, 0x4f800000
	▲ Show 20 Lines • Show All 525 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s4, 0xffed2705			; GFX6-NEXT: s_mov_b32 s4, 0xffed2705
	; GFX6-NEXT: v_mov_b32_e32 v8, 0			; GFX6-NEXT: v_mov_b32_e32 v8, 0
	; GFX6-NEXT: v_mov_b32_e32 v7, 0			; GFX6-NEXT: v_mov_b32_e32 v7, 0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v4, s4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s4			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s4, v5, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, v5, v1
				; GFX6-NEXT: v_mul_hi_u32 v3, v5, v0
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v5, v6, 0
				; GFX6-NEXT: v_add_i32_e32 v9, vcc, v3, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v10, vcc, v8, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v4, v6, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v9, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v5, v0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s4, v6, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, v9, s4
				; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
				; GFX6-NEXT: v_mul_hi_u32 v10, v6, v0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
				; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v6, v1, 0
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v10, v4
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v5, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s4			; GFX6-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: s_mov_b32 s9, 0x12d8fb
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v9, v0, v3			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_hi_u32 v10, v0, v2			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s3, v2, 0
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s3, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v4, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s9
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s9, v0, 0
	; GFX6-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v5, s3, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb			; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s0
	; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, s3			; GFX6-NEXT: v_mov_b32_e32 v2, s3
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s0, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s9, v0
	; GFX6-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s0, v2			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v2
	; GFX6-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc			; GFX6-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fa
	; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v2			; GFX6-NEXT: v_cmp_lt_u32_e32 vcc, s0, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
				; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0			; GFX6-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1			; GFX6-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	▲ Show 20 Lines • Show All 305 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_i64_pow2_shl_denom:			; GFX6-LABEL: srem_i64_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xd			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xd
	; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s4			; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s4
	; GFX6-NEXT: s_ashr_i32 s4, s3, 31			; GFX6-NEXT: s_ashr_i32 s4, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s4			; GFX6-NEXT: s_add_u32 s2, s2, s4
	; GFX6-NEXT: s_mov_b32 s5, s4			; GFX6-NEXT: s_mov_b32 s5, s4
	; GFX6-NEXT: s_addc_u32 s3, s3, s4			; GFX6-NEXT: s_addc_u32 s3, s3, s4
	; GFX6-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]			; GFX6-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_u32 s4, 0, s8			; GFX6-NEXT: s_sub_u32 s6, 0, s8
	; GFX6-NEXT: s_subb_u32 s5, 0, s9			; GFX6-NEXT: s_subb_u32 s10, 0, s9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s10, s3, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
				; GFX6-NEXT: v_mul_lo_u32 v2, s6, v4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s6, v5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, s10, v5
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
				; GFX6-NEXT: v_mul_hi_u32 v6, v5, v0
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v5, v3, 0
				; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mov_b32_e32 v6, 0
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
				; GFX6-NEXT: v_mov_b32_e32 v7, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v8, vcc, v5, v0
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
				; GFX6-NEXT: v_mul_lo_u32 v4, s6, v9
				; GFX6-NEXT: v_mul_lo_u32 v5, s10, v8
				; GFX6-NEXT: v_mul_hi_u32 v10, v8, v0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v5, v1
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v1, 0
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v10, v4
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
				; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: s_ashr_i32 s10, s3, 31
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
	; GFX6-NEXT: s_add_u32 s2, s2, s10			; GFX6-NEXT: s_add_u32 s2, s2, s10
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v8, v0
	; GFX6-NEXT: s_mov_b32 s11, s10			; GFX6-NEXT: s_mov_b32 s11, s10
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0
	; GFX6-NEXT: s_addc_u32 s3, s3, s10			; GFX6-NEXT: s_addc_u32 s3, s3, s10
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_xor_b64 s[12:13], s[2:3], s[10:11]			; GFX6-NEXT: s_xor_b64 s[12:13], s[2:3], s[10:11]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s12, v3, 0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GFX6-NEXT: v_mul_hi_u32 v4, s12, v2
	; GFX6-NEXT: v_mov_b32_e32 v4, 0
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v7, v4, vcc
	; GFX6-NEXT: v_mov_b32_e32 v6, 0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_lo_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v10, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s12, v0
	; GFX6-NEXT: v_mul_hi_u32 v5, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v7, s13, v1
	; GFX6-NEXT: v_mul_lo_u32 v1, s13, v1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, s13, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s13, v0
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v6, v2, vcc			; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s13, v2, 0
	; GFX6-NEXT: v_mul_lo_u32 v1, s8, v1			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s13, v3, 0
	; GFX6-NEXT: v_mul_hi_u32 v2, s8, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX6-NEXT: v_mul_lo_u32 v3, s9, v0			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v0, s8, v0			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v0, v2
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mul_lo_u32 v3, s8, v0
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s8, v2, 0
				; GFX6-NEXT: v_mul_lo_u32 v2, s9, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s13, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s13, v1
	; GFX6-NEXT: v_mov_b32_e32 v3, s9			; GFX6-NEXT: v_mov_b32_e32 v3, s9
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0			; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	▲ Show 20 Lines • Show All 424 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_ashr_i32 s4, s3, 31			; GFX6-NEXT: s_ashr_i32 s4, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s4			; GFX6-NEXT: s_add_u32 s2, s2, s4
	; GFX6-NEXT: s_mov_b32 s5, s4			; GFX6-NEXT: s_mov_b32 s5, s4
	; GFX6-NEXT: s_addc_u32 s3, s3, s4			; GFX6-NEXT: s_addc_u32 s3, s3, s4
	; GFX6-NEXT: s_xor_b64 s[16:17], s[2:3], s[4:5]			; GFX6-NEXT: s_xor_b64 s[16:17], s[2:3], s[4:5]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s16			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s17			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s17
	; GFX6-NEXT: s_mov_b32 s21, 0xcf800000			; GFX6-NEXT: s_mov_b32 s21, 0xcf800000
	; GFX6-NEXT: s_sub_u32 s2, 0, s16			; GFX6-NEXT: s_sub_u32 s4, 0, s16
	; GFX6-NEXT: s_subb_u32 s3, 0, s17			; GFX6-NEXT: s_subb_u32 s5, 0, s17
	; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1			; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0			; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0			; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1			; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v0
				; GFX6-NEXT: v_mul_lo_u32 v2, s4, v4
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s4, v5, 0
				; GFX6-NEXT: v_mul_lo_u32 v3, s5, v5
				; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v1, v3
				; GFX6-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v5, v3, 0
				; GFX6-NEXT: v_mul_hi_u32 v6, v5, v0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v1
				; GFX6-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, v0, 0
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v2, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v4, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v6, v0
				; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v7, v1, vcc
				; GFX6-NEXT: v_mov_b32_e32 v1, 0
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
				; GFX6-NEXT: v_mov_b32_e32 v0, 0
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
				; GFX6-NEXT: v_add_i32_e32 v8, vcc, v5, v2
				; GFX6-NEXT: v_addc_u32_e32 v9, vcc, v4, v3, vcc
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s4, v8, 0
				; GFX6-NEXT: v_mul_lo_u32 v6, s4, v9
				; GFX6-NEXT: v_mul_lo_u32 v7, s5, v8
				; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
				; GFX6-NEXT: v_mul_hi_u32 v10, v8, v2
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v7, v3
				; GFX6-NEXT: v_mad_u64_u32 v[6:7], s[2:3], v8, v3, 0
				; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[2:3], v9, v2, 0
				; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v9, v3, 0
				; GFX6-NEXT: v_add_i32_e32 v6, vcc, v10, v6
				; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
				; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
				; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s12, s9, 31			; GFX6-NEXT: s_ashr_i32 s12, s9, 31
	; GFX6-NEXT: s_add_u32 s0, s8, s12			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v0, s2, v2			; GFX6-NEXT: s_add_u32 s2, s8, s12
	; GFX6-NEXT: v_mul_hi_u32 v1, s2, v3			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v8, v2
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s2, v3
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: s_mov_b32 s13, s12
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: s_addc_u32 s3, s9, s12
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v0, v4			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v0, v3, v1			; GFX6-NEXT: s_xor_b64 s[8:9], s[2:3], s[12:13]
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s8, v5, 0
	; GFX6-NEXT: v_mul_hi_u32 v6, v3, v1			; GFX6-NEXT: v_mul_hi_u32 v6, s8, v4
	; GFX6-NEXT: v_mul_hi_u32 v7, v2, v1			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; GFX6-NEXT: s_addc_u32 s1, s9, s12			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v4, v0			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s9, v4, 0
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], s9, v5, 0
	; GFX6-NEXT: v_mul_lo_u32 v6, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v2, v5			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
	; GFX6-NEXT: s_xor_b64 s[8:9], s[0:1], s[12:13]			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v2, v4
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v2, v1			; GFX6-NEXT: v_mul_lo_u32 v5, s16, v2
	; GFX6-NEXT: v_mov_b32_e32 v0, 0			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s16, v4, 0
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v7, v0, vcc			; GFX6-NEXT: v_mul_lo_u32 v4, s17, v4
	; GFX6-NEXT: v_mov_b32_e32 v1, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v1, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v2, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, s2, v3
	; GFX6-NEXT: v_mul_lo_u32 v6, s3, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, s2, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v8, v3, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v10, v3, v4
	; GFX6-NEXT: v_mul_hi_u32 v7, v2, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, v2, v5
	; GFX6-NEXT: v_mul_hi_u32 v6, v2, v4
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v2, v4
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v8, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
	; GFX6-NEXT: v_addc_u32_e32 v6, vcc, v6, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v1, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v2, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s8, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, s8, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, s8, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, s9, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, s9, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, s9, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v1, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, s16, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, s16, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s17, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, s16, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s9, v3			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s9, v3
	; GFX6-NEXT: v_mov_b32_e32 v5, s17			; GFX6-NEXT: v_mov_b32_e32 v5, s17
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s8, v2			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s8, v2
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s16, v2			; GFX6-NEXT: v_subrev_i32_e64 v7, s[0:1], s16, v6
	; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s17, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s17, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s16, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s16, v7
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s17, v7			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s17, v4
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s16, v6			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s16, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX6-NEXT: s_ashr_i32 s2, s15, 31			; GFX6-NEXT: s_ashr_i32 s2, s15, 31
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8
	; GFX6-NEXT: s_add_u32 s8, s14, s2			; GFX6-NEXT: s_add_u32 s8, s14, s2
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v7, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v2, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v7, s9			; GFX6-NEXT: v_mov_b32_e32 v4, s9
	; GFX6-NEXT: s_mov_b32 s3, s2			; GFX6-NEXT: s_mov_b32 s3, s2
	; GFX6-NEXT: s_addc_u32 s9, s15, s2			; GFX6-NEXT: s_addc_u32 s9, s15, s2
	; GFX6-NEXT: s_xor_b64 s[8:9], s[8:9], s[2:3]			; GFX6-NEXT: s_xor_b64 s[8:9], s[8:9], s[2:3]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s8			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v4, v3, vcc
	; GFX6-NEXT: v_cvt_f32_u32_e32 v9, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s8
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v7, v3, vcc			; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s9
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v3
	; GFX6-NEXT: v_mac_f32_e32 v8, s18, v9			; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v2			; GFX6-NEXT: v_mac_f32_e32 v4, s18, v8
	; GFX6-NEXT: v_rcp_f32_e32 v8, v8			; GFX6-NEXT: v_rcp_f32_e32 v4, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v10, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v10, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v3			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v7, v10, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v8, v9, v10, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX6-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, v8
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, v3, v2, s[2:3]
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GFX6-NEXT: v_mul_f32_e32 v2, s19, v4
	; GFX6-NEXT: v_mul_f32_e32 v5, s19, v8			; GFX6-NEXT: v_mul_f32_e32 v3, s20, v2
	; GFX6-NEXT: v_mul_f32_e32 v6, s20, v5			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_trunc_f32_e32 v6, v6			; GFX6-NEXT: v_mac_f32_e32 v2, s21, v3
	; GFX6-NEXT: v_mac_f32_e32 v5, s21, v6			; GFX6-NEXT: v_cvt_u32_f32_e32 v9, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_u32_f32_e32 v10, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX6-NEXT: s_sub_u32 s13, 0, s8
	; GFX6-NEXT: s_sub_u32 s0, 0, s8			; GFX6-NEXT: s_subb_u32 s16, 0, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[14:15], s13, v9, 0
	; GFX6-NEXT: v_mul_hi_u32 v4, s0, v5			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v10
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v6			; GFX6-NEXT: v_mul_lo_u32 v11, s16, v9
	; GFX6-NEXT: s_subb_u32 s1, 0, s9			; GFX6-NEXT: v_mul_hi_u32 v12, v9, v2
	; GFX6-NEXT: v_mul_lo_u32 v8, s1, v5			; GFX6-NEXT: v_cndmask_b32_e64 v5, v7, v5, s[0:1]
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
				; GFX6-NEXT: v_add_i32_e32 v11, vcc, v3, v11
				; GFX6-NEXT: v_mad_u64_u32 v[3:4], s[14:15], v9, v11, 0
				; GFX6-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
	; GFX6-NEXT: s_ashr_i32 s14, s11, 31			; GFX6-NEXT: s_ashr_i32 s14, s11, 31
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v7			; GFX6-NEXT: v_add_i32_e32 v7, vcc, v12, v3
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v10, v2, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v8			; GFX6-NEXT: v_addc_u32_e32 v12, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v5, v4			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v10, v11, 0
	; GFX6-NEXT: v_mul_hi_u32 v9, v5, v7			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GFX6-NEXT: v_mul_hi_u32 v10, v5, v4			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v12, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v11, v6, v4			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, v6, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc			; GFX6-NEXT: v_add_i32_e32 v9, vcc, v9, v2
	; GFX6-NEXT: v_mul_lo_u32 v10, v6, v7			; GFX6-NEXT: v_addc_u32_e32 v10, vcc, v10, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v6, v7			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s13, v9, 0
	; GFX6-NEXT: s_mov_b32 s15, s14			; GFX6-NEXT: v_xor_b32_e32 v11, s12, v6
	; GFX6-NEXT: v_xor_b32_e32 v2, s12, v2			; GFX6-NEXT: v_mul_lo_u32 v6, s13, v10
	; GFX6-NEXT: v_add_i32_e32 v8, vcc, v8, v10			; GFX6-NEXT: v_mul_lo_u32 v7, s16, v9
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v9, v7, vcc			; GFX6-NEXT: v_mul_hi_u32 v12, v9, v2
	; GFX6-NEXT: v_addc_u32_e32 v8, vcc, v11, v0, vcc			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v10, v2, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v1, v8, vcc			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v7, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_mad_u64_u32 v[6:7], s[0:1], v9, v3, 0
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v6, v7, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v10, v3, 0
	; GFX6-NEXT: v_mul_lo_u32 v6, s0, v5			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v12, v6
	; GFX6-NEXT: v_mul_hi_u32 v7, s0, v4			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_xor_b32_e32 v3, s12, v3			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v3, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v7, s0, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v8, v6			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v10, v4, v6
	; GFX6-NEXT: v_mul_hi_u32 v11, v4, v7
	; GFX6-NEXT: v_mul_hi_u32 v12, v4, v6
	; GFX6-NEXT: v_mul_hi_u32 v9, v5, v7
	; GFX6-NEXT: v_mul_lo_u32 v7, v5, v7
	; GFX6-NEXT: v_mul_hi_u32 v8, v5, v6
	; GFX6-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GFX6-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX6-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GFX6-NEXT: v_addc_u32_e32 v8, vcc, v8, v0, vcc
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, v1, v8, vcc
	; GFX6-NEXT: s_add_u32 s0, s10, s14			; GFX6-NEXT: s_add_u32 s0, s10, s14
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v9, v2
				; GFX6-NEXT: s_mov_b32 s15, s14
	; GFX6-NEXT: s_addc_u32 s1, s11, s14			; GFX6-NEXT: s_addc_u32 s1, s11, s14
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v5, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, v10, v3, vcc
	; GFX6-NEXT: s_xor_b64 s[10:11], s[0:1], s[14:15]			; GFX6-NEXT: s_xor_b64 s[10:11], s[0:1], s[14:15]
	; GFX6-NEXT: v_mul_lo_u32 v6, s10, v5			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s10, v5, 0
	; GFX6-NEXT: v_mul_hi_u32 v7, s10, v4			; GFX6-NEXT: v_mul_hi_u32 v6, s10, v4
	; GFX6-NEXT: v_mul_hi_u32 v9, s10, v5			; GFX6-NEXT: v_xor_b32_e32 v7, s12, v8
	; GFX6-NEXT: v_mul_hi_u32 v10, s11, v5
	; GFX6-NEXT: v_mul_lo_u32 v5, s11, v5
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v9, vcc
	; GFX6-NEXT: v_mul_lo_u32 v9, s11, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, s11, v4
	; GFX6-NEXT: v_mov_b32_e32 v8, s12			; GFX6-NEXT: v_mov_b32_e32 v8, s12
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v9			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, v7, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v9, vcc, 0, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v10, v0, vcc			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s11, v4, 0
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GFX6-NEXT: v_mad_u64_u32 v[4:5], s[0:1], s11, v5, 0
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v1, v0, vcc			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
				; GFX6-NEXT: v_addc_u32_e32 v2, vcc, v9, v3, vcc
				; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v5, v1, vcc
				; GFX6-NEXT: v_add_i32_e32 v4, vcc, v2, v4
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v0, v1, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, s8, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s8, v0
	; GFX6-NEXT: v_mul_hi_u32 v6, s8, v4			; GFX6-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s8, v4, 0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v2			; GFX6-NEXT: v_mul_lo_u32 v4, s9, v4
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v4			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v11
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v3, v8, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v7, v8, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v6, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, s8, v4			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s11, v3
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s11, v2
	; GFX6-NEXT: v_mov_b32_e32 v5, s9			; GFX6-NEXT: v_mov_b32_e32 v5, s9
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s10, v3			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s10, v2
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s8, v3			; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s8, v2
	; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v6			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v6
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, s[0:1]			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]
	; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v7			; GFX6-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v7
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v6			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, v8, v9, s[2:3]
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8			; GFX6-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v8
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v7, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v4, v7, v4, s[0:1]
	; GFX6-NEXT: v_mov_b32_e32 v7, s11			; GFX6-NEXT: v_mov_b32_e32 v7, s11
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v7, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v7, v3, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
				; GFX6-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
				; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; GFX6-NEXT: v_xor_b32_e32 v2, s14, v2
	; GFX6-NEXT: v_xor_b32_e32 v3, s14, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s14, v3
	; GFX6-NEXT: v_xor_b32_e32 v4, s14, v2			; GFX6-NEXT: v_mov_b32_e32 v4, s14
	; GFX6-NEXT: v_mov_b32_e32 v5, s14			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s14, v2
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s14, v3			; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
	; GFX6-NEXT: v_subb_u32_e32 v3, vcc, v4, v5, vcc
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i64_pow2_shl_denom:			; GFX9-LABEL: srem_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x44			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x44
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX9-NEXT: s_mov_b32 s16, 0x4f800000			; GFX9-NEXT: s_mov_b32 s16, 0x4f800000
	▲ Show 20 Lines • Show All 518 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll

	Show First 20 Lines • Show All 768 Lines • ▼ Show 20 Lines
	; GFX7LESS-NEXT: s_cbranch_execz BB4_2			; GFX7LESS-NEXT: s_cbranch_execz BB4_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_mov_b32 s15, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s15, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s14, -1			; GFX7LESS-NEXT: s_mov_b32 s14, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s12, s6			; GFX7LESS-NEXT: s_mov_b32 s12, s6
	; GFX7LESS-NEXT: s_mov_b32 s13, s7			; GFX7LESS-NEXT: s_mov_b32 s13, s7
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[8:9]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[8:9]
	; GFX7LESS-NEXT: s_mul_i32 s7, s1, s6			; GFX7LESS-NEXT: s_mul_i32 s8, s1, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s0, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s0, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
				; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s0, v0, 0
				; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s8, v1
	; GFX7LESS-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7LESS-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc			; GFX7LESS-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc
	; GFX7LESS-NEXT: s_waitcnt vmcnt(0)			; GFX7LESS-NEXT: s_waitcnt vmcnt(0)
	; GFX7LESS-NEXT: buffer_wbinvl1			; GFX7LESS-NEXT: buffer_wbinvl1
	; GFX7LESS-NEXT: BB4_2:			; GFX7LESS-NEXT: BB4_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s6, -1			; GFX7LESS-NEXT: s_mov_b32 s6, -1
	; GFX7LESS-NEXT: v_readfirstlane_b32 s2, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s2, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s3, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s3, v1
				; GFX7LESS-NEXT: v_mul_lo_u32 v3, s1, v2
	; GFX7LESS-NEXT: s_waitcnt expcnt(0)			; GFX7LESS-NEXT: s_waitcnt expcnt(0)
	; GFX7LESS-NEXT: v_mul_lo_u32 v0, s1, v2			; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s0, v2, 0
	; GFX7LESS-NEXT: v_mul_hi_u32 v1, s0, v2			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX7LESS-NEXT: v_mul_lo_u32 v2, s0, v2			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s3
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v0			; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s2, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, s3			; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: add_i64_uniform:			; GFX8-LABEL: add_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: s_mov_b64 s[8:9], exec			; GFX8-NEXT: s_mov_b64 s[8:9], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s8, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s8, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s9, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s9, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX8-NEXT: s_cbranch_execz BB4_2			; GFX8-NEXT: s_cbranch_execz BB4_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s12, s6			; GFX8-NEXT: s_mov_b32 s12, s6
	; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[8:9]			; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[8:9]
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[8:9], s0, v0, 0
	; GFX8-NEXT: s_mov_b32 s13, s7			; GFX8-NEXT: s_mul_i32 s6, s1, s6
	; GFX8-NEXT: s_mul_i32 s7, s1, s6
	; GFX8-NEXT: s_mul_i32 s6, s0, s6
	; GFX8-NEXT: s_mov_b32 s15, 0xf000			; GFX8-NEXT: s_mov_b32 s15, 0xf000
	; GFX8-NEXT: s_mov_b32 s14, -1			; GFX8-NEXT: s_mov_b32 s14, -1
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s7, v0			; GFX8-NEXT: s_mov_b32 s13, s7
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX8-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc			; GFX8-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB4_2:			; GFX8-NEXT: BB4_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mul_lo_u32 v0, s1, v2			; GFX8-NEXT: v_mul_lo_u32 v4, s1, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, s0, v2			; GFX8-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s0, v2, 0
				; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: v_mul_lo_u32 v1, s0, v2			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v4
	; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v1			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
				; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: s_mov_b32 s6, -1			; GFX8-NEXT: s_mov_b32 s6, -1
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, v3, v2, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i64_uniform:			; GFX9-LABEL: add_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[8:9], exec			; GFX9-NEXT: s_mov_b64 s[8:9], exec
	Show All 18 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc			; GFX9-NEXT: buffer_atomic_add_x2 v[0:1], off, s[12:15], 0 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB4_2:			; GFX9-NEXT: BB4_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX9-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v0, s2, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v1			; GFX9-NEXT: v_readfirstlane_b32 s1, v1
	; GFX9-NEXT: v_add_u32_e32 v1, v4, v3			; GFX9-NEXT: v_add_u32_e32 v1, v3, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i64_uniform:			; GFX1064-LABEL: add_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_clause 0x1			; GFX1064-NEXT: s_clause 0x1
	; GFX1064-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX1064-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX1064-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	Show All 22 Lines
	; GFX1064-NEXT: buffer_atomic_add_x2 v[0:1], off, s[8:11], 0 glc			; GFX1064-NEXT: buffer_atomic_add_x2 v[0:1], off, s[8:11], 0 glc
	; GFX1064-NEXT: s_waitcnt vmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB4_2:			; GFX1064-NEXT: BB4_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1064-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1064-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
	; GFX1064-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1064-NEXT: v_readfirstlane_b32 s0, v0			; GFX1064-NEXT: v_readfirstlane_b32 s0, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s1, v1			; GFX1064-NEXT: v_readfirstlane_b32 s1, v1
	; GFX1064-NEXT: s_mov_b32 s7, 0x31016000			; GFX1064-NEXT: s_mov_b32 s7, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s6, -1			; GFX1064-NEXT: s_mov_b32 s6, -1
	; GFX1064-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1064-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1064-NEXT: v_add_co_u32 v0, vcc, s0, v2			; GFX1064-NEXT: v_add_co_u32 v0, vcc, s0, v2
	; GFX1064-NEXT: v_add_co_ci_u32_e32 v1, vcc, s1, v1, vcc			; GFX1064-NEXT: v_add_co_ci_u32_e32 v1, vcc, s1, v1, vcc
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_uniform:			; GFX1032-LABEL: add_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_clause 0x1			; GFX1032-NEXT: s_clause 0x1
	Show All 23 Lines
	; GFX1032-NEXT: buffer_atomic_add_x2 v[0:1], off, s[8:11], 0 glc			; GFX1032-NEXT: buffer_atomic_add_x2 v[0:1], off, s[8:11], 0 glc
	; GFX1032-NEXT: s_waitcnt vmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB4_2:			; GFX1032-NEXT: BB4_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1032-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1032-NEXT: v_mad_u64_u32 v[2:3], s0, s2, v2, 0
	; GFX1032-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v0			; GFX1032-NEXT: v_readfirstlane_b32 s0, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s1, v1			; GFX1032-NEXT: v_readfirstlane_b32 s1, v1
	; GFX1032-NEXT: s_mov_b32 s7, 0x31016000			; GFX1032-NEXT: s_mov_b32 s7, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s6, -1			; GFX1032-NEXT: s_mov_b32 s6, -1
	; GFX1032-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1032-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1032-NEXT: v_add_co_u32 v0, vcc_lo, s0, v2			; GFX1032-NEXT: v_add_co_u32 v0, vcc_lo, s0, v2
	; GFX1032-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, s1, v1, vcc_lo			; GFX1032-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, s1, v1, vcc_lo
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw add i64 addrspace(1)* %inout, i64 %additive acq_rel			%old = atomicrmw add i64 addrspace(1)* %inout, i64 %additive acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 913 Lines • ▼ Show 20 Lines
	; GFX7LESS-NEXT: s_cbranch_execz BB10_2			; GFX7LESS-NEXT: s_cbranch_execz BB10_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_mov_b32 s15, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s15, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s14, -1			; GFX7LESS-NEXT: s_mov_b32 s14, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s12, s6			; GFX7LESS-NEXT: s_mov_b32 s12, s6
	; GFX7LESS-NEXT: s_mov_b32 s13, s7			; GFX7LESS-NEXT: s_mov_b32 s13, s7
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[8:9]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[8:9]
	; GFX7LESS-NEXT: s_mul_i32 s7, s1, s6			; GFX7LESS-NEXT: s_mul_i32 s8, s1, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s0, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s0, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
				; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s0, v0, 0
				; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s8, v1
	; GFX7LESS-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7LESS-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc			; GFX7LESS-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc
	; GFX7LESS-NEXT: s_waitcnt vmcnt(0)			; GFX7LESS-NEXT: s_waitcnt vmcnt(0)
	; GFX7LESS-NEXT: buffer_wbinvl1			; GFX7LESS-NEXT: buffer_wbinvl1
	; GFX7LESS-NEXT: BB10_2:			; GFX7LESS-NEXT: BB10_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s6, -1			; GFX7LESS-NEXT: s_mov_b32 s6, -1
	; GFX7LESS-NEXT: v_readfirstlane_b32 s2, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s2, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s3, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s3, v1
				; GFX7LESS-NEXT: v_mul_lo_u32 v3, s1, v2
	; GFX7LESS-NEXT: s_waitcnt expcnt(0)			; GFX7LESS-NEXT: s_waitcnt expcnt(0)
	; GFX7LESS-NEXT: v_mul_lo_u32 v0, s1, v2			; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s0, v2, 0
	; GFX7LESS-NEXT: v_mul_hi_u32 v1, s0, v2			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX7LESS-NEXT: v_mul_lo_u32 v2, s0, v2			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s3
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v0			; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, s3			; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s2, v2
	; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v3, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: sub_i64_uniform:			; GFX8-LABEL: sub_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: s_mov_b64 s[8:9], exec			; GFX8-NEXT: s_mov_b64 s[8:9], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s8, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s8, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s9, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s9, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX8-NEXT: s_cbranch_execz BB10_2			; GFX8-NEXT: s_cbranch_execz BB10_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s12, s6			; GFX8-NEXT: s_mov_b32 s12, s6
	; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[8:9]			; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[8:9]
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[8:9], s0, v0, 0
	; GFX8-NEXT: s_mov_b32 s13, s7			; GFX8-NEXT: s_mul_i32 s6, s1, s6
	; GFX8-NEXT: s_mul_i32 s7, s1, s6
	; GFX8-NEXT: s_mul_i32 s6, s0, s6
	; GFX8-NEXT: s_mov_b32 s15, 0xf000			; GFX8-NEXT: s_mov_b32 s15, 0xf000
	; GFX8-NEXT: s_mov_b32 s14, -1			; GFX8-NEXT: s_mov_b32 s14, -1
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s7, v0			; GFX8-NEXT: s_mov_b32 s13, s7
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX8-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc			; GFX8-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB10_2:			; GFX8-NEXT: BB10_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mul_lo_u32 v0, s1, v2			; GFX8-NEXT: v_mul_lo_u32 v4, s1, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, s0, v2			; GFX8-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s0, v2, 0
				; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: v_mul_lo_u32 v1, s0, v2			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v4
	; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v1			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s0, v2
				; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: s_mov_b32 s6, -1			; GFX8-NEXT: s_mov_b32 s6, -1
	; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc			; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v3, v1, vcc
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i64_uniform:			; GFX9-LABEL: sub_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[8:9], exec			; GFX9-NEXT: s_mov_b64 s[8:9], exec
	Show All 18 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc			; GFX9-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[12:15], 0 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB10_2:			; GFX9-NEXT: BB10_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX9-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v0, s2, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v1			; GFX9-NEXT: v_readfirstlane_b32 s1, v1
	; GFX9-NEXT: v_add_u32_e32 v1, v4, v3			; GFX9-NEXT: v_add_u32_e32 v1, v3, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v2
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v3, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i64_uniform:			; GFX1064-LABEL: sub_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_clause 0x1			; GFX1064-NEXT: s_clause 0x1
	; GFX1064-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX1064-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX1064-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	Show All 22 Lines
	; GFX1064-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[8:11], 0 glc			; GFX1064-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[8:11], 0 glc
	; GFX1064-NEXT: s_waitcnt vmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB10_2:			; GFX1064-NEXT: BB10_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1064-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1064-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
	; GFX1064-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1064-NEXT: v_readfirstlane_b32 s0, v0			; GFX1064-NEXT: v_readfirstlane_b32 s0, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s1, v1			; GFX1064-NEXT: v_readfirstlane_b32 s1, v1
	; GFX1064-NEXT: s_mov_b32 s7, 0x31016000			; GFX1064-NEXT: s_mov_b32 s7, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s6, -1			; GFX1064-NEXT: s_mov_b32 s6, -1
	; GFX1064-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1064-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s0, v2			; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s0, v2
	; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s1, v1, vcc			; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s1, v1, vcc
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i64_uniform:			; GFX1032-LABEL: sub_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_clause 0x1			; GFX1032-NEXT: s_clause 0x1
	Show All 23 Lines
	; GFX1032-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[8:11], 0 glc			; GFX1032-NEXT: buffer_atomic_sub_x2 v[0:1], off, s[8:11], 0 glc
	; GFX1032-NEXT: s_waitcnt vmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB10_2:			; GFX1032-NEXT: BB10_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1032-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1032-NEXT: v_mad_u64_u32 v[2:3], s0, s2, v2, 0
	; GFX1032-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v0			; GFX1032-NEXT: v_readfirstlane_b32 s0, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s1, v1			; GFX1032-NEXT: v_readfirstlane_b32 s1, v1
	; GFX1032-NEXT: s_mov_b32 s7, 0x31016000			; GFX1032-NEXT: s_mov_b32 s7, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s6, -1			; GFX1032-NEXT: s_mov_b32 s6, -1
	; GFX1032-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1032-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s0, v2			; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s0, v2
	; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s1, v1, vcc_lo			; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s1, v1, vcc_lo
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw sub i64 addrspace(1)* %inout, i64 %subitive acq_rel			%old = atomicrmw sub i64 addrspace(1)* %inout, i64 %subitive acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

	Show First 20 Lines • Show All 908 Lines • ▼ Show 20 Lines
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX7LESS-NEXT: s_cbranch_execz BB5_2			; GFX7LESS-NEXT: s_cbranch_execz BB5_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0			; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6			; GFX7LESS-NEXT: s_mul_i32 s8, s3, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
				; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
				; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s8, v1
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX7LESS-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: BB5_2:			; GFX7LESS-NEXT: BB5_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s6, -1			; GFX7LESS-NEXT: s_mov_b32 s6, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s4, s0			; GFX7LESS-NEXT: s_mov_b32 s4, s0
	; GFX7LESS-NEXT: s_mov_b32 s5, s1			; GFX7LESS-NEXT: s_mov_b32 s5, s1
	; GFX7LESS-NEXT: v_readfirstlane_b32 s0, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s8, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s1, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s9, v1
	; GFX7LESS-NEXT: v_mul_lo_u32 v0, s3, v2			; GFX7LESS-NEXT: v_mul_lo_u32 v3, s3, v2
	; GFX7LESS-NEXT: v_mul_hi_u32 v1, s2, v2			; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v2, 0
	; GFX7LESS-NEXT: v_mul_lo_u32 v2, s2, v2			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v0			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s9
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, s1			; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s8, v0
	; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s0, v2			; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: add_i64_uniform:			; GFX8-LABEL: add_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_mov_b64 s[6:7], exec			; GFX8-NEXT: s_mov_b64 s[6:7], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX8-NEXT: s_cbranch_execz BB5_2			; GFX8-NEXT: s_cbranch_execz BB5_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
	; GFX8-NEXT: s_mul_i32 s7, s3, s6			; GFX8-NEXT: s_mul_i32 s6, s3, s8
	; GFX8-NEXT: s_mul_i32 s6, s2, s6
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s7, v0			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: BB5_2:			; GFX8-NEXT: BB5_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, s0			; GFX8-NEXT: s_mov_b32 s4, s0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_mul_lo_u32 v0, s3, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, s2, v2
	; GFX8-NEXT: s_mov_b32 s5, s1			; GFX8-NEXT: s_mov_b32 s5, s1
				; GFX8-NEXT: v_mul_lo_u32 v4, s3, v2
				; GFX8-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
				; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: v_mul_lo_u32 v1, s2, v2			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v4
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v1			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; GFX8-NEXT: s_mov_b32 s7, 0xf000			; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: s_mov_b32 s6, -1			; GFX8-NEXT: s_mov_b32 s6, -1
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, v3, v2, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i64_uniform:			; GFX9-LABEL: add_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[6:7], exec			; GFX9-NEXT: s_mov_b64 s[6:7], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	Show All 13 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: BB5_2:			; GFX9-NEXT: BB5_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: v_mul_lo_u32 v4, s3, v2
				; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s2, v2, 0
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v0, s2, v2
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
				; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s1, v1			; GFX9-NEXT: v_readfirstlane_b32 s1, v1
	; GFX9-NEXT: v_add_u32_e32 v1, v4, v3			; GFX9-NEXT: v_add_u32_e32 v1, v3, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i64_uniform:			; GFX1064-LABEL: add_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[6:7], exec			; GFX1064-NEXT: s_mov_b64 s[6:7], exec
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	Show All 16 Lines
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB5_2:			; GFX1064-NEXT: BB5_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1064-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1064-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s2, v2, 0
	; GFX1064-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s4, v1			; GFX1064-NEXT: v_readfirstlane_b32 s4, v1
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1064-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1064-NEXT: v_add_co_u32 v0, vcc, s2, v2			; GFX1064-NEXT: v_add_co_u32 v0, vcc, s2, v2
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: v_add_co_ci_u32_e32 v1, vcc, s4, v1, vcc			; GFX1064-NEXT: v_add_co_ci_u32_e32 v1, vcc, s4, v1, vcc
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_uniform:			; GFX1032-LABEL: add_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	Show All 18 Lines
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB5_2:			; GFX1032-NEXT: BB5_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1032-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1032-NEXT: v_mad_u64_u32 v[2:3], s2, s2, v2, 0
	; GFX1032-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s4, v1			; GFX1032-NEXT: v_readfirstlane_b32 s4, v1
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1032-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1032-NEXT: v_add_co_u32 v0, vcc_lo, s2, v2			; GFX1032-NEXT: v_add_co_u32 v0, vcc_lo, s2, v2
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo			; GFX1032-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 %additive acq_rel			%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 %additive acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 972 Lines • ▼ Show 20 Lines
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX7LESS-NEXT: s_cbranch_execz BB12_2			; GFX7LESS-NEXT: s_cbranch_execz BB12_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0			; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6			; GFX7LESS-NEXT: s_mul_i32 s8, s3, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
				; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
				; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s8, v1
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX7LESS-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: BB12_2:			; GFX7LESS-NEXT: BB12_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s7, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s6, -1			; GFX7LESS-NEXT: s_mov_b32 s6, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mov_b32 s4, s0			; GFX7LESS-NEXT: s_mov_b32 s4, s0
	; GFX7LESS-NEXT: s_mov_b32 s5, s1			; GFX7LESS-NEXT: s_mov_b32 s5, s1
	; GFX7LESS-NEXT: v_readfirstlane_b32 s0, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s8, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s1, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s9, v1
	; GFX7LESS-NEXT: v_mul_lo_u32 v0, s3, v2			; GFX7LESS-NEXT: v_mul_lo_u32 v3, s3, v2
	; GFX7LESS-NEXT: v_mul_hi_u32 v1, s2, v2			; GFX7LESS-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v2, 0
	; GFX7LESS-NEXT: v_mul_lo_u32 v2, s2, v2			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, v1, v0			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s9
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, s1			; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s8, v0
	; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s0, v2			; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v3, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: sub_i64_uniform:			; GFX8-LABEL: sub_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_mov_b64 s[6:7], exec			; GFX8-NEXT: s_mov_b64 s[6:7], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX8-NEXT: s_cbranch_execz BB12_2			; GFX8-NEXT: s_cbranch_execz BB12_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]
	; GFX8-NEXT: v_mov_b32_e32 v0, s6			; GFX8-NEXT: v_mov_b32_e32 v0, s8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
	; GFX8-NEXT: s_mul_i32 s7, s3, s6			; GFX8-NEXT: s_mul_i32 s6, s3, s8
	; GFX8-NEXT: s_mul_i32 s6, s2, s6
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s7, v0			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s6
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: BB12_2:			; GFX8-NEXT: BB12_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, s0			; GFX8-NEXT: s_mov_b32 s4, s0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_mul_lo_u32 v0, s3, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, s2, v2
	; GFX8-NEXT: s_mov_b32 s5, s1			; GFX8-NEXT: s_mov_b32 s5, s1
				; GFX8-NEXT: v_mul_lo_u32 v4, s3, v2
				; GFX8-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s2, v2, 0
				; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: v_mul_lo_u32 v1, s2, v2			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v4
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s0, v1			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s0, v2
	; GFX8-NEXT: s_mov_b32 s7, 0xf000			; GFX8-NEXT: s_mov_b32 s7, 0xf000
	; GFX8-NEXT: s_mov_b32 s6, -1			; GFX8-NEXT: s_mov_b32 s6, -1
	; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc			; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v3, v1, vcc
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i64_uniform:			; GFX9-LABEL: sub_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[6:7], exec			; GFX9-NEXT: s_mov_b64 s[6:7], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	Show All 13 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: BB12_2:			; GFX9-NEXT: BB12_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: v_mul_lo_u32 v4, s3, v2
				; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s2, v2, 0
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, s2, v2
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v0, s2, v2
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
				; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s1, v1			; GFX9-NEXT: v_readfirstlane_b32 s1, v1
	; GFX9-NEXT: v_add_u32_e32 v1, v4, v3			; GFX9-NEXT: v_add_u32_e32 v1, v3, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v2
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v3, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i64_uniform:			; GFX1064-LABEL: sub_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[6:7], exec			; GFX1064-NEXT: s_mov_b64 s[6:7], exec
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	Show All 16 Lines
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB12_2:			; GFX1064-NEXT: BB12_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1064-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1064-NEXT: v_mad_u64_u32 v[2:3], s[2:3], s2, v2, 0
	; GFX1064-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s4, v1			; GFX1064-NEXT: v_readfirstlane_b32 s4, v1
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1064-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s2, v2			; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s2, v2
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s4, v1, vcc			; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s4, v1, vcc
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i64_uniform:			; GFX1032-LABEL: sub_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	Show All 18 Lines
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB12_2:			; GFX1032-NEXT: BB12_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX1032-NEXT: v_mul_lo_u32 v4, s3, v2
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v2			; GFX1032-NEXT: v_mad_u64_u32 v[2:3], s2, s2, v2, 0
	; GFX1032-NEXT: v_mul_lo_u32 v2, s2, v2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s4, v1			; GFX1032-NEXT: v_readfirstlane_b32 s4, v1
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_add_nc_u32_e32 v1, v4, v3			; GFX1032-NEXT: v_add_nc_u32_e32 v1, v3, v4
	; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v2			; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v2
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo			; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw sub i64 addrspace(3)* @local_var64, i64 %subitive acq_rel			%old = atomicrmw sub i64 addrspace(3)* @local_var64, i64 %subitive acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 2,420 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bypass-div.ll

	Show All 10 Lines
	; GFX9-NEXT: v_or_b32_e32 v5, v1, v3			; GFX9-NEXT: v_or_b32_e32 v5, v1, v3
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]			; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB0_2			; GFX9-NEXT: s_cbranch_execz BB0_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v3			; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v9, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v4			; GFX9-NEXT: v_xor_b32_e32 v10, v3, v9
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4			; GFX9-NEXT: v_xor_b32_e32 v11, v2, v9
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, v11
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v10
	; GFX9-NEXT: v_sub_co_u32_e32 v7, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v7, vcc, 0, v11
	; GFX9-NEXT: v_subb_co_u32_e32 v8, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v8, vcc, 0, v10, vcc
	; GFX9-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6			; GFX9-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_mov_b32_e32 v15, 0			; GFX9-NEXT: v_mov_b32_e32 v15, 0
	; GFX9-NEXT: v_mov_b32_e32 v14, 0			; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5			; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GFX9-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5			; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GFX9-NEXT: v_trunc_f32_e32 v6, v6			; GFX9-NEXT: v_trunc_f32_e32 v3, v3
	; GFX9-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6			; GFX9-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v12, v3
	; GFX9-NEXT: v_mul_lo_u32 v11, v7, v6			; GFX9-NEXT: v_mul_lo_u32 v4, v8, v6
	; GFX9-NEXT: v_mul_lo_u32 v9, v8, v5			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v6, 0
	; GFX9-NEXT: v_mul_hi_u32 v10, v7, v5			; GFX9-NEXT: v_mul_lo_u32 v5, v7, v12
	; GFX9-NEXT: v_mul_lo_u32 v12, v7, v5			; GFX9-NEXT: v_mul_hi_u32 v13, v6, v2
	; GFX9-NEXT: v_add3_u32 v9, v10, v11, v9			; GFX9-NEXT: v_add3_u32 v5, v3, v5, v4
	; GFX9-NEXT: v_mul_lo_u32 v11, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v13, v5, v12			; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v13, v3
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v12, v2, 0
	; GFX9-NEXT: v_mul_hi_u32 v16, v6, v9			; GFX9-NEXT: v_addc_co_u32_e32 v16, vcc, v15, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v6, v9			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v12, v5, 0
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v13, v11			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v13, v2
	; GFX9-NEXT: v_mul_lo_u32 v13, v6, v12			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v16, v3, vcc
	; GFX9-NEXT: v_mul_hi_u32 v12, v6, v12			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v14, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v10, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v11, v13			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v10, v12, vcc			; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v6, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v16, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v12, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9			; GFX9-NEXT: v_mul_lo_u32 v4, v7, v12
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v11, vcc			; GFX9-NEXT: v_mul_lo_u32 v5, v8, v13
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v13, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v10, vcc			; GFX9-NEXT: v_add3_u32 v5, v3, v4, v5
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v6			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v12, v5, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v8, v5			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v13, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v10, v7, v5			; GFX9-NEXT: v_mul_hi_u32 v16, v13, v2
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v5			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v12, v2, 0
	; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v16, v5
	; GFX9-NEXT: v_mul_lo_u32 v11, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v15, v6, vcc
	; GFX9-NEXT: v_mul_hi_u32 v12, v5, v7			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v7
	; GFX9-NEXT: v_mul_hi_u32 v13, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v5, v8, vcc
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v7			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v14, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v6, v7			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v3
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v8			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v12, v11			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v13, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v15, v13, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v12, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v8			; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v1
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v11, v7			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v12, v10, vcc			; GFX9-NEXT: v_xor_b32_e32 v6, v0, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v9, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v1, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v8			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v6, v3, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v9, vcc			; GFX9-NEXT: v_mul_hi_u32 v7, v6, v2
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v7			; GFX9-NEXT: v_xor_b32_e32 v5, v5, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v8, vcc			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v0
	; GFX9-NEXT: v_ashrrev_i32_e32 v7, 31, v1			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v7			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v0, v6			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v7, v0
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v5			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v8, v1, vcc
	; GFX9-NEXT: v_mul_hi_u32 v10, v0, v6			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v14, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v7, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v0, v2
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v7			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8			; GFX9-NEXT: v_mul_lo_u32 v7, v10, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v15, v10, vcc			; GFX9-NEXT: v_mul_lo_u32 v8, v11, v3
	; GFX9-NEXT: v_mul_lo_u32 v10, v1, v5			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v11, v2, 0
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: v_add3_u32 v1, v1, v8, v7
	; GFX9-NEXT: v_mul_hi_u32 v11, v1, v6			; GFX9-NEXT: v_sub_u32_e32 v7, v5, v1
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v6			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v6, v0
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v8, v10			; GFX9-NEXT: v_subb_co_u32_e64 v6, s[4:5], v7, v10, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v9, v5, vcc			; GFX9-NEXT: v_sub_co_u32_e64 v7, s[4:5], v0, v11
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v11, v14, vcc			; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[4:5], 0, v6, s[4:5]
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v6			; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v10
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
	; GFX9-NEXT: v_mul_lo_u32 v8, v3, v5			; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v11
	; GFX9-NEXT: v_mul_lo_u32 v9, v2, v6			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]
	; GFX9-NEXT: v_mul_hi_u32 v10, v2, v5			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v6, v10
	; GFX9-NEXT: v_mul_lo_u32 v11, v2, v5			; GFX9-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[4:5]
	; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8			; GFX9-NEXT: v_add_co_u32_e64 v7, s[4:5], 2, v2
	; GFX9-NEXT: v_sub_u32_e32 v9, v1, v8			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v5, v1, vcc
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v11			; GFX9-NEXT: v_addc_co_u32_e64 v8, s[4:5], 0, v3, s[4:5]
	; GFX9-NEXT: v_subb_co_u32_e64 v9, s[4:5], v9, v3, vcc			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v10
	; GFX9-NEXT: v_sub_co_u32_e64 v10, s[4:5], v0, v2			; GFX9-NEXT: v_add_co_u32_e64 v12, s[4:5], 1, v2
	; GFX9-NEXT: v_subbrev_co_u32_e64 v9, s[4:5], 0, v9, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v9, v3			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v11
	; GFX9-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]			; GFX9-NEXT: v_addc_co_u32_e64 v13, s[4:5], 0, v3, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v10, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[4:5]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v9, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v11, v10, s[4:5]
	; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 2, v5
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v8, vcc
	; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v6, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_add_co_u32_e64 v12, s[4:5], 1, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e64 v13, s[4:5], 0, v6, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v10
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v9			; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v12, v10, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v12, v7, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v13, v11, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v6, v13, v8, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX9-NEXT: v_xor_b32_e32 v2, v7, v4			; GFX9-NEXT: v_xor_b32_e32 v2, v4, v9
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v6, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v6, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v2			; GFX9-NEXT: v_xor_b32_e32 v1, v1, v2
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, v1, v2			; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, v1, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v0, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v0, v2, vcc
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: BB0_2: ; %Flow			; GFX9-NEXT: BB0_2: ; %Flow
	; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]
	Show All 38 Lines
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]			; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB1_2			; GFX9-NEXT: s_cbranch_execz BB1_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v10, vcc, 0, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v11, vcc, 0, v3, vcc
	; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mov_b32_e32 v13, 0			; GFX9-NEXT: v_mov_b32_e32 v13, 0
	; GFX9-NEXT: v_mov_b32_e32 v12, 0
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4			; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v4
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v8
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v9
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v9, 0
	; GFX9-NEXT: v_mul_lo_u32 v11, v6, v4			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_add3_u32 v8, v10, v8, v9			; GFX9-NEXT: v_mul_hi_u32 v12, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v11			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v9, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v8			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v12, v5
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v4, 0
	; GFX9-NEXT: v_mul_hi_u32 v15, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v5, v8			; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v7, 0
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v10			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v12, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v13, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v15, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v14, v5, v11			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
	; GFX9-NEXT: v_mul_hi_u32 v11, v5, v11
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v14
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v10, v11, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v4
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
	; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v8, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v15
	; GFX9-NEXT: v_mul_hi_u32 v9, v1, v5			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v12
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v12, 0
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v15, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v1, v4			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v12, v7, 0
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v11, v12, v4
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8			; GFX9-NEXT: v_mad_u64_u32 v[9:10], s[4:5], v15, v4, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v11, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v9, v12, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v8, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v9
				; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v10, vcc
				; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v13, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v3, v4			; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v12, v4
	; GFX9-NEXT: v_mul_lo_u32 v7, v2, v5			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v15, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v2, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v0, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v9, v2, v4			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v6
	; GFX9-NEXT: v_add3_u32 v6, v8, v7, v6			; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v8, v4
	; GFX9-NEXT: v_sub_u32_e32 v7, v1, v6			; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v5, vcc
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v9			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v6, 0
	; GFX9-NEXT: v_subb_co_u32_e64 v7, s[4:5], v7, v3, vcc			; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v1, v7, 0
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v8, v4
				; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v9, v5, vcc
				; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v4, v6
				; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v5, vcc
				; GFX9-NEXT: v_mul_lo_u32 v8, v3, v6
				; GFX9-NEXT: v_mul_lo_u32 v9, v2, v7
				; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v6, 0
				; GFX9-NEXT: v_add3_u32 v5, v5, v9, v8
				; GFX9-NEXT: v_sub_u32_e32 v8, v1, v5
				; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v4
				; GFX9-NEXT: v_subb_co_u32_e64 v4, s[4:5], v8, v3, vcc
	; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v0, v2			; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v0, v2
	; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[4:5], 0, v7, s[4:5]			; GFX9-NEXT: v_subbrev_co_u32_e64 v4, s[4:5], 0, v4, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v3			; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2			; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v7, v3			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v4, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v9, v8, s[4:5]
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[4:5], 2, v4			; GFX9-NEXT: v_add_co_u32_e64 v8, s[4:5], 2, v6
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v6, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v5, vcc
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[4:5], 0, v5, s[4:5]			; GFX9-NEXT: v_addc_co_u32_e64 v9, s[4:5], 0, v7, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 1, v4			; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 1, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v5, s[4:5]			; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v7, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v11, v9, s[4:5]
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v10, v8, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v10, v8, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v7, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v6, v0, vcc
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: BB1_2: ; %Flow			; GFX9-NEXT: BB1_2: ; %Flow
	; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]
	; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB1_4			; GFX9-NEXT: s_cbranch_execz BB1_4
	; GFX9-NEXT: ; %bb.3:			; GFX9-NEXT: ; %bb.3:
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v2
	Show All 35 Lines
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB2_2			; GFX9-NEXT: s_cbranch_execz BB2_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v3			; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v4			; GFX9-NEXT: v_xor_b32_e32 v9, v3, v4
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4			; GFX9-NEXT: v_xor_b32_e32 v10, v2, v4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, v10
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v9
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v7, vcc, 0, v10
	; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5			; GFX9-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_mov_b32_e32 v14, 0			; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mov_b32_e32 v13, 0			; GFX9-NEXT: v_mov_b32_e32 v13, 0
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4			; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v3, v3
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v11, v3
	; GFX9-NEXT: v_mul_lo_u32 v10, v6, v5			; GFX9-NEXT: v_mul_lo_u32 v4, v8, v6
	; GFX9-NEXT: v_mul_lo_u32 v8, v7, v4			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v6, 0
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v4			; GFX9-NEXT: v_mul_lo_u32 v5, v7, v11
	; GFX9-NEXT: v_mul_lo_u32 v11, v6, v4			; GFX9-NEXT: v_mul_hi_u32 v12, v6, v2
	; GFX9-NEXT: v_add3_u32 v8, v9, v10, v8			; GFX9-NEXT: v_add3_u32 v5, v3, v5, v4
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v12, v4, v11			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v12, v3
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v11, v2, 0
	; GFX9-NEXT: v_mul_hi_u32 v15, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v14, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v5, v8			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v11, v5, 0
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v12, v10			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v12, v2
	; GFX9-NEXT: v_mul_lo_u32 v12, v5, v11			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v15, v3, vcc
	; GFX9-NEXT: v_mul_hi_u32 v11, v5, v11			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v13, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v9, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v10, v12			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v14, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v9, v11, vcc			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v6, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v13, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v11, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8			; GFX9-NEXT: v_mul_lo_u32 v4, v7, v11
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v10, vcc			; GFX9-NEXT: v_mul_lo_u32 v5, v8, v12
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v12, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v9, vcc			; GFX9-NEXT: v_add3_u32 v5, v3, v4, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v5, 0
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v12, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v4			; GFX9-NEXT: v_mul_hi_u32 v15, v12, v2
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v11, v2, 0
	; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v15, v5
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v7
	; GFX9-NEXT: v_mul_hi_u32 v12, v4, v7			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v5, v8, vcc
	; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v13, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v3
	; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v14, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v12, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v14, v12, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v11, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7			; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v1
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9, vcc			; GFX9-NEXT: v_xor_b32_e32 v6, v0, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8, v13, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v1, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v6, v3, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v8, vcc			; GFX9-NEXT: v_mul_hi_u32 v7, v6, v2
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6			; GFX9-NEXT: v_xor_b32_e32 v4, v4, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7, vcc			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v0
	; GFX9-NEXT: v_ashrrev_i32_e32 v6, 31, v1			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v14, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v6			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v2, 0
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v6			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
	; GFX9-NEXT: v_mul_lo_u32 v7, v0, v5			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v7, v0
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v4			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v8, v1, vcc
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v5			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v13, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v6, vcc			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v6			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v14, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_mul_lo_u32 v2, v9, v0
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v14, v9, vcc			; GFX9-NEXT: v_mul_lo_u32 v3, v10, v1
	; GFX9-NEXT: v_mul_lo_u32 v9, v1, v4			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v10, v0, 0
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_add3_u32 v1, v1, v3, v2
	; GFX9-NEXT: v_mul_hi_u32 v10, v1, v5			; GFX9-NEXT: v_sub_u32_e32 v2, v4, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v6, v0
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9			; GFX9-NEXT: v_subb_co_u32_e64 v2, s[4:5], v2, v9, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v4, vcc			; GFX9-NEXT: v_sub_co_u32_e64 v3, s[4:5], v0, v10
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v13, vcc			; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[6:7], 0, v2, s[4:5]
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]
	; GFX9-NEXT: v_mul_lo_u32 v7, v3, v4			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v3, v10
	; GFX9-NEXT: v_mul_lo_u32 v5, v2, v5			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
	; GFX9-NEXT: v_mul_hi_u32 v8, v2, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v9
	; GFX9-NEXT: v_mul_lo_u32 v4, v2, v4			; GFX9-NEXT: v_subb_co_u32_e64 v2, s[4:5], v2, v9, s[4:5]
	; GFX9-NEXT: v_add3_u32 v5, v8, v5, v7			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[6:7]
	; GFX9-NEXT: v_sub_u32_e32 v7, v1, v5			; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v3, v10
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v4			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v4, v1, vcc
	; GFX9-NEXT: v_subb_co_u32_e64 v4, s[4:5], v7, v3, vcc			; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[4:5], 0, v2, s[4:5]
	; GFX9-NEXT: v_sub_co_u32_e64 v7, s[4:5], v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v9
	; GFX9-NEXT: v_subbrev_co_u32_e64 v8, s[6:7], 0, v4, s[4:5]			; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v8, v3			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[6:7]			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v10
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v2			; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[4:5]
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[6:7]			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v9
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v8, v3			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GFX9-NEXT: v_subb_co_u32_e64 v4, s[4:5], v4, v3, s[4:5]			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v8, s[4:5]
	; GFX9-NEXT: v_sub_co_u32_e64 v10, s[4:5], v7, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_subbrev_co_u32_e64 v4, s[4:5], 0, v4, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v9
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v7, v10, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v8, v4, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v5
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v6			; GFX9-NEXT: v_xor_b32_e32 v1, v1, v5
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v6			; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, v0, v5
	; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, v0, v6			; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v1, v5, vcc
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v1, v6, vcc
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: BB2_2: ; %Flow			; GFX9-NEXT: BB2_2: ; %Flow
	; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]			; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]
	; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB2_4			; GFX9-NEXT: s_cbranch_execz BB2_4
	; GFX9-NEXT: ; %bb.3:			; GFX9-NEXT: ; %bb.3:
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v2
	Show All 32 Lines
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]			; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB3_2			; GFX9-NEXT: s_cbranch_execz BB3_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v10, vcc, 0, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v11, vcc, 0, v3, vcc
	; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mov_b32_e32 v13, 0			; GFX9-NEXT: v_mov_b32_e32 v13, 0
	; GFX9-NEXT: v_mov_b32_e32 v12, 0
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4			; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v4
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v8
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v9
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v9, 0
	; GFX9-NEXT: v_mul_lo_u32 v11, v6, v4			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_add3_u32 v8, v10, v8, v9			; GFX9-NEXT: v_mul_hi_u32 v12, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v11			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v9, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v8			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v12, v5
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v4, 0
	; GFX9-NEXT: v_mul_hi_u32 v15, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v5, v8			; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v7, 0
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v10			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v12, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v13, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v15, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v14, v5, v11			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
	; GFX9-NEXT: v_mul_hi_u32 v11, v5, v11
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v14
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v10, v11, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v4
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
	; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v8, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v15
	; GFX9-NEXT: v_mul_hi_u32 v9, v1, v5			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v12
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v12, 0
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v15, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v1, v4			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v12, v7, 0
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v11, v12, v4
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8			; GFX9-NEXT: v_mad_u64_u32 v[9:10], s[4:5], v15, v4, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v11, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v9, v12, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v8, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v9
				; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v10, vcc
				; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v13, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v6, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v12, v4
				; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v15, v5, vcc
				; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v0, v7, 0
				; GFX9-NEXT: v_mul_hi_u32 v8, v0, v6
				; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v8, v4
				; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v5, vcc
				; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v6, 0
				; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v1, v7, 0
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v8, v4
				; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v9, v5, vcc
				; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
				; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v3, v4			; GFX9-NEXT: v_mul_lo_u32 v6, v3, v4
	; GFX9-NEXT: v_mul_lo_u32 v5, v2, v5			; GFX9-NEXT: v_mul_lo_u32 v7, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v7, v2, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v4, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, v2, v4			; GFX9-NEXT: v_add3_u32 v5, v5, v7, v6
	; GFX9-NEXT: v_add3_u32 v5, v7, v5, v6
	; GFX9-NEXT: v_sub_u32_e32 v6, v1, v5			; GFX9-NEXT: v_sub_u32_e32 v6, v1, v5
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v4			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v4
	; GFX9-NEXT: v_subb_co_u32_e64 v4, s[4:5], v6, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e64 v4, s[4:5], v6, v3, vcc
	; GFX9-NEXT: v_sub_co_u32_e64 v6, s[4:5], v0, v2			; GFX9-NEXT: v_sub_co_u32_e64 v6, s[4:5], v0, v2
	; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[6:7], 0, v4, s[4:5]			; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[6:7], 0, v4, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v2			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v2
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]			; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
	; GFX9-NEXT: ; implicit-def: $vgpr6_vgpr7			; GFX9-NEXT: ; implicit-def: $vgpr6_vgpr7
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB8_2			; GFX9-NEXT: s_cbranch_execz BB8_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v3			; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v9, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v4			; GFX9-NEXT: v_xor_b32_e32 v10, v3, v9
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4			; GFX9-NEXT: v_xor_b32_e32 v11, v2, v9
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, v11
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v10
	; GFX9-NEXT: v_sub_co_u32_e32 v7, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v7, vcc, 0, v11
	; GFX9-NEXT: v_subb_co_u32_e32 v8, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v8, vcc, 0, v10, vcc
	; GFX9-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6			; GFX9-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_mov_b32_e32 v15, 0			; GFX9-NEXT: v_mov_b32_e32 v15, 0
	; GFX9-NEXT: v_mov_b32_e32 v14, 0			; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5			; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GFX9-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5			; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GFX9-NEXT: v_trunc_f32_e32 v6, v6			; GFX9-NEXT: v_trunc_f32_e32 v3, v3
	; GFX9-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6			; GFX9-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v12, v3
	; GFX9-NEXT: v_mul_lo_u32 v11, v7, v6			; GFX9-NEXT: v_mul_lo_u32 v4, v8, v6
	; GFX9-NEXT: v_mul_lo_u32 v9, v8, v5			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v6, 0
	; GFX9-NEXT: v_mul_hi_u32 v10, v7, v5			; GFX9-NEXT: v_mul_lo_u32 v5, v7, v12
	; GFX9-NEXT: v_mul_lo_u32 v12, v7, v5			; GFX9-NEXT: v_mul_hi_u32 v13, v6, v2
	; GFX9-NEXT: v_add3_u32 v9, v10, v11, v9			; GFX9-NEXT: v_add3_u32 v5, v3, v5, v4
	; GFX9-NEXT: v_mul_lo_u32 v11, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v13, v5, v12			; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v13, v3
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v12, v2, 0
	; GFX9-NEXT: v_mul_hi_u32 v16, v6, v9			; GFX9-NEXT: v_addc_co_u32_e32 v16, vcc, v15, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v6, v9			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v12, v5, 0
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v13, v11			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v13, v2
	; GFX9-NEXT: v_mul_lo_u32 v13, v6, v12			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v16, v3, vcc
	; GFX9-NEXT: v_mul_hi_u32 v12, v6, v12			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v14, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v10, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v11, v13			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v10, v12, vcc			; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v6, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v16, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v12, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9			; GFX9-NEXT: v_mul_lo_u32 v4, v7, v12
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v11, vcc			; GFX9-NEXT: v_mul_lo_u32 v5, v8, v13
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v9			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v13, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v10, vcc			; GFX9-NEXT: v_add3_u32 v5, v3, v4, v5
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v6			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v12, v5, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v8, v5			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v13, v5, 0
	; GFX9-NEXT: v_mul_hi_u32 v10, v7, v5			; GFX9-NEXT: v_mul_hi_u32 v16, v13, v2
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v5			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v12, v2, 0
	; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v16, v5
	; GFX9-NEXT: v_mul_lo_u32 v11, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v15, v6, vcc
	; GFX9-NEXT: v_mul_hi_u32 v12, v5, v7			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v7
	; GFX9-NEXT: v_mul_hi_u32 v13, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v5, v8, vcc
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v7			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v14, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v6, v7			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v3
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v8			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v12, v11			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v13, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v15, v13, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v12, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v8
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v11, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v12, v10, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v9, v14, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v9, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v8, vcc
	; GFX9-NEXT: v_ashrrev_i32_e32 v7, 31, v1			; GFX9-NEXT: v_ashrrev_i32_e32 v7, 31, v1
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v7			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v7
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7			; GFX9-NEXT: v_xor_b32_e32 v5, v0, v7
	; GFX9-NEXT: v_mul_lo_u32 v8, v0, v6			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v1, v7, vcc
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v5			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v3, 0
	; GFX9-NEXT: v_mul_hi_u32 v10, v0, v6			; GFX9-NEXT: v_mul_hi_u32 v6, v5, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v7, vcc			; GFX9-NEXT: v_xor_b32_e32 v4, v4, v7
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v7			; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v0
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v1, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v15, v10, vcc			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v10, v1, v5			; GFX9-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v6, v0
	; GFX9-NEXT: v_mul_hi_u32 v11, v1, v6			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v8, v1, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v6			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v14, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v8, v10			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v9, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v15, v1, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v11, v14, vcc			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v2
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v6			; GFX9-NEXT: v_mul_lo_u32 v8, v11, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v8, vcc			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v11, v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v3, v5			; GFX9-NEXT: v_add3_u32 v1, v1, v8, v6
	; GFX9-NEXT: v_mul_lo_u32 v9, v2, v6			; GFX9-NEXT: v_sub_u32_e32 v6, v4, v1
	; GFX9-NEXT: v_mul_hi_u32 v10, v2, v5			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v5, v0
	; GFX9-NEXT: v_mul_lo_u32 v11, v2, v5			; GFX9-NEXT: v_subb_co_u32_e64 v6, s[4:5], v6, v10, vcc
	; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8			; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v0, v11
	; GFX9-NEXT: v_sub_u32_e32 v9, v1, v8			; GFX9-NEXT: v_subbrev_co_u32_e64 v12, s[6:7], 0, v6, s[4:5]
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v11			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v12, v10
	; GFX9-NEXT: v_subb_co_u32_e64 v9, s[4:5], v9, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[6:7]
	; GFX9-NEXT: v_sub_co_u32_e64 v10, s[4:5], v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v8, v11
	; GFX9-NEXT: v_subbrev_co_u32_e64 v11, s[6:7], 0, v9, s[4:5]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v11, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v12, 0, -1, s[6:7]
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v10, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[6:7]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v11, v3			; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v12, v10
	; GFX9-NEXT: v_cndmask_b32_e64 v12, v12, v13, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[6:7]
	; GFX9-NEXT: v_add_co_u32_e64 v13, s[6:7], 2, v5			; GFX9-NEXT: v_add_co_u32_e64 v13, s[6:7], 2, v2
	; GFX9-NEXT: v_addc_co_u32_e64 v14, s[6:7], 0, v6, s[6:7]			; GFX9-NEXT: v_addc_co_u32_e64 v14, s[6:7], 0, v3, s[6:7]
	; GFX9-NEXT: v_add_co_u32_e64 v15, s[6:7], 1, v5			; GFX9-NEXT: v_add_co_u32_e64 v15, s[6:7], 1, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v8, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v4, v1, vcc
	; GFX9-NEXT: v_addc_co_u32_e64 v16, s[6:7], 0, v6, s[6:7]			; GFX9-NEXT: v_addc_co_u32_e64 v16, s[6:7], 0, v3, s[6:7]
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v10
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[6:7], 0, v12			; GFX9-NEXT: v_cmp_ne_u32_e64 s[6:7], 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v11
	; GFX9-NEXT: v_cndmask_b32_e64 v12, v16, v14, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v16, v14, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v14, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v14, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v10
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v8, v14, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v14, vcc
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[4:5], v9, v3, s[4:5]			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8			; GFX9-NEXT: v_cndmask_b32_e64 v4, v15, v13, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v8, v15, v13, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_sub_co_u32_e64 v2, s[4:5], v10, v2			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc			; GFX9-NEXT: v_xor_b32_e32 v5, v7, v9
	; GFX9-NEXT: v_xor_b32_e32 v8, v7, v4			; GFX9-NEXT: v_xor_b32_e32 v2, v2, v5
	; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[4:5], 0, v3, s[4:5]			; GFX9-NEXT: v_xor_b32_e32 v3, v3, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v10, v2, s[6:7]			; GFX9-NEXT: v_sub_co_u32_e64 v4, s[8:9], v2, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v12, vcc			; GFX9-NEXT: v_subb_co_u32_e64 v2, s[4:5], v6, v10, s[4:5]
	; GFX9-NEXT: v_xor_b32_e32 v4, v5, v8			; GFX9-NEXT: v_subb_co_u32_e64 v5, s[8:9], v3, v5, s[8:9]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v11, v3, s[6:7]			; GFX9-NEXT: v_sub_co_u32_e64 v3, s[4:5], v8, v11
				; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[4:5], 0, v2, s[4:5]
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v12, v2, s[6:7]
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v8, v3, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v6, v6, v8
	; GFX9-NEXT: v_sub_co_u32_e64 v4, s[8:9], v4, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[8:9], v6, v8, s[8:9]
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v7			; GFX9-NEXT: v_xor_b32_e32 v1, v1, v7
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, v0, v7			; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, v0, v7
	; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, v1, v7, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, v1, v7, vcc
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: BB8_2: ; %Flow			; GFX9-NEXT: BB8_2: ; %Flow
	; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[10:11]			; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[10:11]
	; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: ; implicit-def: $vgpr6_vgpr7			; GFX9-NEXT: ; implicit-def: $vgpr6_vgpr7
	; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5			; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB9_2			; GFX9-NEXT: s_cbranch_execz BB9_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v4, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, 0, v2			; GFX9-NEXT: v_sub_co_u32_e32 v10, vcc, 0, v2
	; GFX9-NEXT: v_subb_co_u32_e32 v7, vcc, 0, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v11, vcc, 0, v3, vcc
	; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-NEXT: v_mov_b32_e32 v14, 0
	; GFX9-NEXT: v_mov_b32_e32 v13, 0			; GFX9-NEXT: v_mov_b32_e32 v13, 0
	; GFX9-NEXT: v_mov_b32_e32 v12, 0
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4			; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v4
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v8
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v9
	; GFX9-NEXT: v_mul_hi_u32 v10, v6, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v9, 0
	; GFX9-NEXT: v_mul_lo_u32 v11, v6, v4			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_add3_u32 v8, v10, v8, v9			; GFX9-NEXT: v_mul_hi_u32 v12, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v11			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v9, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v8			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v12, v5
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v8			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v4, 0
	; GFX9-NEXT: v_mul_hi_u32 v15, v5, v8			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v5, v8			; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v7, 0
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v10			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v12, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v13, v14, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v15, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v14, v5, v11			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
	; GFX9-NEXT: v_mul_hi_u32 v11, v5, v11
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v14
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v10, v11, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v5
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v6, v4
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
	; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
	; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
	; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
	; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
	; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8, v12, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5			; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v9, v4
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4			; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v8, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5			; GFX9-NEXT: v_mul_lo_u32 v6, v10, v15
	; GFX9-NEXT: v_mul_hi_u32 v9, v1, v5			; GFX9-NEXT: v_mul_lo_u32 v7, v11, v12
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v12, 0
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: v_add3_u32 v7, v5, v6, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc			; GFX9-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v15, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v8, v1, v4			; GFX9-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v12, v7, 0
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v11, v12, v4
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8			; GFX9-NEXT: v_mad_u64_u32 v[9:10], s[4:5], v15, v4, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v11, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v9, v12, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v8, vcc
				; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v9
				; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v10, vcc
				; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v13, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v14, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v3, v4			; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v12, v4
	; GFX9-NEXT: v_mul_lo_u32 v7, v2, v5			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v15, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v2, v4			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v0, v7, 0
	; GFX9-NEXT: v_mul_lo_u32 v9, v2, v4			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v6
	; GFX9-NEXT: v_add3_u32 v6, v8, v7, v6			; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v8, v4
	; GFX9-NEXT: v_sub_u32_e32 v7, v1, v6			; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v5, vcc
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v9			; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v6, 0
	; GFX9-NEXT: v_subb_co_u32_e64 v7, s[4:5], v7, v3, vcc			; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v1, v7, 0
	; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v8, v4
	; GFX9-NEXT: v_subbrev_co_u32_e64 v9, s[6:7], 0, v7, s[4:5]			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v9, v5, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v9, v3			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v7, v13, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[6:7]			; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v4, v6
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v8, v2			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v5, vcc
				; GFX9-NEXT: v_mul_lo_u32 v8, v3, v6
				; GFX9-NEXT: v_mul_lo_u32 v9, v2, v7
				; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v6, 0
				; GFX9-NEXT: v_add3_u32 v5, v5, v9, v8
				; GFX9-NEXT: v_sub_u32_e32 v8, v1, v5
				; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v4
				; GFX9-NEXT: v_subb_co_u32_e64 v8, s[4:5], v8, v3, vcc
				; GFX9-NEXT: v_sub_co_u32_e64 v9, s[4:5], v0, v2
				; GFX9-NEXT: v_subbrev_co_u32_e64 v10, s[6:7], 0, v8, s[4:5]
				; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v10, v3
				; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[6:7]
				; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v9, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[6:7]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v9, v3			; GFX9-NEXT: v_cmp_eq_u32_e64 s[6:7], v10, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v10, v10, v11, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v11, s[6:7]
	; GFX9-NEXT: v_add_co_u32_e64 v11, s[6:7], 2, v4			; GFX9-NEXT: v_add_co_u32_e64 v11, s[6:7], 2, v6
	; GFX9-NEXT: v_addc_co_u32_e64 v12, s[6:7], 0, v5, s[6:7]			; GFX9-NEXT: v_addc_co_u32_e64 v12, s[6:7], 0, v7, s[6:7]
	; GFX9-NEXT: v_add_co_u32_e64 v13, s[6:7], 1, v4			; GFX9-NEXT: v_add_co_u32_e64 v13, s[6:7], 1, v6
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v6, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v5, vcc
	; GFX9-NEXT: v_addc_co_u32_e64 v14, s[6:7], 0, v5, s[6:7]			; GFX9-NEXT: v_addc_co_u32_e64 v14, s[6:7], 0, v7, s[6:7]
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[6:7], 0, v10			; GFX9-NEXT: v_cmp_ne_u32_e64 s[6:7], 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v10, v14, v12, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v14, v12, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v12, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v12, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[4:5], v7, v3, s[4:5]			; GFX9-NEXT: v_subb_co_u32_e64 v3, s[4:5], v8, v3, s[4:5]
	; GFX9-NEXT: v_sub_co_u32_e64 v2, s[4:5], v8, v2			; GFX9-NEXT: v_sub_co_u32_e64 v2, s[4:5], v9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v12, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v12, vcc
	; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[4:5], 0, v3, s[4:5]			; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[4:5], 0, v3, s[4:5]
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v9, v3, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v10, v3, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v13, v11, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e32 v5, v7, v4, vcc
				; GFX9-NEXT: v_cndmask_b32_e64 v4, v13, v11, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v1, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v8, v2, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v9, v2, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v10, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc
	; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3			; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: BB9_2: ; %Flow			; GFX9-NEXT: BB9_2: ; %Flow
	; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]			; GFX9-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]
	; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_xor_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz BB9_4			; GFX9-NEXT: s_cbranch_execz BB9_4
	; GFX9-NEXT: ; %bb.3:			; GFX9-NEXT: ; %bb.3:
	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefix=SI %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefix=SI %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX9 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX9 %s
; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX10 %s		; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX10 %s

define { i64, i1 } @umulo_i64_v_v(i64 %x, i64 %y) {		define { i64, i1 } @umulo_i64_v_v(i64 %x, i64 %y) {
; SI-LABEL: umulo_i64_v_v:		; SI-LABEL: umulo_i64_v_v:
; SI: ; %bb.0: ; %bb		; SI: ; %bb.0: ; %bb
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_mul_hi_u32 v4, v1, v2		; SI-NEXT: v_mov_b32_e32 v4, v1
; SI-NEXT: v_mul_lo_u32 v5, v1, v2		; SI-NEXT: v_mov_b32_e32 v5, v0
; SI-NEXT: v_mul_hi_u32 v6, v0, v3		; SI-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v4, v2, 0
; SI-NEXT: v_mul_lo_u32 v7, v0, v3		; SI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v5, v3, 0
; SI-NEXT: v_mul_hi_u32 v8, v0, v2		; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; SI-NEXT: v_mul_hi_u32 v9, v1, v3		; SI-NEXT: v_mad_u64_u32 v[10:11], s[4:5], v4, v3, 0
; SI-NEXT: v_mul_lo_u32 v3, v1, v3		; SI-NEXT: v_mul_lo_u32 v3, v5, v3
; SI-NEXT: v_mul_lo_u32 v0, v0, v2		; SI-NEXT: v_mul_lo_u32 v4, v4, v2
; SI-NEXT: v_add_i32_e32 v1, vcc, v8, v7		; SI-NEXT: v_mov_b32_e32 v2, v1
; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v6, vcc		; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v8
; SI-NEXT: v_add_i32_e32 v6, vcc, v1, v5		; SI-NEXT: v_addc_u32_e32 v5, vcc, 0, v9, vcc
; SI-NEXT: v_add_i32_e64 v1, s[4:5], v1, v5		; SI-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; SI-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc		; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; SI-NEXT: v_addc_u32_e32 v4, vcc, 0, v9, vcc		; SI-NEXT: v_add_i32_e64 v1, s[4:5], v1, v4
; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; SI-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc		; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v11, vcc
		; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v10
		; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]		; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
; SI-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; SI-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: umulo_i64_v_v:		; GFX9-LABEL: umulo_i64_v_v:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_mul_lo_u32 v5, v0, v3		; GFX9-NEXT: v_mov_b32_e32 v5, v0
; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2		; GFX9-NEXT: v_mov_b32_e32 v4, v1
; GFX9-NEXT: v_mul_hi_u32 v8, v0, v3		; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; GFX9-NEXT: v_mul_lo_u32 v7, v1, v2		; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v5, v3, 0
; GFX9-NEXT: v_mul_hi_u32 v4, v1, v2		; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v4, v2, 0
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v6, v5		; GFX9-NEXT: v_mov_b32_e32 v10, v1
; GFX9-NEXT: v_mul_hi_u32 v10, v1, v3		; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v10, v6
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v8, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v7, vcc
; GFX9-NEXT: v_mul_lo_u32 v1, v1, v3		; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v4, v3, 0
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v7		; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v10, v8
; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v4, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v11, v9, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v10, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v7, vcc
; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v1		; GFX9-NEXT: v_mul_lo_u32 v4, v4, v2
; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc		; GFX9-NEXT: v_mul_lo_u32 v5, v5, v3
; GFX9-NEXT: v_mul_lo_u32 v0, v0, v2		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v8, v6
; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[3:4]		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v7, vcc
; GFX9-NEXT: v_add3_u32 v1, v6, v5, v7		; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
		; GFX9-NEXT: v_add3_u32 v1, v1, v5, v4
; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: umulo_i64_v_v:		; GFX10-LABEL: umulo_i64_v_v:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mul_lo_u32 v5, v0, v3		; GFX10-NEXT: v_mov_b32_e32 v4, v0
; GFX10-NEXT: v_mul_hi_u32 v6, v0, v2		; GFX10-NEXT: v_mov_b32_e32 v5, v1
; GFX10-NEXT: v_mul_hi_u32 v4, v0, v3		; GFX10-NEXT: v_mad_u64_u32 v[0:1], s4, v4, v2, 0
; GFX10-NEXT: v_mul_lo_u32 v8, v1, v2		; GFX10-NEXT: v_mad_u64_u32 v[6:7], s4, v4, v3, 0
; GFX10-NEXT: v_mul_hi_u32 v7, v1, v2		; GFX10-NEXT: v_mad_u64_u32 v[9:10], s4, v5, v2, 0
; GFX10-NEXT: v_mul_hi_u32 v9, v1, v3		; GFX10-NEXT: v_mad_u64_u32 v[11:12], s4, v5, v3, 0
; GFX10-NEXT: v_mul_lo_u32 v1, v1, v3		; GFX10-NEXT: v_mov_b32_e32 v8, v1
; GFX10-NEXT: v_mul_lo_u32 v0, v0, v2		; GFX10-NEXT: v_mul_lo_u32 v5, v5, v2
; GFX10-NEXT: v_add_co_u32 v10, vcc_lo, v6, v5		; GFX10-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX10-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v4, vcc_lo		; GFX10-NEXT: v_add_co_u32 v6, vcc_lo, v8, v6
; GFX10-NEXT: v_add_co_u32 v3, vcc_lo, v10, v8		; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v7, vcc_lo
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, v4, v7, vcc_lo		; GFX10-NEXT: v_add3_u32 v1, v1, v4, v5
; GFX10-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v9, vcc_lo		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v6, v9
; GFX10-NEXT: v_add_co_u32 v3, vcc_lo, v3, v1		; GFX10-NEXT: v_add_co_ci_u32_e32 v2, vcc_lo, v7, v10, vcc_lo
; GFX10-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v4, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v12, vcc_lo
; GFX10-NEXT: v_add3_u32 v1, v6, v5, v8		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v11
; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, 0, v[3:4]		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v6, vcc_lo
		; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, 0, v[2:3]
; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc_lo
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)		%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)
ret { i64, i1 } %umulo		ret { i64, i1 } %umulo
}		}

define { i64, i1 } @smulo_i64_s_s(i64 %x, i64 %y) {		define { i64, i1 } @smulo_i64_s_s(i64 %x, i64 %y) {
; SI-LABEL: smulo_i64_s_s:		; SI-LABEL: smulo_i64_s_s:
; SI: ; %bb.0: ; %bb		; SI: ; %bb.0: ; %bb
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_mul_hi_u32 v6, v1, v2		; SI-NEXT: v_mov_b32_e32 v4, v1
; SI-NEXT: v_mul_lo_u32 v5, v1, v2		; SI-NEXT: v_mov_b32_e32 v5, v0
; SI-NEXT: v_mul_hi_u32 v7, v0, v3		; SI-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v4, v2, 0
; SI-NEXT: v_mul_lo_u32 v8, v0, v3		; SI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v5, v3, 0
; SI-NEXT: v_mul_hi_u32 v9, v0, v2		; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; SI-NEXT: v_mul_hi_i32 v10, v1, v3		; SI-NEXT: v_mad_i64_i32 v[10:11], s[4:5], v4, v3, 0
; SI-NEXT: v_mul_lo_u32 v11, v1, v3		; SI-NEXT: v_mov_b32_e32 v13, 0
; SI-NEXT: v_mov_b32_e32 v12, 0		; SI-NEXT: v_mul_lo_u32 v14, v5, v3
; SI-NEXT: v_mul_lo_u32 v4, v0, v2		; SI-NEXT: v_mul_lo_u32 v15, v4, v2
; SI-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; SI-NEXT: v_mov_b32_e32 v12, v1
; SI-NEXT: v_addc_u32_e32 v7, vcc, 0, v7, vcc		; SI-NEXT: v_add_i32_e32 v8, vcc, v12, v8
; SI-NEXT: v_add_i32_e32 v9, vcc, v8, v5		; SI-NEXT: v_addc_u32_e32 v9, vcc, 0, v9, vcc
; SI-NEXT: v_add_i32_e64 v5, s[4:5], v8, v5		; SI-NEXT: v_add_i32_e32 v1, vcc, v1, v14
; SI-NEXT: v_addc_u32_e32 v8, vcc, v7, v6, vcc		; SI-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; SI-NEXT: v_ashrrev_i32_e32 v6, 31, v5		; SI-NEXT: v_add_i32_e64 v1, s[4:5], v1, v15
; SI-NEXT: v_addc_u32_e32 v9, vcc, 0, v10, vcc		; SI-NEXT: v_addc_u32_e32 v8, vcc, v9, v7, vcc
		; SI-NEXT: v_ashrrev_i32_e32 v6, 31, v1
		; SI-NEXT: v_addc_u32_e32 v9, vcc, 0, v11, vcc
; SI-NEXT: v_mov_b32_e32 v7, v6		; SI-NEXT: v_mov_b32_e32 v7, v6
; SI-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; SI-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; SI-NEXT: v_addc_u32_e32 v9, vcc, v12, v9, vcc		; SI-NEXT: v_addc_u32_e32 v9, vcc, v13, v9, vcc
; SI-NEXT: v_sub_i32_e32 v2, vcc, v8, v2		; SI-NEXT: v_sub_i32_e32 v2, vcc, v8, v2
; SI-NEXT: v_subb_u32_e32 v10, vcc, v9, v12, vcc		; SI-NEXT: v_subb_u32_e32 v10, vcc, v9, v13, vcc
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v1		; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v4
; SI-NEXT: v_cndmask_b32_e32 v1, v9, v10, vcc		; SI-NEXT: v_cndmask_b32_e32 v4, v9, v10, vcc
; SI-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
; SI-NEXT: v_sub_i32_e32 v0, vcc, v2, v0		; SI-NEXT: v_sub_i32_e32 v5, vcc, v2, v5
; SI-NEXT: v_subb_u32_e32 v8, vcc, v1, v12, vcc		; SI-NEXT: v_subb_u32_e32 v8, vcc, v4, v13, vcc
; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3		; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3
; SI-NEXT: v_cndmask_b32_e32 v1, v1, v8, vcc		; SI-NEXT: v_cndmask_b32_e32 v3, v4, v8, vcc
; SI-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; SI-NEXT: v_cmp_ne_u64_e32 vcc, v[0:1], v[6:7]		; SI-NEXT: v_cmp_ne_u64_e32 vcc, v[2:3], v[6:7]
; SI-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; SI-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; SI-NEXT: v_mov_b32_e32 v0, v4
; SI-NEXT: v_mov_b32_e32 v1, v5
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: smulo_i64_s_s:		; GFX9-LABEL: smulo_i64_s_s:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_mul_lo_u32 v5, v0, v3		; GFX9-NEXT: v_mov_b32_e32 v5, v0
; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2		; GFX9-NEXT: v_mov_b32_e32 v4, v1
; GFX9-NEXT: v_mul_hi_u32 v8, v0, v3		; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; GFX9-NEXT: v_mul_lo_u32 v7, v1, v2		; GFX9-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v5, v3, 0
; GFX9-NEXT: v_mul_hi_u32 v4, v1, v2		; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v4, v2, 0
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v6, v5		; GFX9-NEXT: v_mov_b32_e32 v10, v1
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v8, vcc		; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v10, v6
; GFX9-NEXT: v_mul_hi_i32 v10, v1, v3		; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v7, vcc
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v9, v7		; GFX9-NEXT: v_mad_i64_i32 v[6:7], s[4:5], v4, v3, 0
; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v4, vcc		; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v10, v8
; GFX9-NEXT: v_mul_lo_u32 v8, v1, v3		; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v11, v9, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, 0, v10, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v7, vcc
; GFX9-NEXT: v_mov_b32_e32 v10, 0		; GFX9-NEXT: v_mov_b32_e32 v9, 0
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v8		; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v8, v6
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v10, v9, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v9, v7, vcc
; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, v4, v2		; GFX9-NEXT: v_sub_co_u32_e32 v8, vcc, v6, v2
; GFX9-NEXT: v_subb_co_u32_e32 v11, vcc, v8, v10, vcc		; GFX9-NEXT: v_subb_co_u32_e32 v10, vcc, v7, v9, vcc
; GFX9-NEXT: v_cmp_gt_i32_e32 vcc, 0, v1		; GFX9-NEXT: v_cmp_gt_i32_e32 vcc, 0, v4
; GFX9-NEXT: v_cndmask_b32_e32 v1, v8, v11, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v8, v4, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v10, vcc
; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, v8, v0		; GFX9-NEXT: v_sub_co_u32_e32 v8, vcc, v6, v5
; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v1, v10, vcc		; GFX9-NEXT: v_mul_lo_u32 v4, v4, v2
		; GFX9-NEXT: v_mul_lo_u32 v5, v5, v3
		; GFX9-NEXT: v_subb_co_u32_e32 v9, vcc, v7, v9, vcc
; GFX9-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3		; GFX9-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3
; GFX9-NEXT: v_cndmask_b32_e32 v4, v1, v4, vcc		; GFX9-NEXT: v_add3_u32 v1, v1, v5, v4
; GFX9-NEXT: v_add3_u32 v1, v6, v5, v7		; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v1
; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v1		; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v9, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v8, vcc
; GFX9-NEXT: v_mul_lo_u32 v0, v0, v2		; GFX9-NEXT: v_mov_b32_e32 v5, v4
; GFX9-NEXT: v_mov_b32_e32 v6, v5		; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, v[2:3], v[4:5]
; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, v[3:4], v[5:6]
; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: smulo_i64_s_s:		; GFX10-LABEL: smulo_i64_s_s:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mul_lo_u32 v4, v0, v3		; GFX10-NEXT: v_mov_b32_e32 v4, v0
; GFX10-NEXT: v_mul_hi_u32 v5, v0, v2		; GFX10-NEXT: v_mov_b32_e32 v5, v1
; GFX10-NEXT: v_mul_hi_u32 v6, v0, v3		; GFX10-NEXT: v_mad_u64_u32 v[0:1], s4, v4, v2, 0
; GFX10-NEXT: v_mul_lo_u32 v8, v1, v2		; GFX10-NEXT: v_mad_u64_u32 v[6:7], s4, v4, v3, 0
; GFX10-NEXT: v_mul_hi_u32 v7, v1, v2		; GFX10-NEXT: v_mad_u64_u32 v[9:10], s4, v5, v2, 0
; GFX10-NEXT: v_mul_hi_i32 v9, v1, v3		; GFX10-NEXT: v_mad_i64_i32 v[11:12], s4, v5, v3, 0
; GFX10-NEXT: v_mul_lo_u32 v11, v1, v3		; GFX10-NEXT: v_mov_b32_e32 v8, v1
; GFX10-NEXT: v_add_co_u32 v10, vcc_lo, v5, v4		; GFX10-NEXT: v_add_co_u32 v6, vcc_lo, v8, v6
; GFX10-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v6, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v7, vcc_lo
; GFX10-NEXT: v_add_co_u32 v10, vcc_lo, v10, v8		; GFX10-NEXT: v_mul_lo_u32 v8, v5, v2
; GFX10-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, v6, v7, vcc_lo		; GFX10-NEXT: v_add_co_u32 v6, vcc_lo, v6, v9
; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v9, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, v7, v10, vcc_lo
		; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v12, vcc_lo
		; GFX10-NEXT: v_mul_lo_u32 v9, v4, v3
; GFX10-NEXT: v_add_co_u32 v6, vcc_lo, v6, v11		; GFX10-NEXT: v_add_co_u32 v6, vcc_lo, v6, v11
; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v7, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v7, vcc_lo
; GFX10-NEXT: v_sub_co_u32 v9, vcc_lo, v6, v2		; GFX10-NEXT: v_sub_co_u32 v2, vcc_lo, v6, v2
; GFX10-NEXT: v_subrev_co_ci_u32_e32 v10, vcc_lo, 0, v7, vcc_lo		; GFX10-NEXT: v_subrev_co_ci_u32_e32 v10, vcc_lo, 0, v7, vcc_lo
; GFX10-NEXT: v_cmp_gt_i32_e32 vcc_lo, 0, v1		; GFX10-NEXT: v_cmp_gt_i32_e32 vcc_lo, 0, v5
; GFX10-NEXT: v_add3_u32 v1, v5, v4, v8		; GFX10-NEXT: v_add3_u32 v1, v1, v9, v8
; GFX10-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v6, v6, v2, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v7, v7, v10, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v5, v7, v10, vcc_lo
; GFX10-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; GFX10-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GFX10-NEXT: v_sub_co_u32 v8, vcc_lo, v6, v0		; GFX10-NEXT: v_sub_co_u32 v4, vcc_lo, v6, v4
; GFX10-NEXT: v_subrev_co_ci_u32_e32 v9, vcc_lo, 0, v7, vcc_lo		; GFX10-NEXT: v_subrev_co_ci_u32_e32 v7, vcc_lo, 0, v5, vcc_lo
; GFX10-NEXT: v_cmp_gt_i32_e32 vcc_lo, 0, v3		; GFX10-NEXT: v_cmp_gt_i32_e32 vcc_lo, 0, v3
; GFX10-NEXT: v_mov_b32_e32 v5, v4		; GFX10-NEXT: v_mov_b32_e32 v3, v2
; GFX10-NEXT: v_mul_lo_u32 v0, v0, v2		; GFX10-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc_lo		; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, v[4:5], v[2:3]
; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, v[6:7], v[4:5]
; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc_lo
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%smulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)		%smulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)
ret { i64, i1 } %smulo		ret { i64, i1 } %smulo
}		}

define amdgpu_kernel void @umulo_i64_s(i64 %x, i64 %y) {		define amdgpu_kernel void @umulo_i64_s(i64 %x, i64 %y) {
; SI-LABEL: umulo_i64_s:		; SI-LABEL: umulo_i64_s:
; SI: ; %bb.0: ; %bb		; SI: ; %bb.0: ; %bb
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: v_mov_b32_e32 v4, s2
; SI-NEXT: v_mul_hi_u32 v1, s1, v0		; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s1, v4, 0
; SI-NEXT: s_mul_i32 s4, s1, s2		; SI-NEXT: v_mov_b32_e32 v6, s3
; SI-NEXT: v_mov_b32_e32 v2, s3		; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s0, v6, 0
; SI-NEXT: v_mul_hi_u32 v3, s0, v2		; SI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], s0, v4, 0
; SI-NEXT: s_mul_i32 s5, s0, s3		; SI-NEXT: v_mad_u64_u32 v[6:7], s[4:5], s1, v6, 0
; SI-NEXT: v_mul_hi_u32 v0, s0, v0		; SI-NEXT: s_mul_i32 s0, s0, s3
; SI-NEXT: v_mul_hi_u32 v2, s1, v2		; SI-NEXT: s_mul_i32 s1, s1, s2
; SI-NEXT: s_mul_i32 s1, s1, s3		; SI-NEXT: v_mov_b32_e32 v8, v5
; SI-NEXT: s_mul_i32 s0, s0, s2		; SI-NEXT: v_add_i32_e32 v2, vcc, v8, v2
; SI-NEXT: v_add_i32_e32 v4, vcc, s5, v0
; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc		; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; SI-NEXT: v_mov_b32_e32 v5, s0		; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v4		; SI-NEXT: v_addc_u32_e32 v0, vcc, v3, v1, vcc
; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc		; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v7, vcc
; SI-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc		; SI-NEXT: v_add_i32_e32 v2, vcc, s0, v5
; SI-NEXT: v_add_i32_e32 v3, vcc, s5, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v6
; SI-NEXT: v_add_i32_e32 v0, vcc, s1, v1		; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc		; SI-NEXT: v_add_i32_e32 v2, vcc, s1, v2
; SI-NEXT: v_add_i32_e32 v2, vcc, s4, v3
; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]		; SI-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v0, v5, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v0, v4, 0, vcc
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; GFX9-LABEL: umulo_i64_s:		; GFX9-LABEL: umulo_i64_s:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	bb:
store i64 %res, i64 addrspace(1)* undef		store i64 %res, i64 addrspace(1)* undef
ret void		ret void
}		}

define amdgpu_kernel void @smulo_i64_s(i64 %x, i64 %y) {		define amdgpu_kernel void @smulo_i64_s(i64 %x, i64 %y) {
; SI-LABEL: smulo_i64_s:		; SI-LABEL: smulo_i64_s:
; SI: ; %bb.0: ; %bb		; SI: ; %bb.0: ; %bb
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; SI-NEXT: v_mov_b32_e32 v0, 0		; SI-NEXT: v_mov_b32_e32 v9, 0
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_mov_b32_e32 v1, s2		; SI-NEXT: v_mov_b32_e32 v4, s2
; SI-NEXT: v_mul_hi_u32 v2, s1, v1		; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s1, v4, 0
; SI-NEXT: s_mul_i32 s4, s1, s2		; SI-NEXT: v_mov_b32_e32 v6, s3
; SI-NEXT: v_mov_b32_e32 v3, s3		; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s0, v6, 0
; SI-NEXT: v_mul_hi_u32 v4, s0, v3		; SI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], s0, v4, 0
; SI-NEXT: s_mul_i32 s5, s0, s3		; SI-NEXT: v_mad_i64_i32 v[6:7], s[4:5], s1, v6, 0
; SI-NEXT: v_mul_hi_u32 v1, s0, v1
; SI-NEXT: v_mul_hi_i32 v3, s1, v3
; SI-NEXT: s_mul_i32 s6, s1, s3
; SI-NEXT: s_cmp_lt_i32 s1, 0		; SI-NEXT: s_cmp_lt_i32 s1, 0
; SI-NEXT: s_mul_i32 s1, s0, s2		; SI-NEXT: s_mul_i32 s4, s0, s3
; SI-NEXT: v_add_i32_e32 v5, vcc, s5, v1		; SI-NEXT: s_mul_i32 s1, s1, s2
; SI-NEXT: v_addc_u32_e32 v4, vcc, 0, v4, vcc		; SI-NEXT: v_mov_b32_e32 v8, v5
; SI-NEXT: v_mov_b32_e32 v6, s1		; SI-NEXT: v_add_i32_e32 v2, vcc, v8, v2
; SI-NEXT: v_add_i32_e32 v5, vcc, s4, v5
; SI-NEXT: v_addc_u32_e32 v2, vcc, v4, v2, vcc
; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc		; SI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; SI-NEXT: v_add_i32_e32 v1, vcc, s5, v1		; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; SI-NEXT: v_add_i32_e32 v2, vcc, s6, v2		; SI-NEXT: v_addc_u32_e32 v0, vcc, v3, v1, vcc
; SI-NEXT: v_addc_u32_e32 v3, vcc, v0, v3, vcc		; SI-NEXT: v_addc_u32_e32 v1, vcc, 0, v7, vcc
; SI-NEXT: v_add_i32_e32 v4, vcc, s4, v1		; SI-NEXT: v_add_i32_e32 v2, vcc, s4, v5
; SI-NEXT: v_subrev_i32_e32 v1, vcc, s2, v2		; SI-NEXT: v_add_i32_e32 v3, vcc, v0, v6
; SI-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc		; SI-NEXT: v_addc_u32_e32 v1, vcc, v9, v1, vcc
		; SI-NEXT: v_add_i32_e32 v5, vcc, s1, v2
		; SI-NEXT: v_subrev_i32_e32 v2, vcc, s2, v3
		; SI-NEXT: v_subbrev_u32_e32 v6, vcc, 0, v1, vcc
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: s_cmp_lt_i32 s3, 0		; SI-NEXT: s_cmp_lt_i32 s3, 0
; SI-NEXT: v_ashrrev_i32_e32 v0, 31, v4		; SI-NEXT: v_ashrrev_i32_e32 v0, 31, v5
; SI-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc		; SI-NEXT: v_cndmask_b32_e32 v6, v1, v6, vcc
; SI-NEXT: v_cndmask_b32_e32 v2, v2, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
; SI-NEXT: v_mov_b32_e32 v1, v0		; SI-NEXT: v_mov_b32_e32 v1, v0
; SI-NEXT: v_subrev_i32_e32 v5, vcc, s0, v2		; SI-NEXT: v_subrev_i32_e32 v7, vcc, s0, v2
; SI-NEXT: v_subbrev_u32_e32 v7, vcc, 0, v3, vcc		; SI-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v6, vcc
; SI-NEXT: s_cselect_b64 vcc, -1, 0		; SI-NEXT: s_cselect_b64 vcc, -1, 0
; SI-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc		; SI-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc
; SI-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
; SI-NEXT: v_cmp_ne_u64_e32 vcc, v[2:3], v[0:1]		; SI-NEXT: v_cmp_ne_u64_e32 vcc, v[2:3], v[0:1]
; SI-NEXT: v_cndmask_b32_e64 v1, v4, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v1, v5, 0, vcc
; SI-NEXT: v_cndmask_b32_e64 v0, v6, 0, vcc		; SI-NEXT: v_cndmask_b32_e64 v0, v4, 0, vcc
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; GFX9-LABEL: smulo_i64_s:		; GFX9-LABEL: smulo_i64_s:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 171 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/mad_64_32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,CI %s			; RUN: llc -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,CI %s
	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SI %s

	define i64 @mad_i64_i32_sextops(i32 %arg0, i32 %arg1, i64 %arg2) #0 {			define i64 @mad_i64_i32_sextops(i32 %arg0, i32 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_i64_i32_sextops:			; CI-LABEL: mad_i64_i32_sextops:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]			; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_sextops:			; SI-LABEL: mad_i64_i32_sextops:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v4, v0, v1			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_i32 v1, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_add_i32_e32 v0, vcc, v4, v2
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = sext i32 %arg0 to i64			%sext0 = sext i32 %arg0 to i64
	%sext1 = sext i32 %arg1 to i64			%sext1 = sext i32 %arg1 to i64
	%mul = mul i64 %sext0, %sext1			%mul = mul i64 %sext0, %sext1
	%mad = add i64 %mul, %arg2			%mad = add i64 %mul, %arg2
	ret i64 %mad			ret i64 %mad
	}			}

	define i64 @mad_i64_i32_sextops_commute(i32 %arg0, i32 %arg1, i64 %arg2) #0 {			define i64 @mad_i64_i32_sextops_commute(i32 %arg0, i32 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_i64_i32_sextops_commute:			; CI-LABEL: mad_i64_i32_sextops_commute:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]			; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_sextops_commute:			; SI-LABEL: mad_i64_i32_sextops_commute:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v4, v0, v1			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_i32 v1, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v4
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = sext i32 %arg0 to i64			%sext0 = sext i32 %arg0 to i64
	%sext1 = sext i32 %arg1 to i64			%sext1 = sext i32 %arg1 to i64
	%mul = mul i64 %sext0, %sext1			%mul = mul i64 %sext0, %sext1
	%mad = add i64 %arg2, %mul			%mad = add i64 %arg2, %mul
	ret i64 %mad			ret i64 %mad
	}			}

	define i64 @mad_u64_u32_zextops(i32 %arg0, i32 %arg1, i64 %arg2) #0 {			define i64 @mad_u64_u32_zextops(i32 %arg0, i32 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_u64_u32_zextops:			; CI-LABEL: mad_u64_u32_zextops:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, v[2:3]			; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, v[2:3]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_u64_u32_zextops:			; SI-LABEL: mad_u64_u32_zextops:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v4, v0, v1			; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_u32 v1, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_add_i32_e32 v0, vcc, v4, v2
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = zext i32 %arg0 to i64			%sext0 = zext i32 %arg0 to i64
	%sext1 = zext i32 %arg1 to i64			%sext1 = zext i32 %arg1 to i64
	%mul = mul i64 %sext0, %sext1			%mul = mul i64 %sext0, %sext1
	%mad = add i64 %mul, %arg2			%mad = add i64 %mul, %arg2
	ret i64 %mad			ret i64 %mad
	}			}

	define i64 @mad_u64_u32_zextops_commute(i32 %arg0, i32 %arg1, i64 %arg2) #0 {			define i64 @mad_u64_u32_zextops_commute(i32 %arg0, i32 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_u64_u32_zextops_commute:			; CI-LABEL: mad_u64_u32_zextops_commute:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, v[2:3]			; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, v[2:3]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_u64_u32_zextops_commute:			; SI-LABEL: mad_u64_u32_zextops_commute:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v4, v0, v1			; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_u32 v1, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v4
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = zext i32 %arg0 to i64			%sext0 = zext i32 %arg0 to i64
	%sext1 = zext i32 %arg1 to i64			%sext1 = zext i32 %arg1 to i64
	%mul = mul i64 %sext0, %sext1			%mul = mul i64 %sext0, %sext1
	%mad = add i64 %arg2, %mul			%mad = add i64 %arg2, %mul
	ret i64 %mad			ret i64 %mad
	}			}

	define i128 @mad_i64_i32_sextops_i32_i128(i32 %arg0, i32 %arg1, i128 %arg2) #0 {			define i128 @mad_i64_i32_sextops_i32_i128(i32 %arg0, i32 %arg1, i128 %arg2) #0 {
	; CI-LABEL: mad_i64_i32_sextops_i32_i128:			; CI-LABEL: mad_i64_i32_sextops_i32_i128:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mul_hi_u32 v6, v0, v1			; CI-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v0, v1, 0
	; CI-NEXT: v_ashrrev_i32_e32 v12, 31, v0			; CI-NEXT: v_ashrrev_i32_e32 v13, 31, v0
	; CI-NEXT: v_mov_b32_e32 v7, 0			; CI-NEXT: v_mov_b32_e32 v8, 0
	; CI-NEXT: v_ashrrev_i32_e32 v13, 31, v1			; CI-NEXT: v_mad_u64_u32 v[9:10], s[4:5], v13, v1, v[7:8]
	; CI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v12, v1, v[6:7]			; CI-NEXT: v_ashrrev_i32_e32 v14, 31, v1
	; CI-NEXT: v_mul_hi_i32 v11, v1, v12			; CI-NEXT: v_mad_i64_i32 v[11:12], s[4:5], v1, v13, 0
	; CI-NEXT: v_mul_lo_u32 v10, v1, v12			; CI-NEXT: v_mov_b32_e32 v7, v10
	; CI-NEXT: v_mov_b32_e32 v6, v9			; CI-NEXT: v_mov_b32_e32 v10, v8
	; CI-NEXT: v_mov_b32_e32 v9, v7			; CI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v0, v14, v[9:10]
	; CI-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v0, v13, v[8:9]			; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v14, v0, v[11:12]
	; CI-NEXT: v_mad_i64_i32 v[10:11], s[4:5], v13, v0, v[10:11]			; CI-NEXT: v_add_i32_e32 v9, vcc, v7, v9
	; CI-NEXT: v_add_i32_e32 v8, vcc, v6, v8			; CI-NEXT: v_addc_u32_e64 v10, s[4:5], 0, 0, vcc
	; CI-NEXT: v_addc_u32_e64 v9, s[4:5], 0, 0, vcc			; CI-NEXT: v_mad_u64_u32 v[9:10], s[4:5], v13, v14, v[9:10]
	; CI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v12, v13, v[8:9]			; CI-NEXT: v_add_i32_e32 v7, vcc, v9, v0
	; CI-NEXT: v_mul_lo_u32 v0, v0, v1			; CI-NEXT: v_addc_u32_e32 v9, vcc, v10, v1, vcc
	; CI-NEXT: v_mov_b32_e32 v1, v7			; CI-NEXT: v_mov_b32_e32 v1, v8
	; CI-NEXT: v_add_i32_e32 v6, vcc, v8, v10			; CI-NEXT: v_add_i32_e32 v0, vcc, v6, v2
	; CI-NEXT: v_addc_u32_e32 v8, vcc, v9, v11, vcc
	; CI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; CI-NEXT: v_addc_u32_e32 v2, vcc, v6, v4, vcc			; CI-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc
	; CI-NEXT: v_addc_u32_e32 v3, vcc, v8, v5, vcc			; CI-NEXT: v_addc_u32_e32 v3, vcc, v9, v5, vcc
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_sextops_i32_i128:			; SI-LABEL: mad_i64_i32_sextops_i32_i128:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_ashrrev_i32_e32 v6, 31, v0			; SI-NEXT: v_ashrrev_i32_e32 v12, 31, v0
	; SI-NEXT: v_mul_lo_u32 v11, v6, v1			; SI-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_u32 v12, v0, v1			; SI-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v12, v1, 0
	; SI-NEXT: v_ashrrev_i32_e32 v7, 31, v1			; SI-NEXT: v_ashrrev_i32_e32 v13, 31, v1
	; SI-NEXT: v_mul_hi_u32 v14, v6, v1			; SI-NEXT: v_mad_u64_u32 v[10:11], s[4:5], v0, v13, 0
	; SI-NEXT: v_mul_lo_u32 v13, v0, v7			; SI-NEXT: v_add_i32_e32 v7, vcc, v8, v7
	; SI-NEXT: v_mul_hi_u32 v10, v0, v7			; SI-NEXT: v_addc_u32_e32 v8, vcc, 0, v9, vcc
	; SI-NEXT: v_add_i32_e32 v12, vcc, v11, v12			; SI-NEXT: v_add_i32_e32 v9, vcc, v10, v7
	; SI-NEXT: v_addc_u32_e32 v14, vcc, 0, v14, vcc			; SI-NEXT: v_addc_u32_e32 v7, vcc, 0, v11, vcc
	; SI-NEXT: v_mul_hi_u32 v8, v6, v7			; SI-NEXT: v_add_i32_e32 v10, vcc, v8, v7
	; SI-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; SI-NEXT: v_mad_i64_i32 v[7:8], s[4:5], v1, v12, 0
	; SI-NEXT: v_addc_u32_e32 v10, vcc, 0, v10, vcc			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v13, v0, 0
	; SI-NEXT: v_mul_i32_i24_e32 v9, v6, v7			; SI-NEXT: v_mul_i32_i24_e32 v15, v12, v13
	; SI-NEXT: v_add_i32_e32 v10, vcc, v14, v10			; SI-NEXT: v_mul_hi_i32_i24_e32 v14, v12, v13
	; SI-NEXT: v_mul_hi_i32 v6, v1, v6			; SI-NEXT: v_addc_u32_e64 v11, s[4:5], 0, 0, vcc
	; SI-NEXT: v_mul_hi_i32 v7, v7, v0			; SI-NEXT: v_add_i32_e32 v10, vcc, v15, v10
	; SI-NEXT: v_addc_u32_e64 v14, s[4:5], 0, 0, vcc			; SI-NEXT: v_addc_u32_e32 v11, vcc, v14, v11, vcc
	; SI-NEXT: v_add_i32_e32 v9, vcc, v9, v10			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v7
	; SI-NEXT: v_addc_u32_e32 v8, vcc, v8, v14, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v8, vcc
	; SI-NEXT: v_add_i32_e32 v10, vcc, v13, v11			; SI-NEXT: v_add_i32_e32 v7, vcc, v10, v0
	; SI-NEXT: v_mul_lo_u32 v0, v0, v1			; SI-NEXT: v_addc_u32_e32 v8, vcc, v11, v1, vcc
	; SI-NEXT: v_addc_u32_e32 v6, vcc, v7, v6, vcc			; SI-NEXT: v_add_i32_e32 v0, vcc, v6, v2
	; SI-NEXT: v_add_i32_e32 v7, vcc, v9, v10			; SI-NEXT: v_addc_u32_e32 v1, vcc, v9, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v6, vcc, v8, v6, vcc
	; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v12, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc			; SI-NEXT: v_addc_u32_e32 v2, vcc, v7, v4, vcc
	; SI-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, v8, v5, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = sext i32 %arg0 to i128			%sext0 = sext i32 %arg0 to i128
	%sext1 = sext i32 %arg1 to i128			%sext1 = sext i32 %arg1 to i128
	%mul = mul i128 %sext0, %sext1			%mul = mul i128 %sext0, %sext1
	%mad = add i128 %mul, %arg2			%mad = add i128 %mul, %arg2
	ret i128 %mad			ret i128 %mad
	}			}

	define i63 @mad_i64_i32_sextops_i32_i63(i32 %arg0, i32 %arg1, i63 %arg2) #0 {			define i63 @mad_i64_i32_sextops_i32_i63(i32 %arg0, i32 %arg1, i63 %arg2) #0 {
	; CI-LABEL: mad_i64_i32_sextops_i32_i63:			; CI-LABEL: mad_i64_i32_sextops_i32_i63:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; CI-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; CI-NEXT: v_ashr_i64 v[2:3], v[2:3], 1			; CI-NEXT: v_ashr_i64 v[2:3], v[2:3], 1
	; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]			; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, v[2:3]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_sextops_i32_i63:			; SI-LABEL: mad_i64_i32_sextops_i32_i63:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v4, v0, v1			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v1, 0
	; SI-NEXT: v_mul_hi_i32 v1, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_add_i32_e32 v0, vcc, v4, v2
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = sext i32 %arg0 to i63			%sext0 = sext i32 %arg0 to i63
	%sext1 = sext i32 %arg1 to i63			%sext1 = sext i32 %arg1 to i63
	%mul = mul i63 %sext0, %sext1			%mul = mul i63 %sext0, %sext1
	%mad = add i63 %mul, %arg2			%mad = add i63 %mul, %arg2
	ret i63 %mad			ret i63 %mad
	}			}
	Show All 11 Lines
	;			;
	; SI-LABEL: mad_i64_i32_sextops_i31_i63:			; SI-LABEL: mad_i64_i32_sextops_i31_i63:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v4, 1, v0			; SI-NEXT: v_lshlrev_b32_e32 v4, 1, v0
	; SI-NEXT: v_lshlrev_b32_e32 v1, 1, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 1, v1
	; SI-NEXT: v_ashr_i64 v[4:5], v[3:4], 33			; SI-NEXT: v_ashr_i64 v[4:5], v[3:4], 33
	; SI-NEXT: v_ashr_i64 v[0:1], v[0:1], 33			; SI-NEXT: v_ashr_i64 v[0:1], v[0:1], 33
	; SI-NEXT: v_mul_lo_u32 v1, v4, v0			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v4, v0, 0
	; SI-NEXT: v_mul_hi_i32 v4, v4, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v2			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v4, v3, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%sext0 = sext i31 %arg0 to i63			%sext0 = sext i31 %arg0 to i63
	%sext1 = sext i31 %arg1 to i63			%sext1 = sext i31 %arg1 to i63
	%mul = mul i63 %sext0, %sext1			%mul = mul i63 %sext0, %sext1
	%mad = add i63 %mul, %arg2			%mad = add i63 %mul, %arg2
	ret i63 %mad			ret i63 %mad
	}			}

	define i64 @mad_u64_u32_bitops(i64 %arg0, i64 %arg1, i64 %arg2) #0 {			define i64 @mad_u64_u32_bitops(i64 %arg0, i64 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_u64_u32_bitops:			; CI-LABEL: mad_u64_u32_bitops:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v2, v[4:5]			; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v2, v[4:5]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_u64_u32_bitops:			; SI-LABEL: mad_u64_u32_bitops:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v1, v0, v2			; SI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v2, 0
	; SI-NEXT: v_mul_hi_u32 v2, v0, v2			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v4			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v2, v5, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%trunc.lhs = and i64 %arg0, 4294967295			%trunc.lhs = and i64 %arg0, 4294967295
	%trunc.rhs = and i64 %arg1, 4294967295			%trunc.rhs = and i64 %arg1, 4294967295
	%mul = mul i64 %trunc.lhs, %trunc.rhs			%mul = mul i64 %trunc.lhs, %trunc.rhs
	%add = add i64 %mul, %arg2			%add = add i64 %mul, %arg2
	ret i64 %add			ret i64 %add
	}			}

	define i64 @mad_u64_u32_bitops_lhs_mask_small(i64 %arg0, i64 %arg1, i64 %arg2) #0 {			define i64 @mad_u64_u32_bitops_lhs_mask_small(i64 %arg0, i64 %arg1, i64 %arg2) #0 {
	; GCN-LABEL: mad_u64_u32_bitops_lhs_mask_small:			; GCN-LABEL: mad_u64_u32_bitops_lhs_mask_small:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_and_b32_e32 v1, 1, v1			; GCN-NEXT: v_and_b32_e32 v1, 1, v1
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v2			; GCN-NEXT: v_mul_lo_u32 v3, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v1, v1, v2			; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v2, 0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, v2			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%trunc.lhs = and i64 %arg0, 8589934591			%trunc.lhs = and i64 %arg0, 8589934591
	%trunc.rhs = and i64 %arg1, 4294967295			%trunc.rhs = and i64 %arg1, 4294967295
	%mul = mul i64 %trunc.lhs, %trunc.rhs			%mul = mul i64 %trunc.lhs, %trunc.rhs
	%add = add i64 %mul, %arg2			%add = add i64 %mul, %arg2
	ret i64 %add			ret i64 %add
	}			}

	define i64 @mad_u64_u32_bitops_rhs_mask_small(i64 %arg0, i64 %arg1, i64 %arg2) #0 {			define i64 @mad_u64_u32_bitops_rhs_mask_small(i64 %arg0, i64 %arg1, i64 %arg2) #0 {
	; GCN-LABEL: mad_u64_u32_bitops_rhs_mask_small:			; GCN-LABEL: mad_u64_u32_bitops_rhs_mask_small:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_and_b32_e32 v1, 1, v3			; GCN-NEXT: v_and_b32_e32 v1, 1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v2			; GCN-NEXT: v_mul_lo_u32 v3, v0, v1
	; GCN-NEXT: v_mul_lo_u32 v1, v0, v1			; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, v2, 0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, v2			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%trunc.lhs = and i64 %arg0, 4294967295			%trunc.lhs = and i64 %arg0, 4294967295
	%trunc.rhs = and i64 %arg1, 8589934591			%trunc.rhs = and i64 %arg1, 8589934591
	%mul = mul i64 %trunc.lhs, %trunc.rhs			%mul = mul i64 %trunc.lhs, %trunc.rhs
	%add = add i64 %mul, %arg2			%add = add i64 %mul, %arg2
	ret i64 %add			ret i64 %add
	}			}

	define i64 @mad_i64_i32_bitops(i64 %arg0, i64 %arg1, i64 %arg2) #0 {			define i64 @mad_i64_i32_bitops(i64 %arg0, i64 %arg1, i64 %arg2) #0 {
	; CI-LABEL: mad_i64_i32_bitops:			; CI-LABEL: mad_i64_i32_bitops:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v2, v[4:5]			; CI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v2, v[4:5]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_bitops:			; SI-LABEL: mad_i64_i32_bitops:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v1, v0, v2			; SI-NEXT: v_mad_i64_i32 v[0:1], s[4:5], v0, v2, 0
	; SI-NEXT: v_mul_hi_i32 v2, v0, v2			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v4			; SI-NEXT: v_addc_u32_e32 v1, vcc, v1, v5, vcc
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v2, v5, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%shl.lhs = shl i64 %arg0, 32			%shl.lhs = shl i64 %arg0, 32
	%trunc.lhs = ashr i64 %shl.lhs, 32			%trunc.lhs = ashr i64 %shl.lhs, 32
	%shl.rhs = shl i64 %arg1, 32			%shl.rhs = shl i64 %arg1, 32
	%trunc.rhs = ashr i64 %shl.rhs, 32			%trunc.rhs = ashr i64 %shl.rhs, 32
	%mul = mul i64 %trunc.lhs, %trunc.rhs			%mul = mul i64 %trunc.lhs, %trunc.rhs
	%add = add i64 %mul, %arg2			%add = add i64 %mul, %arg2
	ret i64 %add			ret i64 %add
	}			}

	; Example from bug report			; Example from bug report
	define i64 @mad_i64_i32_unpack_i64ops(i64 %arg0) #0 {			define i64 @mad_i64_i32_unpack_i64ops(i64 %arg0) #0 {
	; CI-LABEL: mad_i64_i32_unpack_i64ops:			; CI-LABEL: mad_i64_i32_unpack_i64ops:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v1, v0, v[0:1]			; CI-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v1, v0, v[0:1]
	; CI-NEXT: s_setpc_b64 s[30:31]			; CI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SI-LABEL: mad_i64_i32_unpack_i64ops:			; SI-LABEL: mad_i64_i32_unpack_i64ops:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mul_lo_u32 v2, v1, v0			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v1, v0, 0
	; SI-NEXT: v_mul_hi_u32 v3, v1, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc			; SI-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	%tmp4 = lshr i64 %arg0, 32			%tmp4 = lshr i64 %arg0, 32
	%tmp5 = and i64 %arg0, 4294967295			%tmp5 = and i64 %arg0, 4294967295
	%mul = mul nuw i64 %tmp4, %tmp5			%mul = mul nuw i64 %tmp4, %tmp5
	%mad = add i64 %mul, %arg0			%mad = add i64 %mul, %arg0
	ret i64 %mad			ret i64 %mad
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { nounwind readnone speculatable }			attributes #1 = { nounwind readnone speculatable }

llvm/test/CodeGen/AMDGPU/mul.ll

Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_trunc_i64_mul_to_i32(i32 addrspace(1)* %out, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {
ret void		ret void
}		}

; This 64-bit multiply should just use MUL_HI and MUL_LO, since the top		; This 64-bit multiply should just use MUL_HI and MUL_LO, since the top
; 32-bits of both arguments are sign bits.		; 32-bits of both arguments are sign bits.
; FUNC-LABEL: {{^}}mul64_sext_c:		; FUNC-LABEL: {{^}}mul64_sext_c:
; EG-DAG: MULLO_INT		; EG-DAG: MULLO_INT
; EG-DAG: MULHI_INT		; EG-DAG: MULHI_INT
; GCN-DAG: s_mul_i32		; GCN: v_mad_i64_i32
; GCN-DAG: v_mul_hi_i32
define amdgpu_kernel void @mul64_sext_c(i64 addrspace(1)* %out, i32 %in) {		define amdgpu_kernel void @mul64_sext_c(i64 addrspace(1)* %out, i32 %in) {
entry:		entry:
%0 = sext i32 %in to i64		%0 = sext i32 %in to i64
%1 = mul i64 %0, 80		%1 = mul i64 %0, 80
store i64 %1, i64 addrspace(1)* %out		store i64 %1, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_mul64_sext_c:		; FUNC-LABEL: {{^}}v_mul64_sext_c:
; EG-DAG: MULLO_INT		; EG-DAG: MULLO_INT
; EG-DAG: MULHI_INT		; EG-DAG: MULHI_INT
; GCN-DAG: v_mul_lo_u32		; GCN: v_mad_i64_i32
; GCN-DAG: v_mul_hi_i32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @v_mul64_sext_c(i64 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @v_mul64_sext_c(i64 addrspace(1)* %out, i32 addrspace(1)* %in) {
%val = load i32, i32 addrspace(1)* %in, align 4		%val = load i32, i32 addrspace(1)* %in, align 4
%ext = sext i32 %val to i64		%ext = sext i32 %val to i64
%mul = mul i64 %ext, 80		%mul = mul i64 %ext, 80
store i64 %mul, i64 addrspace(1)* %out, align 8		store i64 %mul, i64 addrspace(1)* %out, align 8
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_mul64_sext_inline_imm:		; FUNC-LABEL: {{^}}v_mul64_sext_inline_imm:
; GCN-DAG: v_mul_lo_u32 v{{[0-9]+}}, v{{[0-9]+}}, 9		; GCN: v_mad_i64_i32 v[{{[0-9]+:[0-9]+}}], s[{{[0-9]+:[0-9]+}}], v{{[0-9]+}}, 9, 0
; GCN-DAG: v_mul_hi_i32 v{{[0-9]+}}, v{{[0-9]+}}, 9
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @v_mul64_sext_inline_imm(i64 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @v_mul64_sext_inline_imm(i64 addrspace(1)* %out, i32 addrspace(1)* %in) {
%val = load i32, i32 addrspace(1)* %in, align 4		%val = load i32, i32 addrspace(1)* %in, align 4
%ext = sext i32 %val to i64		%ext = sext i32 %val to i64
%mul = mul i64 %ext, 9		%mul = mul i64 %ext, 9
store i64 %mul, i64 addrspace(1)* %out, align 8		store i64 %mul, i64 addrspace(1)* %out, align 8
ret void		ret void
}		}
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines

endif:		endif:
%3 = phi i32 [%1, %if], [%2, %else]		%3 = phi i32 [%1, %if], [%2, %else]
store i32 %3, i32 addrspace(1)* %out		store i32 %3, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}mul64_in_branch:		; FUNC-LABEL: {{^}}mul64_in_branch:
; GCN-DAG: s_mul_i32		; GCN: v_mad_u64_u32
; GCN-DAG: v_mul_hi_u32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mul64_in_branch(i64 addrspace(1)* %out, i64 addrspace(1)* %in, i64 %a, i64 %b, i64 %c) {		define amdgpu_kernel void @mul64_in_branch(i64 addrspace(1)* %out, i64 addrspace(1)* %in, i64 %a, i64 %b, i64 %c) {
entry:		entry:
%0 = icmp eq i64 %a, 0		%0 = icmp eq i64 %a, 0
br i1 %0, label %if, label %else		br i1 %0, label %if, label %else

if:		if:
%1 = load i64, i64 addrspace(1)* %in		%1 = load i64, i64 addrspace(1)* %in
Show All 9 Lines	endif:
ret void		ret void
}		}

; FIXME: Load dwordx4		; FIXME: Load dwordx4
; FUNC-LABEL: {{^}}s_mul_i128:		; FUNC-LABEL: {{^}}s_mul_i128:
; GCN: s_load_dwordx4		; GCN: s_load_dwordx4
; GCN: s_load_dwordx4		; GCN: s_load_dwordx4

; SI: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI: s_mul_i32		; SI-DAG: v_mad_u64_u32
; SI: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI: s_mul_i32		; SI-DAG: v_mad_u64_u32
; SI: s_mul_i32		; SI-DAG: v_mad_u64_u32
		; SI-DAG: s_mul_i32
; SI-DAG: s_mul_i32		; SI-DAG: s_mul_i32
; SI-DAG: v_mul_hi_u32
; SI-DAG: v_mul_hi_u32
; SI-DAG: s_mul_i32		; SI-DAG: s_mul_i32
; SI-DAG: s_mul_i32		; SI-DAG: s_mul_i32
; SI-DAG: v_mul_hi_u32

; VI: v_mul_hi_u32
; VI: s_mul_i32
; VI: s_mul_i32
; VI: v_mul_hi_u32
; VI: v_mul_hi_u32
; VI: s_mul_i32
; VI: v_mad_u64_u32
; VI: s_mul_i32
; VI: v_mad_u64_u32
; VI: s_mul_i32
; VI: s_mul_i32
; VI: v_mad_u64_u32
; VI: s_mul_i32

		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: s_mul_i32
		; VI-DAG: s_mul_i32
		; VI-DAG: s_mul_i32
		; VI-DAG: s_mul_i32

; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @s_mul_i128(i128 addrspace(1)* %out, [8 x i32], i128 %a, [8 x i32], i128 %b) nounwind #0 {		define amdgpu_kernel void @s_mul_i128(i128 addrspace(1)* %out, [8 x i32], i128 %a, [8 x i32], i128 %b) nounwind #0 {
%mul = mul i128 %a, %b		%mul = mul i128 %a, %b
store i128 %mul, i128 addrspace(1)* %out		store i128 %mul, i128 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_mul_i128:		; FUNC-LABEL: {{^}}v_mul_i128:
; GCN: {{buffer\|flat}}_load_dwordx4		; GCN: {{buffer\|flat}}_load_dwordx4
; GCN: {{buffer\|flat}}_load_dwordx4		; GCN: {{buffer\|flat}}_load_dwordx4

; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_hi_u32		; SI-DAG: v_mad_u64_u32
; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_lo_u32
; SI-DAG: v_add_i32_e32

; SI-DAG: v_mul_hi_u32
; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_hi_u32
; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mul_lo_u32
; SI-DAG: v_mul_lo_u32		; SI-DAG: v_mul_lo_u32

		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mad_u64_u32
		; VI-DAG: v_mul_lo_u32
		; VI-DAG: v_mul_lo_u32
		; VI-DAG: v_mul_lo_u32
; VI-DAG: v_mul_lo_u32		; VI-DAG: v_mul_lo_u32
; VI-DAG: v_mul_hi_u32
; VI: v_mad_u64_u32
; VI: v_mad_u64_u32
; VI: v_mad_u64_u32

; GCN: {{buffer\|flat}}_store_dwordx4		; GCN: {{buffer\|flat}}_store_dwordx4
define amdgpu_kernel void @v_mul_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %aptr, i128 addrspace(1)* %bptr) #0 {		define amdgpu_kernel void @v_mul_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %aptr, i128 addrspace(1)* %bptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.a = getelementptr inbounds i128, i128 addrspace(1)* %aptr, i32 %tid		%gep.a = getelementptr inbounds i128, i128 addrspace(1)* %aptr, i32 %tid
%gep.b = getelementptr inbounds i128, i128 addrspace(1)* %bptr, i32 %tid		%gep.b = getelementptr inbounds i128, i128 addrspace(1)* %bptr, i32 %tid
%gep.out = getelementptr inbounds i128, i128 addrspace(1)* %bptr, i32 %tid		%gep.out = getelementptr inbounds i128, i128 addrspace(1)* %bptr, i32 %tid
%a = load i128, i128 addrspace(1)* %gep.a		%a = load i128, i128 addrspace(1)* %gep.a
Show All 10 Lines

llvm/test/CodeGen/AMDGPU/mul_int24.ll

	Show First 20 Lines • Show All 307 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_load_dword s2, s[0:1], 0x13			; SI-NEXT: s_load_dword s2, s[0:1], 0x13
	; SI-NEXT: s_load_dword s0, s[0:1], 0x1c			; SI-NEXT: s_load_dword s0, s[0:1], 0x1c
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_bfe_i32 s1, s2, 0x180000			; SI-NEXT: s_bfe_i32 s1, s2, 0x180000
	; SI-NEXT: s_bfe_i32 s0, s0, 0x180000			; SI-NEXT: s_bfe_i32 s0, s0, 0x180000
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mov_b32_e32 v0, s1
	; SI-NEXT: s_mul_i32 s1, s0, s1
	; SI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0			; SI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mul_i32_i24_e32 v0, s0, v0
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: test_smul24_i64:			; VI-LABEL: test_smul24_i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dword s2, s[0:1], 0x4c			; VI-NEXT: s_load_dword s2, s[0:1], 0x4c
	; VI-NEXT: s_load_dword s0, s[0:1], 0x70			; VI-NEXT: s_load_dword s0, s[0:1], 0x70
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_bfe_i32 s1, s2, 0x180000			; VI-NEXT: s_bfe_i32 s1, s2, 0x180000
	; VI-NEXT: s_bfe_i32 s0, s0, 0x180000			; VI-NEXT: s_bfe_i32 s0, s0, 0x180000
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: v_mov_b32_e32 v0, s1
	; VI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0			; VI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0
	; VI-NEXT: s_mul_i32 s0, s0, s1			; VI-NEXT: v_mul_i32_i24_e32 v0, s0, v0
	; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: test_smul24_i64:			; GFX9-LABEL: test_smul24_i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX9-NEXT: s_load_dword s2, s[0:1], 0x4c			; GFX9-NEXT: s_load_dword s2, s[0:1], 0x4c
	; GFX9-NEXT: s_load_dword s3, s[0:1], 0x70			; GFX9-NEXT: s_load_dword s3, s[0:1], 0x70
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SI-LABEL: test_smul24_i64_square:			; SI-LABEL: test_smul24_i64_square:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_load_dword s4, s[0:1], 0xb			; SI-NEXT: s_load_dword s4, s[0:1], 0xb
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_bfe_i32 s4, s4, 0x180000			; SI-NEXT: s_bfe_i32 s4, s4, 0x180000
	; SI-NEXT: s_mul_i32 s5, s4, s4
	; SI-NEXT: v_mul_hi_i32_i24_e64 v1, s4, s4			; SI-NEXT: v_mul_hi_i32_i24_e64 v1, s4, s4
	; SI-NEXT: v_mov_b32_e32 v0, s5			; SI-NEXT: v_mul_i32_i24_e64 v0, s4, s4
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: test_smul24_i64_square:			; VI-LABEL: test_smul24_i64_square:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dword s0, s[0:1], 0x2c			; VI-NEXT: s_load_dword s0, s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_bfe_i32 s0, s0, 0x180000			; VI-NEXT: s_bfe_i32 s0, s0, 0x180000
	; VI-NEXT: v_mul_hi_i32_i24_e64 v1, s0, s0			; VI-NEXT: v_mul_hi_i32_i24_e64 v1, s0, s0
	; VI-NEXT: s_mul_i32 s0, s0, s0			; VI-NEXT: v_mul_i32_i24_e64 v0, s0, s0
	; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: test_smul24_i64_square:			; GFX9-LABEL: test_smul24_i64_square:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_lshl_b32 s1, s2, 8			; SI-NEXT: s_lshl_b32 s1, s2, 8
	; SI-NEXT: s_lshl_b32 s3, s0, 8			; SI-NEXT: s_lshl_b32 s3, s0, 8
	; SI-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; SI-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; SI-NEXT: s_ashr_i64 s[0:1], s[0:1], 40			; SI-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
	; SI-NEXT: v_mov_b32_e32 v0, s2			; SI-NEXT: v_mov_b32_e32 v0, s2
	; SI-NEXT: s_mul_i32 s1, s0, s2
	; SI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0			; SI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mul_i32_i24_e32 v0, s0, v0
	; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 31			; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 31
	; SI-NEXT: v_ashr_i64 v[0:1], v[0:1], 31			; SI-NEXT: v_ashr_i64 v[0:1], v[0:1], 31
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: test_smul24_i33:			; VI-LABEL: test_smul24_i33:
	; VI: ; %bb.0: ; %entry			; VI: ; %bb.0: ; %entry
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dword s2, s[0:1], 0x2c			; VI-NEXT: s_load_dword s2, s[0:1], 0x2c
	; VI-NEXT: s_load_dword s0, s[0:1], 0x34			; VI-NEXT: s_load_dword s0, s[0:1], 0x34
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_lshl_b32 s1, s2, 8			; VI-NEXT: s_lshl_b32 s1, s2, 8
	; VI-NEXT: s_lshl_b32 s3, s0, 8			; VI-NEXT: s_lshl_b32 s3, s0, 8
	; VI-NEXT: s_ashr_i64 s[2:3], s[2:3], 40			; VI-NEXT: s_ashr_i64 s[2:3], s[2:3], 40
	; VI-NEXT: s_ashr_i64 s[0:1], s[0:1], 40			; VI-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0			; VI-NEXT: v_mul_hi_i32_i24_e32 v1, s0, v0
	; VI-NEXT: s_mul_i32 s0, s0, s2			; VI-NEXT: v_mul_i32_i24_e32 v0, s0, v0
	; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_lshlrev_b64 v[0:1], 31, v[0:1]			; VI-NEXT: v_lshlrev_b64 v[0:1], 31, v[0:1]
	; VI-NEXT: v_ashrrev_i64 v[0:1], 31, v[0:1]			; VI-NEXT: v_ashrrev_i64 v[0:1], 31, v[0:1]
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: test_smul24_i33:			; GFX9-LABEL: test_smul24_i33:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	▲ Show 20 Lines • Show All 304 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/mul_uint24-amdgcn.ll

Show First 20 Lines • Show All 502 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @test_umul24_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {		define amdgpu_kernel void @test_umul24_i64(i64 addrspace(1)* %out, i64 %a, i64 %b) {
; SI-LABEL: test_umul24_i64:		; SI-LABEL: test_umul24_i64:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_load_dword s7, s[0:1], 0xd		; SI-NEXT: s_load_dword s7, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s8, 0xffffff
; SI-NEXT: s_mov_b32 s0, s4		; SI-NEXT: s_mov_b32 s0, s4
; SI-NEXT: s_mov_b32 s1, s5		; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: s_and_b32 s4, s6, s8
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_and_b32 s5, s7, s8
; SI-NEXT: v_mov_b32_e32 v0, s7		; SI-NEXT: v_mov_b32_e32 v0, s7
; SI-NEXT: s_mul_i32 s4, s4, s5
; SI-NEXT: v_mul_hi_u32_u24_e32 v1, s6, v0		; SI-NEXT: v_mul_hi_u32_u24_e32 v1, s6, v0
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: v_mul_u32_u24_e32 v0, s6, v0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_umul24_i64:		; VI-LABEL: test_umul24_i64:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s7, s[0:1], 0x34		; VI-NEXT: s_load_dword s7, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s3, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s2, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_mov_b32 s0, s4		; VI-NEXT: s_mov_b32 s0, s4
; VI-NEXT: s_mov_b32 s4, 0xffffff
; VI-NEXT: s_mov_b32 s1, s5
; VI-NEXT: s_and_b32 s5, s6, s4
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s4, s7, s4
; VI-NEXT: s_mul_i32 s5, s5, s4
; VI-NEXT: v_mov_b32_e32 v0, s7		; VI-NEXT: v_mov_b32_e32 v0, s7
		; VI-NEXT: s_mov_b32 s1, s5
; VI-NEXT: v_mul_hi_u32_u24_e32 v1, s6, v0		; VI-NEXT: v_mul_hi_u32_u24_e32 v1, s6, v0
; VI-NEXT: v_mov_b32_e32 v0, s5		; VI-NEXT: v_mul_u32_u24_e32 v0, s6, v0
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; GFX9-LABEL: test_umul24_i64:		; GFX9-LABEL: test_umul24_i64:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s7, s[0:1], 0x34		; GFX9-NEXT: s_load_dword s7, s[0:1], 0x34
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @test_umul24_i64_square(i64 addrspace(1)* %out, [8 x i32], i64 %a) {		define amdgpu_kernel void @test_umul24_i64_square(i64 addrspace(1)* %out, [8 x i32], i64 %a) {
; SI-LABEL: test_umul24_i64_square:		; SI-LABEL: test_umul24_i64_square:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dword s4, s[0:1], 0x13		; SI-NEXT: s_load_dword s4, s[0:1], 0x13
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_and_b32 s5, s4, 0xffffff
; SI-NEXT: s_mul_i32 s5, s5, s5
; SI-NEXT: v_mul_hi_u32_u24_e64 v1, s4, s4		; SI-NEXT: v_mul_hi_u32_u24_e64 v1, s4, s4
; SI-NEXT: v_mov_b32_e32 v0, s5		; SI-NEXT: v_mul_u32_u24_e64 v0, s4, s4
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_umul24_i64_square:		; VI-LABEL: test_umul24_i64_square:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dword s0, s[0:1], 0x4c		; VI-NEXT: s_load_dword s0, s[0:1], 0x4c
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s1, s0, 0xffffff
; VI-NEXT: s_mul_i32 s1, s1, s1
; VI-NEXT: v_mul_hi_u32_u24_e64 v1, s0, s0		; VI-NEXT: v_mul_hi_u32_u24_e64 v1, s0, s0
; VI-NEXT: v_mov_b32_e32 v0, s1		; VI-NEXT: v_mul_u32_u24_e64 v0, s0, s0
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; GFX9-LABEL: test_umul24_i64_square:		; GFX9-LABEL: test_umul24_i64_square:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x4c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x4c
; GFX9-NEXT: s_mov_b32 s7, 0xf000		; GFX9-NEXT: s_mov_b32 s7, 0xf000
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	entry:
%mulhi = trunc i32 %hi to i16		%mulhi = trunc i32 %hi to i16
store i16 %mulhi, i16 addrspace(1)* %out		store i16 %mulhi, i16 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @test_umul24_i33(i64 addrspace(1)* %out, i33 %a, i33 %b) {		define amdgpu_kernel void @test_umul24_i33(i64 addrspace(1)* %out, i33 %a, i33 %b) {
; SI-LABEL: test_umul24_i33:		; SI-LABEL: test_umul24_i33:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dword s4, s[0:1], 0xd
; SI-NEXT: s_load_dword s2, s[0:1], 0xb		; SI-NEXT: s_load_dword s5, s[0:1], 0xb
; SI-NEXT: s_load_dword s0, s[0:1], 0xd		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s1, 0xffffff
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_and_b32 s3, s2, s1		; SI-NEXT: v_mov_b32_e32 v1, s4
; SI-NEXT: s_and_b32 s1, s0, s1		; SI-NEXT: v_mul_u32_u24_e32 v0, s5, v1
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mul_hi_u32_u24_e32 v1, s5, v1
; SI-NEXT: v_mul_hi_u32_u24_e32 v0, s2, v0		; SI-NEXT: v_and_b32_e32 v1, 1, v1
; SI-NEXT: s_mul_i32 s3, s3, s1		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: v_and_b32_e32 v1, 1, v0
; SI-NEXT: v_mov_b32_e32 v0, s3
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_umul24_i33:		; VI-LABEL: test_umul24_i33:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dword s2, s[0:1], 0x2c		; VI-NEXT: s_load_dword s2, s[0:1], 0x2c
; VI-NEXT: s_load_dword s0, s[0:1], 0x34		; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s1, 0xffffff
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s3, s2, s1		; VI-NEXT: v_mov_b32_e32 v1, s0
; VI-NEXT: s_and_b32 s1, s0, s1		; VI-NEXT: v_mul_u32_u24_e32 v0, s2, v1
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mul_hi_u32_u24_e32 v1, s2, v1
; VI-NEXT: s_mul_i32 s3, s3, s1		; VI-NEXT: v_and_b32_e32 v1, 1, v1
; VI-NEXT: v_mul_hi_u32_u24_e32 v0, s2, v0
; VI-NEXT: v_and_b32_e32 v1, 1, v0
; VI-NEXT: v_mov_b32_e32 v0, s3
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; GFX9-LABEL: test_umul24_i33:		; GFX9-LABEL: test_umul24_i33:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
; GFX9-NEXT: s_load_dword s3, s[0:1], 0x34		; GFX9-NEXT: s_load_dword s3, s[0:1], 0x34
▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s

define amdgpu_kernel void @s_test_sdiv(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv:		; GCN-LABEL: s_test_sdiv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
		; GCN-NEXT: v_mov_b32_e32 v8, 0
; GCN-NEXT: v_mov_b32_e32 v7, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i32 s8, s3, 31		; GCN-NEXT: s_ashr_i32 s8, s3, 31
; GCN-NEXT: s_add_u32 s2, s2, s8		; GCN-NEXT: s_add_u32 s2, s2, s8
; GCN-NEXT: s_mov_b32 s9, s8		; GCN-NEXT: s_mov_b32 s9, s8
; GCN-NEXT: s_addc_u32 s3, s3, s8		; GCN-NEXT: s_addc_u32 s3, s3, s8
; GCN-NEXT: s_xor_b64 s[10:11], s[2:3], s[8:9]		; GCN-NEXT: s_xor_b64 s[10:11], s[2:3], s[8:9]
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s10		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s10
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s11		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s11
; GCN-NEXT: s_sub_u32 s4, 0, s10		; GCN-NEXT: s_sub_u32 s6, 0, s10
; GCN-NEXT: s_subb_u32 s5, 0, s11		; GCN-NEXT: s_subb_u32 s12, 0, s11
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
		; GCN-NEXT: v_trunc_f32_e32 v1, v1
		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v1
		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v0
		; GCN-NEXT: v_mul_lo_u32 v2, s6, v4
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v5, 0
		; GCN-NEXT: v_mul_lo_u32 v3, s12, v5
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v6, v5, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v5, v3, 0
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v6, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v5, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v6, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s6, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s12, v6
		; GCN-NEXT: v_mul_hi_u32 v10, v6, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v6, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i32 s12, s3, 31		; GCN-NEXT: s_ashr_i32 s12, s3, 31
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
; GCN-NEXT: s_add_u32 s2, s2, s12		; GCN-NEXT: s_add_u32 s2, s2, s12
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v6, v0
; GCN-NEXT: s_mov_b32 s13, s12		; GCN-NEXT: s_mov_b32 s13, s12
; GCN-NEXT: v_mul_lo_u32 v3, s4, v2
; GCN-NEXT: v_mul_hi_u32 v4, s4, v0
; GCN-NEXT: v_mul_lo_u32 v6, s5, v0
; GCN-NEXT: v_mul_lo_u32 v5, s4, v0
; GCN-NEXT: s_addc_u32 s3, s3, s12		; GCN-NEXT: s_addc_u32 s3, s3, s12
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_hi_u32 v4, v0, v5
; GCN-NEXT: v_mul_lo_u32 v6, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v3
; GCN-NEXT: v_mul_hi_u32 v9, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v7, v8, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v5, v2, v5
; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]		; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v8		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v5, vcc		; GCN-NEXT: v_mul_hi_u32 v4, s2, v2
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s4, v2
; GCN-NEXT: v_mul_hi_u32 v4, s4, v0
; GCN-NEXT: v_mul_lo_u32 v5, s5, v0
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_mul_lo_u32 v4, s4, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_mul_lo_u32 v8, v0, v3
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_hi_u32 v10, v0, v3
; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4
; GCN-NEXT: v_mul_hi_u32 v5, v2, v3
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v7, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s2, v2
; GCN-NEXT: v_mul_hi_u32 v4, s2, v0
; GCN-NEXT: v_mul_hi_u32 v5, s2, v2
; GCN-NEXT: v_mul_hi_u32 v6, s3, v2
; GCN-NEXT: v_mul_lo_u32 v2, s3, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v5, s3, v0
; GCN-NEXT: v_mul_hi_u32 v0, s3, v0
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v4, v0, vcc		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[14:15], s3, v2, 0
; GCN-NEXT: v_mul_lo_u32 v2, s10, v1		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[14:15], s3, v3, 0
; GCN-NEXT: v_mul_hi_u32 v3, s10, v0		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
; GCN-NEXT: v_mul_lo_u32 v4, s11, v0		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v4, s10, v3
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[14:15], s10, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v5, s11, v2
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
		; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v1
; GCN-NEXT: v_mov_b32_e32 v5, s11		; GCN-NEXT: v_mov_b32_e32 v5, s11
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-NEXT: v_mul_lo_u32 v3, s10, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc		; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3		; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v0
; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0		; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v2
; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v6, s3		; GCN-NEXT: v_mov_b32_e32 v6, s3
; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s11, v2		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s11, v1
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s10, v3		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s10, v0
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s11, v2		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s11, v1
; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v1, v7, v5, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GCN-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]		; GCN-NEXT: s_xor_b64 s[0:1], s[12:13], s[8:9]
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
; GCN-NEXT: v_xor_b32_e32 v0, s0, v0		; GCN-NEXT: v_xor_b32_e32 v1, s0, v1
; GCN-NEXT: v_xor_b32_e32 v1, s1, v1		; GCN-NEXT: v_xor_b32_e32 v2, s1, v0
; GCN-NEXT: v_mov_b32_e32 v2, s1		; GCN-NEXT: v_mov_b32_e32 v3, s1
; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0		; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s0, v1
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v3, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv:		; GCN-IR-LABEL: s_test_sdiv:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_sdiv(i64 %x, i64 %y) {		define i64 @v_test_sdiv(i64 %x, i64 %y) {
; GCN-LABEL: v_test_sdiv:		; GCN-LABEL: v_test_sdiv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v3		; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v8
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v8, vcc
; GCN-NEXT: v_xor_b32_e32 v3, v3, v4		; GCN-NEXT: v_xor_b32_e32 v9, v3, v8
; GCN-NEXT: v_xor_b32_e32 v2, v2, v4		; GCN-NEXT: v_xor_b32_e32 v10, v2, v8
; GCN-NEXT: v_cvt_f32_u32_e32 v5, v2		; GCN-NEXT: v_cvt_f32_u32_e32 v2, v10
; GCN-NEXT: v_cvt_f32_u32_e32 v6, v3		; GCN-NEXT: v_cvt_f32_u32_e32 v3, v9
; GCN-NEXT: v_sub_i32_e32 v7, vcc, 0, v2		; GCN-NEXT: v_sub_i32_e32 v11, vcc, 0, v10
; GCN-NEXT: v_subb_u32_e32 v8, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v12, vcc, 0, v9, vcc
; GCN-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6		; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; GCN-NEXT: v_rcp_f32_e32 v5, v5		; GCN-NEXT: v_rcp_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v15, 0		; GCN-NEXT: v_mov_b32_e32 v15, 0
; GCN-NEXT: v_mov_b32_e32 v14, 0		; GCN-NEXT: v_mov_b32_e32 v14, 0
; GCN-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; GCN-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
; GCN-NEXT: v_trunc_f32_e32 v6, v6		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6		; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v6, v6		; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
; GCN-NEXT: v_mul_hi_u32 v9, v7, v5		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v11, v6, 0
; GCN-NEXT: v_mul_lo_u32 v10, v7, v6		; GCN-NEXT: v_mul_lo_u32 v4, v11, v7
; GCN-NEXT: v_mul_lo_u32 v11, v8, v5		; GCN-NEXT: v_mul_lo_u32 v5, v12, v6
; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; GCN-NEXT: v_mul_hi_u32 v13, v6, v2
; GCN-NEXT: v_mul_lo_u32 v10, v7, v5		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; GCN-NEXT: v_add_i32_e32 v5, vcc, v3, v5
; GCN-NEXT: v_mul_lo_u32 v12, v5, v9		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
; GCN-NEXT: v_mul_hi_u32 v13, v5, v10		; GCN-NEXT: v_add_i32_e32 v13, vcc, v13, v3
; GCN-NEXT: v_mul_hi_u32 v11, v5, v9		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
; GCN-NEXT: v_mul_hi_u32 v16, v6, v9		; GCN-NEXT: v_addc_u32_e32 v16, vcc, v15, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v9, v6, v9		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
; GCN-NEXT: v_add_i32_e32 v12, vcc, v13, v12		; GCN-NEXT: v_add_i32_e32 v2, vcc, v13, v2
; GCN-NEXT: v_mul_lo_u32 v13, v6, v10		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v16, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v6, v10		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v14, vcc
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v15, v11, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_add_i32_e32 v12, vcc, v12, v13		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v15, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v11, v10, vcc		; GCN-NEXT: v_add_i32_e32 v13, vcc, v6, v2
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v16, v14, vcc		; GCN-NEXT: v_addc_u32_e32 v16, vcc, v7, v3, vcc
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v11, v13, 0
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v15, v11, vcc		; GCN-NEXT: v_mul_lo_u32 v6, v11, v16
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v9		; GCN-NEXT: v_mul_lo_u32 v7, v12, v13
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v10, vcc		; GCN-NEXT: v_mul_hi_u32 v11, v13, v2
; GCN-NEXT: v_mul_lo_u32 v9, v7, v6		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v16, v2, 0
; GCN-NEXT: v_mul_hi_u32 v10, v7, v5		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_lo_u32 v8, v8, v5		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7
; GCN-NEXT: v_mul_lo_u32 v7, v7, v5		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v13, v3, 0
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v16, v3, 0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_add_i32_e32 v6, vcc, v11, v6
; GCN-NEXT: v_mul_lo_u32 v11, v5, v8		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v15, v7, vcc
; GCN-NEXT: v_mul_hi_u32 v12, v5, v7		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_hi_u32 v13, v5, v8		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v6, v7		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v14, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v6, v7		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_mul_hi_u32 v9, v6, v8		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v15, v3, vcc
; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; GCN-NEXT: v_add_i32_e32 v2, vcc, v13, v2
; GCN-NEXT: v_addc_u32_e32 v12, vcc, v15, v13, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v16, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v6, v8		; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v1
; GCN-NEXT: v_add_i32_e32 v7, vcc, v11, v7		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v10, vcc		; GCN-NEXT: v_xor_b32_e32 v6, v0, v4
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v9, v14, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v1, v4, vcc
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v6, v3, 0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v15, v9, vcc		; GCN-NEXT: v_mul_hi_u32 v7, v6, v2
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; GCN-NEXT: v_xor_b32_e32 v5, v5, v4
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v8, vcc		; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v0
; GCN-NEXT: v_ashrrev_i32_e32 v7, 31, v1		; GCN-NEXT: v_addc_u32_e32 v11, vcc, v15, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; GCN-NEXT: v_xor_b32_e32 v0, v0, v7		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_mul_lo_u32 v8, v0, v6		; GCN-NEXT: v_add_i32_e32 v0, vcc, v7, v0
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v11, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v0, v6		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v14, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v7, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_xor_b32_e32 v1, v1, v7		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v15, v1, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_mul_lo_u32 v7, v10, v3
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v15, v10, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v10, v2, 0
; GCN-NEXT: v_mul_lo_u32 v10, v1, v5		; GCN-NEXT: v_mul_lo_u32 v11, v9, v2
; GCN-NEXT: v_mul_hi_u32 v5, v1, v5		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v7
; GCN-NEXT: v_mul_hi_u32 v11, v1, v6		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v11
; GCN-NEXT: v_mul_lo_u32 v6, v1, v6		; GCN-NEXT: v_sub_i32_e32 v7, vcc, v5, v1
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v6, v0
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc		; GCN-NEXT: v_subb_u32_e64 v6, s[4:5], v7, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v11, v14, vcc		; GCN-NEXT: v_sub_i32_e64 v7, s[4:5], v0, v10
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GCN-NEXT: v_subbrev_u32_e64 v6, s[4:5], 0, v6, s[4:5]
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v15, v8, vcc		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v9
; GCN-NEXT: v_mul_lo_u32 v8, v2, v6
; GCN-NEXT: v_mul_hi_u32 v9, v2, v5
; GCN-NEXT: v_mul_lo_u32 v10, v3, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_mul_lo_u32 v9, v2, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; GCN-NEXT: v_sub_i32_e32 v10, vcc, v1, v8
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v9
; GCN-NEXT: v_subb_u32_e64 v9, s[4:5], v10, v3, vcc
; GCN-NEXT: v_sub_i32_e64 v10, s[4:5], v0, v2
; GCN-NEXT: v_subbrev_u32_e64 v9, s[4:5], 0, v9, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v9, v3
; GCN-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v10, v2		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v10
; GCN-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v9, v3		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v6, v9
; GCN-NEXT: v_cndmask_b32_e64 v9, v11, v10, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v6, v11, v7, s[4:5]
; GCN-NEXT: v_add_i32_e64 v10, s[4:5], 2, v5		; GCN-NEXT: v_add_i32_e64 v7, s[4:5], 2, v2
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v8, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v6, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v9
; GCN-NEXT: v_add_i32_e64 v12, s[4:5], 1, v5		; GCN-NEXT: v_add_i32_e64 v12, s[4:5], 1, v2
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v10
; GCN-NEXT: v_addc_u32_e64 v13, s[4:5], 0, v6, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v13, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v9
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v9		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6
; GCN-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
; GCN-NEXT: v_cndmask_b32_e64 v9, v13, v11, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v6, v13, v11, s[4:5]
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v1, v12, v10, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v12, v7, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v9, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v6, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GCN-NEXT: v_xor_b32_e32 v2, v7, v4		; GCN-NEXT: v_xor_b32_e32 v2, v4, v8
; GCN-NEXT: v_xor_b32_e32 v3, v0, v2		; GCN-NEXT: v_xor_b32_e32 v3, v0, v2
; GCN-NEXT: v_xor_b32_e32 v0, v1, v2		; GCN-NEXT: v_xor_b32_e32 v0, v1, v2
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_sdiv:		; GCN-IR-LABEL: v_test_sdiv:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
▲ Show 20 Lines • Show All 729 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i48 %result, i48 addrspace(1)* %out		store i48 %result, i48 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv_k_num_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_sdiv_k_num_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_sdiv_k_num_i64:		; GCN-LABEL: s_test_sdiv_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i32 s8, s3, 31		; GCN-NEXT: s_ashr_i32 s8, s3, 31
; GCN-NEXT: s_add_u32 s2, s2, s8		; GCN-NEXT: s_add_u32 s2, s2, s8
; GCN-NEXT: s_mov_b32 s9, s8		; GCN-NEXT: s_mov_b32 s9, s8
; GCN-NEXT: s_addc_u32 s3, s3, s8		; GCN-NEXT: s_addc_u32 s3, s3, s8
; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]		; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3
; GCN-NEXT: s_sub_u32 s4, 0, s2		; GCN-NEXT: s_sub_u32 s6, 0, s2
; GCN-NEXT: s_subb_u32 s5, 0, s3		; GCN-NEXT: s_subb_u32 s9, 0, s3
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3		; GCN-NEXT: v_mul_lo_u32 v2, s6, v5
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s5, v0		; GCN-NEXT: v_mul_lo_u32 v3, s9, v8
; GCN-NEXT: v_mul_lo_u32 v6, s4, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v8, v10, 0
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v10, 0
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v3, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc		; GCN-NEXT: v_mul_lo_u32 v4, s6, v9
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GCN-NEXT: v_mul_lo_u32 v5, s9, v8
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v6, s5, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v1, 0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
; GCN-NEXT: v_mul_lo_u32 v5, s4, v0		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 24, v3, 0
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v1, 24
; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
; GCN-NEXT: v_mov_b32_e32 v5, s3
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v2, v1, vcc		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_mul_lo_u32 v1, s3, v0		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v1, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[10:11], 0, v3, 0
; GCN-NEXT: v_mul_lo_u32 v3, s2, v0		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v4, s2, v3
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[10:11], s2, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v5, s3, v2
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v1		; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v1
; GCN-NEXT: v_sub_i32_e32 v3, vcc, 24, v3		; GCN-NEXT: v_mov_b32_e32 v5, s3
		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc		; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s2, v3		; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s2, v0
; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v4		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0		; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v2
; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
		; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_addc_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v3		; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v0
		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; GCN-NEXT: v_cndmask_b32_e64 v1, v7, v5, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_xor_b32_e32 v0, s8, v0
; GCN-NEXT: v_xor_b32_e32 v1, s8, v1		; GCN-NEXT: v_xor_b32_e32 v1, s8, v1
; GCN-NEXT: v_mov_b32_e32 v2, s8		; GCN-NEXT: v_xor_b32_e32 v2, s8, v0
; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0		; GCN-NEXT: v_mov_b32_e32 v3, s8
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s8, v1
		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v3, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv_k_num_i64:		; GCN-IR-LABEL: s_test_sdiv_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i32 s4, s3, 31		; GCN-IR-NEXT: s_ashr_i32 s4, s3, 31
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_sdiv_k_num_i64(i64 %x) {		define i64 @v_test_sdiv_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_sdiv_k_num_i64:		; GCN-LABEL: v_test_sdiv_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-NEXT: v_ashrrev_i32_e32 v6, 31, v1
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v6
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-NEXT: v_xor_b32_e32 v7, v1, v6
; GCN-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-NEXT: v_xor_b32_e32 v8, v0, v6
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v0, v8
; GCN-NEXT: v_cvt_f32_u32_e32 v4, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v1, v7
; GCN-NEXT: v_sub_i32_e32 v5, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v8
; GCN-NEXT: v_subb_u32_e32 v6, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v10, vcc, 0, v7, vcc
; GCN-NEXT: v_mac_f32_e32 v3, 0x4f800000, v4		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v3, v3		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v13, 0		; GCN-NEXT: v_mov_b32_e32 v13, 0
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v4, v4		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_mul_hi_u32 v7, v5, v3		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v4, 0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v4		; GCN-NEXT: v_mul_lo_u32 v2, v9, v5
; GCN-NEXT: v_mul_lo_u32 v9, v6, v3		; GCN-NEXT: v_mul_lo_u32 v3, v10, v4
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; GCN-NEXT: v_mul_hi_u32 v11, v4, v0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v10, v3, v7		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v11, v3, v8		; GCN-NEXT: v_add_i32_e32 v11, vcc, v11, v1
; GCN-NEXT: v_mul_hi_u32 v9, v3, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v14, v4, v7		; GCN-NEXT: v_addc_u32_e32 v14, vcc, v13, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v4, v7		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; GCN-NEXT: v_add_i32_e32 v0, vcc, v11, v0
; GCN-NEXT: v_mul_lo_u32 v11, v4, v8		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v14, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v4, v8		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v12, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v9, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v13, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v9, v8, vcc		; GCN-NEXT: v_add_i32_e32 v11, vcc, v4, v0
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v12, vcc		; GCN-NEXT: v_addc_u32_e32 v14, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v11, 0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v9, vcc		; GCN-NEXT: v_mul_lo_u32 v4, v9, v14
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; GCN-NEXT: v_mul_lo_u32 v5, v10, v11
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v4, v8, vcc		; GCN-NEXT: v_mul_hi_u32 v9, v11, v0
; GCN-NEXT: v_mul_lo_u32 v7, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v14, v0, 0
; GCN-NEXT: v_mul_hi_u32 v8, v5, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v6, v6, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_mul_lo_u32 v5, v5, v3		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v11, v1, 0
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v14, v1, 0
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4
; GCN-NEXT: v_mul_lo_u32 v9, v3, v6		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v13, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v3, v5		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_mul_hi_u32 v11, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v4, v5		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v4, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_mul_hi_u32 v7, v4, v6		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v13, v1, vcc
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_add_i32_e32 v2, vcc, v11, v0
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v13, v11, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v14, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v4, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 24, v3, 0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v8, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v12, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v13, v1, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 0, v3, 0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v13, v7, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v4, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v4, 24		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_mul_hi_u32 v3, v3, 24		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v4, 24		; GCN-NEXT: v_mul_lo_u32 v4, v8, v3
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v2, 0
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v4, vcc		; GCN-NEXT: v_mul_lo_u32 v5, v7, v2
; GCN-NEXT: v_mul_lo_u32 v4, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_hi_u32 v5, v0, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v1
; GCN-NEXT: v_mul_lo_u32 v5, v0, v3		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4		; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v7, vcc
; GCN-NEXT: v_sub_i32_e32 v5, vcc, 24, v5		; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v0, v8
; GCN-NEXT: v_subb_u32_e64 v6, s[4:5], v6, v1, vcc		; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]
; GCN-NEXT: v_sub_i32_e64 v7, s[4:5], v5, v0		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v7
; GCN-NEXT: v_subbrev_u32_e64 v6, s[4:5], 0, v6, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v1		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v8
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v0		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v4, v7
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v4, v9, v5, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v6, v1		; GCN-NEXT: v_add_i32_e64 v5, s[4:5], 2, v2
; GCN-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_add_i32_e64 v7, s[4:5], 2, v3		; GCN-NEXT: v_add_i32_e64 v10, s[4:5], 1, v2
; GCN-NEXT: v_addc_u32_e64 v8, s[4:5], 0, v13, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_add_i32_e64 v9, s[4:5], 1, v3		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_addc_u32_e64 v10, s[4:5], 0, v13, s[4:5]		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v4
; GCN-NEXT: v_subb_u32_e32 v4, vcc, 0, v4, vcc		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v7
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6		; GCN-NEXT: v_cndmask_b32_e64 v4, v11, v9, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v1		; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
; GCN-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[4:5]		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v8
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v4, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v7
; GCN-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v9, v0, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v1, v9, v7, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v10, v5, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GCN-NEXT: v_xor_b32_e32 v3, v0, v2		; GCN-NEXT: v_xor_b32_e32 v2, v0, v6
; GCN-NEXT: v_xor_b32_e32 v0, v1, v2		; GCN-NEXT: v_xor_b32_e32 v0, v1, v6
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v6, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_sdiv_k_num_i64:		; GCN-IR-LABEL: v_test_sdiv_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-IR-NEXT: v_xor_b32_e32 v0, v2, v0		; GCN-IR-NEXT: v_xor_b32_e32 v0, v2, v0
; GCN-IR-NEXT: v_xor_b32_e32 v1, v2, v1		; GCN-IR-NEXT: v_xor_b32_e32 v1, v2, v1
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = sdiv i64 24, %x		%result = sdiv i64 24, %x
ret i64 %result		ret i64 %result
}		}

define i64 @v_test_sdiv_pow2_k_num_i64(i64 %x) {		define i64 @v_test_sdiv_pow2_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_sdiv_pow2_k_num_i64:		; GCN-LABEL: v_test_sdiv_pow2_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-NEXT: v_ashrrev_i32_e32 v6, 31, v1
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v6
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-NEXT: v_xor_b32_e32 v7, v1, v6
; GCN-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-NEXT: v_xor_b32_e32 v8, v0, v6
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v0, v8
; GCN-NEXT: v_cvt_f32_u32_e32 v4, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v1, v7
; GCN-NEXT: v_sub_i32_e32 v5, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v8
; GCN-NEXT: v_subb_u32_e32 v6, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v10, vcc, 0, v7, vcc
; GCN-NEXT: v_mac_f32_e32 v3, 0x4f800000, v4		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v3, v3		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v13, 0		; GCN-NEXT: v_mov_b32_e32 v13, 0
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: s_mov_b32 s4, 0x8000		; GCN-NEXT: s_mov_b32 s6, 0x8000
; GCN-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v4, v4		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_mul_hi_u32 v7, v5, v3		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v4, 0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v4		; GCN-NEXT: v_mul_lo_u32 v2, v9, v5
; GCN-NEXT: v_mul_lo_u32 v9, v6, v3		; GCN-NEXT: v_mul_lo_u32 v3, v10, v4
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; GCN-NEXT: v_mul_hi_u32 v11, v4, v0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v10, v3, v7		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v11, v3, v8		; GCN-NEXT: v_add_i32_e32 v11, vcc, v11, v1
; GCN-NEXT: v_mul_hi_u32 v9, v3, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v14, v4, v7		; GCN-NEXT: v_addc_u32_e32 v14, vcc, v13, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v4, v7		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; GCN-NEXT: v_add_i32_e32 v0, vcc, v11, v0
; GCN-NEXT: v_mul_lo_u32 v11, v4, v8		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v14, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v4, v8		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v12, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v9, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v13, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v9, v8, vcc		; GCN-NEXT: v_add_i32_e32 v11, vcc, v4, v0
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v12, vcc		; GCN-NEXT: v_addc_u32_e32 v14, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v11, 0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v9, vcc		; GCN-NEXT: v_mul_lo_u32 v4, v9, v14
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; GCN-NEXT: v_mul_lo_u32 v5, v10, v11
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v4, v8, vcc		; GCN-NEXT: v_mul_hi_u32 v9, v11, v0
; GCN-NEXT: v_mul_lo_u32 v7, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v14, v0, 0
; GCN-NEXT: v_mul_hi_u32 v8, v5, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v6, v6, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_mul_lo_u32 v5, v5, v3		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v11, v1, 0
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v14, v1, 0
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4
; GCN-NEXT: v_mul_lo_u32 v9, v3, v6		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v13, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v3, v5		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_mul_hi_u32 v11, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v4, v5		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v4, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_mul_hi_u32 v7, v4, v6		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v13, v1, vcc
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_add_i32_e32 v2, vcc, v11, v0
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v13, v11, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v14, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v4, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v3, 0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5		; GCN-NEXT: v_lshrrev_b32_e32 v2, 17, v2
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v8, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v12, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v13, v1, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 0, v3, 0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v13, v7, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v4, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
; GCN-NEXT: v_lshrrev_b32_e32 v5, 17, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_lshlrev_b32_e32 v4, 15, v4		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v1, vcc
; GCN-NEXT: v_lshrrev_b32_e32 v3, 17, v3		; GCN-NEXT: v_mul_lo_u32 v4, v8, v3
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v2, 0
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v5, vcc		; GCN-NEXT: v_mul_lo_u32 v5, v7, v2
; GCN-NEXT: v_mul_lo_u32 v4, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_hi_u32 v5, v0, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v1
; GCN-NEXT: v_mul_lo_u32 v5, v0, v3		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4		; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v7, vcc
; GCN-NEXT: v_sub_i32_e32 v5, vcc, s4, v5		; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v0, v8
; GCN-NEXT: v_subb_u32_e64 v6, s[4:5], v6, v1, vcc		; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]
; GCN-NEXT: v_sub_i32_e64 v7, s[4:5], v5, v0		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v7
; GCN-NEXT: v_subbrev_u32_e64 v6, s[4:5], 0, v6, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v1		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v8
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v0		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v4, v7
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v4, v9, v5, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v6, v1		; GCN-NEXT: v_add_i32_e64 v5, s[4:5], 2, v2
; GCN-NEXT: v_cndmask_b32_e64 v6, v8, v7, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_add_i32_e64 v7, s[4:5], 2, v3		; GCN-NEXT: v_add_i32_e64 v10, s[4:5], 1, v2
; GCN-NEXT: v_addc_u32_e64 v8, s[4:5], 0, v13, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v3, s[4:5]
; GCN-NEXT: v_add_i32_e64 v9, s[4:5], 1, v3		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_addc_u32_e64 v10, s[4:5], 0, v13, s[4:5]		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v4
; GCN-NEXT: v_subb_u32_e32 v4, vcc, 0, v4, vcc		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v7
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6		; GCN-NEXT: v_cndmask_b32_e64 v4, v11, v9, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v1		; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
; GCN-NEXT: v_cndmask_b32_e64 v6, v10, v8, s[4:5]		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v8
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v4, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v7
; GCN-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v9, v0, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v1, v9, v7, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v10, v5, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GCN-NEXT: v_xor_b32_e32 v3, v0, v2		; GCN-NEXT: v_xor_b32_e32 v2, v0, v6
; GCN-NEXT: v_xor_b32_e32 v0, v1, v2		; GCN-NEXT: v_xor_b32_e32 v0, v1, v6
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v6, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_sdiv_pow2_k_num_i64:		; GCN-IR-LABEL: v_test_sdiv_pow2_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-IR-NEXT: v_xor_b32_e32 v0, v2, v0		; GCN-IR-NEXT: v_xor_b32_e32 v0, v2, v0
; GCN-IR-NEXT: v_xor_b32_e32 v1, v2, v1		; GCN-IR-NEXT: v_xor_b32_e32 v1, v2, v1
▲ Show 20 Lines • Show All 430 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s

define amdgpu_kernel void @s_test_srem(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem:		; GCN-LABEL: s_test_srem:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0xd
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s11, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13
; GCN-NEXT: s_sub_u32 s0, 0, s12		; GCN-NEXT: s_sub_u32 s2, 0, s12
; GCN-NEXT: s_subb_u32 s1, 0, s13		; GCN-NEXT: s_subb_u32 s3, 0, s13
; GCN-NEXT: s_mov_b32 s4, s8		; GCN-NEXT: s_mov_b32 s10, -1
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: s_mov_b32 s8, s4
; GCN-NEXT: s_mov_b32 s5, s9		; GCN-NEXT: s_mov_b32 s9, s5
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3		; GCN-NEXT: v_mul_lo_u32 v2, s2, v5
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s1, v0		; GCN-NEXT: v_mul_lo_u32 v3, s3, v8
; GCN-NEXT: v_mul_lo_u32 v6, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0
; GCN-NEXT: v_mul_lo_u32 v6, s1, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_lo_u32 v5, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s10, v3
; GCN-NEXT: v_mul_hi_u32 v5, s10, v0
; GCN-NEXT: v_mul_hi_u32 v6, s10, v3
; GCN-NEXT: v_mul_hi_u32 v7, s11, v3
; GCN-NEXT: v_mul_lo_u32 v3, s11, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, s11, v0
; GCN-NEXT: v_mul_hi_u32 v0, s11, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[0:1], v8, v10, 0
		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[0:1], v5, v0, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v5, v10, 0
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s2, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s3, v8
		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s6, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v4, s6, v2
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s7, v2, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s7, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v3, s12, v0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s12, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v2, s13, v2
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v1
; GCN-NEXT: v_mov_b32_e32 v3, s13		; GCN-NEXT: v_mov_b32_e32 v3, s13
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4		; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v5, s11		; GCN-NEXT: v_mov_b32_e32 v5, s7
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem:		; GCN-IR-LABEL: s_test_srem:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b64 s[2:3], 0		; GCN-IR-NEXT: s_mov_b64 s[2:3], 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v1, s3
; GCN-IR-NEXT: s_branch BB0_6		; GCN-IR-NEXT: s_branch BB0_6
; GCN-IR-NEXT: BB0_5:		; GCN-IR-NEXT: BB0_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s7		; GCN-IR-NEXT: v_mov_b32_e32 v0, s7
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]		; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s6		; GCN-IR-NEXT: v_mov_b32_e32 v0, s6
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]
; GCN-IR-NEXT: BB0_6: ; %udiv-end		; GCN-IR-NEXT: BB0_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s0, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s0, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s0, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[2:3], s0, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s1, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s1, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s0, v0
; GCN-IR-NEXT: s_mov_b32 s11, 0xf000		; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s7		; GCN-IR-NEXT: v_mov_b32_e32 v3, s7
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v1
; GCN-IR-NEXT: s_mov_b32 s10, -1		; GCN-IR-NEXT: s_mov_b32 s10, -1
; GCN-IR-NEXT: s_mov_b32 s8, s4		; GCN-IR-NEXT: s_mov_b32 s8, s4
; GCN-IR-NEXT: s_mov_b32 s9, s5		; GCN-IR-NEXT: s_mov_b32 s9, s5
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = urem i64 %x, %y		%result = urem i64 %x, %y
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_srem(i64 %x, i64 %y) {		define i64 @v_test_srem(i64 %x, i64 %y) {
; GCN-LABEL: v_test_srem:		; GCN-LABEL: v_test_srem:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v3		; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v3
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
; GCN-NEXT: v_xor_b32_e32 v3, v3, v4		; GCN-NEXT: v_xor_b32_e32 v8, v3, v4
; GCN-NEXT: v_xor_b32_e32 v2, v2, v4		; GCN-NEXT: v_xor_b32_e32 v9, v2, v4
; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2		; GCN-NEXT: v_cvt_f32_u32_e32 v2, v9
; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3		; GCN-NEXT: v_cvt_f32_u32_e32 v3, v8
; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v2		; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v9
; GCN-NEXT: v_subb_u32_e32 v7, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v11, vcc, 0, v8, vcc
; GCN-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5		; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; GCN-NEXT: v_rcp_f32_e32 v4, v4		; GCN-NEXT: v_rcp_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v14, 0		; GCN-NEXT: v_mov_b32_e32 v14, 0
; GCN-NEXT: v_mov_b32_e32 v13, 0		; GCN-NEXT: v_mov_b32_e32 v13, 0
; GCN-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4		; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; GCN-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
; GCN-NEXT: v_trunc_f32_e32 v5, v5		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5		; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5		; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
; GCN-NEXT: v_mul_hi_u32 v8, v6, v4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v10, v6, 0
; GCN-NEXT: v_mul_lo_u32 v9, v6, v5		; GCN-NEXT: v_mul_lo_u32 v4, v10, v7
; GCN-NEXT: v_mul_lo_u32 v10, v7, v4		; GCN-NEXT: v_mul_lo_u32 v5, v11, v6
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; GCN-NEXT: v_mul_hi_u32 v12, v6, v2
; GCN-NEXT: v_mul_lo_u32 v9, v6, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; GCN-NEXT: v_add_i32_e32 v5, vcc, v3, v5
; GCN-NEXT: v_mul_lo_u32 v11, v4, v8		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
; GCN-NEXT: v_mul_hi_u32 v12, v4, v9		; GCN-NEXT: v_add_i32_e32 v12, vcc, v12, v3
; GCN-NEXT: v_mul_hi_u32 v10, v4, v8		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
; GCN-NEXT: v_mul_hi_u32 v15, v5, v8		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v14, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v5, v8		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; GCN-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GCN-NEXT: v_mul_lo_u32 v12, v5, v9		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v15, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v5, v9		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v13, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v14, v10, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_add_i32_e32 v11, vcc, v11, v12		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v14, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v10, v9, vcc		; GCN-NEXT: v_add_i32_e32 v12, vcc, v6, v2
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v15, v13, vcc		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v7, v3, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v10, v12, 0
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v10, vcc		; GCN-NEXT: v_mul_lo_u32 v6, v10, v15
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v8		; GCN-NEXT: v_mul_lo_u32 v7, v11, v12
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v9, vcc		; GCN-NEXT: v_mul_hi_u32 v10, v12, v2
; GCN-NEXT: v_mul_lo_u32 v8, v6, v5		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v15, v2, 0
; GCN-NEXT: v_mul_hi_u32 v9, v6, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_lo_u32 v7, v7, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7
; GCN-NEXT: v_mul_lo_u32 v6, v6, v4		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v12, v3, 0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v15, v3, 0
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; GCN-NEXT: v_mul_lo_u32 v10, v4, v7
; GCN-NEXT: v_mul_hi_u32 v11, v4, v6
; GCN-NEXT: v_mul_hi_u32 v12, v4, v7
; GCN-NEXT: v_mul_hi_u32 v9, v5, v6
; GCN-NEXT: v_mul_lo_u32 v6, v5, v6
; GCN-NEXT: v_mul_hi_u32 v8, v5, v7
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v14, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v5, v7
; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6		; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v8, v13, vcc		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v13, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v14, v3, vcc
; GCN-NEXT: v_ashrrev_i32_e32 v6, 31, v1		; GCN-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v6		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v15, v3, vcc
; GCN-NEXT: v_xor_b32_e32 v0, v0, v6		; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v1
; GCN-NEXT: v_mul_lo_u32 v7, v0, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_mul_hi_u32 v8, v0, v4		; GCN-NEXT: v_xor_b32_e32 v6, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v1, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v6, v3, 0
; GCN-NEXT: v_xor_b32_e32 v1, v1, v6		; GCN-NEXT: v_mul_hi_u32 v7, v6, v2
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_xor_b32_e32 v5, v5, v4
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v14, v9, vcc		; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v0
; GCN-NEXT: v_mul_lo_u32 v9, v1, v4		; GCN-NEXT: v_addc_u32_e32 v10, vcc, v14, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v2, 0
; GCN-NEXT: v_mul_hi_u32 v10, v1, v5		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_mul_lo_u32 v5, v1, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v7, v0
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v13, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v10, v13, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v14, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v7, vcc		; GCN-NEXT: v_mul_lo_u32 v3, v9, v0
; GCN-NEXT: v_mul_lo_u32 v5, v2, v5		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v2, 0
; GCN-NEXT: v_mul_hi_u32 v7, v2, v4		; GCN-NEXT: v_mul_lo_u32 v2, v8, v2
; GCN-NEXT: v_mul_lo_u32 v8, v3, v4		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v5		; GCN-NEXT: v_sub_i32_e32 v2, vcc, v5, v1
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v6, v0
; GCN-NEXT: v_sub_i32_e32 v7, vcc, v1, v5		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v8, vcc
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GCN-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v9
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v7, v3, vcc		; GCN-NEXT: v_subbrev_u32_e64 v6, s[6:7], 0, v2, s[4:5]
; GCN-NEXT: v_sub_i32_e64 v7, s[4:5], v0, v2		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v8
; GCN-NEXT: v_subbrev_u32_e64 v8, s[6:7], 0, v4, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v8, v3		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v3, v9
; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v2
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v5, vcc
; GCN-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v8, v3		; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v8
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v3, s[4:5]		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v8, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[6:7]
; GCN-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[6:7]		; GCN-NEXT: v_sub_i32_e64 v10, s[4:5], v3, v9
; GCN-NEXT: v_sub_i32_e64 v10, s[4:5], v7, v2		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
		; GCN-NEXT: v_subbrev_u32_e64 v2, s[4:5], 0, v2, s[4:5]
		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v8
		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v9
; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v8
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v9		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
; GCN-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v10, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v10, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v4, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GCN-NEXT: v_xor_b32_e32 v0, v0, v4
; GCN-NEXT: v_xor_b32_e32 v0, v0, v6		; GCN-NEXT: v_xor_b32_e32 v1, v1, v4
; GCN-NEXT: v_xor_b32_e32 v1, v1, v6		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v4, vcc
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_srem:		; GCN-IR-LABEL: v_test_srem:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; GCN-IR-NEXT: v_ashrrev_i32_e32 v4, 31, v1
; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v4		; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v4
; GCN-IR-NEXT: v_ashrrev_i32_e32 v6, 31, v3		; GCN-IR-NEXT: v_ashrrev_i32_e32 v6, 31, v3
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: BB1_5: ; %Flow3		; GCN-IR-NEXT: BB1_5: ; %Flow3
; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[7:8], 1		; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[7:8], 1
; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v8		; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v8
; GCN-IR-NEXT: v_or_b32_e32 v9, v9, v7		; GCN-IR-NEXT: v_or_b32_e32 v9, v9, v7
; GCN-IR-NEXT: BB1_6: ; %Flow4		; GCN-IR-NEXT: BB1_6: ; %Flow4
; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
; GCN-IR-NEXT: v_mul_lo_u32 v3, v5, v10		; GCN-IR-NEXT: v_mul_lo_u32 v3, v5, v10
; GCN-IR-NEXT: v_mul_hi_u32 v7, v5, v9		; GCN-IR-NEXT: v_mad_u64_u32 v[7:8], s[4:5], v5, v9, 0
; GCN-IR-NEXT: v_mul_lo_u32 v6, v6, v9		; GCN-IR-NEXT: v_mul_lo_u32 v5, v6, v9
; GCN-IR-NEXT: v_mul_lo_u32 v5, v5, v9		; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v8, v3
; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v7, v3		; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v3, v5
; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v3, v6		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v7
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v5
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v4		; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v4
; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %x, %y		%result = srem i64 %x, %y
ret i64 %result		ret i64 %result
▲ Show 20 Lines • Show All 402 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; 33 known sign bits		; 33 known sign bits
define amdgpu_kernel void @s_test_srem33_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem33_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem33_64:		; GCN-LABEL: s_test_srem33_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GCN-NEXT: v_mov_b32_e32 v8, 0
; GCN-NEXT: v_mov_b32_e32 v7, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s11, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[2:3], s[10:11], 31		; GCN-NEXT: s_ashr_i64 s[2:3], s[6:7], 31
; GCN-NEXT: s_ashr_i64 s[4:5], s[0:1], 31		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 31
; GCN-NEXT: s_ashr_i32 s0, s1, 31		; GCN-NEXT: s_ashr_i32 s0, s1, 31
; GCN-NEXT: s_add_u32 s4, s4, s0		; GCN-NEXT: s_add_u32 s8, s8, s0
; GCN-NEXT: s_mov_b32 s1, s0		; GCN-NEXT: s_mov_b32 s1, s0
; GCN-NEXT: s_addc_u32 s5, s5, s0		; GCN-NEXT: s_addc_u32 s9, s9, s0
; GCN-NEXT: s_xor_b64 s[12:13], s[4:5], s[0:1]		; GCN-NEXT: s_xor_b64 s[12:13], s[8:9], s[0:1]
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13
; GCN-NEXT: s_sub_u32 s0, 0, s12		; GCN-NEXT: s_sub_u32 s6, 0, s12
; GCN-NEXT: s_subb_u32 s1, 0, s13		; GCN-NEXT: s_subb_u32 s8, 0, s13
; GCN-NEXT: s_ashr_i32 s10, s11, 31		; GCN-NEXT: s_mov_b32 s10, -1
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: s_mov_b32 s9, s5
; GCN-NEXT: s_mov_b32 s11, s10
; GCN-NEXT: s_mov_b32 s4, s8
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v2		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v0
; GCN-NEXT: s_mov_b32 s5, s9		; GCN-NEXT: v_mul_lo_u32 v2, s6, v4
; GCN-NEXT: v_mul_lo_u32 v3, s0, v2		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s6, v5, 0
; GCN-NEXT: v_mul_hi_u32 v4, s0, v0		; GCN-NEXT: v_mul_lo_u32 v3, s8, v5
; GCN-NEXT: v_mul_lo_u32 v6, s1, v0
; GCN-NEXT: v_mul_lo_u32 v5, s0, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_hi_u32 v4, v0, v5
; GCN-NEXT: v_mul_lo_u32 v6, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v3
; GCN-NEXT: v_mul_hi_u32 v9, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v7, v8, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v5, v2, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v8
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v5, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s0, v2
; GCN-NEXT: v_mul_hi_u32 v4, s0, v0
; GCN-NEXT: v_mul_lo_u32 v5, s1, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_mul_lo_u32 v4, s0, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_mul_lo_u32 v8, v0, v3
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_hi_u32 v10, v0, v3
; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4
; GCN-NEXT: v_mul_hi_u32 v5, v2, v3
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v7, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: s_add_u32 s0, s2, s10
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: s_addc_u32 s1, s3, s10
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: s_xor_b64 s[14:15], s[0:1], s[10:11]
; GCN-NEXT: v_mul_lo_u32 v3, s14, v2
; GCN-NEXT: v_mul_hi_u32 v4, s14, v0
; GCN-NEXT: v_mul_hi_u32 v5, s14, v2
; GCN-NEXT: v_mul_hi_u32 v6, s15, v2
; GCN-NEXT: v_mul_lo_u32 v2, s15, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v5, s15, v0
; GCN-NEXT: v_mul_hi_u32 v0, s15, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v4, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v6, v5, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[0:1], v5, v3, 0
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v4, v0, 0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v4, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v6, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v5, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v4, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s6, v6, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s6, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s8, v6
		; GCN-NEXT: v_mul_hi_u32 v10, v6, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v6, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: s_ashr_i32 s6, s7, 31
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
		; GCN-NEXT: s_add_u32 s0, s2, s6
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v6, v0
		; GCN-NEXT: s_mov_b32 s7, s6
		; GCN-NEXT: s_addc_u32 s1, s3, s6
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
		; GCN-NEXT: s_xor_b64 s[14:15], s[0:1], s[6:7]
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s14, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v4, s14, v2
		; GCN-NEXT: s_mov_b32 s8, s4
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s15, v2, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s15, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v8, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v3, s12, v0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s12, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v2, s13, v2
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s15, v1		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s15, v1
; GCN-NEXT: v_mov_b32_e32 v3, s13		; GCN-NEXT: v_mov_b32_e32 v3, s13
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s14, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s14, v0
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
Show All 13 Lines
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_xor_b32_e32 v0, s10, v0		; GCN-NEXT: v_xor_b32_e32 v0, s6, v0
; GCN-NEXT: v_xor_b32_e32 v1, s10, v1		; GCN-NEXT: v_xor_b32_e32 v1, s6, v1
; GCN-NEXT: v_mov_b32_e32 v2, s10		; GCN-NEXT: v_mov_b32_e32 v2, s6
; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s10, v0		; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem33_64:		; GCN-IR-LABEL: s_test_srem33_64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[6:7], 31		; GCN-IR-NEXT: s_ashr_i64 s[2:3], s[6:7], 31
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: v_mov_b32_e32 v1, s7		; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
; GCN-IR-NEXT: s_branch BB8_6		; GCN-IR-NEXT: s_branch BB8_6
; GCN-IR-NEXT: BB8_5:		; GCN-IR-NEXT: BB8_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]		; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]
; GCN-IR-NEXT: BB8_6: ; %udiv-end		; GCN-IR-NEXT: BB8_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s8, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s8, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s8, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[10:11], s8, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s9, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s9, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s8, v0
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3		; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v1, vcc, s2, v1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v0, vcc, v2, v0, vcc
; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0		; GCN-IR-NEXT: v_xor_b32_e32 v1, s0, v1
; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1		; GCN-IR-NEXT: v_xor_b32_e32 v2, s1, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s1		; GCN-IR-NEXT: v_mov_b32_e32 v3, s1
; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0		; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v1
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v3, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 31		%1 = ashr i64 %x, 31
%2 = ashr i64 %y, 31		%2 = ashr i64 %y, 31
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: v_mov_b32_e32 v1, s9		; GCN-IR-NEXT: v_mov_b32_e32 v1, s9
; GCN-IR-NEXT: s_branch BB9_6		; GCN-IR-NEXT: s_branch BB9_6
; GCN-IR-NEXT: BB9_5:		; GCN-IR-NEXT: BB9_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]		; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[16:17]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[16:17]
; GCN-IR-NEXT: BB9_6: ; %udiv-end		; GCN-IR-NEXT: BB9_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s6, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s6, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s6, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[8:9], s6, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s7, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s7, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s6, v0
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3		; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v1, vcc, s2, v1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v0, vcc, v2, v0, vcc
; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0		; GCN-IR-NEXT: v_xor_b32_e32 v1, s0, v1
; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1		; GCN-IR-NEXT: v_xor_b32_e32 v0, s1, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s1		; GCN-IR-NEXT: v_mov_b32_e32 v2, s1
; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0		; GCN-IR-NEXT: v_subrev_i32_e32 v1, vcc, s0, v1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v0, vcc, v0, v2, vcc
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4		; GCN-IR-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
; GCN-IR-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dword v1, off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i48 %x, 24		%1 = ashr i48 %x, 24
%2 = ashr i48 %y, 24		%2 = ashr i48 %y, 24
%result = srem i48 %1, %2		%result = srem i48 %1, %2
store i48 %result, i48 addrspace(1)* %out		store i48 %result, i48 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem_k_num_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_srem_k_num_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_srem_k_num_i64:		; GCN-LABEL: s_test_srem_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i32 s4, s3, 31		; GCN-NEXT: s_ashr_i32 s4, s3, 31
; GCN-NEXT: s_add_u32 s2, s2, s4		; GCN-NEXT: s_add_u32 s2, s2, s4
; GCN-NEXT: s_mov_b32 s5, s4		; GCN-NEXT: s_mov_b32 s5, s4
; GCN-NEXT: s_addc_u32 s3, s3, s4		; GCN-NEXT: s_addc_u32 s3, s3, s4
; GCN-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]		; GCN-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s9		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s9
; GCN-NEXT: s_sub_u32 s2, 0, s8		; GCN-NEXT: s_sub_u32 s4, 0, s8
; GCN-NEXT: s_subb_u32 s3, 0, s9		; GCN-NEXT: s_subb_u32 s5, 0, s9
; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s2, v3		; GCN-NEXT: v_mul_lo_u32 v2, s4, v5
; GCN-NEXT: v_mul_hi_u32 v5, s2, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s4, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s3, v0		; GCN-NEXT: v_mul_lo_u32 v3, s5, v8
; GCN-NEXT: v_mul_lo_u32 v6, s2, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6
; GCN-NEXT: v_mul_hi_u32 v10, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s2, v3
; GCN-NEXT: v_mul_hi_u32 v5, s2, v0
; GCN-NEXT: v_mul_lo_u32 v6, s3, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_lo_u32 v5, s2, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v1, 24
; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v2, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v1, s9, v0
; GCN-NEXT: v_mul_hi_u32 v2, s8, v0
; GCN-NEXT: v_mul_lo_u32 v0, s8, v0
; GCN-NEXT: v_mov_b32_e32 v3, s9
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v8, v10, 0
		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[2:3], v5, v0, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v10, 0
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s4, v8, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s4, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s5, v8
		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[2:3], v8, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], 24, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
		; GCN-NEXT: s_mov_b32 s4, s0
		; GCN-NEXT: s_mov_b32 s5, s1
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], 0, v3, 0
		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v3, s8, v0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s8, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v2, s9, v2
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1		; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
		; GCN-NEXT: v_mov_b32_e32 v3, s9
; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_or_b64 s[2:3], s[2:3], s[6:7]		; GCN-IR-NEXT: s_or_b64 s[2:3], s[2:3], s[6:7]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v1, s3
; GCN-IR-NEXT: s_branch BB10_6		; GCN-IR-NEXT: s_branch BB10_6
; GCN-IR-NEXT: BB10_5:		; GCN-IR-NEXT: BB10_5:
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]
; GCN-IR-NEXT: BB10_6: ; %udiv-end		; GCN-IR-NEXT: BB10_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s4, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[6:7], s4, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s5, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v1
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v2, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = srem i64 24, %x		%result = srem i64 24, %x
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_srem_k_num_i64(i64 %x) {		define i64 @v_test_srem_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_srem_k_num_i64:		; GCN-LABEL: v_test_srem_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc
; GCN-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-NEXT: v_xor_b32_e32 v6, v1, v2
; GCN-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-NEXT: v_xor_b32_e32 v7, v0, v2
; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v0, v7
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v1, v6
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v7
; GCN-NEXT: v_subb_u32_e32 v5, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v9, vcc, 0, v6, vcc
; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v2, v2		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: v_mov_b32_e32 v11, 0		; GCN-NEXT: v_mov_b32_e32 v11, 0
; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_mul_hi_u32 v6, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v4, 0
; GCN-NEXT: v_mul_lo_u32 v7, v4, v3		; GCN-NEXT: v_mul_lo_u32 v2, v8, v5
; GCN-NEXT: v_mul_lo_u32 v8, v5, v2		; GCN-NEXT: v_mul_lo_u32 v3, v9, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; GCN-NEXT: v_mul_hi_u32 v10, v4, v0
; GCN-NEXT: v_mul_lo_u32 v7, v4, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v9, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v10, v2, v7		; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v1
; GCN-NEXT: v_mul_hi_u32 v8, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v13, v3, v6		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v12, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_add_i32_e32 v0, vcc, v10, v0
; GCN-NEXT: v_mul_lo_u32 v10, v3, v7		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v13, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v7, v3, v7		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v11, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v12, v8, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v12, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v8, v7, vcc		; GCN-NEXT: v_add_i32_e32 v10, vcc, v4, v0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v11, vcc		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v10, 0
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v8, vcc		; GCN-NEXT: v_mul_lo_u32 v4, v8, v13
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; GCN-NEXT: v_mul_lo_u32 v5, v9, v10
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; GCN-NEXT: v_mul_hi_u32 v8, v10, v0
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v13, v0, 0
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v5, v5, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_mul_lo_u32 v4, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v1, 0
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v13, v1, 0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v9, v2, v4
; GCN-NEXT: v_mul_hi_u32 v10, v2, v5
; GCN-NEXT: v_mul_hi_u32 v7, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_mul_hi_u32 v6, v3, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v12, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v5, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v11, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v12, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, 24		; GCN-NEXT: v_add_i32_e32 v2, vcc, v10, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 24, v3, 0
; GCN-NEXT: v_mul_hi_u32 v2, v2, 24		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
; GCN-NEXT: v_mul_hi_u32 v3, v3, 24		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v12, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v12, v3, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 0, v3, 0
; GCN-NEXT: v_mul_lo_u32 v3, v1, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
; GCN-NEXT: v_mul_hi_u32 v4, v0, v2		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v2, v0, v2		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v12, v1, vcc
; GCN-NEXT: v_sub_i32_e32 v2, vcc, 24, v2		; GCN-NEXT: v_mul_lo_u32 v3, v7, v0
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v7, v2, 0
; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v2, v0		; GCN-NEXT: v_mul_lo_u32 v2, v6, v2
; GCN-NEXT: v_subbrev_u32_e64 v6, s[6:7], 0, v4, s[4:5]		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]		; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v5, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v6, vcc
		; GCN-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v7
		; GCN-NEXT: v_subbrev_u32_e64 v4, s[6:7], 0, v2, s[4:5]
		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v4, v6
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[6:7]
		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v3, v7
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v4, v6
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, s[4:5]		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v6, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v8, s[6:7]
; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v0		; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v7
; GCN-NEXT: v_subb_u32_e32 v3, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[4:5], 0, v2, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v6
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v5
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v7
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v6
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v8, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v8, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v2, s[4:5]
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e64 v1, v6, v4, s[4:5]		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v5, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_srem_k_num_i64:		; GCN-IR-LABEL: v_test_srem_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v2
; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0		; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0
; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, 32, v2		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, 32, v2
; GCN-IR-NEXT: v_ffbh_u32_e32 v3, v1		; GCN-IR-NEXT: v_ffbh_u32_e32 v3, v1
; GCN-IR-NEXT: v_min_u32_e32 v6, v2, v3		; GCN-IR-NEXT: v_min_u32_e32 v6, v2, v3
; GCN-IR-NEXT: s_movk_i32 s6, 0xffc5		; GCN-IR-NEXT: s_movk_i32 s6, 0xffc5
; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, s6, v6		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, s6, v6
; GCN-IR-NEXT: v_addc_u32_e64 v4, s[6:7], 0, -1, vcc		; GCN-IR-NEXT: v_addc_u32_e64 v3, s[6:7], 0, -1, vcc
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]
; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, 63, v[3:4]		; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, 63, v[2:3]
; GCN-IR-NEXT: v_mov_b32_e32 v7, 0		; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], vcc		; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], vcc
; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[3:4]		; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[2:3]
; GCN-IR-NEXT: v_cndmask_b32_e64 v2, 24, 0, s[4:5]		; GCN-IR-NEXT: v_cndmask_b32_e64 v4, 24, 0, s[4:5]
; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1		; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
; GCN-IR-NEXT: v_mov_b32_e32 v5, v7		; GCN-IR-NEXT: v_mov_b32_e32 v5, v7
; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc		; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]		; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
; GCN-IR-NEXT: s_cbranch_execz BB11_6		; GCN-IR-NEXT: s_cbranch_execz BB11_6
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, 1, v3		; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, 1, v2
; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, 0, v4, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v3		; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[8:9], v[2:3]
; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[8:9], v[3:4]		; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v2
; GCN-IR-NEXT: v_lshl_b64 v[2:3], 24, v2		; GCN-IR-NEXT: v_lshl_b64 v[2:3], 24, v2
; GCN-IR-NEXT: v_mov_b32_e32 v4, 0		; GCN-IR-NEXT: v_mov_b32_e32 v4, 0
; GCN-IR-NEXT: v_mov_b32_e32 v5, 0		; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], 0		; GCN-IR-NEXT: s_mov_b64 s[10:11], 0
; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-IR-NEXT: s_xor_b64 s[8:9], exec, s[4:5]		; GCN-IR-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
; GCN-IR-NEXT: s_cbranch_execz BB11_5		; GCN-IR-NEXT: s_cbranch_execz BB11_5
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
Show All 32 Lines
; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: s_cbranch_execnz BB11_3		; GCN-IR-NEXT: s_cbranch_execnz BB11_3
; GCN-IR-NEXT: ; %bb.4: ; %Flow		; GCN-IR-NEXT: ; %bb.4: ; %Flow
; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: BB11_5: ; %Flow3		; GCN-IR-NEXT: BB11_5: ; %Flow3
; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1		; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3		; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
; GCN-IR-NEXT: v_or_b32_e32 v2, v4, v2		; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2
; GCN-IR-NEXT: BB11_6: ; %Flow4		; GCN-IR-NEXT: BB11_6: ; %Flow4
; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
; GCN-IR-NEXT: v_mul_lo_u32 v3, v0, v5		; GCN-IR-NEXT: v_mul_lo_u32 v5, v0, v5
; GCN-IR-NEXT: v_mul_hi_u32 v4, v0, v2		; GCN-IR-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v4, 0
; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v2		; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v4
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v5
; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v0
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 24, %x		%result = srem i64 24, %x
ret i64 %result		ret i64 %result
}		}

define i64 @v_test_srem_pow2_k_num_i64(i64 %x) {		define i64 @v_test_srem_pow2_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_srem_pow2_k_num_i64:		; GCN-LABEL: v_test_srem_pow2_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v2, vcc
; GCN-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-NEXT: v_xor_b32_e32 v6, v1, v2
; GCN-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-NEXT: v_xor_b32_e32 v7, v0, v2
; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v0, v7
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v1, v6
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v7
; GCN-NEXT: v_subb_u32_e32 v5, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v9, vcc, 0, v6, vcc
; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v2, v2		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: v_mov_b32_e32 v11, 0		; GCN-NEXT: v_mov_b32_e32 v11, 0
; GCN-NEXT: s_mov_b32 s4, 0x8000		; GCN-NEXT: s_mov_b32 s6, 0x8000
; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_mul_hi_u32 v6, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v4, 0
; GCN-NEXT: v_mul_lo_u32 v7, v4, v3		; GCN-NEXT: v_mul_lo_u32 v2, v8, v5
; GCN-NEXT: v_mul_lo_u32 v8, v5, v2		; GCN-NEXT: v_mul_lo_u32 v3, v9, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; GCN-NEXT: v_mul_hi_u32 v10, v4, v0
; GCN-NEXT: v_mul_lo_u32 v7, v4, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v9, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v10, v2, v7		; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v1
; GCN-NEXT: v_mul_hi_u32 v8, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v13, v3, v6		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v12, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GCN-NEXT: v_add_i32_e32 v0, vcc, v10, v0
; GCN-NEXT: v_mul_lo_u32 v10, v3, v7		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v13, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v7, v3, v7		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v11, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v12, v8, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v12, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v8, v7, vcc		; GCN-NEXT: v_add_i32_e32 v10, vcc, v4, v0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v11, vcc		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v8, v10, 0
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v8, vcc		; GCN-NEXT: v_mul_lo_u32 v4, v8, v13
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; GCN-NEXT: v_mul_lo_u32 v5, v9, v10
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; GCN-NEXT: v_mul_hi_u32 v8, v10, v0
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v13, v0, 0
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v5, v5, v2		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GCN-NEXT: v_mul_lo_u32 v4, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v1, 0
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v13, v1, 0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v9, v2, v4
; GCN-NEXT: v_mul_hi_u32 v10, v2, v5
; GCN-NEXT: v_mul_hi_u32 v7, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_mul_hi_u32 v6, v3, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v12, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v5, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v11, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v6, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v12, v1, vcc
; GCN-NEXT: v_lshrrev_b32_e32 v4, 17, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v10, v0
; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v13, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v3, 0
; GCN-NEXT: v_lshrrev_b32_e32 v2, 17, v2		; GCN-NEXT: v_lshrrev_b32_e32 v2, 17, v2
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v12, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v12, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v1, v2		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], 0, v3, 0
; GCN-NEXT: v_mul_hi_u32 v4, v0, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, 0, v2
; GCN-NEXT: v_mul_lo_u32 v2, v0, v2		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s4, v2		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v12, v1, vcc
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, vcc		; GCN-NEXT: v_mul_lo_u32 v3, v7, v0
; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v2, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v7, v2, 0
; GCN-NEXT: v_subbrev_u32_e64 v6, s[6:7], 0, v4, s[4:5]		; GCN-NEXT: v_mul_lo_u32 v2, v6, v2
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v5, v0		; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v6, vcc
		; GCN-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v7
		; GCN-NEXT: v_subbrev_u32_e64 v4, s[6:7], 0, v2, s[4:5]
		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v4, v6
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[6:7]
		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v3, v7
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v4, v6
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, s[4:5]		; GCN-NEXT: v_subb_u32_e64 v2, s[4:5], v2, v6, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v8, s[6:7]
; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v0		; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v7
; GCN-NEXT: v_subb_u32_e32 v3, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[4:5], 0, v2, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v6
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v5
		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v7
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v6
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v8, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v8, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v2, s[4:5]
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e64 v1, v6, v4, s[4:5]		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v5, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_srem_pow2_k_num_i64:		; GCN-IR-LABEL: v_test_srem_pow2_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1		; GCN-IR-NEXT: v_ashrrev_i32_e32 v2, 31, v1
; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v2		; GCN-IR-NEXT: v_xor_b32_e32 v0, v0, v2
; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2		; GCN-IR-NEXT: v_xor_b32_e32 v1, v1, v2
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: BB12_5: ; %Flow3		; GCN-IR-NEXT: BB12_5: ; %Flow3
; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1		; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3		; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2		; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2
; GCN-IR-NEXT: BB12_6: ; %Flow4		; GCN-IR-NEXT: BB12_6: ; %Flow4
; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5		; GCN-IR-NEXT: v_mul_lo_u32 v5, v0, v5
; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4		; GCN-IR-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v4, 0
; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4		; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v4
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v5
; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v0
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 32768, %x		%result = srem i64 32768, %x
ret i64 %result		ret i64 %result
}		}

define i64 @v_test_srem_pow2_k_den_i64(i64 %x) {		define i64 @v_test_srem_pow2_k_den_i64(i64 %x) {
; GCN-LABEL: v_test_srem_pow2_k_den_i64:		; GCN-LABEL: v_test_srem_pow2_k_den_i64:
▲ Show 20 Lines • Show All 362 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv.ll

	Show First 20 Lines • Show All 2,480 Lines • ▼ Show 20 Lines

	define i64 @v_test_udiv64_mulhi_fold(i64 %arg) {			define i64 @v_test_udiv64_mulhi_fold(i64 %arg) {
	; SI-LABEL: v_test_udiv64_mulhi_fold:			; SI-LABEL: v_test_udiv64_mulhi_fold:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v2, 0x4f800000			; SI-NEXT: v_mov_b32_e32 v2, 0x4f800000
	; SI-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000			; SI-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000
	; SI-NEXT: v_rcp_f32_e32 v2, v2			; SI-NEXT: v_rcp_f32_e32 v2, v2
	; SI-NEXT: s_mov_b32 s4, 0xfffe7960			; SI-NEXT: s_mov_b32 s6, 0xfffe7960
	; SI-NEXT: v_mov_b32_e32 v10, 0			; SI-NEXT: v_mov_b32_e32 v10, 0
	; SI-NEXT: v_mov_b32_e32 v9, 0			; SI-NEXT: v_mov_b32_e32 v9, 0
	; SI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; SI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; SI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; SI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; SI-NEXT: v_trunc_f32_e32 v3, v3			; SI-NEXT: v_trunc_f32_e32 v3, v3
	; SI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; SI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; SI-NEXT: v_cvt_u32_f32_e32 v2, v2			; SI-NEXT: v_cvt_u32_f32_e32 v6, v2
	; SI-NEXT: v_cvt_u32_f32_e32 v3, v3			; SI-NEXT: v_cvt_u32_f32_e32 v7, v3
	; SI-NEXT: v_mul_hi_u32 v4, v2, s4			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; SI-NEXT: v_mul_lo_u32 v5, v3, s4			; SI-NEXT: v_mul_lo_u32 v4, v7, s6
	; SI-NEXT: v_mul_lo_u32 v6, v2, s4			; SI-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4			; SI-NEXT: v_add_i32_e32 v5, vcc, v4, v3
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; SI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; SI-NEXT: v_mul_lo_u32 v7, v2, v4			; SI-NEXT: v_mul_hi_u32 v8, v6, v2
	; SI-NEXT: v_mul_hi_u32 v8, v2, v6			; SI-NEXT: v_add_i32_e32 v8, vcc, v8, v3
	; SI-NEXT: v_mul_hi_u32 v5, v2, v4			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; SI-NEXT: v_mul_hi_u32 v11, v3, v4			; SI-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; SI-NEXT: v_mul_lo_u32 v4, v3, v4			; SI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; SI-NEXT: v_add_i32_e32 v7, vcc, v8, v7			; SI-NEXT: v_add_i32_e32 v2, vcc, v8, v2
	; SI-NEXT: v_mul_lo_u32 v8, v3, v6			; SI-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; SI-NEXT: v_mul_hi_u32 v6, v3, v6			; SI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v10, v5, vcc
	; SI-NEXT: v_add_i32_e32 v7, vcc, v7, v8
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v5, v6, vcc
	; SI-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; SI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; SI-NEXT: v_mul_hi_u32 v4, v2, s4			; SI-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; SI-NEXT: v_mul_lo_u32 v5, v3, s4			; SI-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
	; SI-NEXT: v_mul_lo_u32 v6, v2, s4			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; SI-NEXT: s_mov_b32 s4, 0x186a0			; SI-NEXT: v_mul_lo_u32 v4, v7, s6
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4			; SI-NEXT: s_mov_b32 s6, 0x186a0
	; SI-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; SI-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
	; SI-NEXT: v_mul_lo_u32 v5, v2, v4			; SI-NEXT: v_add_i32_e32 v5, vcc, v3, v4
	; SI-NEXT: v_mul_hi_u32 v7, v2, v6			; SI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; SI-NEXT: v_mul_hi_u32 v8, v2, v4			; SI-NEXT: v_mul_hi_u32 v8, v6, v2
	; SI-NEXT: v_mul_hi_u32 v11, v3, v4			; SI-NEXT: v_add_i32_e32 v8, vcc, v8, v3
	; SI-NEXT: v_mul_lo_u32 v4, v3, v4			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; SI-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; SI-NEXT: v_addc_u32_e32 v7, vcc, v10, v8, vcc			; SI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; SI-NEXT: v_mul_lo_u32 v8, v3, v6			; SI-NEXT: v_add_i32_e32 v2, vcc, v8, v2
	; SI-NEXT: v_mul_hi_u32 v6, v3, v6			; SI-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; SI-NEXT: v_add_i32_e32 v5, vcc, v5, v8			; SI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
	; SI-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; SI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; SI-NEXT: v_mul_lo_u32 v4, v0, v3			; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v2
	; SI-NEXT: v_mul_hi_u32 v5, v0, v2			; SI-NEXT: v_addc_u32_e32 v5, vcc, v7, v3, vcc
	; SI-NEXT: v_mul_hi_u32 v6, v0, v3			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v5, 0
	; SI-NEXT: v_mul_hi_u32 v7, v1, v3			; SI-NEXT: v_mul_hi_u32 v6, v0, v4
	; SI-NEXT: v_mul_lo_u32 v3, v1, v3			; SI-NEXT: v_add_i32_e32 v6, vcc, v6, v2
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; SI-NEXT: v_addc_u32_e32 v7, vcc, v10, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v1, v4, 0
	; SI-NEXT: v_mul_lo_u32 v6, v1, v2			; SI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v5, 0
	; SI-NEXT: v_mul_hi_u32 v2, v1, v2			; SI-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; SI-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; SI-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc			; SI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; SI-NEXT: v_addc_u32_e32 v4, vcc, v7, v9, vcc			; SI-NEXT: v_add_i32_e32 v4, vcc, v2, v4
	; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; SI-NEXT: v_addc_u32_e32 v5, vcc, v10, v3, vcc
	; SI-NEXT: v_addc_u32_e32 v3, vcc, v10, v4, vcc			; SI-NEXT: v_mul_lo_u32 v6, v5, s6
	; SI-NEXT: v_mul_lo_u32 v4, v3, s4			; SI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, s6, 0
	; SI-NEXT: v_mul_hi_u32 v5, v2, s4
	; SI-NEXT: v_mul_lo_u32 v6, v2, s4
	; SI-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; SI-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
	; SI-NEXT: v_subb_u32_e32 v1, vcc, v1, v4, vcc
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, s4, v0
	; SI-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v1, vcc
	; SI-NEXT: s_mov_b32 s4, 0x1869f			; SI-NEXT: s_mov_b32 s4, 0x1869f
	; SI-NEXT: v_cmp_lt_u32_e32 vcc, s4, v4			; SI-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; SI-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; SI-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5			; SI-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; SI-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc			; SI-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; SI-NEXT: v_add_i32_e32 v5, vcc, 2, v2			; SI-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; SI-NEXT: v_addc_u32_e32 v6, vcc, 0, v3, vcc			; SI-NEXT: v_cmp_lt_u32_e32 vcc, s4, v2
	; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v2			; SI-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
				; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
				; SI-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc
				; SI-NEXT: v_add_i32_e32 v3, vcc, 2, v4
				; SI-NEXT: v_addc_u32_e32 v6, vcc, 0, v5, vcc
				; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v4
	; SI-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0			; SI-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0
	; SI-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc			; SI-NEXT: v_addc_u32_e32 v8, vcc, 0, v5, vcc
	; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]
	; SI-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1			; SI-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1
	; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; SI-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]
	; SI-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc			; SI-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc
	; SI-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0			; SI-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
	; SI-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc
	; SI-NEXT: v_cndmask_b32_e64 v0, v2, v4, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v0, v4, v2, s[4:5]
	; SI-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v1, v5, v1, s[4:5]
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_test_udiv64_mulhi_fold:			; VI-LABEL: v_test_udiv64_mulhi_fold:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v2, 0x4f800000			; VI-NEXT: v_mov_b32_e32 v2, 0x4f800000
	; VI-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000			; VI-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000
	; VI-NEXT: v_rcp_f32_e32 v2, v2			; VI-NEXT: v_rcp_f32_e32 v2, v2
	; VI-NEXT: s_mov_b32 s4, 0xfffe7960			; VI-NEXT: s_mov_b32 s6, 0xfffe7960
	; VI-NEXT: v_mov_b32_e32 v10, 0			; VI-NEXT: v_mov_b32_e32 v10, 0
	; VI-NEXT: v_mov_b32_e32 v9, 0			; VI-NEXT: v_mov_b32_e32 v9, 0
	; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; VI-NEXT: v_trunc_f32_e32 v3, v3			; VI-NEXT: v_trunc_f32_e32 v3, v3
	; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v2			; VI-NEXT: v_cvt_u32_f32_e32 v6, v2
	; VI-NEXT: v_cvt_u32_f32_e32 v3, v3			; VI-NEXT: v_cvt_u32_f32_e32 v7, v3
	; VI-NEXT: v_mul_hi_u32 v4, v2, s4			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; VI-NEXT: v_mul_lo_u32 v5, v3, s4			; VI-NEXT: v_mul_lo_u32 v4, v7, s6
	; VI-NEXT: v_mul_lo_u32 v6, v2, s4			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; VI-NEXT: v_subrev_u32_e32 v4, vcc, v2, v4			; VI-NEXT: v_add_u32_e32 v5, vcc, v4, v3
	; VI-NEXT: v_add_u32_e32 v4, vcc, v5, v4			; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; VI-NEXT: v_mul_lo_u32 v7, v2, v4			; VI-NEXT: v_mul_hi_u32 v8, v6, v2
	; VI-NEXT: v_mul_hi_u32 v8, v2, v6			; VI-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; VI-NEXT: v_mul_hi_u32 v5, v2, v4			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; VI-NEXT: v_mul_hi_u32 v11, v3, v4			; VI-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; VI-NEXT: v_mul_lo_u32 v4, v3, v4			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; VI-NEXT: v_add_u32_e32 v7, vcc, v8, v7			; VI-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	; VI-NEXT: v_mul_lo_u32 v8, v3, v6			; VI-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; VI-NEXT: v_mul_hi_u32 v6, v3, v6			; VI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v10, v5, vcc
	; VI-NEXT: v_add_u32_e32 v7, vcc, v7, v8
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v5, v6, vcc
	; VI-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; VI-NEXT: v_mul_hi_u32 v4, v2, s4			; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; VI-NEXT: v_mul_lo_u32 v5, v3, s4			; VI-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
	; VI-NEXT: v_mul_lo_u32 v6, v2, s4			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; VI-NEXT: s_mov_b32 s4, 0x186a0			; VI-NEXT: v_mul_lo_u32 v4, v7, s6
	; VI-NEXT: v_subrev_u32_e32 v4, vcc, v2, v4			; VI-NEXT: s_mov_b32 s6, 0x186a0
	; VI-NEXT: v_add_u32_e32 v4, vcc, v4, v5			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; VI-NEXT: v_mul_lo_u32 v5, v2, v4			; VI-NEXT: v_add_u32_e32 v5, vcc, v3, v4
	; VI-NEXT: v_mul_hi_u32 v7, v2, v6			; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; VI-NEXT: v_mul_hi_u32 v8, v2, v4			; VI-NEXT: v_mul_hi_u32 v8, v6, v2
	; VI-NEXT: v_mul_hi_u32 v11, v3, v4			; VI-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; VI-NEXT: v_mul_lo_u32 v4, v3, v4			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5			; VI-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; VI-NEXT: v_addc_u32_e32 v7, vcc, v10, v8, vcc			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; VI-NEXT: v_mul_lo_u32 v8, v3, v6			; VI-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	; VI-NEXT: v_mul_hi_u32 v6, v3, v6			; VI-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; VI-NEXT: v_add_u32_e32 v5, vcc, v5, v8			; VI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
	; VI-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; VI-NEXT: v_mul_lo_u32 v4, v0, v3			; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v2
	; VI-NEXT: v_mul_hi_u32 v5, v0, v2			; VI-NEXT: v_addc_u32_e32 v5, vcc, v7, v3, vcc
	; VI-NEXT: v_mul_hi_u32 v6, v0, v3			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v5, 0
	; VI-NEXT: v_mul_hi_u32 v7, v1, v3			; VI-NEXT: v_mul_hi_u32 v6, v0, v4
	; VI-NEXT: v_mul_lo_u32 v3, v1, v3			; VI-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; VI-NEXT: v_add_u32_e32 v4, vcc, v5, v4			; VI-NEXT: v_addc_u32_e32 v7, vcc, v10, v3, vcc
	; VI-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v1, v4, 0
	; VI-NEXT: v_mul_lo_u32 v6, v1, v2			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v5, 0
	; VI-NEXT: v_mul_hi_u32 v2, v1, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v6, v2
	; VI-NEXT: v_add_u32_e32 v4, vcc, v4, v6			; VI-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
	; VI-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; VI-NEXT: v_addc_u32_e32 v4, vcc, v7, v9, vcc			; VI-NEXT: v_add_u32_e32 v4, vcc, v2, v4
	; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; VI-NEXT: v_addc_u32_e32 v5, vcc, v10, v3, vcc
	; VI-NEXT: v_addc_u32_e32 v3, vcc, v10, v4, vcc			; VI-NEXT: v_mul_lo_u32 v6, v5, s6
	; VI-NEXT: v_mul_lo_u32 v4, v3, s4			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, s6, 0
	; VI-NEXT: v_mul_hi_u32 v5, v2, s4
	; VI-NEXT: v_mul_lo_u32 v6, v2, s4
	; VI-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_subb_u32_e32 v1, vcc, v1, v4, vcc
	; VI-NEXT: v_subrev_u32_e32 v4, vcc, s4, v0
	; VI-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: s_mov_b32 s4, 0x1869f			; VI-NEXT: s_mov_b32 s4, 0x1869f
	; VI-NEXT: v_cmp_lt_u32_e32 vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v3, vcc, v3, v6
	; VI-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5			; VI-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; VI-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc			; VI-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; VI-NEXT: v_add_u32_e32 v5, vcc, 2, v2			; VI-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: v_addc_u32_e32 v6, vcc, 0, v3, vcc			; VI-NEXT: v_cmp_lt_u32_e32 vcc, s4, v2
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v2			; VI-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
				; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
				; VI-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc
				; VI-NEXT: v_add_u32_e32 v3, vcc, 2, v4
				; VI-NEXT: v_addc_u32_e32 v6, vcc, 0, v5, vcc
				; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; VI-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0			; VI-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0
	; VI-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v8, vcc, 0, v5, vcc
	; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]
	; VI-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1			; VI-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1
	; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; VI-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]
	; VI-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc			; VI-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc
	; VI-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0			; VI-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
	; VI-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc
	; VI-NEXT: v_cndmask_b32_e64 v0, v2, v4, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v0, v4, v2, s[4:5]
	; VI-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v1, v5, v1, s[4:5]
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-LABEL: v_test_udiv64_mulhi_fold:			; GCN-LABEL: v_test_udiv64_mulhi_fold:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000			; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000
	; GCN-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000			; GCN-NEXT: v_madak_f32 v2, 0, v2, 0x47c35000
	; GCN-NEXT: v_rcp_f32_e32 v2, v2			; GCN-NEXT: v_rcp_f32_e32 v2, v2
	; GCN-NEXT: s_mov_b32 s4, 0xfffe7960			; GCN-NEXT: s_mov_b32 s6, 0xfffe7960
	; GCN-NEXT: v_mov_b32_e32 v10, 0			; GCN-NEXT: v_mov_b32_e32 v10, 0
	; GCN-NEXT: v_mov_b32_e32 v9, 0			; GCN-NEXT: v_mov_b32_e32 v9, 0
	; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v2, s4			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; GCN-NEXT: v_mul_lo_u32 v5, v3, s4			; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s4			; GCN-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_subrev_u32_e32 v4, vcc, v2, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, v4, v3
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v4			; GCN-NEXT: v_mul_hi_u32 v8, v6, v2
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v6			; GCN-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v2, v4			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v4			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v4			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; GCN-NEXT: v_add_u32_e32 v7, vcc, v8, v7			; GCN-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	; GCN-NEXT: v_mul_lo_u32 v8, v3, v6			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v6, v3, v6			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v7, vcc, v7, v8
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v4, v2, s4			; GCN-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; GCN-NEXT: v_mul_lo_u32 v5, v3, s4			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s4			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; GCN-NEXT: s_mov_b32 s4, 0x186a0			; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
	; GCN-NEXT: v_subrev_u32_e32 v4, vcc, v2, v4			; GCN-NEXT: s_mov_b32 s6, 0x186a0
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v4, v5			; GCN-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_mul_lo_u32 v5, v2, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, v3, v4
	; GCN-NEXT: v_mul_hi_u32 v7, v2, v6			; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v4			; GCN-NEXT: v_mul_hi_u32 v8, v6, v2
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v4			; GCN-NEXT: v_add_u32_e32 v8, vcc, v8, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v4			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; GCN-NEXT: v_add_u32_e32 v5, vcc, v7, v5			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v10, v8, vcc			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
	; GCN-NEXT: v_mul_lo_u32 v8, v3, v6			; GCN-NEXT: v_add_u32_e32 v2, vcc, v8, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v3, v6			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
	; GCN-NEXT: v_add_u32_e32 v5, vcc, v5, v8			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v0, v3			; GCN-NEXT: v_add_u32_e32 v4, vcc, v6, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v2			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v3			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v5, 0
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v3			; GCN-NEXT: v_mul_hi_u32 v6, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v3, v1, v3			; GCN-NEXT: v_add_u32_e32 v6, vcc, v6, v2
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v10, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v1, v4, 0
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v2			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v5, 0
	; GCN-NEXT: v_mul_hi_u32 v2, v1, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v6, v2
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v9, vcc			; GCN-NEXT: v_add_u32_e32 v4, vcc, v2, v4
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v4, vcc			; GCN-NEXT: v_mul_lo_u32 v6, v5, s6
	; GCN-NEXT: v_mul_lo_u32 v4, v3, s4			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, s6, 0
	; GCN-NEXT: v_mul_hi_u32 v5, v2, s4
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s4
	; GCN-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v4, vcc
	; GCN-NEXT: v_subrev_u32_e32 v4, vcc, s4, v0
	; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v1, vcc
	; GCN-NEXT: s_mov_b32 s4, 0x1869f			; GCN-NEXT: s_mov_b32 s4, 0x1869f
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s4, v4			; GCN-NEXT: v_add_u32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc			; GCN-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 2, v2			; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v3, vcc			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s4, v2
	; GCN-NEXT: v_add_u32_e32 v7, vcc, 1, v2			; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
				; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
				; GCN-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc
				; GCN-NEXT: v_add_u32_e32 v3, vcc, 2, v4
				; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v5, vcc
				; GCN-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; GCN-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0			; GCN-NEXT: v_cmp_lt_u32_e64 s[4:5], s4, v0
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v5, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1			; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]
	; GCN-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc
	; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0			; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
	; GCN-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v0, v2, v4, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v0, v4, v2, s[4:5]
	; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v1, v5, v1, s[4:5]
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX1030-LABEL: v_test_udiv64_mulhi_fold:			; GFX1030-LABEL: v_test_udiv64_mulhi_fold:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX1030-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1030-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1030-NEXT: s_mov_b32 s4, 0x346d900			; GFX1030-NEXT: s_mov_b32 s4, 0x346d900
	; GFX1030-NEXT: s_mov_b32 s5, 0xfffe7960			; GFX1030-NEXT: s_mov_b32 s5, 0xfffe7960
	Show All 16 Lines
	; GFX1030-NEXT: v_mul_lo_u32 v3, s4, v3			; GFX1030-NEXT: v_mul_lo_u32 v3, s4, v3
	; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v5, v6			; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v5, v6
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v7, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v7, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v4, vcc_lo, v5, v4			; GFX1030-NEXT: v_add_co_u32 v4, vcc_lo, v5, v4
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, v6, v8, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, v6, v8, vcc_lo
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v9, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v9, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v3, vcc_lo, v4, v3			; GFX1030-NEXT: v_add_co_u32 v3, vcc_lo, v4, v3
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v5, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v5, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v2, v3			; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v2, v3
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, s4, v4, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, s4, v4, vcc_lo
				; GFX1030-NEXT: v_mul_hi_u32 v8, v0, v5
				; GFX1030-NEXT: v_mad_u64_u32 v[4:5], s4, v1, v5, 0
				; GFX1030-NEXT: v_mad_u64_u32 v[2:3], s4, v0, v6, 0
				; GFX1030-NEXT: v_mad_u64_u32 v[6:7], s4, v1, v6, 0
	; GFX1030-NEXT: s_mov_b32 s4, 0x186a0			; GFX1030-NEXT: s_mov_b32 s4, 0x186a0
	; GFX1030-NEXT: v_mul_hi_u32 v4, v0, v2			; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v8, v2
	; GFX1030-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
	; GFX1030-NEXT: v_mul_lo_u32 v5, v0, v3			; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4
	; GFX1030-NEXT: v_mul_hi_u32 v6, v0, v3			; GFX1030-NEXT: v_add_co_ci_u32_e32 v2, vcc_lo, v3, v5, vcc_lo
	; GFX1030-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v7, vcc_lo
	; GFX1030-NEXT: v_mul_hi_u32 v8, v1, v3			; GFX1030-NEXT: v_add_co_u32 v4, vcc_lo, v2, v6
	; GFX1030-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX1030-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v3, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v4, vcc_lo, v4, v5			; GFX1030-NEXT: v_mad_u64_u32 v[2:3], s5, v4, s4, 0
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v6, vcc_lo			; GFX1030-NEXT: v_mul_lo_u32 v6, v5, s4
	; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v4, v2			; GFX1030-NEXT: v_sub_co_u32 v0, vcc_lo, v0, v2
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v2, vcc_lo, v5, v7, vcc_lo			; GFX1030-NEXT: v_add_nc_u32_e32 v3, v3, v6
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v8, vcc_lo			; GFX1030-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, v1, v3, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v2, v3			; GFX1030-NEXT: v_sub_co_u32 v2, vcc_lo, v0, s4
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v4, vcc_lo
	; GFX1030-NEXT: v_mul_hi_u32 v4, v2, s4
	; GFX1030-NEXT: v_mul_lo_u32 v6, v2, s4
	; GFX1030-NEXT: v_mul_lo_u32 v5, v3, s4
	; GFX1030-NEXT: v_sub_co_u32 v0, vcc_lo, v0, v6
	; GFX1030-NEXT: v_add_nc_u32_e32 v4, v4, v5
	; GFX1030-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, v1, v4, vcc_lo
	; GFX1030-NEXT: v_sub_co_u32 v4, vcc_lo, v0, s4
	; GFX1030-NEXT: s_mov_b32 s4, 0x1869f			; GFX1030-NEXT: s_mov_b32 s4, 0x1869f
	; GFX1030-NEXT: v_subrev_co_ci_u32_e32 v5, vcc_lo, 0, v1, vcc_lo			; GFX1030-NEXT: v_subrev_co_ci_u32_e32 v3, vcc_lo, 0, v1, vcc_lo
	; GFX1030-NEXT: v_cmp_lt_u32_e32 vcc_lo, s4, v4			; GFX1030-NEXT: v_cmp_lt_u32_e32 vcc_lo, s4, v2
	; GFX1030-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v6, vcc_lo, v2, 2			; GFX1030-NEXT: v_add_co_u32 v6, vcc_lo, v4, 2
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v3, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, 0, v5, vcc_lo
	; GFX1030-NEXT: v_cmp_lt_u32_e32 vcc_lo, s4, v0			; GFX1030-NEXT: v_cmp_lt_u32_e32 vcc_lo, s4, v0
	; GFX1030-NEXT: v_cmp_eq_u32_e64 s4, 0, v1			; GFX1030-NEXT: v_cmp_eq_u32_e64 s4, 0, v1
	; GFX1030-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc_lo
	; GFX1030-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v5			; GFX1030-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v3
	; GFX1030-NEXT: v_cndmask_b32_e64 v0, -1, v0, s4			; GFX1030-NEXT: v_cndmask_b32_e64 v0, -1, v0, s4
	; GFX1030-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v2, 1			; GFX1030-NEXT: v_add_co_u32 v3, vcc_lo, v4, 1
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v8, vcc_lo, 0, v3, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v8, vcc_lo, 0, v5, vcc_lo
	; GFX1030-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v4			; GFX1030-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v2
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v5, v6, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v1, v3, v6, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e32 v4, v8, v7, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v2, v8, v7, vcc_lo
	; GFX1030-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; GFX1030-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v0, v4, v1, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v1, v5, v2, vcc_lo
	; GFX1030-NEXT: s_setpc_b64 s[30:31]			; GFX1030-NEXT: s_setpc_b64 s[30:31]
	;			;
	; EG-LABEL: v_test_udiv64_mulhi_fold:			; EG-LABEL: v_test_udiv64_mulhi_fold:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: CF_END			; EG-NEXT: CF_END
	; EG-NEXT: PAD			; EG-NEXT: PAD
	%d = udiv i64 %arg, 100000			%d = udiv i64 %arg, 100000
	ret i64 %d			ret i64 %d
	}			}

llvm/test/CodeGen/AMDGPU/udiv64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s

define amdgpu_kernel void @s_test_udiv_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_udiv_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_udiv_i64:		; GCN-LABEL: s_test_udiv_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s9		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s9
; GCN-NEXT: s_sub_u32 s4, 0, s8		; GCN-NEXT: s_sub_u32 s6, 0, s8
; GCN-NEXT: s_subb_u32 s5, 0, s9		; GCN-NEXT: s_subb_u32 s10, 0, s9
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3		; GCN-NEXT: v_mul_lo_u32 v2, s6, v5
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s5, v0		; GCN-NEXT: v_mul_lo_u32 v3, s10, v8
; GCN-NEXT: v_mul_lo_u32 v6, s4, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v8, v10, 0
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v10, 0
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v3, v4		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0
; GCN-NEXT: v_mul_lo_u32 v6, s5, v0
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_lo_u32 v5, s4, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s2, v3
; GCN-NEXT: v_mul_hi_u32 v5, s2, v0
; GCN-NEXT: v_mul_hi_u32 v6, s2, v3
; GCN-NEXT: v_mul_hi_u32 v7, s3, v3
; GCN-NEXT: v_mul_lo_u32 v3, s3, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, s3, v0
; GCN-NEXT: v_mul_hi_u32 v0, s3, v0
; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s8, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_mul_hi_u32 v3, s8, v0		; GCN-NEXT: v_mul_lo_u32 v4, s6, v9
; GCN-NEXT: v_mul_lo_u32 v4, s9, v0		; GCN-NEXT: v_mul_lo_u32 v5, s10, v8
		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v4, s2, v2
		; GCN-NEXT: s_mov_b32 s4, s0
		; GCN-NEXT: s_mov_b32 s5, s1
		; GCN-NEXT: s_mov_b32 s6, -1
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[10:11], s3, v2, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[10:11], s3, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v4, s8, v3
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[10:11], s8, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v5, s9, v2
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
		; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v1
; GCN-NEXT: v_mov_b32_e32 v5, s9		; GCN-NEXT: v_mov_b32_e32 v5, s9
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-NEXT: v_mul_lo_u32 v3, s8, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc		; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v3		; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v0
; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v4		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0		; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v2
; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v2
; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v6, s3		; GCN-NEXT: v_mov_b32_e32 v6, s3
; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v2		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v3		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1
; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, v7, v5, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_i64:		; GCN-IR-LABEL: s_test_udiv_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b64 s[2:3], 0		; GCN-IR-NEXT: s_mov_b64 s[2:3], 0
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
}		}

define i64 @v_test_udiv_i64(i64 %x, i64 %y) {		define i64 @v_test_udiv_i64(i64 %x, i64 %y) {
; GCN-LABEL: v_test_udiv_i64:		; GCN-LABEL: v_test_udiv_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2		; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2
; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3		; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3
; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v2		; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v2
; GCN-NEXT: v_subb_u32_e32 v7, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v11, vcc, 0, v3, vcc
; GCN-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5		; GCN-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; GCN-NEXT: v_rcp_f32_e32 v4, v4		; GCN-NEXT: v_rcp_f32_e32 v4, v4
; GCN-NEXT: v_mov_b32_e32 v14, 0		; GCN-NEXT: v_mov_b32_e32 v14, 0
; GCN-NEXT: v_mov_b32_e32 v13, 0		; GCN-NEXT: v_mov_b32_e32 v13, 0
; GCN-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4		; GCN-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
; GCN-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4		; GCN-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
; GCN-NEXT: v_trunc_f32_e32 v5, v5		; GCN-NEXT: v_trunc_f32_e32 v5, v5
; GCN-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5		; GCN-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v5
; GCN-NEXT: v_cvt_u32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_u32_f32_e32 v9, v4
; GCN-NEXT: v_mul_lo_u32 v9, v6, v5		; GCN-NEXT: v_mul_lo_u32 v6, v10, v8
; GCN-NEXT: v_mul_hi_u32 v8, v6, v4		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v9, 0
; GCN-NEXT: v_mul_lo_u32 v10, v7, v4		; GCN-NEXT: v_mul_lo_u32 v7, v11, v9
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_mul_lo_u32 v9, v6, v4		; GCN-NEXT: v_add_i32_e32 v7, vcc, v5, v7
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; GCN-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v9, v7, 0
; GCN-NEXT: v_mul_lo_u32 v11, v4, v8		; GCN-NEXT: v_mul_hi_u32 v12, v9, v4
; GCN-NEXT: v_mul_hi_u32 v12, v4, v9		; GCN-NEXT: v_add_i32_e32 v12, vcc, v12, v5
; GCN-NEXT: v_mul_hi_u32 v10, v4, v8		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v4, 0
; GCN-NEXT: v_mul_hi_u32 v15, v5, v8		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v14, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v5, v8		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v7, 0
; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; GCN-NEXT: v_add_i32_e32 v4, vcc, v12, v4
; GCN-NEXT: v_mul_lo_u32 v12, v5, v9		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v15, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v5, v9		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v13, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v14, v10, vcc
; GCN-NEXT: v_add_i32_e32 v11, vcc, v11, v12
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v10, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v15, v13, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v10, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v9, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v6, v5
; GCN-NEXT: v_mul_hi_u32 v9, v6, v4
; GCN-NEXT: v_mul_lo_u32 v7, v7, v4
; GCN-NEXT: v_mul_lo_u32 v6, v6, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; GCN-NEXT: v_mul_lo_u32 v10, v4, v7
; GCN-NEXT: v_mul_hi_u32 v11, v4, v6
; GCN-NEXT: v_mul_hi_u32 v12, v4, v7
; GCN-NEXT: v_mul_hi_u32 v9, v5, v6
; GCN-NEXT: v_mul_lo_u32 v6, v5, v6
; GCN-NEXT: v_mul_hi_u32 v8, v5, v7
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v14, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v5, v7
; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v8, v13, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v8, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v0, v5		; GCN-NEXT: v_add_i32_e32 v12, vcc, v9, v4
; GCN-NEXT: v_mul_hi_u32 v7, v0, v4		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v8, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v0, v5		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v12, 0
; GCN-NEXT: v_mul_hi_u32 v9, v1, v5		; GCN-NEXT: v_mul_lo_u32 v8, v10, v15
; GCN-NEXT: v_mul_lo_u32 v5, v1, v5		; GCN-NEXT: v_mul_lo_u32 v9, v11, v12
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mul_hi_u32 v10, v12, v4
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v8, vcc		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v15, v4, 0
; GCN-NEXT: v_mul_lo_u32 v8, v1, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v9
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v12, v5, 0
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v4, vcc		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v15, v5, 0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v13, vcc		; GCN-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v6, vcc		; GCN-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; GCN-NEXT: v_mul_lo_u32 v6, v2, v5		; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v7, vcc
; GCN-NEXT: v_mul_hi_u32 v7, v2, v4		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v13, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v3, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v2, v4		; GCN-NEXT: v_add_i32_e32 v6, vcc, v12, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v15, v5, vcc
; GCN-NEXT: v_sub_i32_e32 v8, vcc, v1, v6		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v0, v7, 0
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v7		; GCN-NEXT: v_mul_hi_u32 v8, v0, v6
; GCN-NEXT: v_subb_u32_e64 v7, s[4:5], v8, v3, vcc		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v4
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v5, vcc
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v6, 0
		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v1, v7, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v5, vcc
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v13, vcc
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v4, v6
		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v5, vcc
		; GCN-NEXT: v_mul_lo_u32 v8, v2, v7
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v6, 0
		; GCN-NEXT: v_mul_lo_u32 v9, v3, v6
		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v9
		; GCN-NEXT: v_sub_i32_e32 v8, vcc, v1, v5
		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
		; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v8, v3, vcc
; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v2		; GCN-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v2
; GCN-NEXT: v_subbrev_u32_e64 v7, s[4:5], 0, v7, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v4, s[4:5], 0, v4, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v3		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v3
; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v7, v3		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v4, v3
; GCN-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v4, v9, v8, s[4:5]
; GCN-NEXT: v_add_i32_e64 v8, s[4:5], 2, v4		; GCN-NEXT: v_add_i32_e64 v8, s[4:5], 2, v6
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v5, vcc
; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v5, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v7, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; GCN-NEXT: v_add_i32_e64 v10, s[4:5], 1, v4		; GCN-NEXT: v_add_i32_e64 v10, s[4:5], 1, v6
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v5, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v11, s[4:5], 0, v7, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v1, v3
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v4
; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
; GCN-NEXT: v_cndmask_b32_e64 v7, v10, v8, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v4, v10, v8, s[4:5]
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v1, v11, v9, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v11, v9, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v7, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_udiv_i64:		; GCN-IR-LABEL: v_test_udiv_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_cmp_eq_u64_e32 vcc, 0, v[2:3]		; GCN-IR-NEXT: v_cmp_eq_u64_e32 vcc, 0, v[2:3]
; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]		; GCN-IR-NEXT: v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]
; GCN-IR-NEXT: v_ffbh_u32_e32 v4, v2		; GCN-IR-NEXT: v_ffbh_u32_e32 v4, v2
▲ Show 20 Lines • Show All 349 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @s_test_udiv24_i48(i48 addrspace(1)* %out, i48 %x, i48 %y) {		define amdgpu_kernel void @s_test_udiv24_i48(i48 addrspace(1)* %out, i48 %x, i48 %y) {
; GCN-LABEL: s_test_udiv24_i48:		; GCN-LABEL: s_test_udiv24_i48:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s2, s[0:1], 0xd		; GCN-NEXT: s_load_dword s2, s[0:1], 0xd
; GCN-NEXT: s_load_dword s3, s[0:1], 0xe		; GCN-NEXT: s_load_dword s3, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xff000000		; GCN-NEXT: s_mov_b32 s5, 0xff000000
; GCN-NEXT: s_mov_b32 s6, 0xffff		; GCN-NEXT: s_mov_b32 s4, 0xffff
; GCN-NEXT: v_cvt_f32_ubyte3_e32 v2, s6		; GCN-NEXT: v_cvt_f32_ubyte3_e32 v1, s4
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_and_b32 s2, s2, s7		; GCN-NEXT: s_and_b32 s2, s2, s5
; GCN-NEXT: s_and_b32 s3, s3, s6		; GCN-NEXT: s_and_b32 s3, s3, s4
; GCN-NEXT: v_mov_b32_e32 v0, s2		; GCN-NEXT: v_mov_b32_e32 v0, s2
; GCN-NEXT: v_alignbit_b32 v0, s3, v0, 24		; GCN-NEXT: v_alignbit_b32 v6, s3, v0, 24
; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v0, v6
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-NEXT: s_load_dword s6, s[0:1], 0xb
; GCN-NEXT: s_load_dword s8, s[0:1], 0xb		; GCN-NEXT: s_load_dword s7, s[0:1], 0xc
; GCN-NEXT: s_load_dword s0, s[0:1], 0xc		; GCN-NEXT: s_lshr_b64 s[2:3], s[2:3], 24
; GCN-NEXT: v_mov_b32_e32 v9, 0		; GCN-NEXT: v_mov_b32_e32 v9, 0
; GCN-NEXT: v_mov_b32_e32 v8, 0		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_mac_f32_e32 v1, 0x4f800000, v2		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_rcp_f32_e32 v1, v1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_and_b32 s6, s0, s6		; GCN-NEXT: s_and_b32 s7, s7, s4
; GCN-NEXT: s_and_b32 s8, s8, s7		; GCN-NEXT: s_and_b32 s6, s6, s5
; GCN-NEXT: s_lshr_b64 s[0:1], s[2:3], 24		; GCN-NEXT: s_sub_u32 s8, 0, s2
; GCN-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: s_sub_u32 s0, 0, s0		; GCN-NEXT: s_subb_u32 s9, 0, s3
; GCN-NEXT: s_subb_u32 s1, 0, s1		; GCN-NEXT: v_mov_b32_e32 v8, 0
; GCN-NEXT: v_mul_hi_u32 v3, s0, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s8, v4, 0
; GCN-NEXT: v_mul_lo_u32 v4, s0, v2		; GCN-NEXT: v_mul_lo_u32 v2, s8, v5
; GCN-NEXT: v_mul_lo_u32 v5, s1, v1		; GCN-NEXT: v_mul_lo_u32 v3, s9, v4
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mul_hi_u32 v7, v4, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; GCN-NEXT: v_mul_lo_u32 v4, s0, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v6, v1, v3		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v7, v1, v4		; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v1
; GCN-NEXT: v_mul_hi_u32 v5, v1, v3		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v10, v2, v3		; GCN-NEXT: v_addc_u32_e32 v10, vcc, v9, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v3, 0
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v0, vcc, v7, v0
; GCN-NEXT: v_mul_lo_u32 v7, v2, v4		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v2, v4		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v8, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v9, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v7, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v10, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], s8, v7, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s8, v10
		; GCN-NEXT: v_mul_lo_u32 v5, s9, v7
		; GCN-NEXT: v_mul_hi_u32 v11, v7, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v10, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v7, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v10, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v11, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v5, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v8, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v8, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v0
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc		; GCN-NEXT: v_mov_b32_e32 v0, s6
; GCN-NEXT: v_mul_lo_u32 v3, s0, v2		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v4, s0, v1		; GCN-NEXT: v_alignbit_b32 v4, s7, v0, 24
; GCN-NEXT: v_mul_lo_u32 v5, s1, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v4, v3, 0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_mul_hi_u32 v5, v4, v2
; GCN-NEXT: v_mul_lo_u32 v4, s0, v1		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_mul_lo_u32 v7, v1, v3
; GCN-NEXT: v_mul_hi_u32 v10, v1, v4
; GCN-NEXT: v_mul_hi_u32 v11, v1, v3
; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4
; GCN-NEXT: v_mul_hi_u32 v5, v2, v3
; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v9, v11, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v10, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v8, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v5, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_mov_b32_e32 v3, s8
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_alignbit_b32 v3, s6, v3, 24
; GCN-NEXT: v_mul_lo_u32 v4, v3, v2
; GCN-NEXT: v_mul_hi_u32 v1, v3, v1
; GCN-NEXT: v_mul_hi_u32 v2, v3, v2
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v0
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v9, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], 0, v2, 0
; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], 0, v3, 0
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v8, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v5, v0
; GCN-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v9, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v8, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v0, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_mul_hi_u32 v7, v0, v1		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, 2, v1		; GCN-NEXT: v_mul_lo_u32 v8, v6, v3
; GCN-NEXT: v_mul_lo_u32 v10, v0, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v6, v2, 0
; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v2, vcc		; GCN-NEXT: v_add_i32_e32 v5, vcc, 2, v2
; GCN-NEXT: v_add_i32_e32 v8, vcc, 1, v1		; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, 0, v2, vcc		; GCN-NEXT: v_add_i32_e32 v9, vcc, 1, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_addc_u32_e32 v10, vcc, 0, v3, vcc
; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v10		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v8
; GCN-NEXT: v_subb_u32_e32 v6, vcc, 0, v6, vcc		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v4, v0
; GCN-NEXT: v_sub_i32_e32 v7, vcc, v3, v0		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_subbrev_u32_e32 v10, vcc, 0, v6, vcc		; GCN-NEXT: v_sub_i32_e32 v4, vcc, v0, v6
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v0		; GCN-NEXT: v_subbrev_u32_e32 v8, vcc, 0, v1, vcc
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v6
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v8
; GCN-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc		; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v6
		; GCN-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v4, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v1, v10, v7, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, v9, v5, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v9, v5, vcc
; GCN-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[0:1]
		; GCN-NEXT: v_cndmask_b32_e64 v0, v2, v4, s[0:1]
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4		; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4
; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv24_i48:		; GCN-IR-LABEL: s_test_udiv24_i48:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xb		; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xb
▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i48 %result, i48 addrspace(1)* %out		store i48 %result, i48 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_udiv_k_num_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_udiv_k_num_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_udiv_k_num_i64:		; GCN-LABEL: s_test_udiv_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3
; GCN-NEXT: s_sub_u32 s4, 0, s2		; GCN-NEXT: s_sub_u32 s6, 0, s2
; GCN-NEXT: s_subb_u32 s5, 0, s3		; GCN-NEXT: s_subb_u32 s7, 0, s3
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3		; GCN-NEXT: v_mul_lo_u32 v2, s6, v5
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s5, v0		; GCN-NEXT: v_mul_lo_u32 v3, s7, v8
; GCN-NEXT: v_mul_lo_u32 v6, s4, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v8, v10, 0
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v5, v0, 0
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
; GCN-NEXT: v_mul_hi_u32 v8, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v10, 0
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v3, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v8, vcc		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s6, v8, 0
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc		; GCN-NEXT: v_mul_lo_u32 v4, s6, v9
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GCN-NEXT: v_mul_lo_u32 v5, s7, v8
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s4, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v9, v0, 0
; GCN-NEXT: v_mul_hi_u32 v5, s4, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GCN-NEXT: v_mul_lo_u32 v6, s5, v0		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v1, 0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v9, v1, 0
; GCN-NEXT: v_mul_lo_u32 v5, s4, v0		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, 24, 0
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5		; GCN-NEXT: v_mov_b32_e32 v4, s3
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GCN-NEXT: v_mul_lo_u32 v3, s3, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v2, 0
; GCN-NEXT: v_mul_lo_u32 v3, v1, 24
; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
; GCN-NEXT: v_mov_b32_e32 v5, s3
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v2, v1, vcc		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_mul_lo_u32 v1, s3, v0		; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1		; GCN-NEXT: v_subb_u32_e64 v3, s[0:1], v3, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s2, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v0
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v1		; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
; GCN-NEXT: v_sub_i32_e32 v3, vcc, 24, v3		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s2, v3
; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v5
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v4
; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[0:1]
; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v3
; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]
; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0		; GCN-NEXT: v_add_i32_e64 v4, s[0:1], 2, v2
		; GCN-NEXT: v_addc_u32_e64 v5, s[0:1], 0, v7, s[0:1]
		; GCN-NEXT: v_add_i32_e64 v6, s[0:1], 1, v2
		; GCN-NEXT: v_addc_u32_e64 v7, s[0:1], 0, v7, s[0:1]
; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: v_addc_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cndmask_b32_e64 v3, v7, v5, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v3		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s2, v0
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v1
; GCN-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; GCN-NEXT: v_cndmask_b32_e64 v0, v6, v4, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_k_num_i64:		; GCN-IR-LABEL: s_test_udiv_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_flbit_i32_b32 s4, s2		; GCN-IR-NEXT: s_flbit_i32_b32 s4, s2
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
; }		; }

define i64 @v_test_udiv_pow2_k_num_i64(i64 %x) {		define i64 @v_test_udiv_pow2_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_udiv_pow2_k_num_i64:		; GCN-LABEL: v_test_udiv_pow2_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v0
; GCN-NEXT: v_subb_u32_e32 v5, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v9, vcc, 0, v1, vcc
; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3		; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; GCN-NEXT: v_rcp_f32_e32 v2, v2		; GCN-NEXT: v_rcp_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: v_mov_b32_e32 v11, 0		; GCN-NEXT: v_mov_b32_e32 v11, 0
		; GCN-NEXT: s_mov_b32 s6, 0x8000
; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v7, v2
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3		; GCN-NEXT: v_mul_lo_u32 v4, v8, v6
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v8, v7, 0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v2		; GCN-NEXT: v_mul_lo_u32 v5, v9, v7
; GCN-NEXT: v_mul_lo_u32 v9, v4, v2		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v5, vcc, v3, v5
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v7, v5, 0
; GCN-NEXT: v_mul_lo_u32 v8, v2, v6		; GCN-NEXT: v_mul_hi_u32 v10, v7, v2
; GCN-NEXT: v_mul_hi_u32 v10, v2, v9		; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v3
; GCN-NEXT: v_mul_hi_u32 v7, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, v2, 0
; GCN-NEXT: v_mul_hi_u32 v13, v3, v6		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v12, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v6, v5, 0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; GCN-NEXT: v_add_i32_e32 v2, vcc, v10, v2
; GCN-NEXT: v_mul_lo_u32 v10, v3, v9		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v13, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v3, v9		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v11, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v7, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v11, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v8, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2
; GCN-NEXT: v_mul_lo_u32 v5, v5, v2
; GCN-NEXT: v_mul_lo_u32 v4, v4, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v9, v2, v4
; GCN-NEXT: v_mul_hi_u32 v10, v2, v5
; GCN-NEXT: v_mul_hi_u32 v7, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_mul_hi_u32 v6, v3, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v12, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v11, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v6, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v12, v3, vcc
; GCN-NEXT: v_lshrrev_b32_e32 v2, 17, v2		; GCN-NEXT: v_add_i32_e32 v10, vcc, v7, v2
; GCN-NEXT: v_mul_lo_u32 v3, v1, v2		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v6, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v0, v2		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v8, v10, 0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_mul_lo_u32 v6, v8, v13
; GCN-NEXT: v_mul_lo_u32 v4, v0, v2		; GCN-NEXT: v_mul_lo_u32 v7, v9, v10
		; GCN-NEXT: v_mul_hi_u32 v8, v10, v2
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v13, v2, 0
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v10, v3, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v13, v3, 0
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v8, v6
		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v11, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v12, v3, vcc
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v13, v3, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v2, s6, 0
		; GCN-NEXT: v_lshrrev_b32_e32 v4, 17, v4
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v12, v3, vcc
		; GCN-NEXT: v_mul_lo_u32 v5, v1, v4
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v4, 0
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
; GCN-NEXT: v_sub_i32_e32 v5, vcc, 0, v3		; GCN-NEXT: v_sub_i32_e32 v5, vcc, 0, v3
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0x8000, v4		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
; GCN-NEXT: v_subb_u32_e64 v5, s[4:5], v5, v1, vcc		; GCN-NEXT: v_subb_u32_e64 v5, s[4:5], v5, v1, vcc
; GCN-NEXT: v_sub_i32_e64 v6, s[4:5], v4, v0		; GCN-NEXT: v_sub_i32_e64 v6, s[4:5], v2, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[4:5], 0, v5, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[4:5], 0, v5, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v1		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v1
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v0		; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v5, v1		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], v5, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[4:5]
; GCN-NEXT: v_add_i32_e64 v6, s[4:5], 2, v2		; GCN-NEXT: v_add_i32_e64 v6, s[4:5], 2, v4
; GCN-NEXT: v_addc_u32_e64 v7, s[4:5], 0, v12, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v7, s[4:5], 0, v12, s[4:5]
; GCN-NEXT: v_add_i32_e64 v8, s[4:5], 1, v2		; GCN-NEXT: v_add_i32_e64 v8, s[4:5], 1, v4
; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v12, s[4:5]		; GCN-NEXT: v_addc_u32_e64 v9, s[4:5], 0, v12, s[4:5]
; GCN-NEXT: v_subb_u32_e32 v3, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v3, vcc, 0, v3, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v5		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v5
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, v8, v6, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v5, v8, v6, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v0		; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v3, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v3, v1
; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v0, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v1, v9, v7, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v9, v7, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v5, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_udiv_pow2_k_num_i64:		; GCN-IR-LABEL: v_test_udiv_pow2_k_num_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0		; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0
; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, 32, v2		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, 32, v2
▲ Show 20 Lines • Show All 175 Lines • ▼ Show 20 Lines
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: s_movk_i32 s4, 0xffe8		; GCN-NEXT: s_movk_i32 s4, 0xffe8
; GCN-NEXT: v_mov_b32_e32 v8, 0		; GCN-NEXT: v_mov_b32_e32 v8, 0
; GCN-NEXT: v_mov_b32_e32 v7, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v1, v1		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
; GCN-NEXT: v_mul_lo_u32 v3, v1, s4
; GCN-NEXT: v_mul_lo_u32 v4, v0, s4
; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
; GCN-NEXT: v_mul_hi_u32 v6, v0, v4
; GCN-NEXT: v_mul_hi_u32 v3, v0, v2
; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
; GCN-NEXT: v_mul_lo_u32 v3, v1, s4
; GCN-NEXT: v_mul_lo_u32 v4, v0, s4
; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc		; GCN-NEXT: v_mul_lo_u32 v2, v5, s4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc		; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v6, vcc, v2, v1
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc		; GCN-NEXT: v_mul_hi_u32 v3, v4, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v6, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v3, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
		; GCN-NEXT: v_addc_u32_e32 v10, vcc, v8, v2, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v6, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v9, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s2, v1		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v4, s2, v1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
; GCN-NEXT: v_mul_hi_u32 v5, s3, v1		; GCN-NEXT: v_mul_lo_u32 v2, v5, s4
; GCN-NEXT: v_mul_lo_u32 v1, s3, v1		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v2
; GCN-NEXT: v_mul_lo_u32 v4, s3, v0		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[4:5], v4, v3, 0
; GCN-NEXT: v_mul_hi_u32 v0, s3, v0		; GCN-NEXT: v_mul_hi_u32 v6, v4, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v1
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc		; GCN-NEXT: v_add_i32_e32 v0, vcc, v6, v0
; GCN-NEXT: v_mul_lo_u32 v4, v1, 24		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v5, v0, 24		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, 2, v0		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v8, v0, 24		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v0
; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v0		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
; GCN-NEXT: v_mov_b32_e32 v5, s3		; GCN-NEXT: v_mul_hi_u32 v4, s2, v2
; GCN-NEXT: v_sub_i32_e32 v8, vcc, s2, v8		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_subb_u32_e32 v4, vcc, v5, v4, vcc		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_subrev_i32_e32 v5, vcc, 24, v8		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
; GCN-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v5		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s3, v2, 0
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s3, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v6, v3, 24
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v2, 24, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, 2, v2
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc
		; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v2
		; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v6
		; GCN-NEXT: v_mov_b32_e32 v6, s3
		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v6, v1, vcc
		; GCN-NEXT: v_subrev_i32_e32 v6, vcc, 24, v0
		; GCN-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v1, vcc
		; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v6
		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
; GCN-NEXT: v_cndmask_b32_e32 v5, -1, v5, vcc		; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], 23, v0
; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], 23, v8		; GCN-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]		; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v4, -1, v5, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v0
; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v4, vcc
; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v5, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v0, v2, v0, s[0:1]
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv_k_den_i64:		; GCN-IR-LABEL: s_test_udiv_k_den_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_flbit_i32_b32 s4, s2		; GCN-IR-NEXT: s_flbit_i32_b32 s4, s2
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines

define i64 @v_test_udiv_k_den_i64(i64 %x) {		define i64 @v_test_udiv_k_den_i64(i64 %x) {
; GCN-LABEL: v_test_udiv_k_den_i64:		; GCN-LABEL: v_test_udiv_k_den_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000		; GCN-NEXT: v_mov_b32_e32 v2, 0x4f800000
; GCN-NEXT: v_madak_f32 v2, 0, v2, 0x41c00000		; GCN-NEXT: v_madak_f32 v2, 0, v2, 0x41c00000
; GCN-NEXT: v_rcp_f32_e32 v2, v2		; GCN-NEXT: v_rcp_f32_e32 v2, v2
; GCN-NEXT: s_movk_i32 s4, 0xffe8		; GCN-NEXT: s_movk_i32 s6, 0xffe8
; GCN-NEXT: v_mov_b32_e32 v10, 0		; GCN-NEXT: v_mov_b32_e32 v10, 0
; GCN-NEXT: v_mov_b32_e32 v9, 0		; GCN-NEXT: v_mov_b32_e32 v9, 0
; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
; GCN-NEXT: v_mul_hi_u32 v4, v2, s4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
; GCN-NEXT: v_mul_lo_u32 v5, v3, s4		; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
; GCN-NEXT: v_mul_lo_u32 v6, v2, s4		; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v4, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
; GCN-NEXT: v_mul_lo_u32 v7, v2, v4		; GCN-NEXT: v_mul_hi_u32 v8, v6, v2
; GCN-NEXT: v_mul_hi_u32 v8, v2, v6		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v3
; GCN-NEXT: v_mul_hi_u32 v5, v2, v4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
; GCN-NEXT: v_mul_hi_u32 v11, v3, v4		; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v2
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v5, vcc
; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v2, s4		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v2
; GCN-NEXT: v_mul_lo_u32 v5, v3, s4		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v2, s4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4		; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
; GCN-NEXT: v_mul_lo_u32 v5, v2, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v3, v4
; GCN-NEXT: v_mul_hi_u32 v7, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v5, 0
; GCN-NEXT: v_mul_hi_u32 v8, v2, v4		; GCN-NEXT: v_mul_hi_u32 v8, v6, v2
; GCN-NEXT: v_mul_hi_u32 v11, v3, v4		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v3
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v5		; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v10, v8, vcc		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v5, 0
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v2
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v11, v3, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v0, v3		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v2
; GCN-NEXT: v_mul_hi_u32 v5, v0, v2		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v0, v3		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v5, 0
; GCN-NEXT: v_mul_hi_u32 v7, v1, v3		; GCN-NEXT: v_mul_hi_u32 v6, v0, v4
; GCN-NEXT: v_mul_lo_u32 v3, v1, v3		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v10, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v6, vcc		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v1, v4, 0
; GCN-NEXT: v_mul_lo_u32 v6, v1, v2		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v5, 0
; GCN-NEXT: v_mul_hi_u32 v2, v1, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v6, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v9, vcc		; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v4
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v10, v3, vcc
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v10, v4, vcc		; GCN-NEXT: v_mul_lo_u32 v6, v5, 24
; GCN-NEXT: v_mul_lo_u32 v4, v3, 24		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v4, 24, 0
; GCN-NEXT: v_mul_hi_u32 v5, v2, 24		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_lo_u32 v6, v2, 24		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6		; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v1, v4, vcc		; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
; GCN-NEXT: v_subrev_i32_e32 v4, vcc, 24, v0		; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v2
; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v4		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
; GCN-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v2, -1, v2, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5		; GCN-NEXT: v_add_i32_e32 v3, vcc, 2, v4
; GCN-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc		; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v5, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, 2, v2		; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v4
; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v2
; GCN-NEXT: v_cmp_lt_u32_e64 s[4:5], 23, v0		; GCN-NEXT: v_cmp_lt_u32_e64 s[4:5], 23, v0
; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v5, vcc
; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[4:5]
; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1		; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v0, -1, v0, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc		; GCN-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
; GCN-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v8, v6, vcc
; GCN-NEXT: v_cndmask_b32_e64 v0, v2, v4, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v0, v4, v2, s[4:5]
; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v1, v5, v1, s[4:5]
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GCN-IR-LABEL: v_test_udiv_k_den_i64:		; GCN-IR-LABEL: v_test_udiv_k_den_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0		; GCN-IR-NEXT: v_ffbh_u32_e32 v2, v0
; GCN-IR-NEXT: v_add_i32_e64 v2, s[4:5], 32, v2		; GCN-IR-NEXT: v_add_i32_e64 v2, s[4:5], 32, v2
; GCN-IR-NEXT: v_ffbh_u32_e32 v3, v1		; GCN-IR-NEXT: v_ffbh_u32_e32 v3, v1
▲ Show 20 Lines • Show All 276 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/urem64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s

define amdgpu_kernel void @s_test_urem_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_urem_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_urem_i64:		; GCN-LABEL: s_test_urem_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0xd
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s11, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s12
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s13
; GCN-NEXT: s_sub_u32 s0, 0, s12		; GCN-NEXT: s_sub_u32 s2, 0, s12
; GCN-NEXT: s_subb_u32 s1, 0, s13		; GCN-NEXT: s_subb_u32 s3, 0, s13
; GCN-NEXT: s_mov_b32 s4, s8		; GCN-NEXT: s_mov_b32 s10, -1
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: s_mov_b32 s8, s4
; GCN-NEXT: s_mov_b32 s5, s9		; GCN-NEXT: s_mov_b32 s9, s5
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3		; GCN-NEXT: v_mul_lo_u32 v2, s2, v5
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s1, v0		; GCN-NEXT: v_mul_lo_u32 v3, s3, v8
; GCN-NEXT: v_mul_lo_u32 v6, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_lo_u32 v8, v3, v6
; GCN-NEXT: v_mul_hi_u32 v6, v3, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0
; GCN-NEXT: v_mul_lo_u32 v6, s1, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_lo_u32 v5, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s10, v3
; GCN-NEXT: v_mul_hi_u32 v5, s10, v0
; GCN-NEXT: v_mul_hi_u32 v6, s10, v3
; GCN-NEXT: v_mul_hi_u32 v7, s11, v3
; GCN-NEXT: v_mul_lo_u32 v3, s11, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, s11, v0
; GCN-NEXT: v_mul_hi_u32 v0, s11, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[0:1], v8, v10, 0
		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[0:1], v5, v0, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v5, v10, 0
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s2, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s3, v8
		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v9, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s6, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v4, s6, v2
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s7, v2, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], s7, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v3, s12, v0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s12, v2, 0
		; GCN-NEXT: v_mul_lo_u32 v2, s13, v2
; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v1
; GCN-NEXT: v_mov_b32_e32 v3, s13		; GCN-NEXT: v_mov_b32_e32 v3, s13
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v4
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5		; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v5
; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4		; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4
; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6		; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
; GCN-NEXT: v_mov_b32_e32 v5, s11		; GCN-NEXT: v_mov_b32_e32 v5, s7
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0		; GCN-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s13, v1
; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]		; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_urem_i64:		; GCN-IR-LABEL: s_test_urem_i64:
; GCN-IR: ; %bb.0: ; %_udiv-special-cases		; GCN-IR: ; %bb.0: ; %_udiv-special-cases
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b64 s[2:3], 0		; GCN-IR-NEXT: s_mov_b64 s[2:3], 0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: v_mov_b32_e32 v1, s3		; GCN-IR-NEXT: v_mov_b32_e32 v1, s3
; GCN-IR-NEXT: s_branch BB0_6		; GCN-IR-NEXT: s_branch BB0_6
; GCN-IR-NEXT: BB0_5:		; GCN-IR-NEXT: BB0_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s7		; GCN-IR-NEXT: v_mov_b32_e32 v0, s7
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]		; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s6		; GCN-IR-NEXT: v_mov_b32_e32 v0, s6
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]
; GCN-IR-NEXT: BB0_6: ; %udiv-end		; GCN-IR-NEXT: BB0_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s0, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s0, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s0, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[2:3], s0, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s1, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s1, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s0, v0
; GCN-IR-NEXT: s_mov_b32 s11, 0xf000		; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-IR-NEXT: v_mov_b32_e32 v2, s7		; GCN-IR-NEXT: v_mov_b32_e32 v3, s7
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v1
; GCN-IR-NEXT: s_mov_b32 s10, -1		; GCN-IR-NEXT: s_mov_b32 s10, -1
; GCN-IR-NEXT: s_mov_b32 s8, s4		; GCN-IR-NEXT: s_mov_b32 s8, s4
; GCN-IR-NEXT: s_mov_b32 s9, s5		; GCN-IR-NEXT: s_mov_b32 s9, s5
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v3, v2, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = urem i64 %x, %y		%result = urem i64 %x, %y
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define i64 @v_test_urem_i64(i64 %x, i64 %y) {		define i64 @v_test_urem_i64(i64 %x, i64 %y) {
; GCN-LABEL: v_test_urem_i64:		; GCN-LABEL: v_test_urem_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2		; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2
; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3		; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3
; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v2		; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v2
; GCN-NEXT: v_subb_u32_e32 v7, vcc, 0, v3, vcc		; GCN-NEXT: v_subb_u32_e32 v11, vcc, 0, v3, vcc
; GCN-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5		; GCN-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; GCN-NEXT: v_rcp_f32_e32 v4, v4		; GCN-NEXT: v_rcp_f32_e32 v4, v4
; GCN-NEXT: v_mov_b32_e32 v14, 0		; GCN-NEXT: v_mov_b32_e32 v14, 0
; GCN-NEXT: v_mov_b32_e32 v13, 0		; GCN-NEXT: v_mov_b32_e32 v13, 0
; GCN-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4		; GCN-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
; GCN-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4		; GCN-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
; GCN-NEXT: v_trunc_f32_e32 v5, v5		; GCN-NEXT: v_trunc_f32_e32 v5, v5
; GCN-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5		; GCN-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v5
; GCN-NEXT: v_cvt_u32_f32_e32 v4, v4		; GCN-NEXT: v_cvt_u32_f32_e32 v9, v4
; GCN-NEXT: v_mul_lo_u32 v9, v6, v5		; GCN-NEXT: v_mul_lo_u32 v6, v10, v8
; GCN-NEXT: v_mul_hi_u32 v8, v6, v4		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v9, 0
; GCN-NEXT: v_mul_lo_u32 v10, v7, v4		; GCN-NEXT: v_mul_lo_u32 v7, v11, v9
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_mul_lo_u32 v9, v6, v4		; GCN-NEXT: v_add_i32_e32 v7, vcc, v5, v7
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; GCN-NEXT: v_mad_u64_u32 v[5:6], s[4:5], v9, v7, 0
; GCN-NEXT: v_mul_lo_u32 v11, v4, v8		; GCN-NEXT: v_mul_hi_u32 v12, v9, v4
; GCN-NEXT: v_mul_hi_u32 v12, v4, v9		; GCN-NEXT: v_add_i32_e32 v12, vcc, v12, v5
; GCN-NEXT: v_mul_hi_u32 v10, v4, v8		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v8, v4, 0
; GCN-NEXT: v_mul_hi_u32 v15, v5, v8		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v14, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v5, v8		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v8, v7, 0
; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; GCN-NEXT: v_add_i32_e32 v4, vcc, v12, v4
; GCN-NEXT: v_mul_lo_u32 v12, v5, v9		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v15, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v5, v9		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v13, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v14, v10, vcc
; GCN-NEXT: v_add_i32_e32 v11, vcc, v11, v12
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v10, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v10, vcc, v15, v13, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v10, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v8
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v9, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v6, v5
; GCN-NEXT: v_mul_hi_u32 v9, v6, v4
; GCN-NEXT: v_mul_lo_u32 v7, v7, v4
; GCN-NEXT: v_mul_lo_u32 v6, v6, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; GCN-NEXT: v_mul_lo_u32 v10, v4, v7
; GCN-NEXT: v_mul_hi_u32 v11, v4, v6
; GCN-NEXT: v_mul_hi_u32 v12, v4, v7
; GCN-NEXT: v_mul_hi_u32 v9, v5, v6
; GCN-NEXT: v_mul_lo_u32 v6, v5, v6
; GCN-NEXT: v_mul_hi_u32 v8, v5, v7
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v14, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v5, v7
; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v8, v13, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v8, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v7, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v0, v5		; GCN-NEXT: v_add_i32_e32 v12, vcc, v9, v4
; GCN-NEXT: v_mul_hi_u32 v7, v0, v4		; GCN-NEXT: v_addc_u32_e32 v15, vcc, v8, v5, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v0, v5		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v10, v12, 0
; GCN-NEXT: v_mul_hi_u32 v9, v1, v5		; GCN-NEXT: v_mul_lo_u32 v8, v10, v15
; GCN-NEXT: v_mul_lo_u32 v5, v1, v5		; GCN-NEXT: v_mul_lo_u32 v9, v11, v12
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_mul_hi_u32 v10, v12, v4
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v14, v8, vcc		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v15, v4, 0
; GCN-NEXT: v_mul_lo_u32 v8, v1, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v9
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v12, v5, 0
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v4, vcc		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v15, v5, 0
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v13, vcc		; GCN-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v6, vcc		; GCN-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; GCN-NEXT: v_mul_lo_u32 v5, v2, v5		; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v7, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v2, v4		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v13, vcc
; GCN-NEXT: v_mul_lo_u32 v7, v3, v4		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v4, v2, v4		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v14, v5, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5		; GCN-NEXT: v_add_i32_e32 v6, vcc, v12, v4
		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v15, v5, vcc
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v0, v7, 0
		; GCN-NEXT: v_mul_hi_u32 v8, v0, v6
		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v4
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v14, v5, vcc
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v6, 0
		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v1, v7, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v5, vcc
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v13, vcc
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v4, v6
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v14, v5, vcc
		; GCN-NEXT: v_mul_lo_u32 v7, v2, v4
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v6, 0
		; GCN-NEXT: v_mul_lo_u32 v6, v3, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_sub_i32_e32 v6, vcc, v1, v5		; GCN-NEXT: v_sub_i32_e32 v6, vcc, v1, v5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v6, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v6, v3, vcc
; GCN-NEXT: v_sub_i32_e64 v6, s[4:5], v0, v2		; GCN-NEXT: v_sub_i32_e64 v6, s[4:5], v0, v2
; GCN-NEXT: v_subbrev_u32_e64 v7, s[6:7], 0, v4, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v7, s[6:7], 0, v4, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v2		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v2
Show All 27 Lines
; GCN-IR-NEXT: s_or_b64 s[4:5], vcc, s[4:5]		; GCN-IR-NEXT: s_or_b64 s[4:5], vcc, s[4:5]
; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 32, v4		; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 32, v4
; GCN-IR-NEXT: v_ffbh_u32_e32 v5, v3		; GCN-IR-NEXT: v_ffbh_u32_e32 v5, v3
; GCN-IR-NEXT: v_min_u32_e32 v8, v4, v5		; GCN-IR-NEXT: v_min_u32_e32 v8, v4, v5
; GCN-IR-NEXT: v_ffbh_u32_e32 v4, v0		; GCN-IR-NEXT: v_ffbh_u32_e32 v4, v0
; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 32, v4		; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 32, v4
; GCN-IR-NEXT: v_ffbh_u32_e32 v5, v1		; GCN-IR-NEXT: v_ffbh_u32_e32 v5, v1
; GCN-IR-NEXT: v_min_u32_e32 v10, v4, v5		; GCN-IR-NEXT: v_min_u32_e32 v10, v4, v5
; GCN-IR-NEXT: v_sub_i32_e32 v5, vcc, v8, v10		; GCN-IR-NEXT: v_sub_i32_e32 v4, vcc, v8, v10
; GCN-IR-NEXT: v_subb_u32_e64 v6, s[6:7], 0, 0, vcc		; GCN-IR-NEXT: v_subb_u32_e64 v5, s[6:7], 0, 0, vcc
; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, 63, v[5:6]		; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, 63, v[4:5]
; GCN-IR-NEXT: v_mov_b32_e32 v9, 0		; GCN-IR-NEXT: v_mov_b32_e32 v9, 0
; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], vcc		; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], vcc
; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[5:6]		; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[4:5]
; GCN-IR-NEXT: s_xor_b64 s[6:7], s[4:5], -1		; GCN-IR-NEXT: s_xor_b64 s[6:7], s[4:5], -1
; GCN-IR-NEXT: v_mov_b32_e32 v11, v9		; GCN-IR-NEXT: v_mov_b32_e32 v11, v9
; GCN-IR-NEXT: v_cndmask_b32_e64 v7, v1, 0, s[4:5]		; GCN-IR-NEXT: v_cndmask_b32_e64 v7, v1, 0, s[4:5]
; GCN-IR-NEXT: v_cndmask_b32_e64 v4, v0, 0, s[4:5]		; GCN-IR-NEXT: v_cndmask_b32_e64 v6, v0, 0, s[4:5]
; GCN-IR-NEXT: s_and_b64 s[4:5], s[6:7], vcc		; GCN-IR-NEXT: s_and_b64 s[4:5], s[6:7], vcc
; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]		; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
; GCN-IR-NEXT: s_cbranch_execz BB1_6		; GCN-IR-NEXT: s_cbranch_execz BB1_6
; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1		; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v5		; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v4
; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v6, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v5, vcc
; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v5		; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[12:13], v[4:5]
; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[12:13], v[5:6]		; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v4
; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[0:1], v4		; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[0:1], v4
; GCN-IR-NEXT: v_mov_b32_e32 v6, 0		; GCN-IR-NEXT: v_mov_b32_e32 v6, 0
; GCN-IR-NEXT: v_mov_b32_e32 v7, 0		; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
; GCN-IR-NEXT: s_mov_b64 s[10:11], 0		; GCN-IR-NEXT: s_mov_b64 s[10:11], 0
; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-IR-NEXT: s_xor_b64 s[8:9], exec, s[4:5]		; GCN-IR-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
; GCN-IR-NEXT: s_cbranch_execz BB1_5		; GCN-IR-NEXT: s_cbranch_execz BB1_5
; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader		; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
Show All 34 Lines
; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: s_cbranch_execnz BB1_3		; GCN-IR-NEXT: s_cbranch_execnz BB1_3
; GCN-IR-NEXT: ; %bb.4: ; %Flow		; GCN-IR-NEXT: ; %bb.4: ; %Flow
; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: BB1_5: ; %Flow3		; GCN-IR-NEXT: BB1_5: ; %Flow3
; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1		; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1
; GCN-IR-NEXT: v_or_b32_e32 v7, v7, v5		; GCN-IR-NEXT: v_or_b32_e32 v7, v7, v5
; GCN-IR-NEXT: v_or_b32_e32 v4, v6, v4		; GCN-IR-NEXT: v_or_b32_e32 v6, v6, v4
; GCN-IR-NEXT: BB1_6: ; %Flow4		; GCN-IR-NEXT: BB1_6: ; %Flow4
; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
; GCN-IR-NEXT: v_mul_lo_u32 v5, v2, v7		; GCN-IR-NEXT: v_mul_lo_u32 v7, v2, v7
; GCN-IR-NEXT: v_mul_hi_u32 v6, v2, v4		; GCN-IR-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v2, v6, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, v3, v4		; GCN-IR-NEXT: v_mul_lo_u32 v2, v3, v6
; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, v4		; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v5, v7
; GCN-IR-NEXT: v_add_i32_e32 v5, vcc, v6, v5		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = urem i64 %x, %y		%result = urem i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_urem31_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_urem31_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_urem31_i64:		; GCN-LABEL: s_test_urem31_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
▲ Show 20 Lines • Show All 293 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store <2 x i64> %result, <2 x i64> addrspace(1)* %out		store <2 x i64> %result, <2 x i64> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_urem_k_num_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_urem_k_num_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_urem_k_num_i64:		; GCN-LABEL: s_test_urem_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
		; GCN-NEXT: v_mov_b32_e32 v6, 0
; GCN-NEXT: s_mov_b32 s11, 0xf000		; GCN-NEXT: s_mov_b32 s11, 0xf000
; GCN-NEXT: s_mov_b32 s10, -1		; GCN-NEXT: s_mov_b32 s10, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s6		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s6
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s7		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s7
; GCN-NEXT: s_sub_u32 s0, 0, s6		; GCN-NEXT: s_sub_u32 s2, 0, s6
; GCN-NEXT: s_subb_u32 s1, 0, s7		; GCN-NEXT: s_subb_u32 s3, 0, s7
; GCN-NEXT: s_mov_b32 s8, s4		; GCN-NEXT: s_mov_b32 s8, s4
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_mov_b32 s9, s5		; GCN-NEXT: s_mov_b32 s9, s5
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v8, v0
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3		; GCN-NEXT: v_mul_lo_u32 v2, s2, v5
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
; GCN-NEXT: v_mul_lo_u32 v7, s1, v0		; GCN-NEXT: v_mul_lo_u32 v3, s3, v8
; GCN-NEXT: v_mul_lo_u32 v6, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
; GCN-NEXT: v_mul_hi_u32 v5, v0, v6
; GCN-NEXT: v_mul_lo_u32 v7, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v4
; GCN-NEXT: v_mul_hi_u32 v8, v3, v6
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6
; GCN-NEXT: v_mul_hi_u32 v10, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v9, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v8, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s0, v3
; GCN-NEXT: v_mul_hi_u32 v5, s0, v0
; GCN-NEXT: v_mul_lo_u32 v6, s1, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_lo_u32 v5, s0, v0
; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_mul_lo_u32 v8, v0, v4
; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_mul_hi_u32 v6, v3, v4
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v2, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v1, 24
; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v2, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v1, s7, v0
; GCN-NEXT: v_mul_hi_u32 v2, s6, v0
; GCN-NEXT: v_mul_lo_u32 v0, s6, v0
; GCN-NEXT: v_mov_b32_e32 v3, s7
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
		; GCN-NEXT: v_add_i32_e32 v10, vcc, v1, v3
		; GCN-NEXT: v_mul_hi_u32 v9, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[0:1], v8, v10, 0
		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[0:1], v5, v0, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v5, v10, 0
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v7, v2, vcc
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s2, v8, 0
		; GCN-NEXT: v_mul_lo_u32 v4, s2, v9
		; GCN-NEXT: v_mul_lo_u32 v5, s3, v8
		; GCN-NEXT: v_mul_hi_u32 v10, v8, v0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[0:1], v9, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v5, v1
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[0:1], v8, v1, 0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v9, v1, 0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v4
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v3, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v6, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v8, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], v0, 24, 0
		; GCN-NEXT: v_mul_hi_u32 v2, v2, 24
		; GCN-NEXT: v_mov_b32_e32 v3, s7
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v7, v1, vcc
		; GCN-NEXT: v_mul_lo_u32 v2, s7, v0
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[0:1], s6, v0, 0
		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1		; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc		; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0		; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0
; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]		; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5
; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]		; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4		; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]		; GCN-IR-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s4		; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
; GCN-IR-NEXT: v_mov_b32_e32 v1, s5		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
; GCN-IR-NEXT: s_branch BB6_6		; GCN-IR-NEXT: s_branch BB6_6
; GCN-IR-NEXT: BB6_5:		; GCN-IR-NEXT: BB6_5:
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]
; GCN-IR-NEXT: BB6_6: ; %udiv-end		; GCN-IR-NEXT: BB6_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, s2, v1		; GCN-IR-NEXT: v_mul_lo_u32 v3, s2, v1
; GCN-IR-NEXT: v_mul_hi_u32 v2, s2, v0		; GCN-IR-NEXT: v_mad_u64_u32 v[1:2], s[8:9], s2, v0, 0
; GCN-IR-NEXT: v_mul_lo_u32 v3, s3, v0		; GCN-IR-NEXT: v_mul_lo_u32 v0, s3, v0
; GCN-IR-NEXT: v_mul_lo_u32 v0, s2, v0
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v0
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v1
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mov_b32 s4, s0
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v2, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = urem i64 24, %x		%result = urem i64 24, %x
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_urem_k_den_i64(i64 addrspace(1)* %out, i64 %x) {		define amdgpu_kernel void @s_test_urem_k_den_i64(i64 addrspace(1)* %out, i64 %x) {
; GCN-LABEL: s_test_urem_k_den_i64:		; GCN-LABEL: s_test_urem_k_den_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000		; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000
; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000		; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x41c00000
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: s_movk_i32 s4, 0xffe8		; GCN-NEXT: s_movk_i32 s4, 0xffe8
; GCN-NEXT: v_mov_b32_e32 v8, 0		; GCN-NEXT: v_mov_b32_e32 v8, 0
; GCN-NEXT: v_mov_b32_e32 v7, 0		; GCN-NEXT: v_mov_b32_e32 v7, 0
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v1, v1		; GCN-NEXT: v_trunc_f32_e32 v1, v1
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v4, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_mul_lo_u32 v3, v1, s4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
; GCN-NEXT: v_mul_lo_u32 v4, v0, s4		; GCN-NEXT: v_mul_lo_u32 v2, v5, s4
		; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v2, v1
		; GCN-NEXT: v_mul_hi_u32 v3, v4, v0
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v6, 0
		; GCN-NEXT: v_add_i32_e32 v9, vcc, v3, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v5, v0, 0
		; GCN-NEXT: v_addc_u32_e32 v10, vcc, v8, v2, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[2:3], v5, v6, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v9, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v10, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v5, v1, vcc
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v4, s4, 0
		; GCN-NEXT: v_mul_lo_u32 v2, v5, s4
		; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v2
		; GCN-NEXT: v_mad_u64_u32 v[1:2], s[2:3], v4, v3, 0
		; GCN-NEXT: v_mul_hi_u32 v6, v4, v0
		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v1
		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v5, v0, 0
		; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v2, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v5, v3, 0
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v6, v0
		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v9, v1, vcc
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v0
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v1, vcc
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v3, 0
; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2		; GCN-NEXT: v_mul_hi_u32 v4, s2, v2
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v0
; GCN-NEXT: v_mul_lo_u32 v5, v0, v2		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v6, v0, v4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s3, v2, 0
; GCN-NEXT: v_mul_hi_u32 v3, v0, v2		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], s3, v3, 0
; GCN-NEXT: v_mul_hi_u32 v9, v1, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v1, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v3, v7, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc
; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v2, v0, s4		; GCN-NEXT: v_mul_lo_u32 v2, v1, 24
; GCN-NEXT: v_mul_lo_u32 v3, v1, s4		; GCN-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, 24, 0
; GCN-NEXT: v_mul_lo_u32 v4, v0, s4
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2		; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s2, v1
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0
; GCN-NEXT: v_mul_hi_u32 v4, s2, v1
; GCN-NEXT: v_mul_hi_u32 v5, s3, v1
; GCN-NEXT: v_mul_lo_u32 v1, s3, v1
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v4, s3, v0
; GCN-NEXT: v_mul_hi_u32 v0, s3, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
; GCN-NEXT: v_mul_lo_u32 v1, v1, 24
; GCN-NEXT: v_mul_hi_u32 v2, v0, 24
; GCN-NEXT: v_mul_lo_u32 v0, v0, 24
; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GCN-NEXT: v_mov_b32_e32 v2, s3		; GCN-NEXT: v_mov_b32_e32 v2, s3
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0		; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0
; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc		; GCN-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v1, vcc
; GCN-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2		; GCN-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc		; GCN-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v3, vcc
; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v2		; GCN-NEXT: v_cmp_lt_u32_e32 vcc, 23, v2
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: v_mov_b32_e32 v1, s5		; GCN-IR-NEXT: v_mov_b32_e32 v1, s5
; GCN-IR-NEXT: s_branch BB7_6		; GCN-IR-NEXT: s_branch BB7_6
; GCN-IR-NEXT: BB7_5:		; GCN-IR-NEXT: BB7_5:
; GCN-IR-NEXT: v_mov_b32_e32 v0, s3		; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[10:11]		; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[10:11]
; GCN-IR-NEXT: v_mov_b32_e32 v0, s2		; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[10:11]		; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[10:11]
; GCN-IR-NEXT: BB7_6: ; %udiv-end		; GCN-IR-NEXT: BB7_6: ; %udiv-end
; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, 24		; GCN-IR-NEXT: v_mul_lo_u32 v2, v1, 24
; GCN-IR-NEXT: v_mul_hi_u32 v2, v0, 24		; GCN-IR-NEXT: v_mad_u64_u32 v[0:1], s[4:5], v0, 24, 0
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, 24
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s6, -1
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GCN-IR-NEXT: v_mov_b32_e32 v2, s3		; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GCN-IR-NEXT: s_mov_b32 s4, s0		; GCN-IR-NEXT: s_mov_b32 s4, s0
; GCN-IR-NEXT: s_mov_b32 s5, s1		; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%result = urem i64 %x, 24		%result = urem i64 %x, 24
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Constant bus violation		; FIXME: Constant bus violation
; define i64 @v_test_urem_k_num_i64(i64 %x) {		; define i64 @v_test_urem_k_num_i64(i64 %x) {
; %result = urem i64 24, %x		; %result = urem i64 24, %x
; ret i64 %result		; ret i64 %result
; }		; }

define i64 @v_test_urem_pow2_k_num_i64(i64 %x) {		define i64 @v_test_urem_pow2_k_num_i64(i64 %x) {
; GCN-LABEL: v_test_urem_pow2_k_num_i64:		; GCN-LABEL: v_test_urem_pow2_k_num_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0		; GCN-NEXT: v_cvt_f32_u32_e32 v2, v0
; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1		; GCN-NEXT: v_cvt_f32_u32_e32 v3, v1
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v0		; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v0
; GCN-NEXT: v_subb_u32_e32 v5, vcc, 0, v1, vcc		; GCN-NEXT: v_subb_u32_e32 v9, vcc, 0, v1, vcc
; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3		; GCN-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; GCN-NEXT: v_rcp_f32_e32 v2, v2		; GCN-NEXT: v_rcp_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v12, 0		; GCN-NEXT: v_mov_b32_e32 v12, 0
; GCN-NEXT: v_mov_b32_e32 v11, 0		; GCN-NEXT: v_mov_b32_e32 v11, 0
		; GCN-NEXT: s_mov_b32 s6, 0x8000
; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
; GCN-NEXT: v_trunc_f32_e32 v3, v3		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3		; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v7, v2
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3		; GCN-NEXT: v_mul_lo_u32 v4, v8, v6
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v8, v7, 0
; GCN-NEXT: v_mul_lo_u32 v8, v5, v2		; GCN-NEXT: v_mul_lo_u32 v5, v9, v7
; GCN-NEXT: v_mul_lo_u32 v9, v4, v2		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; GCN-NEXT: v_add_i32_e32 v5, vcc, v3, v5
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v7, v5, 0
; GCN-NEXT: v_mul_lo_u32 v8, v2, v6		; GCN-NEXT: v_mul_hi_u32 v10, v7, v2
; GCN-NEXT: v_mul_hi_u32 v10, v2, v9		; GCN-NEXT: v_add_i32_e32 v10, vcc, v10, v3
; GCN-NEXT: v_mul_hi_u32 v7, v2, v6		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, v2, 0
; GCN-NEXT: v_mul_hi_u32 v13, v3, v6		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v12, v4, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v6, v5, 0
; GCN-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; GCN-NEXT: v_add_i32_e32 v2, vcc, v10, v2
; GCN-NEXT: v_mul_lo_u32 v10, v3, v9		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v13, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v9, v3, v9		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v11, vcc
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v7, vcc
; GCN-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v7, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v8, vcc, v13, v11, vcc
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v8, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; GCN-NEXT: v_mul_lo_u32 v6, v4, v3
; GCN-NEXT: v_mul_hi_u32 v7, v4, v2
; GCN-NEXT: v_mul_lo_u32 v5, v5, v2
; GCN-NEXT: v_mul_lo_u32 v4, v4, v2
; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v9, v2, v4
; GCN-NEXT: v_mul_hi_u32 v10, v2, v5
; GCN-NEXT: v_mul_hi_u32 v7, v3, v4
; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
; GCN-NEXT: v_mul_hi_u32 v6, v3, v5
; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GCN-NEXT: v_addc_u32_e32 v9, vcc, v12, v10, vcc
; GCN-NEXT: v_mul_lo_u32 v5, v3, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v6, v11, vcc
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v12, v6, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_addc_u32_e32 v2, vcc, v3, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v12, v3, vcc
; GCN-NEXT: v_lshrrev_b32_e32 v2, 17, v2		; GCN-NEXT: v_add_i32_e32 v10, vcc, v7, v2
; GCN-NEXT: v_mul_lo_u32 v3, v1, v2		; GCN-NEXT: v_addc_u32_e32 v13, vcc, v6, v3, vcc
; GCN-NEXT: v_mul_hi_u32 v4, v0, v2		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v8, v10, 0
; GCN-NEXT: v_mul_lo_u32 v2, v0, v2		; GCN-NEXT: v_mul_lo_u32 v6, v8, v13
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_mul_lo_u32 v7, v9, v10
		; GCN-NEXT: v_mul_hi_u32 v8, v10, v2
		; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v13, v2, 0
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; GCN-NEXT: v_mad_u64_u32 v[6:7], s[4:5], v10, v3, 0
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v13, v3, 0
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v8, v6
		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v12, v7, vcc
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
		; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v11, vcc
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v3, vcc, v12, v3, vcc
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v10, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v13, v3, vcc
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v2, s6, 0
		; GCN-NEXT: v_lshrrev_b32_e32 v4, 17, v4
		; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
		; GCN-NEXT: v_addc_u32_e32 v2, vcc, v12, v3, vcc
		; GCN-NEXT: v_mul_lo_u32 v4, v1, v2
		; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v2, 0
		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3		; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3
; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0x8000, v2		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, vcc		; GCN-NEXT: v_subb_u32_e64 v4, s[4:5], v4, v1, vcc
; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v2, v0		; GCN-NEXT: v_sub_i32_e64 v5, s[4:5], v2, v0
; GCN-NEXT: v_subbrev_u32_e64 v6, s[6:7], 0, v4, s[4:5]		; GCN-NEXT: v_subbrev_u32_e64 v6, s[6:7], 0, v4, s[4:5]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v6, v1
; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v5, v0		; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v5, v0
; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]		; GCN-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]
; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v1		; GCN-NEXT: v_cmp_eq_u32_e64 s[6:7], v6, v1
▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
; GCN-IR-NEXT: BB8_5: ; %Flow3		; GCN-IR-NEXT: BB8_5: ; %Flow3
; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1		; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3		; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2		; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2
; GCN-IR-NEXT: BB8_6: ; %Flow4		; GCN-IR-NEXT: BB8_6: ; %Flow4
; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]		; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5		; GCN-IR-NEXT: v_mul_lo_u32 v5, v0, v5
; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4		; GCN-IR-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v0, v4, 0
; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4		; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v4
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v5
; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v0
; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc		; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = urem i64 32768, %x		%result = urem i64 32768, %x
ret i64 %result		ret i64 %result
}		}

define i64 @v_test_urem_pow2_k_den_i64(i64 %x) {		define i64 @v_test_urem_pow2_k_den_i64(i64 %x) {
; GCN-LABEL: v_test_urem_pow2_k_den_i64:		; GCN-LABEL: v_test_urem_pow2_k_den_i64:
▲ Show 20 Lines • Show All 311 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/wwm-reserved-spill.ll

Show First 20 Lines • Show All 429 Lines • ▼ Show 20 Lines	; GFX9-O3-NEXT: s_setpc_b64 s[36:37]
call void @llvm.amdgcn.raw.buffer.store.i32(i32 %tmp137, <4 x i32> %tmp14, i32 4, i32 0, i32 0)		call void @llvm.amdgcn.raw.buffer.store.i32(i32 %tmp137, <4 x i32> %tmp14, i32 4, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_gfx i64 @strict_wwm_called_i64(i64 %a) noinline {		define amdgpu_gfx i64 @strict_wwm_called_i64(i64 %a) noinline {
; GFX9-O0-LABEL: strict_wwm_called_i64:		; GFX9-O0-LABEL: strict_wwm_called_i64:
; GFX9-O0: ; %bb.0:		; GFX9-O0: ; %bb.0:
; GFX9-O0-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-O0-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-O0-NEXT: v_mov_b32_e32 v6, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v2, v0
; GFX9-O0-NEXT: ; kill: def $vgpr6 killed $vgpr6 def $vgpr6_vgpr7 killed $exec		; GFX9-O0-NEXT: ; kill: def $vgpr2 killed $vgpr2 def $vgpr2_vgpr3 killed $exec
; GFX9-O0-NEXT: v_mov_b32_e32 v7, v1		; GFX9-O0-NEXT: v_mov_b32_e32 v3, v1
; GFX9-O0-NEXT: ; kill: def $vgpr0_vgpr1 killed $vgpr6_vgpr7 killed $exec		; GFX9-O0-NEXT: ; kill: def $vgpr0_vgpr1 killed $vgpr2_vgpr3 killed $exec
; GFX9-O0-NEXT: v_mov_b32_e32 v2, v6		; GFX9-O0-NEXT: v_mov_b32_e32 v4, v2
; GFX9-O0-NEXT: v_mov_b32_e32 v3, v6		; GFX9-O0-NEXT: v_mov_b32_e32 v5, v2
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v7		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v3
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v7		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3
; GFX9-O0-NEXT: v_add_co_u32_e64 v4, s[34:35], v2, v3		; GFX9-O0-NEXT: v_add_co_u32_e64 v4, s[34:35], v4, v5
; GFX9-O0-NEXT: v_addc_co_u32_e64 v0, s[34:35], v0, v1, s[34:35]		; GFX9-O0-NEXT: v_addc_co_u32_e64 v0, s[34:35], v0, v1, s[34:35]
; GFX9-O0-NEXT: ; kill: def $vgpr4 killed $vgpr4 def $vgpr4_vgpr5 killed $exec		; GFX9-O0-NEXT: ; kill: def $vgpr4 killed $vgpr4 def $vgpr4_vgpr5 killed $exec
; GFX9-O0-NEXT: v_mov_b32_e32 v5, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v5, v0
; GFX9-O0-NEXT: s_mov_b32 s34, 32		; GFX9-O0-NEXT: s_mov_b32 s34, 32
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v6		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v2
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v7		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3
; GFX9-O0-NEXT: v_lshrrev_b64 v[0:1], s34, v[0:1]		; GFX9-O0-NEXT: v_lshrrev_b64 v[0:1], s34, v[0:1]
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v0
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v4		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v4
; GFX9-O0-NEXT: v_mul_lo_u32 v2, v0, v1		; GFX9-O0-NEXT: v_mul_lo_u32 v1, v0, v1
; GFX9-O0-NEXT: ; kill: def $vgpr6 killed $vgpr6 killed $vgpr6_vgpr7 killed $exec		; GFX9-O0-NEXT: v_mov_b32_e32 v3, v2
; GFX9-O0-NEXT: v_mul_hi_u32 v1, v0, v6		; GFX9-O0-NEXT: v_lshrrev_b64 v[6:7], s34, v[4:5]
; GFX9-O0-NEXT: v_lshrrev_b64 v[7:8], s34, v[4:5]		; GFX9-O0-NEXT: v_mov_b32_e32 v2, v6
; GFX9-O0-NEXT: v_mov_b32_e32 v3, v7		; GFX9-O0-NEXT: v_mul_lo_u32 v2, v2, v3
; GFX9-O0-NEXT: v_mul_lo_u32 v3, v3, v6		; GFX9-O0-NEXT: v_mad_u64_u32 v[6:7], s[36:37], v0, v3, 0
; GFX9-O0-NEXT: v_add3_u32 v1, v1, v2, v3		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v7
		; GFX9-O0-NEXT: v_add3_u32 v0, v0, v1, v2
; GFX9-O0-NEXT: ; implicit-def: $sgpr35		; GFX9-O0-NEXT: ; implicit-def: $sgpr35
; GFX9-O0-NEXT: ; implicit-def: $sgpr36		; GFX9-O0-NEXT: ; implicit-def: $sgpr36
; GFX9-O0-NEXT: v_mov_b32_e32 v3, s35		; GFX9-O0-NEXT: v_mov_b32_e32 v2, s35
; GFX9-O0-NEXT: ; kill: def $vgpr1 killed $vgpr1 def $vgpr1_vgpr2 killed $exec		; GFX9-O0-NEXT: ; kill: def $vgpr0 killed $vgpr0 def $vgpr0_vgpr1 killed $exec
; GFX9-O0-NEXT: v_mov_b32_e32 v2, v3		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v2
; GFX9-O0-NEXT: v_lshlrev_b64 v[1:2], s34, v[1:2]		; GFX9-O0-NEXT: v_lshlrev_b64 v[1:2], s34, v[0:1]
; GFX9-O0-NEXT: v_mov_b32_e32 v3, v2		; GFX9-O0-NEXT: v_mov_b32_e32 v3, v2
; GFX9-O0-NEXT: v_mul_lo_u32 v6, v0, v6		; GFX9-O0-NEXT: ; kill: def $vgpr6 killed $vgpr6 killed $vgpr6_vgpr7 killed $exec
; GFX9-O0-NEXT: s_mov_b32 s35, 0		; GFX9-O0-NEXT: s_mov_b32 s35, 0
; GFX9-O0-NEXT: v_mov_b32_e32 v0, 0		; GFX9-O0-NEXT: v_mov_b32_e32 v0, 0
; GFX9-O0-NEXT: ; kill: def $vgpr6 killed $vgpr6 def $vgpr6_vgpr7 killed $exec		; GFX9-O0-NEXT: ; kill: def $vgpr6 killed $vgpr6 def $vgpr6_vgpr7 killed $exec
; GFX9-O0-NEXT: v_mov_b32_e32 v7, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v7, v0
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v7		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v7
; GFX9-O0-NEXT: v_or_b32_e32 v0, v0, v3		; GFX9-O0-NEXT: v_or_b32_e32 v0, v0, v3
; GFX9-O0-NEXT: v_mov_b32_e32 v2, v1		; GFX9-O0-NEXT: v_mov_b32_e32 v2, v1
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v6		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v6
Show All 14 Lines
; GFX9-O0-NEXT: s_setpc_b64 s[30:31]		; GFX9-O0-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-O3-LABEL: strict_wwm_called_i64:		; GFX9-O3-LABEL: strict_wwm_called_i64:
; GFX9-O3: ; %bb.0:		; GFX9-O3: ; %bb.0:
; GFX9-O3-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-O3-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-O3-NEXT: v_add_co_u32_e32 v2, vcc, v0, v0		; GFX9-O3-NEXT: v_add_co_u32_e32 v2, vcc, v0, v0
; GFX9-O3-NEXT: v_addc_co_u32_e32 v3, vcc, v1, v1, vcc		; GFX9-O3-NEXT: v_addc_co_u32_e32 v3, vcc, v1, v1, vcc
; GFX9-O3-NEXT: v_mul_lo_u32 v4, v3, v0		; GFX9-O3-NEXT: v_mul_lo_u32 v4, v3, v0
; GFX9-O3-NEXT: v_mul_lo_u32 v1, v2, v1		; GFX9-O3-NEXT: v_mul_lo_u32 v5, v2, v1
; GFX9-O3-NEXT: v_mul_hi_u32 v5, v2, v0		; GFX9-O3-NEXT: v_mad_u64_u32 v[0:1], s[34:35], v2, v0, 0
; GFX9-O3-NEXT: v_mul_lo_u32 v0, v2, v0		; GFX9-O3-NEXT: v_add3_u32 v1, v1, v5, v4
; GFX9-O3-NEXT: v_add3_u32 v1, v5, v1, v4
; GFX9-O3-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v2		; GFX9-O3-NEXT: v_sub_co_u32_e32 v0, vcc, v0, v2
; GFX9-O3-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc		; GFX9-O3-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
; GFX9-O3-NEXT: s_setpc_b64 s[30:31]		; GFX9-O3-NEXT: s_setpc_b64 s[30:31]
%add = add i64 %a, %a		%add = add i64 %a, %a
%mul = mul i64 %add, %a		%mul = mul i64 %add, %a
%sub = sub i64 %mul, %add		%sub = sub i64 %mul, %add
ret i64 %sub		ret i64 %sub
}		}

define amdgpu_gfx void @strict_wwm_call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {		define amdgpu_gfx void @strict_wwm_call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {
; GFX9-O0-LABEL: strict_wwm_call_i64:		; GFX9-O0-LABEL: strict_wwm_call_i64:
; GFX9-O0: ; %bb.0:		; GFX9-O0: ; %bb.0:
; GFX9-O0-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-O0-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1		; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1
; GFX9-O0-NEXT: buffer_store_dword v11, off, s[0:3], s32 offset:40 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v10, off, s[0:3], s32 offset:40 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v9, off, s[0:3], s32 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v8, off, s[0:3], s32 ; 4-byte Folded Spill
; GFX9-O0-NEXT: s_waitcnt vmcnt(0)		; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
; GFX9-O0-NEXT: buffer_store_dword v10, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v9, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill
; GFX9-O0-NEXT: s_waitcnt vmcnt(0)		; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
; GFX9-O0-NEXT: buffer_store_dword v4, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v4, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:24 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:24 ; 4-byte Folded Spill
; GFX9-O0-NEXT: s_waitcnt vmcnt(0)		; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:28 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:28 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v4, off, s[0:3], s32 offset:32 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v4, off, s[0:3], s32 offset:32 ; 4-byte Folded Spill
; GFX9-O0-NEXT: buffer_store_dword v5, off, s[0:3], s32 offset:36 ; 4-byte Folded Spill		; GFX9-O0-NEXT: buffer_store_dword v5, off, s[0:3], s32 offset:36 ; 4-byte Folded Spill
; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]		; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]
; GFX9-O0-NEXT: v_writelane_b32 v11, s33, 8		; GFX9-O0-NEXT: v_writelane_b32 v10, s33, 8
; GFX9-O0-NEXT: s_mov_b32 s33, s32		; GFX9-O0-NEXT: s_mov_b32 s33, s32
; GFX9-O0-NEXT: s_add_i32 s32, s32, 0xc00		; GFX9-O0-NEXT: s_add_i32 s32, s32, 0xc00
; GFX9-O0-NEXT: v_writelane_b32 v11, s30, 0		; GFX9-O0-NEXT: v_writelane_b32 v10, s30, 0
; GFX9-O0-NEXT: v_writelane_b32 v11, s31, 1		; GFX9-O0-NEXT: v_writelane_b32 v10, s31, 1
; GFX9-O0-NEXT: s_mov_b32 s34, s8		; GFX9-O0-NEXT: s_mov_b32 s34, s8
; GFX9-O0-NEXT: s_mov_b32 s36, s4		; GFX9-O0-NEXT: s_mov_b32 s36, s4
; GFX9-O0-NEXT: ; kill: def $sgpr36 killed $sgpr36 def $sgpr36_sgpr37_sgpr38_sgpr39		; GFX9-O0-NEXT: ; kill: def $sgpr36 killed $sgpr36 def $sgpr36_sgpr37_sgpr38_sgpr39
; GFX9-O0-NEXT: s_mov_b32 s37, s5		; GFX9-O0-NEXT: s_mov_b32 s37, s5
; GFX9-O0-NEXT: s_mov_b32 s38, s6		; GFX9-O0-NEXT: s_mov_b32 s38, s6
; GFX9-O0-NEXT: s_mov_b32 s39, s7		; GFX9-O0-NEXT: s_mov_b32 s39, s7
; GFX9-O0-NEXT: v_writelane_b32 v11, s36, 2		; GFX9-O0-NEXT: v_writelane_b32 v10, s36, 2
; GFX9-O0-NEXT: v_writelane_b32 v11, s37, 3		; GFX9-O0-NEXT: v_writelane_b32 v10, s37, 3
; GFX9-O0-NEXT: v_writelane_b32 v11, s38, 4		; GFX9-O0-NEXT: v_writelane_b32 v10, s38, 4
; GFX9-O0-NEXT: v_writelane_b32 v11, s39, 5		; GFX9-O0-NEXT: v_writelane_b32 v10, s39, 5
; GFX9-O0-NEXT: ; kill: def $sgpr34 killed $sgpr34 def $sgpr34_sgpr35		; GFX9-O0-NEXT: ; kill: def $sgpr34 killed $sgpr34 def $sgpr34_sgpr35
; GFX9-O0-NEXT: s_mov_b32 s35, s9		; GFX9-O0-NEXT: s_mov_b32 s35, s9
; GFX9-O0-NEXT: ; kill: def $sgpr30_sgpr31 killed $sgpr34_sgpr35		; GFX9-O0-NEXT: ; kill: def $sgpr30_sgpr31 killed $sgpr34_sgpr35
; GFX9-O0-NEXT: s_mov_b64 s[30:31], 0		; GFX9-O0-NEXT: s_mov_b64 s[30:31], 0
; GFX9-O0-NEXT: v_mov_b32_e32 v0, s34		; GFX9-O0-NEXT: v_mov_b32_e32 v0, s34
; GFX9-O0-NEXT: v_mov_b32_e32 v1, s35		; GFX9-O0-NEXT: v_mov_b32_e32 v1, s35
; GFX9-O0-NEXT: v_mov_b32_e32 v10, v1		; GFX9-O0-NEXT: v_mov_b32_e32 v9, v1
; GFX9-O0-NEXT: v_mov_b32_e32 v9, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v8, v0
; GFX9-O0-NEXT: s_not_b64 exec, exec		; GFX9-O0-NEXT: s_not_b64 exec, exec
; GFX9-O0-NEXT: v_mov_b32_e32 v9, s30		; GFX9-O0-NEXT: v_mov_b32_e32 v8, s30
; GFX9-O0-NEXT: v_mov_b32_e32 v10, s31		; GFX9-O0-NEXT: v_mov_b32_e32 v9, s31
; GFX9-O0-NEXT: s_not_b64 exec, exec		; GFX9-O0-NEXT: s_not_b64 exec, exec
; GFX9-O0-NEXT: s_or_saveexec_b64 s[30:31], -1		; GFX9-O0-NEXT: s_or_saveexec_b64 s[30:31], -1
; GFX9-O0-NEXT: v_writelane_b32 v11, s30, 6		; GFX9-O0-NEXT: v_writelane_b32 v10, s30, 6
; GFX9-O0-NEXT: v_writelane_b32 v11, s31, 7		; GFX9-O0-NEXT: v_writelane_b32 v10, s31, 7
; GFX9-O0-NEXT: v_mov_b32_e32 v2, v9		; GFX9-O0-NEXT: v_mov_b32_e32 v2, v8
; GFX9-O0-NEXT: s_mov_b32 s30, 32		; GFX9-O0-NEXT: s_mov_b32 s30, 32
; GFX9-O0-NEXT: ; implicit-def: $sgpr34_sgpr35		; GFX9-O0-NEXT: ; implicit-def: $sgpr34_sgpr35
; GFX9-O0-NEXT: v_lshrrev_b64 v[3:4], s30, v[9:10]		; GFX9-O0-NEXT: v_lshrrev_b64 v[3:4], s30, v[8:9]
; GFX9-O0-NEXT: s_getpc_b64 s[30:31]		; GFX9-O0-NEXT: s_getpc_b64 s[30:31]
; GFX9-O0-NEXT: s_add_u32 s30, s30, strict_wwm_called_i64@gotpcrel32@lo+4		; GFX9-O0-NEXT: s_add_u32 s30, s30, strict_wwm_called_i64@gotpcrel32@lo+4
; GFX9-O0-NEXT: s_addc_u32 s31, s31, strict_wwm_called_i64@gotpcrel32@hi+12		; GFX9-O0-NEXT: s_addc_u32 s31, s31, strict_wwm_called_i64@gotpcrel32@hi+12
; GFX9-O0-NEXT: s_load_dwordx2 s[30:31], s[30:31], 0x0		; GFX9-O0-NEXT: s_load_dwordx2 s[30:31], s[30:31], 0x0
; GFX9-O0-NEXT: s_mov_b64 s[38:39], s[2:3]		; GFX9-O0-NEXT: s_mov_b64 s[38:39], s[2:3]
; GFX9-O0-NEXT: s_mov_b64 s[36:37], s[0:1]		; GFX9-O0-NEXT: s_mov_b64 s[36:37], s[0:1]
; GFX9-O0-NEXT: s_mov_b64 s[0:1], s[36:37]		; GFX9-O0-NEXT: s_mov_b64 s[0:1], s[36:37]
; GFX9-O0-NEXT: s_mov_b64 s[2:3], s[38:39]		; GFX9-O0-NEXT: s_mov_b64 s[2:3], s[38:39]
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v2		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v2
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3
; GFX9-O0-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-O0-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-O0-NEXT: s_swappc_b64 s[30:31], s[30:31]		; GFX9-O0-NEXT: s_swappc_b64 s[30:31], s[30:31]
; GFX9-O0-NEXT: v_readlane_b32 s34, v11, 6		; GFX9-O0-NEXT: v_readlane_b32 s34, v10, 6
; GFX9-O0-NEXT: v_readlane_b32 s35, v11, 7		; GFX9-O0-NEXT: v_readlane_b32 s35, v10, 7
; GFX9-O0-NEXT: v_readlane_b32 s36, v11, 2		; GFX9-O0-NEXT: v_readlane_b32 s36, v10, 2
; GFX9-O0-NEXT: v_readlane_b32 s37, v11, 3		; GFX9-O0-NEXT: v_readlane_b32 s37, v10, 3
; GFX9-O0-NEXT: v_readlane_b32 s38, v11, 4		; GFX9-O0-NEXT: v_readlane_b32 s38, v10, 4
; GFX9-O0-NEXT: v_readlane_b32 s39, v11, 5		; GFX9-O0-NEXT: v_readlane_b32 s39, v10, 5
; GFX9-O0-NEXT: v_readlane_b32 s30, v11, 0		; GFX9-O0-NEXT: v_readlane_b32 s30, v10, 0
; GFX9-O0-NEXT: v_readlane_b32 s31, v11, 1		; GFX9-O0-NEXT: v_readlane_b32 s31, v10, 1
; GFX9-O0-NEXT: v_mov_b32_e32 v2, v0		; GFX9-O0-NEXT: v_mov_b32_e32 v2, v0
; GFX9-O0-NEXT: v_mov_b32_e32 v3, v1		; GFX9-O0-NEXT: v_mov_b32_e32 v3, v1
; GFX9-O0-NEXT: v_mov_b32_e32 v4, v9		; GFX9-O0-NEXT: v_mov_b32_e32 v4, v8
; GFX9-O0-NEXT: v_mov_b32_e32 v5, v10		; GFX9-O0-NEXT: v_mov_b32_e32 v5, v9
; GFX9-O0-NEXT: v_add_co_u32_e64 v2, s[40:41], v2, v4		; GFX9-O0-NEXT: v_add_co_u32_e64 v2, s[40:41], v2, v4
; GFX9-O0-NEXT: v_addc_co_u32_e64 v3, s[40:41], v3, v5, s[40:41]		; GFX9-O0-NEXT: v_addc_co_u32_e64 v3, s[40:41], v3, v5, s[40:41]
; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]		; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]
; GFX9-O0-NEXT: v_mov_b32_e32 v0, v2		; GFX9-O0-NEXT: v_mov_b32_e32 v0, v2
; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3		; GFX9-O0-NEXT: v_mov_b32_e32 v1, v3
; GFX9-O0-NEXT: s_mov_b32 s34, 0		; GFX9-O0-NEXT: s_mov_b32 s34, 0
; GFX9-O0-NEXT: buffer_store_dwordx2 v[0:1], off, s[36:39], s34 offset:4		; GFX9-O0-NEXT: buffer_store_dwordx2 v[0:1], off, s[36:39], s34 offset:4
; GFX9-O0-NEXT: s_add_i32 s32, s32, 0xfffff400		; GFX9-O0-NEXT: s_add_i32 s32, s32, 0xfffff400
; GFX9-O0-NEXT: v_readlane_b32 s33, v11, 8		; GFX9-O0-NEXT: v_readlane_b32 s33, v10, 8
; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1		; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1
; GFX9-O0-NEXT: buffer_load_dword v11, off, s[0:3], s32 offset:40 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v10, off, s[0:3], s32 offset:40 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v9, off, s[0:3], s32 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v8, off, s[0:3], s32 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v10, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v9, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:16 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:16 ; 4-byte Folded Reload
; GFX9-O0-NEXT: s_nop 0		; GFX9-O0-NEXT: s_nop 0
; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Reload		; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Reload
Show All 16 Lines
; GFX9-O3-NEXT: s_waitcnt vmcnt(0)		; GFX9-O3-NEXT: s_waitcnt vmcnt(0)
; GFX9-O3-NEXT: buffer_store_dword v7, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill		; GFX9-O3-NEXT: buffer_store_dword v7, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
; GFX9-O3-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill		; GFX9-O3-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill
; GFX9-O3-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill		; GFX9-O3-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill
; GFX9-O3-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill		; GFX9-O3-NEXT: buffer_store_dword v2, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill
; GFX9-O3-NEXT: s_waitcnt vmcnt(0)		; GFX9-O3-NEXT: s_waitcnt vmcnt(0)
; GFX9-O3-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill		; GFX9-O3-NEXT: buffer_store_dword v3, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill
; GFX9-O3-NEXT: s_mov_b64 exec, s[34:35]		; GFX9-O3-NEXT: s_mov_b64 exec, s[34:35]
; GFX9-O3-NEXT: s_mov_b32 s38, s33		; GFX9-O3-NEXT: s_mov_b32 s40, s33
; GFX9-O3-NEXT: s_mov_b32 s33, s32		; GFX9-O3-NEXT: s_mov_b32 s33, s32
; GFX9-O3-NEXT: s_addk_i32 s32, 0x800		; GFX9-O3-NEXT: s_addk_i32 s32, 0x800
; GFX9-O3-NEXT: s_mov_b64 s[36:37], s[30:31]		; GFX9-O3-NEXT: s_mov_b64 s[36:37], s[30:31]
; GFX9-O3-NEXT: v_mov_b32_e32 v6, s8		; GFX9-O3-NEXT: v_mov_b32_e32 v6, s8
; GFX9-O3-NEXT: v_mov_b32_e32 v7, s9		; GFX9-O3-NEXT: v_mov_b32_e32 v7, s9
; GFX9-O3-NEXT: s_not_b64 exec, exec		; GFX9-O3-NEXT: s_not_b64 exec, exec
; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0		; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0
; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0		; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0
; GFX9-O3-NEXT: s_not_b64 exec, exec		; GFX9-O3-NEXT: s_not_b64 exec, exec
; GFX9-O3-NEXT: s_or_saveexec_b64 s[34:35], -1		; GFX9-O3-NEXT: s_or_saveexec_b64 s[38:39], -1
; GFX9-O3-NEXT: s_getpc_b64 s[30:31]		; GFX9-O3-NEXT: s_getpc_b64 s[30:31]
; GFX9-O3-NEXT: s_add_u32 s30, s30, strict_wwm_called_i64@gotpcrel32@lo+4		; GFX9-O3-NEXT: s_add_u32 s30, s30, strict_wwm_called_i64@gotpcrel32@lo+4
; GFX9-O3-NEXT: s_addc_u32 s31, s31, strict_wwm_called_i64@gotpcrel32@hi+12		; GFX9-O3-NEXT: s_addc_u32 s31, s31, strict_wwm_called_i64@gotpcrel32@hi+12
; GFX9-O3-NEXT: s_load_dwordx2 s[30:31], s[30:31], 0x0		; GFX9-O3-NEXT: s_load_dwordx2 s[30:31], s[30:31], 0x0
; GFX9-O3-NEXT: v_mov_b32_e32 v0, v6		; GFX9-O3-NEXT: v_mov_b32_e32 v0, v6
; GFX9-O3-NEXT: v_mov_b32_e32 v1, v7		; GFX9-O3-NEXT: v_mov_b32_e32 v1, v7
; GFX9-O3-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-O3-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-O3-NEXT: s_swappc_b64 s[30:31], s[30:31]		; GFX9-O3-NEXT: s_swappc_b64 s[30:31], s[30:31]
; GFX9-O3-NEXT: v_mov_b32_e32 v2, v0		; GFX9-O3-NEXT: v_mov_b32_e32 v2, v0
; GFX9-O3-NEXT: v_mov_b32_e32 v3, v1		; GFX9-O3-NEXT: v_mov_b32_e32 v3, v1
; GFX9-O3-NEXT: v_add_co_u32_e32 v2, vcc, v2, v6		; GFX9-O3-NEXT: v_add_co_u32_e32 v2, vcc, v2, v6
; GFX9-O3-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v7, vcc		; GFX9-O3-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v7, vcc
; GFX9-O3-NEXT: s_mov_b64 exec, s[34:35]		; GFX9-O3-NEXT: s_mov_b64 exec, s[38:39]
; GFX9-O3-NEXT: v_mov_b32_e32 v0, v2		; GFX9-O3-NEXT: v_mov_b32_e32 v0, v2
; GFX9-O3-NEXT: v_mov_b32_e32 v1, v3		; GFX9-O3-NEXT: v_mov_b32_e32 v1, v3
; GFX9-O3-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0 offset:4		; GFX9-O3-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0 offset:4
; GFX9-O3-NEXT: s_addk_i32 s32, 0xf800		; GFX9-O3-NEXT: s_addk_i32 s32, 0xf800
; GFX9-O3-NEXT: s_mov_b32 s33, s38		; GFX9-O3-NEXT: s_mov_b32 s33, s40
; GFX9-O3-NEXT: s_or_saveexec_b64 s[30:31], -1		; GFX9-O3-NEXT: s_or_saveexec_b64 s[30:31], -1
; GFX9-O3-NEXT: buffer_load_dword v6, off, s[0:3], s32 ; 4-byte Folded Reload		; GFX9-O3-NEXT: buffer_load_dword v6, off, s[0:3], s32 ; 4-byte Folded Reload
; GFX9-O3-NEXT: s_nop 0		; GFX9-O3-NEXT: s_nop 0
; GFX9-O3-NEXT: buffer_load_dword v7, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload		; GFX9-O3-NEXT: buffer_load_dword v7, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
; GFX9-O3-NEXT: s_nop 0		; GFX9-O3-NEXT: s_nop 0
; GFX9-O3-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload		; GFX9-O3-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
; GFX9-O3-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload		; GFX9-O3-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload
; GFX9-O3-NEXT: s_nop 0		; GFX9-O3-NEXT: s_nop 0
▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

	Show First 20 Lines • Show All 138 Lines • ▼ Show 20 Lines

	; GFX9-LABEL: {{^}}call_i64:			; GFX9-LABEL: {{^}}call_i64:
	define amdgpu_kernel void @call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {			define amdgpu_kernel void @call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {
	; GFX9: s_load_dwordx2 s{{\[}}[[ARG_LO:[0-9]+]]:[[ARG_HI:[0-9]+]]{{\]}}			; GFX9: s_load_dwordx2 s{{\[}}[[ARG_LO:[0-9]+]]:[[ARG_HI:[0-9]+]]{{\]}}

	; GFX9-O0: s_mov_b64 s{{\[}}[[ZERO_LO:[0-9]+]]:[[ZERO_HI:[0-9]+]]{{\]}}, 0{{$}}			; GFX9-O0: s_mov_b64 s{{\[}}[[ZERO_LO:[0-9]+]]:[[ZERO_HI:[0-9]+]]{{\]}}, 0{{$}}
	; GFX9-O0: v_mov_b32_e32 v0, s[[ARG_LO]]			; GFX9-O0: v_mov_b32_e32 v0, s[[ARG_LO]]
	; GFX9-O0: v_mov_b32_e32 v1, s[[ARG_HI]]			; GFX9-O0: v_mov_b32_e32 v1, s[[ARG_HI]]
	; GFX9-O0-DAG: v_mov_b32_e32 v10, v1			; GFX9-O0-DAG: v_mov_b32_e32 v9, v1
	; GFX9-O0-DAG: v_mov_b32_e32 v9, v0			; GFX9-O0-DAG: v_mov_b32_e32 v8, v0

	; GFX9-O3-DAG: v_mov_b32_e32 v7, s[[ARG_HI]]			; GFX9-O3-DAG: v_mov_b32_e32 v7, s[[ARG_HI]]
	; GFX9-O3-DAG: v_mov_b32_e32 v6, s[[ARG_LO]]			; GFX9-O3-DAG: v_mov_b32_e32 v6, s[[ARG_LO]]

	; GFX9: s_not_b64 exec, exec			; GFX9: s_not_b64 exec, exec
	; GFX9-O0-NEXT: v_mov_b32_e32 v9, s[[ZERO_LO]]			; GFX9-O0-NEXT: v_mov_b32_e32 v8, s[[ZERO_LO]]
	; GFX9-O0-NEXT: v_mov_b32_e32 v10, s[[ZERO_HI]]			; GFX9-O0-NEXT: v_mov_b32_e32 v9, s[[ZERO_HI]]
	; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0			; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0
	; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0			; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: s_not_b64 exec, exec			; GFX9-NEXT: s_not_b64 exec, exec
	%tmp107 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %arg, i64 0)			%tmp107 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %arg, i64 0)
	; GFX9: s_swappc_b64			; GFX9: s_swappc_b64
	%tmp134 = call i64 @called_i64(i64 %tmp107)			%tmp134 = call i64 @called_i64(i64 %tmp107)
	%tmp136 = add i64 %tmp134, %tmp107			%tmp136 = add i64 %tmp134, %tmp107
	%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)			%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)
	▲ Show 20 Lines • Show All 169 Lines • ▼ Show 20 Lines

	; GFX9-LABEL: {{^}}strict_wwm_call_i64:			; GFX9-LABEL: {{^}}strict_wwm_call_i64:
	define amdgpu_kernel void @strict_wwm_call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {			define amdgpu_kernel void @strict_wwm_call_i64(<4 x i32> inreg %tmp14, i64 inreg %arg) {
	; GFX9: s_load_dwordx2 s{{\[}}[[ARG_LO:[0-9]+]]:[[ARG_HI:[0-9]+]]{{\]}}			; GFX9: s_load_dwordx2 s{{\[}}[[ARG_LO:[0-9]+]]:[[ARG_HI:[0-9]+]]{{\]}}

	; GFX9-O0: s_mov_b64 s{{\[}}[[ZERO_LO:[0-9]+]]:[[ZERO_HI:[0-9]+]]{{\]}}, 0{{$}}			; GFX9-O0: s_mov_b64 s{{\[}}[[ZERO_LO:[0-9]+]]:[[ZERO_HI:[0-9]+]]{{\]}}, 0{{$}}
	; GFX9-O0: v_mov_b32_e32 v0, s[[ARG_LO]]			; GFX9-O0: v_mov_b32_e32 v0, s[[ARG_LO]]
	; GFX9-O0: v_mov_b32_e32 v1, s[[ARG_HI]]			; GFX9-O0: v_mov_b32_e32 v1, s[[ARG_HI]]
	; GFX9-O0-DAG: v_mov_b32_e32 v10, v1			; GFX9-O0-DAG: v_mov_b32_e32 v9, v1
	; GFX9-O0-DAG: v_mov_b32_e32 v9, v0			; GFX9-O0-DAG: v_mov_b32_e32 v8, v0

	; GFX9-O3-DAG: v_mov_b32_e32 v7, s[[ARG_HI]]			; GFX9-O3-DAG: v_mov_b32_e32 v7, s[[ARG_HI]]
	; GFX9-O3-DAG: v_mov_b32_e32 v6, s[[ARG_LO]]			; GFX9-O3-DAG: v_mov_b32_e32 v6, s[[ARG_LO]]

	; GFX9: s_not_b64 exec, exec			; GFX9: s_not_b64 exec, exec
	; GFX9-O0-NEXT: v_mov_b32_e32 v9, s[[ZERO_LO]]			; GFX9-O0-NEXT: v_mov_b32_e32 v8, s[[ZERO_LO]]
	; GFX9-O0-NEXT: v_mov_b32_e32 v10, s[[ZERO_HI]]			; GFX9-O0-NEXT: v_mov_b32_e32 v9, s[[ZERO_HI]]
	; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0			; GFX9-O3-NEXT: v_mov_b32_e32 v6, 0
	; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0			; GFX9-O3-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: s_not_b64 exec, exec			; GFX9-NEXT: s_not_b64 exec, exec
	%tmp107 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %arg, i64 0)			%tmp107 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %arg, i64 0)
	; GFX9: s_swappc_b64			; GFX9: s_swappc_b64
	%tmp134 = call i64 @strict_wwm_called_i64(i64 %tmp107)			%tmp134 = call i64 @strict_wwm_called_i64(i64 %tmp107)
	%tmp136 = add i64 %tmp134, %tmp107			%tmp136 = add i64 %tmp134, %tmp107
	%tmp137 = tail call i64 @llvm.amdgcn.strict.wwm.i64(i64 %tmp136)			%tmp137 = tail call i64 @llvm.amdgcn.strict.wwm.i64(i64 %tmp136)
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 387573

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

llvm/test/CodeGen/AMDGPU/bypass-div.ll

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

llvm/test/CodeGen/AMDGPU/mad_64_32.ll

llvm/test/CodeGen/AMDGPU/mul.ll

llvm/test/CodeGen/AMDGPU/mul_int24.ll

llvm/test/CodeGen/AMDGPU/mul_uint24-amdgcn.ll

llvm/test/CodeGen/AMDGPU/sdiv64.ll

llvm/test/CodeGen/AMDGPU/srem64.ll

llvm/test/CodeGen/AMDGPU/udiv.ll

llvm/test/CodeGen/AMDGPU/udiv64.ll

llvm/test/CodeGen/AMDGPU/urem64.ll

llvm/test/CodeGen/AMDGPU/wwm-reserved-spill.ll

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

[AMDGPU] Implement widening multiplies with v_mad_i64_i32/v_mad_u64_u32
ClosedPublic