This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/CodeGen/
-
llvm/
-
CodeGen/
-
TargetLowering.h
-
lib/
-
CodeGen/SelectionDAG/
-
SelectionDAG/
-
SelectionDAG.cpp
-
Target/RISCV/
-
RISCV/
-
RISCVISelLowering.h
-
RISCVISelLowering.cpp
-
test/CodeGen/RISCV/rvv/
-
CodeGen/
-
RISCV/
-
rvv/
-
sink-splat-operands.ll
-
vscale-power-of-two.ll

Differential D129609

[RISCV] Exploit fact that vscale is always power of two to replace urem sequence
ClosedPublic

Authored by reames on Jul 12 2022, 5:49 PM.

Download Raw Diff

Details

Reviewers

craig.topper
kito-cheng
asb
frasercrmck

Commits

rGdde2a7fb6da4: [RISCV] Exploit fact that vscale is always power of two to replace urem sequence

Summary

When doing scalable vectorization, the loop vectorizer uses a urem in the computation of the vector trip count. The RHS of that urem is a (possibly shifted) call to @llvm.vscale.

If my understanding of vscale is correct - which, I'm a bit unsure of, so please double check! - then vscale is effectively the number of "blocks" in the vector register. (That is, types such as <vscale x 8 x i8> and <vscale x 1 x i8> both fill one 64 bit block, and vscale is essentially how many of those blocks there are in a single vector register at runtime.)

We know from the specification that VLEN must be a power of two between ELEN and 2^16. Since our block size is 64 bits, the must be a power of two numbers of blocks. (For everything other than VLEN<=32, but that's already broken.)

Careful review here is appreciated. I've been looking for a way to eliminate that urem, and am a bit concerned this seems too easy. I might be missing something.

It is worth noting that AArch64 SVE explicitly allows non-power-of-two sizes for the vector registers and thus can't claim that vscale is a power of two by this logic.

Diff Detail

Event Timeline

reames created this revision.Jul 12 2022, 5:49 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 12 2022, 5:49 PM

Herald added subscribers: sunshaoce, VincentWu, luke957 and 31 others. · View Herald Transcript

reames requested review of this revision.Jul 12 2022, 5:49 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 12 2022, 5:49 PM

Herald added subscribers: alextsao1999, • pcwang-thead, eopXD, MaskRay. · View Herald Transcript

reames added a parent revision: D129606: [DAGCombine] fold (urem x, (lshr pow2, y)) -> (and x, (add (lshr pow2, y), -1)).Jul 12 2022, 5:49 PM

Harbormaster completed remote builds in B175013: Diff 444120.Jul 12 2022, 8:00 PM

Nice!

But I'd say that given that we define vscale=VLEN/64 and we know VLEN is a power of two >= 64 (ignoring 32 which we know is broken), isn't that sufficient justification?

Simplify justification comment per reviewer suggestion.

LGTM

This revision is now accepted and ready to land.Jul 13 2022, 9:09 AM

LGTM too (thanks for correcting me in that it's really RVVBitsPerBlock even if that's always 64)

Harbormaster completed remote builds in B175135: Diff 444291.Jul 13 2022, 10:15 AM

This revision was landed with ongoing or failed builds.Jul 13 2022, 10:55 AM

Closed by commit rGdde2a7fb6da4: [RISCV] Exploit fact that vscale is always power of two to replace urem sequence (authored by reames). · Explain Why

This revision was automatically updated to reflect the committed changes.

reames added a commit: rGdde2a7fb6da4: [RISCV] Exploit fact that vscale is always power of two to replace urem sequence.

david-arm mentioned this in D154314: [LV] Remove the reminder loop if we know the mask is always true.Jul 7 2023, 5:00 AM

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

TargetLowering.h

3 lines

lib/

CodeGen/

SelectionDAG/

SelectionDAG.cpp

6 lines

Target/

RISCV/

RISCVISelLowering.h

2 lines

RISCVISelLowering.cpp

11 lines

test/

CodeGen/

RISCV/

rvv/

sink-splat-operands.ll

110 lines

vscale-power-of-two.ll

26 lines

Diff 444291

llvm/include/llvm/CodeGen/TargetLowering.h

Show First 20 Lines • Show All 540 Lines • ▼ Show 20 Lines	public:
bool isSlowDivBypassed() const { return !BypassSlowDivWidths.empty(); }		bool isSlowDivBypassed() const { return !BypassSlowDivWidths.empty(); }

/// Returns map of slow types for division or remainder with corresponding		/// Returns map of slow types for division or remainder with corresponding
/// fast types		/// fast types
const DenseMap<unsigned int, unsigned int> &getBypassSlowDivWidths() const {		const DenseMap<unsigned int, unsigned int> &getBypassSlowDivWidths() const {
return BypassSlowDivWidths;		return BypassSlowDivWidths;
}		}

		/// Return true only if vscale must be a power of two.
		virtual bool isVScaleKnownToBeAPowerOfTwo() const { return false; }

/// Return true if Flow Control is an expensive operation that should be		/// Return true if Flow Control is an expensive operation that should be
/// avoided.		/// avoided.
bool isJumpExpensive() const { return JumpIsExpensive; }		bool isJumpExpensive() const { return JumpIsExpensive; }

/// Return true if selects are only cheaper than branches if the branch is		/// Return true if selects are only cheaper than branches if the branch is
/// unlikely to be predicted right.		/// unlikely to be predicted right.
bool isPredictableSelectExpensive() const {		bool isPredictableSelectExpensive() const {
return PredictableSelectIsExpensive;		return PredictableSelectIsExpensive;
▲ Show 20 Lines • Show All 4,437 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,863 Lines • ▼ Show 20 Lines	if (llvm::all_of(Val->ops(), [BitWidth](SDValue E) {
return true;		return true;

// Is the operand of a splat vector a constant power of two?		// Is the operand of a splat vector a constant power of two?
if (Val.getOpcode() == ISD::SPLAT_VECTOR)		if (Val.getOpcode() == ISD::SPLAT_VECTOR)
if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val->getOperand(0)))		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val->getOperand(0)))
if (C->getAPIntValue().zextOrTrunc(BitWidth).isPowerOf2())		if (C->getAPIntValue().zextOrTrunc(BitWidth).isPowerOf2())
return true;		return true;

		// vscale(power-of-two) is a power-of-two for some targets
		if (Val.getOpcode() == ISD::VSCALE &&
		getTargetLoweringInfo().isVScaleKnownToBeAPowerOfTwo() &&
		isKnownToBeAPowerOfTwo(Val.getOperand(0)))
		return true;

// More could be done here, though the above checks are enough		// More could be done here, though the above checks are enough
// to handle some common cases.		// to handle some common cases.

// Fall back to computeKnownBits to catch other known cases.		// Fall back to computeKnownBits to catch other known cases.
KnownBits Known = computeKnownBits(Val);		KnownBits Known = computeKnownBits(Val);
return (Known.countMaxPopulation() == 1) && (Known.countMinPopulation() == 1);		return (Known.countMaxPopulation() == 1) && (Known.countMinPopulation() == 1);
}		}

▲ Show 20 Lines • Show All 7,908 Lines • Show Last 20 Lines

llvm/lib/Target/RISCV/RISCVISelLowering.h

Show First 20 Lines • Show All 591 Lines • ▼ Show 20 Lines	public:

unsigned getJumpTableEncoding() const override;		unsigned getJumpTableEncoding() const override;

const MCExpr LowerCustomJumpTableEntry(const MachineJumpTableInfo MJTI,		const MCExpr LowerCustomJumpTableEntry(const MachineJumpTableInfo MJTI,
const MachineBasicBlock *MBB,		const MachineBasicBlock *MBB,
unsigned uid,		unsigned uid,
MCContext &Ctx) const override;		MCContext &Ctx) const override;

		bool isVScaleKnownToBeAPowerOfTwo() const override;

private:		private:
/// RISCVCCAssignFn - This target-specific function extends the default		/// RISCVCCAssignFn - This target-specific function extends the default
/// CCValAssign with additional information used to lower RISC-V calling		/// CCValAssign with additional information used to lower RISC-V calling
/// conventions.		/// conventions.
typedef bool RISCVCCAssignFn(const DataLayout &DL, RISCVABI::ABI,		typedef bool RISCVCCAssignFn(const DataLayout &DL, RISCVABI::ABI,
unsigned ValNo, MVT ValVT, MVT LocVT,		unsigned ValNo, MVT ValVT, MVT LocVT,
CCValAssign::LocInfo LocInfo,		CCValAssign::LocInfo LocInfo,
ISD::ArgFlagsTy ArgFlags, CCState &State,		ISD::ArgFlagsTy ArgFlags, CCState &State,
▲ Show 20 Lines • Show All 143 Lines • Show Last 20 Lines

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 12,124 Lines • ▼ Show 20 Lines
	const MCExpr *RISCVTargetLowering::LowerCustomJumpTableEntry(			const MCExpr *RISCVTargetLowering::LowerCustomJumpTableEntry(
	const MachineJumpTableInfo MJTI, const MachineBasicBlock MBB,			const MachineJumpTableInfo MJTI, const MachineBasicBlock MBB,
	unsigned uid, MCContext &Ctx) const {			unsigned uid, MCContext &Ctx) const {
	assert(Subtarget.is64Bit() && !isPositionIndependent() &&			assert(Subtarget.is64Bit() && !isPositionIndependent() &&
	getTargetMachine().getCodeModel() == CodeModel::Small);			getTargetMachine().getCodeModel() == CodeModel::Small);
	return MCSymbolRefExpr::create(MBB->getSymbol(), Ctx);			return MCSymbolRefExpr::create(MBB->getSymbol(), Ctx);
	}			}

				bool RISCVTargetLowering::isVScaleKnownToBeAPowerOfTwo() const {
				// We define vscale to be VLEN/RVVBitsPerBlock. VLEN is always a power
				// of two >= 64, and RVVBitsPerBlock is 64. Thus, vscale must be
				// a power of two as well.
				// FIXME: This doesn't work for zve32, but that's already broken
				// elsewhere for the same reason.
				assert(Subtarget.getRealMinVLen() >= 64 && "zve32* unsupported");
				assert(RISCV::RVVBitsPerBlock == 64 && "RVVBitsPerBlock changed, audit needed");
				return true;
				}

	bool RISCVTargetLowering::isFMAFasterThanFMulAndFAdd(const MachineFunction &MF,			bool RISCVTargetLowering::isFMAFasterThanFMulAndFAdd(const MachineFunction &MF,
	EVT VT) const {			EVT VT) const {
	VT = VT.getScalarType();			VT = VT.getScalarType();

	if (!VT.isSimple())			if (!VT.isSimple())
	return false;			return false;

	switch (VT.getSimpleVT().SimpleTy) {			switch (VT.getSimpleVT().SimpleTy) {
	▲ Show 20 Lines • Show All 301 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

	Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB7_2			; CHECK-NEXT: bgeu a3, a2, .LBB7_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB7_5			; CHECK-NEXT: j .LBB7_5
	; CHECK-NEXT: .LBB7_2: # %vector.ph			; CHECK-NEXT: .LBB7_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB7_3: # %vector.body			; CHECK-NEXT: .LBB7_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vmul.vx v8, v8, a1			; CHECK-NEXT: vmul.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB8_2			; CHECK-NEXT: bgeu a3, a2, .LBB8_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB8_5			; CHECK-NEXT: j .LBB8_5
	; CHECK-NEXT: .LBB8_2: # %vector.ph			; CHECK-NEXT: .LBB8_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB8_3: # %vector.body			; CHECK-NEXT: .LBB8_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vadd.vx v8, v8, a1			; CHECK-NEXT: vadd.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB9_2			; CHECK-NEXT: bgeu a3, a2, .LBB9_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB9_5			; CHECK-NEXT: j .LBB9_5
	; CHECK-NEXT: .LBB9_2: # %vector.ph			; CHECK-NEXT: .LBB9_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB9_3: # %vector.body			; CHECK-NEXT: .LBB9_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vsub.vx v8, v8, a1			; CHECK-NEXT: vsub.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB10_2			; CHECK-NEXT: bgeu a3, a2, .LBB10_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB10_5			; CHECK-NEXT: j .LBB10_5
	; CHECK-NEXT: .LBB10_2: # %vector.ph			; CHECK-NEXT: .LBB10_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB10_3: # %vector.body			; CHECK-NEXT: .LBB10_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vrsub.vx v8, v8, a1			; CHECK-NEXT: vrsub.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB11_2			; CHECK-NEXT: bgeu a3, a2, .LBB11_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB11_5			; CHECK-NEXT: j .LBB11_5
	; CHECK-NEXT: .LBB11_2: # %vector.ph			; CHECK-NEXT: .LBB11_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB11_3: # %vector.body			; CHECK-NEXT: .LBB11_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vand.vx v8, v8, a1			; CHECK-NEXT: vand.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB12_2			; CHECK-NEXT: bgeu a3, a2, .LBB12_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB12_5			; CHECK-NEXT: j .LBB12_5
	; CHECK-NEXT: .LBB12_2: # %vector.ph			; CHECK-NEXT: .LBB12_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB12_3: # %vector.body			; CHECK-NEXT: .LBB12_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vor.vx v8, v8, a1			; CHECK-NEXT: vor.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB13_2			; CHECK-NEXT: bgeu a3, a2, .LBB13_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB13_5			; CHECK-NEXT: j .LBB13_5
	; CHECK-NEXT: .LBB13_2: # %vector.ph			; CHECK-NEXT: .LBB13_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB13_3: # %vector.body			; CHECK-NEXT: .LBB13_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vxor.vx v8, v8, a1			; CHECK-NEXT: vxor.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB17_2			; CHECK-NEXT: bgeu a3, a2, .LBB17_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB17_5			; CHECK-NEXT: j .LBB17_5
	; CHECK-NEXT: .LBB17_2: # %vector.ph			; CHECK-NEXT: .LBB17_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB17_3: # %vector.body			; CHECK-NEXT: .LBB17_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vsll.vx v8, v8, a1			; CHECK-NEXT: vsll.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB18_2			; CHECK-NEXT: bgeu a3, a2, .LBB18_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB18_5			; CHECK-NEXT: j .LBB18_5
	; CHECK-NEXT: .LBB18_2: # %vector.ph			; CHECK-NEXT: .LBB18_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB18_3: # %vector.body			; CHECK-NEXT: .LBB18_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vsrl.vx v8, v8, a1			; CHECK-NEXT: vsrl.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a1, a4, 1			; CHECK-NEXT: srli a1, a4, 1
	; CHECK-NEXT: li a2, 1024			; CHECK-NEXT: li a2, 1024
	; CHECK-NEXT: bgeu a2, a1, .LBB19_2			; CHECK-NEXT: bgeu a2, a1, .LBB19_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a2, 0			; CHECK-NEXT: li a2, 0
	; CHECK-NEXT: j .LBB19_5			; CHECK-NEXT: j .LBB19_5
	; CHECK-NEXT: .LBB19_2: # %vector.ph			; CHECK-NEXT: .LBB19_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a3, a2, a1			; CHECK-NEXT: addiw a2, a1, -1
	; CHECK-NEXT: sub a2, a2, a3			; CHECK-NEXT: andi a3, a2, 1024
				; CHECK-NEXT: xori a2, a3, 1024
	; CHECK-NEXT: slli a4, a4, 1			; CHECK-NEXT: slli a4, a4, 1
	; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB19_3: # %vector.body			; CHECK-NEXT: .LBB19_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a6)			; CHECK-NEXT: vl2re32.v v8, (a6)
	; CHECK-NEXT: vsra.vi v8, v8, 2			; CHECK-NEXT: vsra.vi v8, v8, 2
	; CHECK-NEXT: vs2r.v v8, (a6)			; CHECK-NEXT: vs2r.v v8, (a6)
	▲ Show 20 Lines • Show All 290 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB26_2			; CHECK-NEXT: bgeu a3, a2, .LBB26_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB26_5			; CHECK-NEXT: j .LBB26_5
	; CHECK-NEXT: .LBB26_2: # %vector.ph			; CHECK-NEXT: .LBB26_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB26_3: # %vector.body			; CHECK-NEXT: .LBB26_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfmul.vf v8, v8, fa0			; CHECK-NEXT: vfmul.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB27_2			; CHECK-NEXT: bgeu a3, a2, .LBB27_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB27_5			; CHECK-NEXT: j .LBB27_5
	; CHECK-NEXT: .LBB27_2: # %vector.ph			; CHECK-NEXT: .LBB27_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB27_3: # %vector.body			; CHECK-NEXT: .LBB27_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfdiv.vf v8, v8, fa0			; CHECK-NEXT: vfdiv.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB28_2			; CHECK-NEXT: bgeu a3, a2, .LBB28_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB28_5			; CHECK-NEXT: j .LBB28_5
	; CHECK-NEXT: .LBB28_2: # %vector.ph			; CHECK-NEXT: .LBB28_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB28_3: # %vector.body			; CHECK-NEXT: .LBB28_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfrdiv.vf v8, v8, fa0			; CHECK-NEXT: vfrdiv.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB29_2			; CHECK-NEXT: bgeu a3, a2, .LBB29_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB29_5			; CHECK-NEXT: j .LBB29_5
	; CHECK-NEXT: .LBB29_2: # %vector.ph			; CHECK-NEXT: .LBB29_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB29_3: # %vector.body			; CHECK-NEXT: .LBB29_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfadd.vf v8, v8, fa0			; CHECK-NEXT: vfadd.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB30_2			; CHECK-NEXT: bgeu a3, a2, .LBB30_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB30_5			; CHECK-NEXT: j .LBB30_5
	; CHECK-NEXT: .LBB30_2: # %vector.ph			; CHECK-NEXT: .LBB30_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB30_3: # %vector.body			; CHECK-NEXT: .LBB30_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfsub.vf v8, v8, fa0			; CHECK-NEXT: vfsub.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a1, 2			; CHECK-NEXT: srli a2, a1, 2
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB31_2			; CHECK-NEXT: bgeu a3, a2, .LBB31_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB31_5			; CHECK-NEXT: j .LBB31_5
	; CHECK-NEXT: .LBB31_2: # %vector.ph			; CHECK-NEXT: .LBB31_2: # %vector.ph
	; CHECK-NEXT: li a5, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, mu
	; CHECK-NEXT: mv a6, a0			; CHECK-NEXT: mv a6, a0
	; CHECK-NEXT: .LBB31_3: # %vector.body			; CHECK-NEXT: .LBB31_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl1re32.v v8, (a6)			; CHECK-NEXT: vl1re32.v v8, (a6)
	; CHECK-NEXT: vfrsub.vf v8, v8, fa0			; CHECK-NEXT: vfrsub.vf v8, v8, fa0
	; CHECK-NEXT: vs1r.v v8, (a6)			; CHECK-NEXT: vs1r.v v8, (a6)
	; CHECK-NEXT: add a5, a5, a2			; CHECK-NEXT: add a5, a5, a2
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: li a4, 1024			; CHECK-NEXT: li a4, 1024
	; CHECK-NEXT: bgeu a4, a3, .LBB34_2			; CHECK-NEXT: bgeu a4, a3, .LBB34_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a4, 0			; CHECK-NEXT: li a4, 0
	; CHECK-NEXT: j .LBB34_5			; CHECK-NEXT: j .LBB34_5
	; CHECK-NEXT: .LBB34_2: # %vector.ph			; CHECK-NEXT: .LBB34_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: li a7, 0			; CHECK-NEXT: li a7, 0
	; CHECK-NEXT: remu a5, a4, a3			; CHECK-NEXT: addiw a4, a3, -1
	; CHECK-NEXT: sub a4, a4, a5			; CHECK-NEXT: andi a5, a4, 1024
				; CHECK-NEXT: xori a4, a5, 1024
	; CHECK-NEXT: vsetvli t0, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli t0, zero, e32, m1, ta, mu
	; CHECK-NEXT: .LBB34_3: # %vector.body			; CHECK-NEXT: .LBB34_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add t0, a0, a6			; CHECK-NEXT: add t0, a0, a6
	; CHECK-NEXT: vl1re32.v v8, (t0)			; CHECK-NEXT: vl1re32.v v8, (t0)
	; CHECK-NEXT: add t1, a1, a6			; CHECK-NEXT: add t1, a1, a6
	; CHECK-NEXT: vl1re32.v v9, (t1)			; CHECK-NEXT: vl1re32.v v9, (t1)
	; CHECK-NEXT: vfmacc.vf v9, fa0, v8			; CHECK-NEXT: vfmacc.vf v9, fa0, v8
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: li a4, 1024			; CHECK-NEXT: li a4, 1024
	; CHECK-NEXT: bgeu a4, a3, .LBB35_2			; CHECK-NEXT: bgeu a4, a3, .LBB35_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a4, 0			; CHECK-NEXT: li a4, 0
	; CHECK-NEXT: j .LBB35_5			; CHECK-NEXT: j .LBB35_5
	; CHECK-NEXT: .LBB35_2: # %vector.ph			; CHECK-NEXT: .LBB35_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: li a7, 0			; CHECK-NEXT: li a7, 0
	; CHECK-NEXT: remu a5, a4, a3			; CHECK-NEXT: addiw a4, a3, -1
	; CHECK-NEXT: sub a4, a4, a5			; CHECK-NEXT: andi a5, a4, 1024
				; CHECK-NEXT: xori a4, a5, 1024
	; CHECK-NEXT: vsetvli t0, zero, e32, m1, ta, mu			; CHECK-NEXT: vsetvli t0, zero, e32, m1, ta, mu
	; CHECK-NEXT: .LBB35_3: # %vector.body			; CHECK-NEXT: .LBB35_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add t0, a0, a6			; CHECK-NEXT: add t0, a0, a6
	; CHECK-NEXT: vl1re32.v v8, (t0)			; CHECK-NEXT: vl1re32.v v8, (t0)
	; CHECK-NEXT: add t1, a1, a6			; CHECK-NEXT: add t1, a1, a6
	; CHECK-NEXT: vl1re32.v v9, (t1)			; CHECK-NEXT: vl1re32.v v9, (t1)
	; CHECK-NEXT: vfmacc.vf v9, fa0, v8			; CHECK-NEXT: vfmacc.vf v9, fa0, v8
	▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB42_2			; CHECK-NEXT: bgeu a3, a2, .LBB42_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB42_5			; CHECK-NEXT: j .LBB42_5
	; CHECK-NEXT: .LBB42_2: # %vector.ph			; CHECK-NEXT: .LBB42_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB42_3: # %vector.body			; CHECK-NEXT: .LBB42_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vdivu.vx v8, v8, a1			; CHECK-NEXT: vdivu.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB43_2			; CHECK-NEXT: bgeu a3, a2, .LBB43_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB43_5			; CHECK-NEXT: j .LBB43_5
	; CHECK-NEXT: .LBB43_2: # %vector.ph			; CHECK-NEXT: .LBB43_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB43_3: # %vector.body			; CHECK-NEXT: .LBB43_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vdiv.vx v8, v8, a1			; CHECK-NEXT: vdiv.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB44_2			; CHECK-NEXT: bgeu a3, a2, .LBB44_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB44_5			; CHECK-NEXT: j .LBB44_5
	; CHECK-NEXT: .LBB44_2: # %vector.ph			; CHECK-NEXT: .LBB44_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB44_3: # %vector.body			; CHECK-NEXT: .LBB44_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vremu.vx v8, v8, a1			; CHECK-NEXT: vremu.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: srli a2, a5, 1			; CHECK-NEXT: srli a2, a5, 1
	; CHECK-NEXT: li a3, 1024			; CHECK-NEXT: li a3, 1024
	; CHECK-NEXT: bgeu a3, a2, .LBB45_2			; CHECK-NEXT: bgeu a3, a2, .LBB45_2
	; CHECK-NEXT: # %bb.1:			; CHECK-NEXT: # %bb.1:
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: j .LBB45_5			; CHECK-NEXT: j .LBB45_5
	; CHECK-NEXT: .LBB45_2: # %vector.ph			; CHECK-NEXT: .LBB45_2: # %vector.ph
	; CHECK-NEXT: li a6, 0			; CHECK-NEXT: li a6, 0
	; CHECK-NEXT: remu a4, a3, a2			; CHECK-NEXT: addiw a3, a2, -1
	; CHECK-NEXT: sub a3, a3, a4			; CHECK-NEXT: andi a4, a3, 1024
				; CHECK-NEXT: xori a3, a4, 1024
	; CHECK-NEXT: slli a5, a5, 1			; CHECK-NEXT: slli a5, a5, 1
	; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu			; CHECK-NEXT: vsetvli a7, zero, e32, m2, ta, mu
	; CHECK-NEXT: mv a7, a0			; CHECK-NEXT: mv a7, a0
	; CHECK-NEXT: .LBB45_3: # %vector.body			; CHECK-NEXT: .LBB45_3: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vl2re32.v v8, (a7)			; CHECK-NEXT: vl2re32.v v8, (a7)
	; CHECK-NEXT: vrem.vx v8, v8, a1			; CHECK-NEXT: vrem.vx v8, v8, a1
	; CHECK-NEXT: vs2r.v v8, (a7)			; CHECK-NEXT: vs2r.v v8, (a7)
	▲ Show 20 Lines • Show All 1,680 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/vscale-power-of-two.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=riscv64 -mattr=+v,+m -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -mtriple=riscv64 -mattr=+v,+m -verify-machineinstrs < %s \| FileCheck %s
	; RUN: llc -mtriple=riscv64 -mattr=+Zve64x,+m -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -mtriple=riscv64 -mattr=+Zve64x,+m -verify-machineinstrs < %s \| FileCheck %s
	declare i64 @llvm.vscale.i64()			declare i64 @llvm.vscale.i64()

	define i64 @vscale_lshr(i64 %TC) {			define i64 @vscale_lshr(i64 %TC) {
	; CHECK-LABEL: vscale_lshr:			; CHECK-LABEL: vscale_lshr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a1, vlenb			; CHECK-NEXT: csrr a1, vlenb
	; CHECK-NEXT: srli a1, a1, 6			; CHECK-NEXT: srli a1, a1, 6
	; CHECK-NEXT: remu a0, a0, a1			; CHECK-NEXT: addi a1, a1, -1
				; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%shifted = lshr i64 %vscale, 3			%shifted = lshr i64 %vscale, 3
	%urem = urem i64 %TC, %shifted			%urem = urem i64 %TC, %shifted
	ret i64 %urem			ret i64 %urem
	}			}

	define i64 @vscale(i64 %TC) {			define i64 @vscale(i64 %TC) {
	; CHECK-LABEL: vscale:			; CHECK-LABEL: vscale:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a1, vlenb			; CHECK-NEXT: csrr a1, vlenb
	; CHECK-NEXT: srli a1, a1, 3			; CHECK-NEXT: srli a1, a1, 3
	; CHECK-NEXT: remu a0, a0, a1			; CHECK-NEXT: addi a1, a1, -1
				; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%urem = urem i64 %TC, %vscale			%urem = urem i64 %TC, %vscale
	ret i64 %urem			ret i64 %urem
	}			}

	define i64 @vscale_shl(i64 %TC) {			define i64 @vscale_shl(i64 %TC) {
	; CHECK-LABEL: vscale_shl:			; CHECK-LABEL: vscale_shl:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a1, vlenb			; CHECK-NEXT: csrr a1, vlenb
	; CHECK-NEXT: remu a0, a0, a1			; CHECK-NEXT: addi a1, a1, -1
				; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%shifted = shl i64 %vscale, 3			%shifted = shl i64 %vscale, 3
	%urem = urem i64 %TC, %shifted			%urem = urem i64 %TC, %shifted
	ret i64 %urem			ret i64 %urem
	}			}

	define i64 @TC_minus_rem(i64 %TC) {			define i64 @TC_minus_rem(i64 %TC) {
	; CHECK-LABEL: TC_minus_rem:			; CHECK-LABEL: TC_minus_rem:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a1, vlenb			; CHECK-NEXT: csrr a1, vlenb
	; CHECK-NEXT: srli a1, a1, 3			; CHECK-NEXT: srli a1, a1, 3
	; CHECK-NEXT: remu a1, a0, a1			; CHECK-NEXT: neg a1, a1
	; CHECK-NEXT: sub a0, a0, a1			; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%urem = urem i64 %TC, %vscale			%urem = urem i64 %TC, %vscale
	%VTC = sub i64 %TC, %urem			%VTC = sub i64 %TC, %urem
	ret i64 %VTC			ret i64 %VTC
	}			}

	define i64 @TC_minus_rem_shl(i64 %TC) {			define i64 @TC_minus_rem_shl(i64 %TC) {
	; CHECK-LABEL: TC_minus_rem_shl:			; CHECK-LABEL: TC_minus_rem_shl:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a1, vlenb			; CHECK-NEXT: csrr a1, vlenb
	; CHECK-NEXT: remu a1, a0, a1			; CHECK-NEXT: neg a1, a1
	; CHECK-NEXT: sub a0, a0, a1			; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%shifted = shl i64 %vscale, 3			%shifted = shl i64 %vscale, 3
	%urem = urem i64 %TC, %shifted			%urem = urem i64 %TC, %shifted
	%VTC = sub i64 %TC, %urem			%VTC = sub i64 %TC, %urem
	ret i64 %VTC			ret i64 %VTC
	}			}

	define i64 @con1024_minus_rem() {			define i64 @con1024_minus_rem() {
	; CHECK-LABEL: con1024_minus_rem:			; CHECK-LABEL: con1024_minus_rem:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a0, vlenb			; CHECK-NEXT: csrr a0, vlenb
	; CHECK-NEXT: srli a0, a0, 3			; CHECK-NEXT: srli a0, a0, 3
	; CHECK-NEXT: li a1, 1024			; CHECK-NEXT: negw a0, a0
	; CHECK-NEXT: remu a0, a1, a0			; CHECK-NEXT: andi a0, a0, 1024
	; CHECK-NEXT: sub a0, a1, a0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%urem = urem i64 1024, %vscale			%urem = urem i64 1024, %vscale
	%VTC = sub i64 1024, %urem			%VTC = sub i64 1024, %urem
	ret i64 %VTC			ret i64 %VTC
	}			}

	; Maximum VLEN=64k implies Maximum vscale=1024.			; Maximum VLEN=64k implies Maximum vscale=1024.
	; TODO: This should fold to 2048			; TODO: This should fold to 2048
	define i64 @con2048_minus_rem() {			define i64 @con2048_minus_rem() {
	; CHECK-LABEL: con2048_minus_rem:			; CHECK-LABEL: con2048_minus_rem:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: csrr a0, vlenb			; CHECK-NEXT: csrr a0, vlenb
	; CHECK-NEXT: srli a0, a0, 3			; CHECK-NEXT: srli a0, a0, 3
				; CHECK-NEXT: neg a0, a0
	; CHECK-NEXT: lui a1, 1			; CHECK-NEXT: lui a1, 1
	; CHECK-NEXT: addiw a1, a1, -2048			; CHECK-NEXT: addiw a1, a1, -2048
	; CHECK-NEXT: remu a0, a1, a0			; CHECK-NEXT: and a0, a0, a1
	; CHECK-NEXT: sub a0, a1, a0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vscale = call i64 @llvm.vscale.i64()			%vscale = call i64 @llvm.vscale.i64()
	%urem = urem i64 2048, %vscale			%urem = urem i64 2048, %vscale
	%VTC = sub i64 2048, %urem			%VTC = sub i64 2048, %urem
	ret i64 %VTC			ret i64 %VTC
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[RISCV] Exploit fact that vscale is always power of two to replace urem sequenceClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 444291

llvm/include/llvm/CodeGen/TargetLowering.h

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/lib/Target/RISCV/RISCVISelLowering.h

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

llvm/test/CodeGen/RISCV/rvv/vscale-power-of-two.ll

[RISCV] Exploit fact that vscale is always power of two to replace urem sequence
ClosedPublic