This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/
-
llvm/
-
Analysis/
-
TargetTransformInfo.h
-
TargetTransformInfoImpl.h
-
CodeGen/
-
BasicTTIImpl.h
-
lib/
-
Analysis/
-
TargetTransformInfo.cpp
-
Target/RISCV/
-
RISCV/
-
RISCVTargetTransformInfo.h
-
RISCVTargetTransformInfo.cpp
-
Transforms/Scalar/
-
Scalar/
-
LoopStrengthReduce.cpp
-
test/
-
CodeGen/RISCV/rvv/
-
RISCV/
-
rvv/
-
sink-splat-operands.ll
-
vsetvli-insert-crossbb.ll
-
Transforms/LoopStrengthReduce/RISCV/
-
LoopStrengthReduce/
-
RISCV/
-
icmp-zero.ll
-
lsr-drop-solution-dbg-msg.ll
-
lsr-drop-solution.ll

Differential D136736

[LSR][TTI][RISCV] Add isAllowDropLSRSolution into TTI and enable it for RISC-V
AbandonedPublic

Authored by eopXD on Oct 25 2022, 10:34 PM.

Download Raw Diff

Details

Reviewers

craig.topper
mcberg2021
reames
rogfer01
asb
frasercrmck

Summary

Previously in D126043, the transformation was added and guarded by an option.
This commit attempts to create an TTI and enable it for the RISC-V backend.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

eopXD created this revision.Oct 25 2022, 10:34 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 25 2022, 10:34 PM

Herald added subscribers: sunshaoce, VincentWu, StephenFan and 26 others. · View Herald Transcript

eopXD requested review of this revision.Oct 25 2022, 10:34 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 25 2022, 10:34 PM

Herald added subscribers: llvm-commits, • pcwang-thead, MaskRay. · View Herald Transcript

Harbormaster completed remote builds in B194336: Diff 470712.Oct 25 2022, 10:34 PM

eopXD added a parent revision: D126043: [LSR] Drop LSR solution if it is less profitable than baseline.Oct 25 2022, 10:34 PM

Benchmark results of Spec2k6 on FPGA with our downstream compiler under the patch applied show difference larger than just fluctuation in the following benchmarks and little difference for the others.

2.6% runtime improvement in perlbench
1.5% runtime improvement in hmmer
1.3% runtime regression in sjeng

Rebase to latest main.

Harbormaster completed remote builds in B194789: Diff 471336.Oct 27 2022, 6:52 PM

Update test cases

Harbormaster completed remote builds in B194865: Diff 471448.Oct 28 2022, 3:26 AM

LGTM. It is working as expected.

mcberg2021 accepted this revision.Oct 28 2022, 10:48 AM

This revision is now accepted and ready to land.Oct 28 2022, 10:48 AM

Could you elaborate why a target-specific option is needed? Shouldn't it be beneficial for all targets and be enabled independently?

In D136736#3895242, @fhahn wrote:

Could you elaborate why a target-specific option is needed? Shouldn't it be beneficial for all targets and be enabled independently?

Enabling in all targets will require a lot of changes in test cases across targets so I think I should divide and conquer here.

In D136736#3895386, @eopXD wrote:

In D136736#3895242, @fhahn wrote:

Could you elaborate why a target-specific option is needed? Shouldn't it be beneficial for all targets and be enabled independently?

Enabling in all targets will require a lot of changes in test cases across targets so I think I should divide and conquer here.

@fhahn Any more comments before merging this?

In D136736#3900830, @eopXD wrote:

In D136736#3895386, @eopXD wrote:

In D136736#3895242, @fhahn wrote:

Could you elaborate why a target-specific option is needed? Shouldn't it be beneficial for all targets and be enabled independently?

Enabling in all targets will require a lot of changes in test cases across targets so I think I should divide and conquer here.

@fhahn Any more comments before merging this?

Oh I see, there are ~28 LSR tests failing and ~50 codegen tests (with AArch64, ARM & X86 backends).

Are you confident that the patch is working as expected in all cases?

My main worry is that by not updating all tests we may miss bugs in the code. I have no idea if all the assembly changes in the codegen tests for RISCV are beneficial, but I spot-checked the impact on some other tests and both llvm/test/CodeGen/Thumb2/LowOverheadLoops/vcmp-vpst-combination.ll and llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll seem to regress with AllowDropSolutionIfLessProfitable set to `true. IIUC this might indicate that the cost estimate may not be working as expected in all cases.

@fhahn Thank you for checking this in the Arm backend.

I think this transformation makes sense for all targets and regression should come from an insufficient cost model. The fact that improvement in RISC-V is observed and Arm is producing regressed loops supports the TTI approach.

The regressed result [3] of CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-round.ll shows that the {vector contiguous load/store + post-increment instruction} vldrw.u32 and vstrw.32 was not leveraged efficiently, which is why there are two more add.w instructions for the pointers. Observing on the IR that produced the regressed loop [0], I would say that the lowering does not successfully recognize the pattern of vector load/store instructions using values of the gep instruction that is indexed by the primary IV. The cost model logs [1] make sense to me since address mode CAN be folded and its the codegen's reponsibility to recognize the pattern. The original IR that is generated after LSR is shown below [2] and I think [0] is capable of producing the same codegen with some additional pattern recognition.

I can create another patch to enable it in Arm so we can get attention from guys in the Arm backend, but at the same time I think the regression here should not be blocking the landing of this particular patch which only affects RISC-V.

[0] LLVM IR after LSR with -lsr-drop-solution enabled for CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-round.ll

*** Code after LSR ***

define arm_aapcs_vfpcc void @fabs(float* noalias nocapture readonly %pSrcA, float* noalias nocapture %pDst, i32 %blockSize) #0 {
entry:
  %cmp3 = icmp eq i32 %blockSize, 0
  br i1 %cmp3, label %while.end, label %vector.ph

vector.ph:                                        ; preds = %entry
  %n.rnd.up = add i32 %blockSize, 3
  %n.vec = and i32 %n.rnd.up, -4
  br label %vector.body

vector.body:                                      ; preds = %vector.body, %vector.ph
  %index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
  %next.gep = getelementptr float, float* %pDst, i32 %index
  %next.gep13 = getelementptr float, float* %pSrcA, i32 %index
  %active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %blockSize)
  %0 = bitcast float* %next.gep13 to <4 x float>*
  %wide.masked.load = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %active.lane.mask, <4 x float> undef)
  %1 = call fast <4 x float> @llvm.fabs.v4f32(<4 x float> %wide.masked.load)
  %2 = bitcast float* %next.gep to <4 x float>*
  call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %1, <4 x float>* %2, i32 4, <4 x i1> %active.lane.mask)
  %index.next = add i32 %index, 4
  %3 = icmp eq i32 %index.next, %n.vec
  br i1 %3, label %while.end.loopexit, label %vector.body

while.end.loopexit:                               ; preds = %vector.body
  br label %while.end

while.end:                                        ; preds = %while.end.loopexit, %entry
  ret void
}

[1] Output log on LSR proposed solution and baseline solution

The chosen solution requires 1 instruction 5 regs, with addrec cost 1, plus 8 setup cost:
  LSR Use: Kind=ICmpZero, Offsets={0}, widest fixup type: i32
    reg({(4 * ((3 + %blockSize) /u 4))<nuw>,+,-4}<%vector.body>)
  LSR Use: Kind=Basic, Offsets={0}, widest fixup type: i32
    reg({0,+,4}<%vector.body>)
  LSR Use: Kind=Address of <4 x float> in addrspace(0), Offsets={0}, widest fixup type: <4 x float>*
    reg({%pSrcA,+,16}<%vector.body>)
  LSR Use: Kind=Address of <4 x float> in addrspace(0), Offsets={0}, widest fixup type: <4 x float>*
    reg({%pDst,+,16}<%vector.body>)
  LSR Use: Kind=Basic, Offsets={0}, widest fixup type: i32
    reg(%blockSize)
The baseline solution requires 1 instruction 4 regs, with addrec cost 1, plus 7 setup cost
lsr-drop-solution: 0
Baseline is more profitable than chosen solution, add option 'lsr-drop-solution' to drop LSR solution.

[2] LLVM IR after LSR without -lsr-drop-solution enabled for CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-round.ll

*** Code after LSR ***

define arm_aapcs_vfpcc void @fabs(float* noalias nocapture readonly %pSrcA, float* noalias nocapture %pDst, i32 %blockSize) #0 {
entry:
  %cmp3 = icmp eq i32 %blockSize, 0
  br i1 %cmp3, label %while.end, label %vector.ph

vector.ph:                                        ; preds = %entry
  %n.rnd.up = add i32 %blockSize, 3
  %n.vec = and i32 %n.rnd.up, -4
  br label %vector.body

vector.body:                                      ; preds = %vector.body, %vector.ph
  %lsr.iv3 = phi float* [ %scevgep4, %vector.body ], [ %pDst, %vector.ph ]
  %lsr.iv1 = phi float* [ %scevgep, %vector.body ], [ %pSrcA, %vector.ph ]
  %lsr.iv = phi i32 [ %lsr.iv.next, %vector.body ], [ %n.vec, %vector.ph ]
  %index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
  %lsr.iv12 = bitcast float* %lsr.iv1 to <4 x float>*
  %lsr.iv35 = bitcast float* %lsr.iv3 to <4 x float>*
  %active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %blockSize)
  %wide.masked.load = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %lsr.iv12, i32 4, <4 x i1> %active.lane.mask, <4 x float> undef)
  %0 = call fast <4 x float> @llvm.fabs.v4f32(<4 x float> %wide.masked.load)
  call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %0, <4 x float>* %lsr.iv35, i32 4, <4 x i1> %active.lane.mask)
  %index.next = add i32 %index, 4
  %lsr.iv.next = add i32 %lsr.iv, -4
  %scevgep = getelementptr float, float* %lsr.iv1, i32 4
  %scevgep4 = getelementptr float, float* %lsr.iv3, i32 4
  %1 = icmp eq i32 %lsr.iv.next, 0
  br i1 %1, label %while.end.loopexit, label %vector.body

while.end.loopexit:                               ; preds = %vector.body
  br label %while.end

while.end:                                        ; preds = %while.end.loopexit, %entry
  ret void
}

[3] Diff when -lsr-drop-solution is enabled for llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll

git diff ../llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll
diff --git a/llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll b/llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll
index 66216022d647..48f4d5355599 100644
--- a/llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll
+++ b/llvm/test/CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-fabs.ll
@@ -4,21 +4,25 @@
 define arm_aapcs_vfpcc void @fabs(float* noalias nocapture readonly %pSrcA, float* noalias nocapture %pDst, i32 %blockSize) {
 ; CHECK-LABEL: fabs:
 ; CHECK:       @ %bb.0: @ %entry
-; CHECK-NEXT:    .save {r7, lr}
-; CHECK-NEXT:    push {r7, lr}
+; CHECK-NEXT:    .save {r4, lr}
+; CHECK-NEXT:    push {r4, lr}
 ; CHECK-NEXT:    cmp r2, #0
 ; CHECK-NEXT:    it eq
-; CHECK-NEXT:    popeq {r7, pc}
+; CHECK-NEXT:    popeq {r4, pc}
 ; CHECK-NEXT:  .LBB0_1: @ %vector.ph
+; CHECK-NEXT:    movs r3, #0
 ; CHECK-NEXT:    dlstp.32 lr, r2
 ; CHECK-NEXT:  .LBB0_2: @ %vector.body
 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
-; CHECK-NEXT:    vldrw.u32 q0, [r0], #16
+; CHECK-NEXT:    add.w r4, r0, r3, lsl #2
+; CHECK-NEXT:    vldrw.u32 q0, [r4]
+; CHECK-NEXT:    add.w r12, r1, r3, lsl #2
+; CHECK-NEXT:    adds r3, #4
 ; CHECK-NEXT:    vabs.f32 q0, q0
-; CHECK-NEXT:    vstrw.32 q0, [r1], #16
+; CHECK-NEXT:    vstrw.32 q0, [r12]
 ; CHECK-NEXT:    letp lr, .LBB0_2
 ; CHECK-NEXT:  @ %bb.3: @ %while.end
-; CHECK-NEXT:    pop {r7, pc}
+; CHECK-NEXT:    pop {r4, pc}
 entry:
   %cmp3 = icmp eq i32 %blockSize, 0
   br i1 %cmp3, label %while.end, label %vector.ph

eopXD added a child revision: D137307: [LSR][TTI][Arm] Enable isAllowDropLSRSolution for Arm.Nov 2 2022, 6:12 PM

In D136736#3904001, @eopXD wrote:

@fhahn Thank you for checking this in the Arm backend.

I just checked some random failing tests. Another interesting one is llvm/test/CodeGen/X86/2007-03-15-GEP-Idx-Sink.ll which also seems to regress. My main point is that I think we should try to avoid fragmentation between backends for generic features such as this one. Having this enabled by default and ironing out the remaining test issues will be much more beneficial for the overall LLVM project. By making sure is is enabled on heavily used architectures like X86 and AArch64 we also ensure that it gets as much testing as possible.

IMO it may be fine to gradually enable it, but I think we first need to understand what the issues with the other tests are. My concern is that after only enabling it for RISCV it will remain enabled for RISCV only

The regressed result [3] of CodeGen/Thumb2/LowOverheadLoops/tail-pred-intrinsic-round.ll shows that the {vector contiguous load/store + post-increment instruction} vldrw.u32 and vstrw.32 was not leveraged efficiently, which is why there are two more add.w instructions for the pointers.

I am not too familiar with Thumb2, @dmgreen any thoughts on this?

MVE relies pretty heavily on AMK_PostIndexed from getPreferredAddressingMode. I could easily imagine something could be going wrong there. But I don't see this as profitable for Thumb1 targets or AArch64 either, when ran across a wide set of benchmarks. We certainly know that LSR is important for performance, and there are a number of known issues where it is not optimal.

This is my brief understanding of how LSR works:

Create a bunch of little formula that look useful (isLegalUse) and can be combined in different ways for loop varying accesses.
Realise that there are far too many formula combinations and start filtering them out based on heuristics of which ones look unprofitable.
"Solve" by considering all the remaining formula for which gives the best cost.
Use this best solution.

The creation and filtering isn't unimportant for profitability. The algorithm as a whole is presumably assuming that certain formula are already ruled out when it comes to costing them, at least undef MVE. Even if they are the existing formula.

The best cost is by default based on the Number of Registers used, followed by AddRecCost, Muls, Adds, Imms and SetupCost. X86 and some other architectures also consider Number of Instructions. The NumRegs often isn't the most important issue in a loop. In the past I had tried altering the cost on Arm/AArch64 to not consider NumRegs as the most important factor, but the performance wasn't good enough to justify it. LSR is pretty fragmented already though between different backends as a result.

Ideally LSR shouldn't need patched like this, even if I'm not against it for other architectures. It sounds like it should be sensible enough. But why isn't the most profitable formula already being considered in the Solve? Is it never generated, or is it filtered out? I don't know RISCV assembly very well. A lot of the examples look like they have more instructions in the loop to me.

@dmgreen Thank you for giving this a look. My understanding to LSR matches yours. The filtering happens after all interesting variations were generated, and the filtering does not necessarily preserves the original ones, which motivates this patch of considering the LSR derived solution to the original existing one. My main motivation was from RISCV/lsr-drop-solution.ll, which the original LSR suggestion does make a worse transformation than the original unchanged IR. This patch is an amendment that comes from the fallacy in filtering.

On the other hand (since it looks like you also have given a decent trace to the code), the current LLVM LSR implementation is not documented anywhere, nor cited from an existing paper. As mentioned, incorrect pruning (filtering) will have us fall into some local minimum. Has anyone every questioned the validity of the current implemented filtering heuristics and considers a different approach?

Sam Parker implemented a lsr-complexity-limit, which can be set much higher to perform less filtering. The complexity needs to be kept under control though if just for compile time, and it is very easy to go over that with unrolled loops or more complex cases. We should be getting the simple cases correct though, and my view is that we could adjust the filtering to be more profitable. It is just a set of heuristics, after all.

In D136736#3906207, @eopXD wrote:

@dmgreen Thank you for giving this a look. My understanding to LSR matches yours. The filtering happens after all interesting variations were generated, and the filtering does not necessarily preserves the original ones, which motivates this patch of considering the LSR derived solution to the original existing one. My main motivation was from RISCV/lsr-drop-solution.ll, which the original LSR suggestion does make a worse transformation than the original unchanged IR. This patch is an amendment that comes from the fallacy in filtering.

I see some intrinsics that I guess are loads and stores. Have you thought about implementing getTgtMemIntrinsic for them? I'm not sure it will help, but the example doesn't look very complex. If it is filtering the wrong solutions I would look into why and if it is possible to prevent it. After all, we could always start with the "bad" solution and then never see the "good" alternative because of it. I'm not really against this patch though, so long as it doesn't get enabled for targets where it is obviously worse. It would be better if the "cost" could be relied upon but that doesn't seem to currently be possible in all cases.

Another case is mentioned that can be resolved by this enabling drop solution. https://github.com/llvm/llvm-project/issues/59366

@dmgreen I would to look deeper into the pass, but my current priorities right now is away from this pass, I will keep this in mind though and I will be comfortable being pinged 3 months from now.

If there is no further objection here, I would like to land this. @fhahn, @dmgreen

I have no objections for anything RISCV related, so long as others who deal with that architecture more agree with it.

Aborting this revision. As mentioned by Florian the righteous target should be to have drop solution be available for ALL targets.

Revision Contents

Path

Size

llvm/

include/

llvm/

Analysis/

TargetTransformInfo.h

7 lines

TargetTransformInfoImpl.h

2 lines

CodeGen/

BasicTTIImpl.h

4 lines

lib/

Analysis/

TargetTransformInfo.cpp

4 lines

Target/

RISCV/

RISCVTargetTransformInfo.h

2 lines

RISCVTargetTransformInfo.cpp

2 lines

Transforms/

Scalar/

LoopStrengthReduce.cpp

2 lines

test/

CodeGen/

RISCV/

rvv/

sink-splat-operands.ll

912 lines

vsetvli-insert-crossbb.ll

22 lines

Transforms/

LoopStrengthReduce/

RISCV/

icmp-zero.ll

6 lines

lsr-drop-solution-dbg-msg.ll

4 lines

lsr-drop-solution.ll

2 lines

Diff 471448

llvm/include/llvm/Analysis/TargetTransformInfo.h

Show First 20 Lines • Show All 609 Lines • ▼ Show 20 Lines	public:
bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,		bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,
const TargetTransformInfo::LSRCost &C2) const;		const TargetTransformInfo::LSRCost &C2) const;

/// Return true if LSR major cost is number of registers. Targets which		/// Return true if LSR major cost is number of registers. Targets which
/// implement their own isLSRCostLess and unset number of registers as major		/// implement their own isLSRCostLess and unset number of registers as major
/// cost should return false, otherwise return true.		/// cost should return false, otherwise return true.
bool isNumRegsMajorCostOfLSR() const;		bool isNumRegsMajorCostOfLSR() const;

		/// Return true if allows LSR to drop solution when less profitable.
		bool isAllowLSRDropSolution() const;

/// \returns true if LSR should not optimize a chain that includes \p I.		/// \returns true if LSR should not optimize a chain that includes \p I.
bool isProfitableLSRChainElement(Instruction *I) const;		bool isProfitableLSRChainElement(Instruction *I) const;

/// Return true if the target can fuse a compare and branch.		/// Return true if the target can fuse a compare and branch.
/// Loop-strength-reduction (LSR) uses that knowledge to adjust its cost		/// Loop-strength-reduction (LSR) uses that knowledge to adjust its cost
/// calculation for the instructions in a loop.		/// calculation for the instructions in a loop.
bool canMacroFuseCmp() const;		bool canMacroFuseCmp() const;

▲ Show 20 Lines • Show All 998 Lines • ▼ Show 20 Lines	public:
virtual bool isLegalICmpImmediate(int64_t Imm) = 0;		virtual bool isLegalICmpImmediate(int64_t Imm) = 0;
virtual bool isLegalAddressingMode(Type Ty, GlobalValue BaseGV,		virtual bool isLegalAddressingMode(Type Ty, GlobalValue BaseGV,
int64_t BaseOffset, bool HasBaseReg,		int64_t BaseOffset, bool HasBaseReg,
int64_t Scale, unsigned AddrSpace,		int64_t Scale, unsigned AddrSpace,
Instruction *I) = 0;		Instruction *I) = 0;
virtual bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,		virtual bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,
const TargetTransformInfo::LSRCost &C2) = 0;		const TargetTransformInfo::LSRCost &C2) = 0;
virtual bool isNumRegsMajorCostOfLSR() = 0;		virtual bool isNumRegsMajorCostOfLSR() = 0;
		virtual bool isAllowLSRDropSolution() = 0;
virtual bool isProfitableLSRChainElement(Instruction *I) = 0;		virtual bool isProfitableLSRChainElement(Instruction *I) = 0;
virtual bool canMacroFuseCmp() = 0;		virtual bool canMacroFuseCmp() = 0;
virtual bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE,		virtual bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE,
LoopInfo LI, DominatorTree DT, AssumptionCache *AC,		LoopInfo LI, DominatorTree DT, AssumptionCache *AC,
TargetLibraryInfo *LibInfo) = 0;		TargetLibraryInfo *LibInfo) = 0;
virtual AddressingModeKind		virtual AddressingModeKind
getPreferredAddressingMode(const Loop L, ScalarEvolution SE) const = 0;		getPreferredAddressingMode(const Loop L, ScalarEvolution SE) const = 0;
virtual bool isLegalMaskedStore(Type *DataType, Align Alignment) = 0;		virtual bool isLegalMaskedStore(Type *DataType, Align Alignment) = 0;
▲ Show 20 Lines • Show All 401 Lines • ▼ Show 20 Lines	public:
}		}
bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,		bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,
const TargetTransformInfo::LSRCost &C2) override {		const TargetTransformInfo::LSRCost &C2) override {
return Impl.isLSRCostLess(C1, C2);		return Impl.isLSRCostLess(C1, C2);
}		}
bool isNumRegsMajorCostOfLSR() override {		bool isNumRegsMajorCostOfLSR() override {
return Impl.isNumRegsMajorCostOfLSR();		return Impl.isNumRegsMajorCostOfLSR();
}		}
		bool isAllowLSRDropSolution() override {
		return Impl.isAllowLSRDropSolution();
		}
bool isProfitableLSRChainElement(Instruction *I) override {		bool isProfitableLSRChainElement(Instruction *I) override {
return Impl.isProfitableLSRChainElement(I);		return Impl.isProfitableLSRChainElement(I);
}		}
bool canMacroFuseCmp() override { return Impl.canMacroFuseCmp(); }		bool canMacroFuseCmp() override { return Impl.canMacroFuseCmp(); }
bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE, LoopInfo *LI,		bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE, LoopInfo *LI,
DominatorTree DT, AssumptionCache AC,		DominatorTree DT, AssumptionCache AC,
TargetLibraryInfo *LibInfo) override {		TargetLibraryInfo *LibInfo) override {
return Impl.canSaveCmp(L, BI, SE, LI, DT, AC, LibInfo);		return Impl.canSaveCmp(L, BI, SE, LI, DT, AC, LibInfo);
▲ Show 20 Lines • Show All 613 Lines • Show Last 20 Lines

llvm/include/llvm/Analysis/TargetTransformInfoImpl.h

Show First 20 Lines • Show All 216 Lines • ▼ Show 20 Lines	bool isLSRCostLess(const TTI::LSRCost &C1, const TTI::LSRCost &C2) const {
return std::tie(C1.NumRegs, C1.AddRecCost, C1.NumIVMuls, C1.NumBaseAdds,		return std::tie(C1.NumRegs, C1.AddRecCost, C1.NumIVMuls, C1.NumBaseAdds,
C1.ScaleCost, C1.ImmCost, C1.SetupCost) <		C1.ScaleCost, C1.ImmCost, C1.SetupCost) <
std::tie(C2.NumRegs, C2.AddRecCost, C2.NumIVMuls, C2.NumBaseAdds,		std::tie(C2.NumRegs, C2.AddRecCost, C2.NumIVMuls, C2.NumBaseAdds,
C2.ScaleCost, C2.ImmCost, C2.SetupCost);		C2.ScaleCost, C2.ImmCost, C2.SetupCost);
}		}

bool isNumRegsMajorCostOfLSR() const { return true; }		bool isNumRegsMajorCostOfLSR() const { return true; }

		bool isAllowLSRDropSolution() const { return false; }

bool isProfitableLSRChainElement(Instruction *I) const { return false; }		bool isProfitableLSRChainElement(Instruction *I) const { return false; }

bool canMacroFuseCmp() const { return false; }		bool canMacroFuseCmp() const { return false; }

bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE, LoopInfo *LI,		bool canSaveCmp(Loop L, BranchInst BI, ScalarEvolution SE, LoopInfo *LI,
DominatorTree DT, AssumptionCache AC,		DominatorTree DT, AssumptionCache AC,
TargetLibraryInfo *LibInfo) const {		TargetLibraryInfo *LibInfo) const {
return false;		return false;
▲ Show 20 Lines • Show All 1,060 Lines • Show Last 20 Lines

llvm/include/llvm/CodeGen/BasicTTIImpl.h

Show First 20 Lines • Show All 356 Lines • ▼ Show 20 Lines	public:
bool isLSRCostLess(TTI::LSRCost C1, TTI::LSRCost C2) {		bool isLSRCostLess(TTI::LSRCost C1, TTI::LSRCost C2) {
return TargetTransformInfoImplBase::isLSRCostLess(C1, C2);		return TargetTransformInfoImplBase::isLSRCostLess(C1, C2);
}		}

bool isNumRegsMajorCostOfLSR() {		bool isNumRegsMajorCostOfLSR() {
return TargetTransformInfoImplBase::isNumRegsMajorCostOfLSR();		return TargetTransformInfoImplBase::isNumRegsMajorCostOfLSR();
}		}

		bool isAllowLSRDropSolution() const {
		return TargetTransformInfoImplBase::isAllowLSRDropSolution();
		}

bool isProfitableLSRChainElement(Instruction *I) {		bool isProfitableLSRChainElement(Instruction *I) {
return TargetTransformInfoImplBase::isProfitableLSRChainElement(I);		return TargetTransformInfoImplBase::isProfitableLSRChainElement(I);
}		}

InstructionCost getScalingFactorCost(Type Ty, GlobalValue BaseGV,		InstructionCost getScalingFactorCost(Type Ty, GlobalValue BaseGV,
int64_t BaseOffset, bool HasBaseReg,		int64_t BaseOffset, bool HasBaseReg,
int64_t Scale, unsigned AddrSpace) {		int64_t Scale, unsigned AddrSpace) {
TargetLoweringBase::AddrMode AM;		TargetLoweringBase::AddrMode AM;
▲ Show 20 Lines • Show All 2,044 Lines • Show Last 20 Lines

llvm/lib/Analysis/TargetTransformInfo.cpp

Show First 20 Lines • Show All 362 Lines • ▼ Show 20 Lines	bool TargetTransformInfo::isLSRCostLess(const LSRCost &C1,
const LSRCost &C2) const {		const LSRCost &C2) const {
return TTIImpl->isLSRCostLess(C1, C2);		return TTIImpl->isLSRCostLess(C1, C2);
}		}

bool TargetTransformInfo::isNumRegsMajorCostOfLSR() const {		bool TargetTransformInfo::isNumRegsMajorCostOfLSR() const {
return TTIImpl->isNumRegsMajorCostOfLSR();		return TTIImpl->isNumRegsMajorCostOfLSR();
}		}

		bool TargetTransformInfo::isAllowLSRDropSolution() const {
		return TTIImpl->isAllowLSRDropSolution();
		}

bool TargetTransformInfo::isProfitableLSRChainElement(Instruction *I) const {		bool TargetTransformInfo::isProfitableLSRChainElement(Instruction *I) const {
return TTIImpl->isProfitableLSRChainElement(I);		return TTIImpl->isProfitableLSRChainElement(I);
}		}

bool TargetTransformInfo::canMacroFuseCmp() const {		bool TargetTransformInfo::canMacroFuseCmp() const {
return TTIImpl->canMacroFuseCmp();		return TTIImpl->canMacroFuseCmp();
}		}

▲ Show 20 Lines • Show All 852 Lines • Show Last 20 Lines

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.h

Show First 20 Lines • Show All 309 Lines • ▼ Show 20 Lines	case RISCVRegisterClass::GPRRC:
return "RISCV::GPRRC";		return "RISCV::GPRRC";
case RISCVRegisterClass::FPRRC:		case RISCVRegisterClass::FPRRC:
return "RISCV::FPRRC";		return "RISCV::FPRRC";
case RISCVRegisterClass::VRRC:		case RISCVRegisterClass::VRRC:
return "RISCV::VRRC";		return "RISCV::VRRC";
}		}
llvm_unreachable("unknown register class");		llvm_unreachable("unknown register class");
}		}

		bool isAllowLSRDropSolution() const;
};		};

} // end namespace llvm		} // end namespace llvm

#endif // LLVM_LIB_TARGET_RISCV_RISCVTARGETTRANSFORMINFO_H		#endif // LLVM_LIB_TARGET_RISCV_RISCVTARGETTRANSFORMINFO_H

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp

	Show First 20 Lines • Show All 1,013 Lines • ▼ Show 20 Lines
	unsigned RISCVTTIImpl::getMaximumVF(unsigned ElemWidth, unsigned Opcode) const {			unsigned RISCVTTIImpl::getMaximumVF(unsigned ElemWidth, unsigned Opcode) const {
	// This interface is currently only used by SLP. Returning 1 (which is the			// This interface is currently only used by SLP. Returning 1 (which is the
	// default value for SLPMaxVF) disables SLP. We currently have a cost modeling			// default value for SLPMaxVF) disables SLP. We currently have a cost modeling
	// problem w/ constant materialization which causes SLP to perform majorly			// problem w/ constant materialization which causes SLP to perform majorly
	// unprofitable transformations.			// unprofitable transformations.
	// TODO: Figure out constant materialization cost modeling and remove.			// TODO: Figure out constant materialization cost modeling and remove.
	return SLPMaxVF;			return SLPMaxVF;
	}			}

				bool RISCVTTIImpl::isAllowLSRDropSolution() const { return true; }

llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,181 Lines • ▼ Show 20 Lines	LLVM_DEBUG(dbgs() << "\n"
dbgs() << '\n';		dbgs() << '\n';
});		});

assert(Solution.size() == Uses.size() && "Malformed solution!");		assert(Solution.size() == Uses.size() && "Malformed solution!");

if (BaselineCost.isLess(SolutionCost)) {		if (BaselineCost.isLess(SolutionCost)) {
LLVM_DEBUG(dbgs() << "The baseline solution requires ";		LLVM_DEBUG(dbgs() << "The baseline solution requires ";
BaselineCost.print(dbgs()); dbgs() << "\n");		BaselineCost.print(dbgs()); dbgs() << "\n");
if (!AllowDropSolutionIfLessProfitable)		if (!AllowDropSolutionIfLessProfitable && !TTI.isAllowLSRDropSolution())
LLVM_DEBUG(		LLVM_DEBUG(
dbgs() << "Baseline is more profitable than chosen solution, "		dbgs() << "Baseline is more profitable than chosen solution, "
"add option 'lsr-drop-solution' to drop LSR solution.\n");		"add option 'lsr-drop-solution' to drop LSR solution.\n");
else {		else {
LLVM_DEBUG(dbgs() << "Baseline is more profitable than chosen "		LLVM_DEBUG(dbgs() << "Baseline is more profitable than chosen "
"solution, dropping LSR solution.\n";);		"solution, dropping LSR solution.\n";);
Solution.clear();		Solution.clear();
}		}
▲ Show 20 Lines • Show All 1,763 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

Show First 20 Lines • Show All 251 Lines • ▼ Show 20 Lines

for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_mul_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_mul_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_mul_scalable:		; CHECK-LABEL: sink_splat_mul_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB7_2		; CHECK-NEXT: bgeu a3, a2, .LBB7_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB7_5		; CHECK-NEXT: j .LBB7_5
; CHECK-NEXT: .LBB7_2: # %vector.ph		; CHECK-NEXT: .LBB7_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB7_3: # %vector.body		; CHECK-NEXT: .LBB7_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vmul.vx v8, v8, a1		; CHECK-NEXT: vmul.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB7_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB7_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB7_7		; CHECK-NEXT: beqz a4, .LBB7_7
; CHECK-NEXT: .LBB7_5: # %for.body.preheader		; CHECK-NEXT: .LBB7_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB7_6: # %for.body		; CHECK-NEXT: .LBB7_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: mulw a2, a2, a1		; CHECK-NEXT: mulw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB7_6		; CHECK-NEXT: bnez a2, .LBB7_6
; CHECK-NEXT: .LBB7_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB7_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_add_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_add_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_add_scalable:		; CHECK-LABEL: sink_splat_add_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB8_2		; CHECK-NEXT: bgeu a3, a2, .LBB8_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB8_5		; CHECK-NEXT: j .LBB8_5
; CHECK-NEXT: .LBB8_2: # %vector.ph		; CHECK-NEXT: .LBB8_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB8_3: # %vector.body		; CHECK-NEXT: .LBB8_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vadd.vx v8, v8, a1		; CHECK-NEXT: vadd.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB8_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB8_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB8_7		; CHECK-NEXT: beqz a4, .LBB8_7
; CHECK-NEXT: .LBB8_5: # %for.body.preheader		; CHECK-NEXT: .LBB8_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB8_6: # %for.body		; CHECK-NEXT: .LBB8_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: addw a2, a2, a1		; CHECK-NEXT: addw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB8_6		; CHECK-NEXT: bnez a2, .LBB8_6
; CHECK-NEXT: .LBB8_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB8_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_sub_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_sub_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_sub_scalable:		; CHECK-LABEL: sink_splat_sub_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB9_2		; CHECK-NEXT: bgeu a3, a2, .LBB9_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB9_5		; CHECK-NEXT: j .LBB9_5
; CHECK-NEXT: .LBB9_2: # %vector.ph		; CHECK-NEXT: .LBB9_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB9_3: # %vector.body		; CHECK-NEXT: .LBB9_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vsub.vx v8, v8, a1		; CHECK-NEXT: vsub.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB9_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB9_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB9_7		; CHECK-NEXT: beqz a4, .LBB9_7
; CHECK-NEXT: .LBB9_5: # %for.body.preheader		; CHECK-NEXT: .LBB9_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB9_6: # %for.body		; CHECK-NEXT: .LBB9_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: addw a2, a2, a1		; CHECK-NEXT: addw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB9_6		; CHECK-NEXT: bnez a2, .LBB9_6
; CHECK-NEXT: .LBB9_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB9_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_rsub_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_rsub_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_rsub_scalable:		; CHECK-LABEL: sink_splat_rsub_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB10_2		; CHECK-NEXT: bgeu a3, a2, .LBB10_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB10_5		; CHECK-NEXT: j .LBB10_5
; CHECK-NEXT: .LBB10_2: # %vector.ph		; CHECK-NEXT: .LBB10_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB10_3: # %vector.body		; CHECK-NEXT: .LBB10_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vrsub.vx v8, v8, a1		; CHECK-NEXT: vrsub.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB10_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB10_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB10_7		; CHECK-NEXT: beqz a4, .LBB10_7
; CHECK-NEXT: .LBB10_5: # %for.body.preheader		; CHECK-NEXT: .LBB10_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB10_6: # %for.body		; CHECK-NEXT: .LBB10_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: subw a2, a1, a2		; CHECK-NEXT: subw a3, a1, a3
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB10_6		; CHECK-NEXT: bnez a2, .LBB10_6
; CHECK-NEXT: .LBB10_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB10_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_and_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_and_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_and_scalable:		; CHECK-LABEL: sink_splat_and_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB11_2		; CHECK-NEXT: bgeu a3, a2, .LBB11_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB11_5		; CHECK-NEXT: j .LBB11_5
; CHECK-NEXT: .LBB11_2: # %vector.ph		; CHECK-NEXT: .LBB11_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB11_3: # %vector.body		; CHECK-NEXT: .LBB11_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vand.vx v8, v8, a1		; CHECK-NEXT: vand.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB11_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB11_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB11_7		; CHECK-NEXT: beqz a4, .LBB11_7
; CHECK-NEXT: .LBB11_5: # %for.body.preheader		; CHECK-NEXT: .LBB11_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB11_6: # %for.body		; CHECK-NEXT: .LBB11_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: and a2, a2, a1		; CHECK-NEXT: and a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB11_6		; CHECK-NEXT: bnez a2, .LBB11_6
; CHECK-NEXT: .LBB11_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB11_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_or_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_or_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_or_scalable:		; CHECK-LABEL: sink_splat_or_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB12_2		; CHECK-NEXT: bgeu a3, a2, .LBB12_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB12_5		; CHECK-NEXT: j .LBB12_5
; CHECK-NEXT: .LBB12_2: # %vector.ph		; CHECK-NEXT: .LBB12_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB12_3: # %vector.body		; CHECK-NEXT: .LBB12_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vor.vx v8, v8, a1		; CHECK-NEXT: vor.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB12_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB12_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB12_7		; CHECK-NEXT: beqz a4, .LBB12_7
; CHECK-NEXT: .LBB12_5: # %for.body.preheader		; CHECK-NEXT: .LBB12_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB12_6: # %for.body		; CHECK-NEXT: .LBB12_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: or a2, a2, a1		; CHECK-NEXT: or a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB12_6		; CHECK-NEXT: bnez a2, .LBB12_6
; CHECK-NEXT: .LBB12_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB12_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_xor_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_xor_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_xor_scalable:		; CHECK-LABEL: sink_splat_xor_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB13_2		; CHECK-NEXT: bgeu a3, a2, .LBB13_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB13_5		; CHECK-NEXT: j .LBB13_5
; CHECK-NEXT: .LBB13_2: # %vector.ph		; CHECK-NEXT: .LBB13_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB13_3: # %vector.body		; CHECK-NEXT: .LBB13_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vxor.vx v8, v8, a1		; CHECK-NEXT: vxor.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB13_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB13_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB13_7		; CHECK-NEXT: beqz a4, .LBB13_7
; CHECK-NEXT: .LBB13_5: # %for.body.preheader		; CHECK-NEXT: .LBB13_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB13_6: # %for.body		; CHECK-NEXT: .LBB13_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: xor a2, a2, a1		; CHECK-NEXT: xor a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB13_6		; CHECK-NEXT: bnez a2, .LBB13_6
; CHECK-NEXT: .LBB13_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB13_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines

for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_shl_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_shl_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_shl_scalable:		; CHECK-LABEL: sink_splat_shl_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB17_2		; CHECK-NEXT: bgeu a3, a2, .LBB17_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB17_5		; CHECK-NEXT: j .LBB17_5
; CHECK-NEXT: .LBB17_2: # %vector.ph		; CHECK-NEXT: .LBB17_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB17_3: # %vector.body		; CHECK-NEXT: .LBB17_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vsll.vx v8, v8, a1		; CHECK-NEXT: vsll.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB17_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB17_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB17_7		; CHECK-NEXT: beqz a4, .LBB17_7
; CHECK-NEXT: .LBB17_5: # %for.body.preheader		; CHECK-NEXT: .LBB17_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB17_6: # %for.body		; CHECK-NEXT: .LBB17_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: sllw a2, a2, a1		; CHECK-NEXT: sllw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB17_6		; CHECK-NEXT: bnez a2, .LBB17_6
; CHECK-NEXT: .LBB17_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB17_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_lshr_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_lshr_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_lshr_scalable:		; CHECK-LABEL: sink_splat_lshr_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB18_2		; CHECK-NEXT: bgeu a3, a2, .LBB18_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB18_5		; CHECK-NEXT: j .LBB18_5
; CHECK-NEXT: .LBB18_2: # %vector.ph		; CHECK-NEXT: .LBB18_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB18_3: # %vector.body		; CHECK-NEXT: .LBB18_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vsrl.vx v8, v8, a1		; CHECK-NEXT: vsrl.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB18_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB18_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB18_7		; CHECK-NEXT: beqz a4, .LBB18_7
; CHECK-NEXT: .LBB18_5: # %for.body.preheader		; CHECK-NEXT: .LBB18_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB18_6: # %for.body		; CHECK-NEXT: .LBB18_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: srlw a2, a2, a1		; CHECK-NEXT: srlw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB18_6		; CHECK-NEXT: bnez a2, .LBB18_6
; CHECK-NEXT: .LBB18_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB18_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_ashr_scalable(i32* nocapture %a) {		define void @sink_splat_ashr_scalable(i32* nocapture %a) {
; CHECK-LABEL: sink_splat_ashr_scalable:		; CHECK-LABEL: sink_splat_ashr_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a4, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a2, a4, 1		; CHECK-NEXT: srli a1, a1, 1
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a2, .LBB19_2		; CHECK-NEXT: bgeu a2, a1, .LBB19_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB19_5		; CHECK-NEXT: j .LBB19_5
; CHECK-NEXT: .LBB19_2: # %vector.ph		; CHECK-NEXT: .LBB19_2: # %vector.ph
; CHECK-NEXT: addiw a1, a2, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a3, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a3, 1024		; CHECK-NEXT: andi a3, a2, 1024
; CHECK-NEXT: slli a4, a4, 1		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB19_3: # %vector.body		; CHECK-NEXT: .LBB19_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl2re32.v v8, (a5)		; CHECK-NEXT: vl2re32.v v8, (a5)
; CHECK-NEXT: vsra.vi v8, v8, 2		; CHECK-NEXT: vsra.vi v8, v8, 2
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs2r.v v8, (a5)		; CHECK-NEXT: vs2r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a2		; CHECK-NEXT: bne a4, a2, .LBB19_3
; CHECK-NEXT: add a5, a5, a4
; CHECK-NEXT: bnez a6, .LBB19_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a3, .LBB19_7		; CHECK-NEXT: beqz a3, .LBB19_7
; CHECK-NEXT: .LBB19_5: # %for.body.preheader		; CHECK-NEXT: .LBB19_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB19_6: # %for.body		; CHECK-NEXT: .LBB19_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a1, 0(a0)		; CHECK-NEXT: lw a2, 0(a0)
; CHECK-NEXT: srli a1, a1, 2		; CHECK-NEXT: srli a2, a2, 2
; CHECK-NEXT: sw a1, 0(a0)		; CHECK-NEXT: sw a2, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB19_6		; CHECK-NEXT: bnez a1, .LBB19_6
; CHECK-NEXT: .LBB19_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB19_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 256 Lines • ▼ Show 20 Lines

for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_fmul_scalable(float* nocapture %a, float %x) {		define void @sink_splat_fmul_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_fmul_scalable:		; CHECK-LABEL: sink_splat_fmul_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB26_2		; CHECK-NEXT: bgeu a2, a1, .LBB26_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB26_5		; CHECK-NEXT: j .LBB26_5
; CHECK-NEXT: .LBB26_2: # %vector.ph		; CHECK-NEXT: .LBB26_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB26_3: # %vector.body		; CHECK-NEXT: .LBB26_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfmul.vf v8, v8, fa0		; CHECK-NEXT: vfmul.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB26_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB26_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB26_7		; CHECK-NEXT: beqz a3, .LBB26_7
; CHECK-NEXT: .LBB26_5: # %for.body.preheader		; CHECK-NEXT: .LBB26_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB26_6: # %for.body		; CHECK-NEXT: .LBB26_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fmul.s ft0, ft0, fa0		; CHECK-NEXT: fmul.s ft0, ft0, fa0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB26_6		; CHECK-NEXT: bnez a1, .LBB26_6
; CHECK-NEXT: .LBB26_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB26_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_fdiv_scalable(float* nocapture %a, float %x) {		define void @sink_splat_fdiv_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_fdiv_scalable:		; CHECK-LABEL: sink_splat_fdiv_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB27_2		; CHECK-NEXT: bgeu a2, a1, .LBB27_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB27_5		; CHECK-NEXT: j .LBB27_5
; CHECK-NEXT: .LBB27_2: # %vector.ph		; CHECK-NEXT: .LBB27_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB27_3: # %vector.body		; CHECK-NEXT: .LBB27_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfdiv.vf v8, v8, fa0		; CHECK-NEXT: vfdiv.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB27_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB27_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB27_7		; CHECK-NEXT: beqz a3, .LBB27_7
; CHECK-NEXT: .LBB27_5: # %for.body.preheader		; CHECK-NEXT: .LBB27_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB27_6: # %for.body		; CHECK-NEXT: .LBB27_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fdiv.s ft0, ft0, fa0		; CHECK-NEXT: fdiv.s ft0, ft0, fa0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB27_6		; CHECK-NEXT: bnez a1, .LBB27_6
; CHECK-NEXT: .LBB27_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB27_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_frdiv_scalable(float* nocapture %a, float %x) {		define void @sink_splat_frdiv_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_frdiv_scalable:		; CHECK-LABEL: sink_splat_frdiv_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB28_2		; CHECK-NEXT: bgeu a2, a1, .LBB28_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB28_5		; CHECK-NEXT: j .LBB28_5
; CHECK-NEXT: .LBB28_2: # %vector.ph		; CHECK-NEXT: .LBB28_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB28_3: # %vector.body		; CHECK-NEXT: .LBB28_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfrdiv.vf v8, v8, fa0		; CHECK-NEXT: vfrdiv.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB28_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB28_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB28_7		; CHECK-NEXT: beqz a3, .LBB28_7
; CHECK-NEXT: .LBB28_5: # %for.body.preheader		; CHECK-NEXT: .LBB28_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB28_6: # %for.body		; CHECK-NEXT: .LBB28_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fdiv.s ft0, fa0, ft0		; CHECK-NEXT: fdiv.s ft0, fa0, ft0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB28_6		; CHECK-NEXT: bnez a1, .LBB28_6
; CHECK-NEXT: .LBB28_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB28_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_fadd_scalable(float* nocapture %a, float %x) {		define void @sink_splat_fadd_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_fadd_scalable:		; CHECK-LABEL: sink_splat_fadd_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB29_2		; CHECK-NEXT: bgeu a2, a1, .LBB29_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB29_5		; CHECK-NEXT: j .LBB29_5
; CHECK-NEXT: .LBB29_2: # %vector.ph		; CHECK-NEXT: .LBB29_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB29_3: # %vector.body		; CHECK-NEXT: .LBB29_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfadd.vf v8, v8, fa0		; CHECK-NEXT: vfadd.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB29_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB29_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB29_7		; CHECK-NEXT: beqz a3, .LBB29_7
; CHECK-NEXT: .LBB29_5: # %for.body.preheader		; CHECK-NEXT: .LBB29_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB29_6: # %for.body		; CHECK-NEXT: .LBB29_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fadd.s ft0, ft0, fa0		; CHECK-NEXT: fadd.s ft0, ft0, fa0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB29_6		; CHECK-NEXT: bnez a1, .LBB29_6
; CHECK-NEXT: .LBB29_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB29_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_fsub_scalable(float* nocapture %a, float %x) {		define void @sink_splat_fsub_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_fsub_scalable:		; CHECK-LABEL: sink_splat_fsub_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB30_2		; CHECK-NEXT: bgeu a2, a1, .LBB30_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB30_5		; CHECK-NEXT: j .LBB30_5
; CHECK-NEXT: .LBB30_2: # %vector.ph		; CHECK-NEXT: .LBB30_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB30_3: # %vector.body		; CHECK-NEXT: .LBB30_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfsub.vf v8, v8, fa0		; CHECK-NEXT: vfsub.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB30_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB30_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB30_7		; CHECK-NEXT: beqz a3, .LBB30_7
; CHECK-NEXT: .LBB30_5: # %for.body.preheader		; CHECK-NEXT: .LBB30_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB30_6: # %for.body		; CHECK-NEXT: .LBB30_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fsub.s ft0, ft0, fa0		; CHECK-NEXT: fsub.s ft0, ft0, fa0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB30_6		; CHECK-NEXT: bnez a1, .LBB30_6
; CHECK-NEXT: .LBB30_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB30_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_frsub_scalable(float* nocapture %a, float %x) {		define void @sink_splat_frsub_scalable(float* nocapture %a, float %x) {
; CHECK-LABEL: sink_splat_frsub_scalable:		; CHECK-LABEL: sink_splat_frsub_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a1, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a1, a1, 2
; CHECK-NEXT: li a1, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a1, a3, .LBB31_2		; CHECK-NEXT: bgeu a2, a1, .LBB31_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a1, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB31_5		; CHECK-NEXT: j .LBB31_5
; CHECK-NEXT: .LBB31_2: # %vector.ph		; CHECK-NEXT: .LBB31_2: # %vector.ph
; CHECK-NEXT: addiw a1, a3, -1		; CHECK-NEXT: li a4, 0
; CHECK-NEXT: andi a4, a1, 1024		; CHECK-NEXT: addiw a2, a1, -1
; CHECK-NEXT: xori a1, a4, 1024		; CHECK-NEXT: andi a3, a2, 1024
		; CHECK-NEXT: xori a2, a3, 1024
; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a5, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a5, a0
; CHECK-NEXT: mv a6, a1
; CHECK-NEXT: .LBB31_3: # %vector.body		; CHECK-NEXT: .LBB31_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a5, a4, 2
		; CHECK-NEXT: add a5, a0, a5
; CHECK-NEXT: vl1re32.v v8, (a5)		; CHECK-NEXT: vl1re32.v v8, (a5)
; CHECK-NEXT: vfrsub.vf v8, v8, fa0		; CHECK-NEXT: vfrsub.vf v8, v8, fa0
		; CHECK-NEXT: add a4, a4, a1
; CHECK-NEXT: vs1r.v v8, (a5)		; CHECK-NEXT: vs1r.v v8, (a5)
; CHECK-NEXT: sub a6, a6, a3		; CHECK-NEXT: bne a4, a2, .LBB31_3
; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: bnez a6, .LBB31_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB31_7		; CHECK-NEXT: beqz a3, .LBB31_7
; CHECK-NEXT: .LBB31_5: # %for.body.preheader		; CHECK-NEXT: .LBB31_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a1, -1024		; CHECK-NEXT: addi a1, a2, -1024
; CHECK-NEXT: slli a1, a1, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a0, a0, a1		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB31_6: # %for.body		; CHECK-NEXT: .LBB31_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: fsub.s ft0, fa0, ft0		; CHECK-NEXT: fsub.s ft0, fa0, ft0
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a1, a1, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB31_6		; CHECK-NEXT: bnez a1, .LBB31_6
; CHECK-NEXT: .LBB31_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB31_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_fma_scalable(float* noalias nocapture %a, float* noalias nocapture readonly %b, float %x) {		define void @sink_splat_fma_scalable(float* noalias nocapture %a, float* noalias nocapture readonly %b, float %x) {
; CHECK-LABEL: sink_splat_fma_scalable:		; CHECK-LABEL: sink_splat_fma_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a2, a2, 2
; CHECK-NEXT: li a4, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a4, a3, .LBB34_2		; CHECK-NEXT: bgeu a3, a2, .LBB34_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a4, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB34_5		; CHECK-NEXT: j .LBB34_5
; CHECK-NEXT: .LBB34_2: # %vector.ph		; CHECK-NEXT: .LBB34_2: # %vector.ph
; CHECK-NEXT: li a6, 0		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: addiw a4, a3, -1		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: andi a5, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: xori a4, a5, 1024		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a7, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a7, a4
; CHECK-NEXT: .LBB34_3: # %vector.body		; CHECK-NEXT: .LBB34_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: add t0, a0, a6		; CHECK-NEXT: slli a6, a5, 2
; CHECK-NEXT: vl1re32.v v8, (t0)		; CHECK-NEXT: add a7, a0, a6
; CHECK-NEXT: add t1, a1, a6		; CHECK-NEXT: vl1re32.v v8, (a7)
; CHECK-NEXT: vl1re32.v v9, (t1)		; CHECK-NEXT: add a6, a1, a6
		; CHECK-NEXT: vl1re32.v v9, (a6)
; CHECK-NEXT: vfmacc.vf v9, fa0, v8		; CHECK-NEXT: vfmacc.vf v9, fa0, v8
; CHECK-NEXT: vs1r.v v9, (t0)		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: vs1r.v v9, (a7)
; CHECK-NEXT: add a6, a6, a2		; CHECK-NEXT: bne a5, a3, .LBB34_3
; CHECK-NEXT: bnez a7, .LBB34_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a5, .LBB34_7		; CHECK-NEXT: beqz a4, .LBB34_7
; CHECK-NEXT: .LBB34_5: # %for.body.preheader		; CHECK-NEXT: .LBB34_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a4, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a3, a4, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a1, a1, a3		; CHECK-NEXT: add a1, a1, a3
; CHECK-NEXT: add a0, a0, a3		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB34_6: # %for.body		; CHECK-NEXT: .LBB34_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: flw ft1, 0(a1)		; CHECK-NEXT: flw ft1, 0(a1)
; CHECK-NEXT: fmadd.s ft0, ft0, fa0, ft1		; CHECK-NEXT: fmadd.s ft0, ft0, fa0, ft1
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	for.body: ; preds = %for.body.preheader, %for.body
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_fma_commute_scalable(float* noalias nocapture %a, float* noalias nocapture readonly %b, float %x) {		define void @sink_splat_fma_commute_scalable(float* noalias nocapture %a, float* noalias nocapture readonly %b, float %x) {
; CHECK-LABEL: sink_splat_fma_commute_scalable:		; CHECK-LABEL: sink_splat_fma_commute_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a2, a2, 2
; CHECK-NEXT: li a4, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a4, a3, .LBB35_2		; CHECK-NEXT: bgeu a3, a2, .LBB35_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a4, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB35_5		; CHECK-NEXT: j .LBB35_5
; CHECK-NEXT: .LBB35_2: # %vector.ph		; CHECK-NEXT: .LBB35_2: # %vector.ph
; CHECK-NEXT: li a6, 0		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: addiw a4, a3, -1		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: andi a5, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: xori a4, a5, 1024		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a7, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, ma
; CHECK-NEXT: mv a7, a4
; CHECK-NEXT: .LBB35_3: # %vector.body		; CHECK-NEXT: .LBB35_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: add t0, a0, a6		; CHECK-NEXT: slli a6, a5, 2
; CHECK-NEXT: vl1re32.v v8, (t0)		; CHECK-NEXT: add a7, a0, a6
; CHECK-NEXT: add t1, a1, a6		; CHECK-NEXT: vl1re32.v v8, (a7)
; CHECK-NEXT: vl1re32.v v9, (t1)		; CHECK-NEXT: add a6, a1, a6
		; CHECK-NEXT: vl1re32.v v9, (a6)
; CHECK-NEXT: vfmacc.vf v9, fa0, v8		; CHECK-NEXT: vfmacc.vf v9, fa0, v8
; CHECK-NEXT: vs1r.v v9, (t0)		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: vs1r.v v9, (a7)
; CHECK-NEXT: add a6, a6, a2		; CHECK-NEXT: bne a5, a3, .LBB35_3
; CHECK-NEXT: bnez a7, .LBB35_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a5, .LBB35_7		; CHECK-NEXT: beqz a4, .LBB35_7
; CHECK-NEXT: .LBB35_5: # %for.body.preheader		; CHECK-NEXT: .LBB35_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a4, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a3, a4, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a1, a1, a3		; CHECK-NEXT: add a1, a1, a3
; CHECK-NEXT: add a0, a0, a3		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB35_6: # %for.body		; CHECK-NEXT: .LBB35_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: flw ft1, 0(a1)		; CHECK-NEXT: flw ft1, 0(a1)
; CHECK-NEXT: fmadd.s ft0, fa0, ft0, ft1		; CHECK-NEXT: fmadd.s ft0, fa0, ft0, ft1
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
▲ Show 20 Lines • Show All 282 Lines • ▼ Show 20 Lines

for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_udiv_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_udiv_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_udiv_scalable:		; CHECK-LABEL: sink_splat_udiv_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB42_2		; CHECK-NEXT: bgeu a3, a2, .LBB42_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB42_5		; CHECK-NEXT: j .LBB42_5
; CHECK-NEXT: .LBB42_2: # %vector.ph		; CHECK-NEXT: .LBB42_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB42_3: # %vector.body		; CHECK-NEXT: .LBB42_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vdivu.vx v8, v8, a1		; CHECK-NEXT: vdivu.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB42_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB42_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB42_7		; CHECK-NEXT: beqz a4, .LBB42_7
; CHECK-NEXT: .LBB42_5: # %for.body.preheader		; CHECK-NEXT: .LBB42_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB42_6: # %for.body		; CHECK-NEXT: .LBB42_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: divuw a2, a2, a1		; CHECK-NEXT: divuw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB42_6		; CHECK-NEXT: bnez a2, .LBB42_6
; CHECK-NEXT: .LBB42_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB42_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_sdiv_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_sdiv_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_sdiv_scalable:		; CHECK-LABEL: sink_splat_sdiv_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB43_2		; CHECK-NEXT: bgeu a3, a2, .LBB43_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB43_5		; CHECK-NEXT: j .LBB43_5
; CHECK-NEXT: .LBB43_2: # %vector.ph		; CHECK-NEXT: .LBB43_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB43_3: # %vector.body		; CHECK-NEXT: .LBB43_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vdiv.vx v8, v8, a1		; CHECK-NEXT: vdiv.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB43_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB43_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB43_7		; CHECK-NEXT: beqz a4, .LBB43_7
; CHECK-NEXT: .LBB43_5: # %for.body.preheader		; CHECK-NEXT: .LBB43_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB43_6: # %for.body		; CHECK-NEXT: .LBB43_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: divw a2, a2, a1		; CHECK-NEXT: divw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB43_6		; CHECK-NEXT: bnez a2, .LBB43_6
; CHECK-NEXT: .LBB43_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB43_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_urem_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_urem_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_urem_scalable:		; CHECK-LABEL: sink_splat_urem_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB44_2		; CHECK-NEXT: bgeu a3, a2, .LBB44_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB44_5		; CHECK-NEXT: j .LBB44_5
; CHECK-NEXT: .LBB44_2: # %vector.ph		; CHECK-NEXT: .LBB44_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB44_3: # %vector.body		; CHECK-NEXT: .LBB44_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vremu.vx v8, v8, a1		; CHECK-NEXT: vremu.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB44_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB44_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB44_7		; CHECK-NEXT: beqz a4, .LBB44_7
; CHECK-NEXT: .LBB44_5: # %for.body.preheader		; CHECK-NEXT: .LBB44_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB44_6: # %for.body		; CHECK-NEXT: .LBB44_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: remuw a2, a2, a1		; CHECK-NEXT: remuw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB44_6		; CHECK-NEXT: bnez a2, .LBB44_6
; CHECK-NEXT: .LBB44_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB44_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

Show All 40 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_srem_scalable(i32* nocapture %a, i32 signext %x) {		define void @sink_splat_srem_scalable(i32* nocapture %a, i32 signext %x) {
; CHECK-LABEL: sink_splat_srem_scalable:		; CHECK-LABEL: sink_splat_srem_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a5, vlenb		; CHECK-NEXT: csrr a2, vlenb
; CHECK-NEXT: srli a3, a5, 1		; CHECK-NEXT: srli a2, a2, 1
; CHECK-NEXT: li a2, 1024		; CHECK-NEXT: li a3, 1024
; CHECK-NEXT: bgeu a2, a3, .LBB45_2		; CHECK-NEXT: bgeu a3, a2, .LBB45_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a2, 0		; CHECK-NEXT: li a3, 0
; CHECK-NEXT: j .LBB45_5		; CHECK-NEXT: j .LBB45_5
; CHECK-NEXT: .LBB45_2: # %vector.ph		; CHECK-NEXT: .LBB45_2: # %vector.ph
; CHECK-NEXT: addiw a2, a3, -1		; CHECK-NEXT: li a5, 0
; CHECK-NEXT: andi a4, a2, 1024		; CHECK-NEXT: addiw a3, a2, -1
; CHECK-NEXT: xori a2, a4, 1024		; CHECK-NEXT: andi a4, a3, 1024
; CHECK-NEXT: slli a5, a5, 1		; CHECK-NEXT: xori a3, a4, 1024
; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma		; CHECK-NEXT: vsetvli a6, zero, e32, m2, ta, ma
; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a2
; CHECK-NEXT: .LBB45_3: # %vector.body		; CHECK-NEXT: .LBB45_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
		; CHECK-NEXT: slli a6, a5, 2
		; CHECK-NEXT: add a6, a0, a6
; CHECK-NEXT: vl2re32.v v8, (a6)		; CHECK-NEXT: vl2re32.v v8, (a6)
; CHECK-NEXT: vrem.vx v8, v8, a1		; CHECK-NEXT: vrem.vx v8, v8, a1
		; CHECK-NEXT: add a5, a5, a2
; CHECK-NEXT: vs2r.v v8, (a6)		; CHECK-NEXT: vs2r.v v8, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: bne a5, a3, .LBB45_3
; CHECK-NEXT: add a6, a6, a5
; CHECK-NEXT: bnez a7, .LBB45_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a4, .LBB45_7		; CHECK-NEXT: beqz a4, .LBB45_7
; CHECK-NEXT: .LBB45_5: # %for.body.preheader		; CHECK-NEXT: .LBB45_5: # %for.body.preheader
; CHECK-NEXT: addi a3, a2, -1024		; CHECK-NEXT: addi a2, a3, -1024
; CHECK-NEXT: slli a2, a2, 2		; CHECK-NEXT: slli a3, a3, 2
; CHECK-NEXT: add a0, a0, a2		; CHECK-NEXT: add a0, a0, a3
; CHECK-NEXT: .LBB45_6: # %for.body		; CHECK-NEXT: .LBB45_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: lw a2, 0(a0)		; CHECK-NEXT: lw a3, 0(a0)
; CHECK-NEXT: remw a2, a2, a1		; CHECK-NEXT: remw a3, a3, a1
; CHECK-NEXT: sw a2, 0(a0)		; CHECK-NEXT: sw a3, 0(a0)
; CHECK-NEXT: addi a3, a3, 1		; CHECK-NEXT: addi a2, a2, 1
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a3, .LBB45_6		; CHECK-NEXT: bnez a2, .LBB45_6
; CHECK-NEXT: .LBB45_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB45_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 2		%1 = shl i64 %0, 2
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 1,655 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/vsetvli-insert-crossbb.ll

	Show First 20 Lines • Show All 637 Lines • ▼ Show 20 Lines
	; A single vector store in the loop with VL controlled by VLMAX			; A single vector store in the loop with VL controlled by VLMAX
	define void @vector_init_vlmax(i64 %N, double* %c) {			define void @vector_init_vlmax(i64 %N, double* %c) {
	; CHECK-LABEL: vector_init_vlmax:			; CHECK-LABEL: vector_init_vlmax:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vsetvli a2, zero, e64, m1, ta, mu			; CHECK-NEXT: vsetvli a2, zero, e64, m1, ta, mu
	; CHECK-NEXT: blez a0, .LBB12_3			; CHECK-NEXT: blez a0, .LBB12_3
	; CHECK-NEXT: # %bb.1: # %for.body.preheader			; CHECK-NEXT: # %bb.1: # %for.body.preheader
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: slli a4, a2, 3
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: .LBB12_2: # %for.body			; CHECK-NEXT: .LBB12_2: # %for.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: slli a4, a3, 3
				; CHECK-NEXT: add a4, a4, a1
	; CHECK-NEXT: vsetvli zero, zero, e64, m1, ta, ma			; CHECK-NEXT: vsetvli zero, zero, e64, m1, ta, ma
	; CHECK-NEXT: vse64.v v8, (a1)
	; CHECK-NEXT: add a3, a3, a2			; CHECK-NEXT: add a3, a3, a2
	; CHECK-NEXT: add a1, a1, a4			; CHECK-NEXT: vse64.v v8, (a4)
	; CHECK-NEXT: blt a3, a0, .LBB12_2			; CHECK-NEXT: blt a3, a0, .LBB12_2
	; CHECK-NEXT: .LBB12_3: # %for.end			; CHECK-NEXT: .LBB12_3: # %for.end
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.riscv.vsetvlimax.i64(i64 3, i64 0)			%0 = tail call i64 @llvm.riscv.vsetvlimax.i64(i64 3, i64 0)
	%cmp13 = icmp sgt i64 %N, 0			%cmp13 = icmp sgt i64 %N, 0
	br i1 %cmp13, label %for.body, label %for.end			br i1 %cmp13, label %for.body, label %for.end

	Show All 13 Lines
	; Same as above, but VL comes from user provided AVL value			; Same as above, but VL comes from user provided AVL value
	define void @vector_init_vsetvli_N(i64 %N, double* %c) {			define void @vector_init_vsetvli_N(i64 %N, double* %c) {
	; CHECK-LABEL: vector_init_vsetvli_N:			; CHECK-LABEL: vector_init_vsetvli_N:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vsetvli a2, a0, e64, m1, ta, mu			; CHECK-NEXT: vsetvli a2, a0, e64, m1, ta, mu
	; CHECK-NEXT: blez a0, .LBB13_3			; CHECK-NEXT: blez a0, .LBB13_3
	; CHECK-NEXT: # %bb.1: # %for.body.preheader			; CHECK-NEXT: # %bb.1: # %for.body.preheader
	; CHECK-NEXT: li a3, 0			; CHECK-NEXT: li a3, 0
	; CHECK-NEXT: slli a4, a2, 3			; CHECK-NEXT: vsetvli a4, zero, e64, m1, ta, ma
	; CHECK-NEXT: vsetvli a5, zero, e64, m1, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: .LBB13_2: # %for.body			; CHECK-NEXT: .LBB13_2: # %for.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: slli a4, a3, 3
				; CHECK-NEXT: add a4, a4, a1
	; CHECK-NEXT: vsetvli zero, a2, e64, m1, ta, ma			; CHECK-NEXT: vsetvli zero, a2, e64, m1, ta, ma
	; CHECK-NEXT: vse64.v v8, (a1)
	; CHECK-NEXT: add a3, a3, a2			; CHECK-NEXT: add a3, a3, a2
	; CHECK-NEXT: add a1, a1, a4			; CHECK-NEXT: vse64.v v8, (a4)
	; CHECK-NEXT: blt a3, a0, .LBB13_2			; CHECK-NEXT: blt a3, a0, .LBB13_2
	; CHECK-NEXT: .LBB13_3: # %for.end			; CHECK-NEXT: .LBB13_3: # %for.end
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.riscv.vsetvli(i64 %N, i64 3, i64 0)			%0 = tail call i64 @llvm.riscv.vsetvli(i64 %N, i64 3, i64 0)
	%cmp13 = icmp sgt i64 %N, 0			%cmp13 = icmp sgt i64 %N, 0
	br i1 %cmp13, label %for.body, label %for.end			br i1 %cmp13, label %for.body, label %for.end

	Show All 11 Lines
	}			}

	; Same as above, but VL is a hard coded constant (in the preheader)			; Same as above, but VL is a hard coded constant (in the preheader)
	define void @vector_init_vsetvli_fv(i64 %N, double* %c) {			define void @vector_init_vsetvli_fv(i64 %N, double* %c) {
	; CHECK-LABEL: vector_init_vsetvli_fv:			; CHECK-LABEL: vector_init_vsetvli_fv:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a2, 0			; CHECK-NEXT: li a2, 0
	; CHECK-NEXT: vsetivli a3, 4, e64, m1, ta, mu			; CHECK-NEXT: vsetivli a3, 4, e64, m1, ta, mu
	; CHECK-NEXT: slli a4, a3, 3			; CHECK-NEXT: vsetvli a4, zero, e64, m1, ta, ma
	; CHECK-NEXT: vsetvli a5, zero, e64, m1, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: .LBB14_1: # %for.body			; CHECK-NEXT: .LBB14_1: # %for.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: slli a4, a2, 3
				; CHECK-NEXT: add a4, a4, a1
	; CHECK-NEXT: vsetivli zero, 4, e64, m1, ta, ma			; CHECK-NEXT: vsetivli zero, 4, e64, m1, ta, ma
	; CHECK-NEXT: vse64.v v8, (a1)
	; CHECK-NEXT: add a2, a2, a3			; CHECK-NEXT: add a2, a2, a3
	; CHECK-NEXT: add a1, a1, a4			; CHECK-NEXT: vse64.v v8, (a4)
	; CHECK-NEXT: blt a2, a0, .LBB14_1			; CHECK-NEXT: blt a2, a0, .LBB14_1
	; CHECK-NEXT: # %bb.2: # %for.end			; CHECK-NEXT: # %bb.2: # %for.end
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.riscv.vsetvli(i64 4, i64 3, i64 0)			%0 = tail call i64 @llvm.riscv.vsetvli(i64 4, i64 3, i64 0)
	br label %for.body			br label %for.body

	for.body: ; preds = %entry, %for.body			for.body: ; preds = %entry, %for.body
	▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines

llvm/test/Transforms/LoopStrengthReduce/RISCV/icmp-zero.ll

	Show First 20 Lines • Show All 351 Lines • ▼ Show 20 Lines
	; Loop invariant does not neccessarily mean dominating the loop. Forming			; Loop invariant does not neccessarily mean dominating the loop. Forming
	; an ICmpZero from this example would be illegal even though the operands			; an ICmpZero from this example would be illegal even though the operands
	; to the compare are loop invariant.			; to the compare are loop invariant.
	define void @loop_invariant_definition(i64 %arg) {			define void @loop_invariant_definition(i64 %arg) {
	; CHECK-LABEL: @loop_invariant_definition(			; CHECK-LABEL: @loop_invariant_definition(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br label [[T1:%.*]]			; CHECK-NEXT: br label [[T1:%.*]]
	; CHECK: t1:			; CHECK: t1:
	; CHECK-NEXT: [[LSR_IV:%.]] = phi i64 [ [[LSR_IV_NEXT:%.]], [[T1]] ], [ -1, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[T2:%.]] = phi i64 [ [[T3:%.]], [[T1]] ], [ 0, [[ENTRY:%.*]] ]
	; CHECK-NEXT: [[LSR_IV_NEXT]] = add nsw i64 [[LSR_IV]], 1			; CHECK-NEXT: [[T3]] = add nuw i64 [[T2]], 1
	; CHECK-NEXT: br i1 true, label [[T4:%.*]], label [[T1]]			; CHECK-NEXT: br i1 true, label [[T4:%.*]], label [[T1]]
	; CHECK: t4:			; CHECK: t4:
	; CHECK-NEXT: [[T5:%.*]] = trunc i64 [[LSR_IV_NEXT]] to i32			; CHECK-NEXT: [[T5:%.*]] = trunc i64 [[T2]] to i32
	; CHECK-NEXT: [[T6:%.*]] = add i32 [[T5]], 1			; CHECK-NEXT: [[T6:%.*]] = add i32 [[T5]], 1
	; CHECK-NEXT: [[T7:%.*]] = icmp eq i32 [[T5]], [[T6]]			; CHECK-NEXT: [[T7:%.*]] = icmp eq i32 [[T5]], [[T6]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %t1			br label %t1

	t1: ; preds = %1, %0			t1: ; preds = %1, %0
	Show All 12 Lines

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-drop-solution-dbg-msg.ll

	; REQUIRES: asserts			; REQUIRES: asserts
	; RUN: llc < %s -O3 -mattr=+v -debug -lsr-drop-solution 2>&1 \| FileCheck --check-prefix=DEBUG %s			; RUN: llc < %s -O3 -mattr=+v -debug 2>&1 \| FileCheck --check-prefix=DEBUG %s
	; RUN: llc < %s -O3 -mattr=+v -debug 2>&1 \| FileCheck --check-prefix=DEBUG2 %s

	target datalayout = "e-m:e-p:64:64-i64:64-i128:128-n64-S128"			target datalayout = "e-m:e-p:64:64-i64:64-i128:128-n64-S128"
	target triple = "riscv64-unknown-linux-gnu"			target triple = "riscv64-unknown-linux-gnu"

	define ptr @foo(ptr %a0, ptr %a1, i64 %a2) {			define ptr @foo(ptr %a0, ptr %a1, i64 %a2) {
	;DEBUG: The chosen solution requires 3 instructions 6 regs, with addrec cost 1, plus 2 base adds, plus 5 setup cost			;DEBUG: The chosen solution requires 3 instructions 6 regs, with addrec cost 1, plus 2 base adds, plus 5 setup cost
	;DEBUG: The baseline solution requires 2 instructions 4 regs, with addrec cost 2, plus 3 setup cost			;DEBUG: The baseline solution requires 2 instructions 4 regs, with addrec cost 2, plus 3 setup cost
	;DEBUG: Baseline is more profitable than chosen solution, dropping LSR solution.			;DEBUG: Baseline is more profitable than chosen solution, dropping LSR solution.

	;DEBUG2: Baseline is more profitable than chosen solution, add option 'lsr-drop-solution' to drop LSR solution.
	entry:			entry:
	%0 = ptrtoint ptr %a0 to i64			%0 = ptrtoint ptr %a0 to i64
	%1 = tail call i64 @llvm.riscv.vsetvli.i64(i64 %a2, i64 0, i64 3)			%1 = tail call i64 @llvm.riscv.vsetvli.i64(i64 %a2, i64 0, i64 3)
	%cmp.not = icmp eq i64 %1, %a2			%cmp.not = icmp eq i64 %1, %a2
	br i1 %cmp.not, label %if.end, label %if.then			br i1 %cmp.not, label %if.end, label %if.then

	if.then: ; preds = %entry			if.then: ; preds = %entry
	%add = add i64 %0, %a2			%add = add i64 %0, %a2
	Show All 34 Lines

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-drop-solution.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -O3 -mattr=+v -lsr-drop-solution \| FileCheck --check-prefix=CHECK %s			; RUN: llc < %s -O3 -mattr=+v \| FileCheck --check-prefix=CHECK %s

	target datalayout = "e-m:e-p:64:64-i64:64-i128:128-n64-S128"			target datalayout = "e-m:e-p:64:64-i64:64-i128:128-n64-S128"
	target triple = "riscv64-unknown-linux-gnu"			target triple = "riscv64-unknown-linux-gnu"

	define ptr @foo(ptr %a0, ptr %a1, i64 %a2) {			define ptr @foo(ptr %a0, ptr %a1, i64 %a2) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vsetvli a4, a2, e8, m8, ta, mu			; CHECK-NEXT: vsetvli a4, a2, e8, m8, ta, mu
	▲ Show 20 Lines • Show All 68 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[LSR][TTI][RISCV] Add isAllowDropLSRSolution into TTI and enable it for RISC-VAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 471448

llvm/include/llvm/Analysis/TargetTransformInfo.h

llvm/include/llvm/Analysis/TargetTransformInfoImpl.h

llvm/include/llvm/CodeGen/BasicTTIImpl.h

llvm/lib/Analysis/TargetTransformInfo.cpp

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.h

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp

llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

llvm/test/CodeGen/RISCV/rvv/vsetvli-insert-crossbb.ll

llvm/test/Transforms/LoopStrengthReduce/RISCV/icmp-zero.ll

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-drop-solution-dbg-msg.ll

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-drop-solution.ll

[LSR][TTI][RISCV] Add isAllowDropLSRSolution into TTI and enable it for RISC-V
AbandonedPublic