This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/RISCV/
-
Target/
-
RISCV/
-
RISCVTargetTransformInfo.h
1/2
RISCVTargetTransformInfo.cpp
-
test/
-
CodeGen/RISCV/
-
RISCV/
-
loop-strength-reduce-loop-invar.ll
-
rvv/
-
fixed-vector-strided-load-store-asm.ll
-
sink-splat-operands.ll
-
vsetvli-insert-crossbb.ll
-
Transforms/LoopStrengthReduce/RISCV/
-
LoopStrengthReduce/
-
RISCV/
-
lsr-cost-compare.ll

Differential D142227

[RISCV][LSR] Treat number of instructions as dominate factor in LSR cost decisions
ClosedPublic

Authored by reames on Jan 20 2023, 8:49 AM.

Download Raw Diff

Details

Reviewers

craig.topper
asb
kito-cheng
eopXD

Commits

rGa9871772a8b1: [RISCV][LSR] Treat number of instructions as dominate factor in LSR cost…

Summary

This matches the behavior from a number of other targets, including e.g. X86. This does have the effect of increasing register pressure slightly, but we have a relative abundance of registers in the ISA compared to other targets which use the same heuristic.

The motivation here is that our current cost heuristic treats number of registers as the dominant cost. As a result, an extra use outside of a loop can radically change the LSR result. As an example consider test4 from the recently added test/Transforms/LoopStrengthReduce/RISCV/lsr-cost-compare.ll. Without a use outside the loop (see test3), we convert the IV into a pointer increment. With one, we leave the gep in place.

The pointer increment version both decreases number of instructions in some loops, and creates parallel chains of computation (i.e. decreases critical path depth). Both are generally profitable.

Arguably, we should really be using a more sophisticated model here - such as e.g. using profile information or explicitly modeling parallelism gains. However, as a practical matter starting with the same mild hack that other targets have used seems reasonable.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

reames created this revision.Jan 20 2023, 8:49 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 20 2023, 8:49 AM

Herald added subscribers: luke, VincentWu, vkmr and 29 others. · View Herald Transcript

reames requested review of this revision.Jan 20 2023, 8:49 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 20 2023, 8:49 AM

Herald added subscribers: • pcwang-thead, MaskRay. · View Herald Transcript

Harbormaster completed remote builds in B209010: Diff 490877.Jan 20 2023, 11:20 AM

This LGTM (I'm not very familiar with these cost calculations though, so consider this a weak approval!).

It looks like we might want to consider, in a followup patch, also implementing isNumRegsMajorCostOfLSR to returning false (introduced in D89665)?

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp
1479	Maybe "Use instruction count rather than number of registers as the dominant cost." would more clearly express how this differs to the default implementation?

This revision is now accepted and ready to land.Jan 24 2023, 8:03 AM

In D142227#4077351, @asb wrote:

It looks like we might want to consider, in a followup patch, also implementing isNumRegsMajorCostOfLSR to returning false (introduced in D89665)?

I looked at that, but only one target actually uses it. The actual use doesn't seem to match the naming; it seems to in practice mean "turn off chain detection". I don't think we want to do that.

Makes sense to me and the results I'm seeing are reasonable. (this is also a weak approval)

reames added inline comments.Jan 24 2023, 11:41 AM

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp
1479	This exact comment is used in multiple targets. It looks like a good candidate for some code restructuring, and I biased in terms of making it easily grep-able.

This revision was landed with ongoing or failed builds.Jan 24 2023, 11:43 AM

Closed by commit rGa9871772a8b1: [RISCV][LSR] Treat number of instructions as dominate factor in LSR cost… (authored by reames). · Explain Why

This revision was automatically updated to reflect the committed changes.

reames added a commit: rGa9871772a8b1: [RISCV][LSR] Treat number of instructions as dominate factor in LSR cost….

Revision Contents

Path

Size

llvm/

lib/

Target/

RISCV/

RISCVTargetTransformInfo.h

3 lines

RISCVTargetTransformInfo.cpp

11 lines

test/

CodeGen/

RISCV/

loop-strength-reduce-loop-invar.ll

28 lines

rvv/

fixed-vector-strided-load-store-asm.ll

145 lines

sink-splat-operands.ll

100 lines

vsetvli-insert-crossbb.ll

35 lines

Transforms/

LoopStrengthReduce/

RISCV/

lsr-cost-compare.ll

27 lines

Diff 491864

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.h

Show First 20 Lines • Show All 330 Lines • ▼ Show 20 Lines	case RISCVRegisterClass::GPRRC:
return "RISCV::GPRRC";		return "RISCV::GPRRC";
case RISCVRegisterClass::FPRRC:		case RISCVRegisterClass::FPRRC:
return "RISCV::FPRRC";		return "RISCV::FPRRC";
case RISCVRegisterClass::VRRC:		case RISCVRegisterClass::VRRC:
return "RISCV::VRRC";		return "RISCV::VRRC";
}		}
llvm_unreachable("unknown register class");		llvm_unreachable("unknown register class");
}		}

		bool isLSRCostLess(const TargetTransformInfo::LSRCost &C1,
		const TargetTransformInfo::LSRCost &C2);
};		};

} // end namespace llvm		} // end namespace llvm

#endif // LLVM_LIB_TARGET_RISCV_RISCVTARGETTRANSFORMINFO_H		#endif // LLVM_LIB_TARGET_RISCV_RISCVTARGETTRANSFORMINFO_H

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp

	Show First 20 Lines • Show All 1,467 Lines • ▼ Show 20 Lines
	unsigned RISCVTTIImpl::getMaximumVF(unsigned ElemWidth, unsigned Opcode) const {			unsigned RISCVTTIImpl::getMaximumVF(unsigned ElemWidth, unsigned Opcode) const {
	// This interface is currently only used by SLP. Returning 1 (which is the			// This interface is currently only used by SLP. Returning 1 (which is the
	// default value for SLPMaxVF) disables SLP. We currently have a cost modeling			// default value for SLPMaxVF) disables SLP. We currently have a cost modeling
	// problem w/ constant materialization which causes SLP to perform majorly			// problem w/ constant materialization which causes SLP to perform majorly
	// unprofitable transformations.			// unprofitable transformations.
	// TODO: Figure out constant materialization cost modeling and remove.			// TODO: Figure out constant materialization cost modeling and remove.
	return SLPMaxVF;			return SLPMaxVF;
	}			}

				bool RISCVTTIImpl::isLSRCostLess(const TargetTransformInfo::LSRCost &C1,
				const TargetTransformInfo::LSRCost &C2) {
				// RISCV specific here are "instruction number 1st priority".
				asbUnsubmitted Not Done Reply Inline Actions Maybe "Use instruction count rather than number of registers as the dominant cost." would more clearly express how this differs to the default implementation? asb: Maybe "Use instruction count rather than number of registers as the dominant cost." would more…
				reamesAuthorUnsubmitted Done Reply Inline Actions This exact comment is used in multiple targets. It looks like a good candidate for some code restructuring, and I biased in terms of making it easily grep-able. reames: This exact comment is used in multiple targets. It looks like a good candidate for some code…
				return std::tie(C1.Insns, C1.NumRegs, C1.AddRecCost,
				C1.NumIVMuls, C1.NumBaseAdds,
				C1.ScaleCost, C1.ImmCost, C1.SetupCost) <
				std::tie(C2.Insns, C2.NumRegs, C2.AddRecCost,
				C2.NumIVMuls, C2.NumBaseAdds,
				C2.ScaleCost, C2.ImmCost, C2.SetupCost);
				}

llvm/test/CodeGen/RISCV/loop-strength-reduce-loop-invar.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; RV32-NEXT: bnez a1, .LBB0_2			; RV32-NEXT: bnez a1, .LBB0_2
	; RV32-NEXT: .LBB0_3: # %return			; RV32-NEXT: .LBB0_3: # %return
	; RV32-NEXT: ret			; RV32-NEXT: ret
	;			;
	; RV64-LABEL: test:			; RV64-LABEL: test:
	; RV64: # %bb.0: # %entry			; RV64: # %bb.0: # %entry
	; RV64-NEXT: blez a1, .LBB0_3			; RV64-NEXT: blez a1, .LBB0_3
	; RV64-NEXT: # %bb.1: # %cond_true.preheader			; RV64-NEXT: # %bb.1: # %cond_true.preheader
	; RV64-NEXT: li a2, 0			; RV64-NEXT: negw a1, a1
	; RV64-NEXT: slli a0, a0, 6			; RV64-NEXT: slli a0, a0, 6
	; RV64-NEXT: lui a3, %hi(A)			; RV64-NEXT: lui a2, %hi(A)
	; RV64-NEXT: addi a3, a3, %lo(A)			; RV64-NEXT: addi a2, a2, %lo(A)
	; RV64-NEXT: add a0, a0, a3			; RV64-NEXT: add a0, a0, a2
	; RV64-NEXT: addi a3, a0, 4			; RV64-NEXT: addi a2, a0, 4
				; RV64-NEXT: li a3, 2
	; RV64-NEXT: li a4, 4			; RV64-NEXT: li a4, 4
	; RV64-NEXT: li a5, 5			; RV64-NEXT: li a5, 5
				; RV64-NEXT: li a6, 2
	; RV64-NEXT: .LBB0_2: # %cond_true			; RV64-NEXT: .LBB0_2: # %cond_true
	; RV64-NEXT: # =>This Inner Loop Header: Depth=1			; RV64-NEXT: # =>This Inner Loop Header: Depth=1
	; RV64-NEXT: sw a4, 0(a3)			; RV64-NEXT: sw a4, 0(a2)
	; RV64-NEXT: addiw a6, a2, 2			; RV64-NEXT: slli a7, a6, 2
	; RV64-NEXT: slli a6, a6, 2			; RV64-NEXT: add a7, a0, a7
	; RV64-NEXT: add a6, a0, a6			; RV64-NEXT: sw a5, 0(a7)
	; RV64-NEXT: sw a5, 0(a6)			; RV64-NEXT: addiw a6, a6, 1
	; RV64-NEXT: addiw a2, a2, 1			; RV64-NEXT: addw a7, a1, a6
	; RV64-NEXT: addi a3, a3, 4			; RV64-NEXT: addi a2, a2, 4
	; RV64-NEXT: bne a1, a2, .LBB0_2			; RV64-NEXT: bne a7, a3, .LBB0_2
	; RV64-NEXT: .LBB0_3: # %return			; RV64-NEXT: .LBB0_3: # %return
	; RV64-NEXT: ret			; RV64-NEXT: ret
	entry:			entry:
	%N = bitcast i32 %N.in to i32			%N = bitcast i32 %N.in to i32
	%tmp5 = icmp sgt i32 %N.in, 0			%tmp5 = icmp sgt i32 %N.in, 0
	br i1 %tmp5, label %cond_true, label %return			br i1 %tmp5, label %cond_true, label %return

	cond_true:			cond_true:
	Show All 14 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vector-strided-load-store-asm.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+v -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,V			; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+v -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,V
	; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+f,+zve32f -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,ZVE32F			; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+f,+zve32f -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,ZVE32F
	; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+v,+no-optimized-zero-stride-load -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,NOT-OPTIMIZED			; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+v,+no-optimized-zero-stride-load -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,NOT-OPTIMIZED
	; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+f,+zve32f,+no-optimized-zero-stride-load -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,NOT-OPTIMIZED			; RUN: llc < %s -mtriple=riscv64 -mattr=+m,+f,+zve32f,+no-optimized-zero-stride-load -riscv-v-vector-bits-min=256 \| FileCheck %s --check-prefixes=CHECK,NOT-OPTIMIZED

	%struct.foo = type { i32, i32, i32, i32 }			%struct.foo = type { i32, i32, i32, i32 }

	; void gather(signed char * __restrict A, signed char * __restrict B) {			; void gather(signed char * __restrict A, signed char * __restrict B) {
	; for (int i = 0; i != 1024; ++i)			; for (int i = 0; i != 1024; ++i)
	; A[i] += B[i * 5];			; A[i] += B[i * 5];
	; }			; }
	define void @gather(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {			define void @gather(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {
	; CHECK-LABEL: gather:			; CHECK-LABEL: gather:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a2, 0			; CHECK-NEXT: li a2, 1024
	; CHECK-NEXT: li a3, 32			; CHECK-NEXT: li a3, 32
	; CHECK-NEXT: li a4, 5			; CHECK-NEXT: li a4, 5
	; CHECK-NEXT: li a5, 1024
	; CHECK-NEXT: .LBB0_1: # %vector.body			; CHECK-NEXT: .LBB0_1: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; CHECK-NEXT: vlse8.v v8, (a1), a4			; CHECK-NEXT: vlse8.v v8, (a1), a4
	; CHECK-NEXT: add a6, a0, a2			; CHECK-NEXT: vle8.v v9, (a0)
	; CHECK-NEXT: vle8.v v9, (a6)
	; CHECK-NEXT: vadd.vv v8, v9, v8			; CHECK-NEXT: vadd.vv v8, v9, v8
	; CHECK-NEXT: vse8.v v8, (a6)			; CHECK-NEXT: vse8.v v8, (a0)
	; CHECK-NEXT: addi a2, a2, 32			; CHECK-NEXT: addi a2, a2, -32
				; CHECK-NEXT: addi a0, a0, 32
	; CHECK-NEXT: addi a1, a1, 160			; CHECK-NEXT: addi a1, a1, 160
	; CHECK-NEXT: bne a2, a5, .LBB0_1			; CHECK-NEXT: bnez a2, .LBB0_1
	; CHECK-NEXT: # %bb.2: # %for.cond.cleanup			; CHECK-NEXT: # %bb.2: # %for.cond.cleanup
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 11 Lines

	for.cond.cleanup: ; preds = %vector.body			for.cond.cleanup: ; preds = %vector.body
	ret void			ret void
	}			}

	define void @gather_masked(ptr noalias nocapture %A, ptr noalias nocapture readonly %B, <32 x i8> %maskedoff) {			define void @gather_masked(ptr noalias nocapture %A, ptr noalias nocapture readonly %B, <32 x i8> %maskedoff) {
	; V-LABEL: gather_masked:			; V-LABEL: gather_masked:
	; V: # %bb.0: # %entry			; V: # %bb.0: # %entry
	; V-NEXT: li a2, 0			; V-NEXT: li a2, 1024
	; V-NEXT: lui a3, 983765			; V-NEXT: lui a3, 983765
	; V-NEXT: addiw a3, a3, 873			; V-NEXT: addiw a3, a3, 873
	; V-NEXT: vsetivli zero, 1, e32, mf2, ta, ma			; V-NEXT: vsetivli zero, 1, e32, mf2, ta, ma
	; V-NEXT: vmv.s.x v0, a3			; V-NEXT: vmv.s.x v0, a3
	; V-NEXT: li a3, 32			; V-NEXT: li a3, 32
	; V-NEXT: li a4, 5			; V-NEXT: li a4, 5
	; V-NEXT: li a5, 1024
	; V-NEXT: .LBB1_1: # %vector.body			; V-NEXT: .LBB1_1: # %vector.body
	; V-NEXT: # =>This Inner Loop Header: Depth=1			; V-NEXT: # =>This Inner Loop Header: Depth=1
	; V-NEXT: vsetvli zero, a3, e8, m1, ta, mu			; V-NEXT: vsetvli zero, a3, e8, m1, ta, mu
	; V-NEXT: vmv1r.v v9, v8			; V-NEXT: vmv1r.v v9, v8
	; V-NEXT: vlse8.v v9, (a1), a4, v0.t			; V-NEXT: vlse8.v v9, (a1), a4, v0.t
	; V-NEXT: add a6, a0, a2			; V-NEXT: vle8.v v10, (a0)
	; V-NEXT: vle8.v v10, (a6)
	; V-NEXT: vadd.vv v9, v10, v9			; V-NEXT: vadd.vv v9, v10, v9
	; V-NEXT: vse8.v v9, (a6)			; V-NEXT: vse8.v v9, (a0)
	; V-NEXT: addi a2, a2, 32			; V-NEXT: addi a2, a2, -32
				; V-NEXT: addi a0, a0, 32
	; V-NEXT: addi a1, a1, 160			; V-NEXT: addi a1, a1, 160
	; V-NEXT: bne a2, a5, .LBB1_1			; V-NEXT: bnez a2, .LBB1_1
	; V-NEXT: # %bb.2: # %for.cond.cleanup			; V-NEXT: # %bb.2: # %for.cond.cleanup
	; V-NEXT: ret			; V-NEXT: ret
	;			;
	; ZVE32F-LABEL: gather_masked:			; ZVE32F-LABEL: gather_masked:
	; ZVE32F: # %bb.0: # %entry			; ZVE32F: # %bb.0: # %entry
	; ZVE32F-NEXT: li a2, 0			; ZVE32F-NEXT: li a2, 1024
	; ZVE32F-NEXT: lui a3, 983765			; ZVE32F-NEXT: lui a3, 983765
	; ZVE32F-NEXT: addiw a3, a3, 873			; ZVE32F-NEXT: addiw a3, a3, 873
	; ZVE32F-NEXT: vsetivli zero, 1, e32, m1, ta, ma			; ZVE32F-NEXT: vsetivli zero, 1, e32, m1, ta, ma
	; ZVE32F-NEXT: vmv.s.x v0, a3			; ZVE32F-NEXT: vmv.s.x v0, a3
	; ZVE32F-NEXT: li a3, 32			; ZVE32F-NEXT: li a3, 32
	; ZVE32F-NEXT: li a4, 5			; ZVE32F-NEXT: li a4, 5
	; ZVE32F-NEXT: li a5, 1024
	; ZVE32F-NEXT: .LBB1_1: # %vector.body			; ZVE32F-NEXT: .LBB1_1: # %vector.body
	; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1			; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1
	; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, mu			; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, mu
	; ZVE32F-NEXT: vmv1r.v v9, v8			; ZVE32F-NEXT: vmv1r.v v9, v8
	; ZVE32F-NEXT: vlse8.v v9, (a1), a4, v0.t			; ZVE32F-NEXT: vlse8.v v9, (a1), a4, v0.t
	; ZVE32F-NEXT: add a6, a0, a2			; ZVE32F-NEXT: vle8.v v10, (a0)
	; ZVE32F-NEXT: vle8.v v10, (a6)
	; ZVE32F-NEXT: vadd.vv v9, v10, v9			; ZVE32F-NEXT: vadd.vv v9, v10, v9
	; ZVE32F-NEXT: vse8.v v9, (a6)			; ZVE32F-NEXT: vse8.v v9, (a0)
	; ZVE32F-NEXT: addi a2, a2, 32			; ZVE32F-NEXT: addi a2, a2, -32
				; ZVE32F-NEXT: addi a0, a0, 32
	; ZVE32F-NEXT: addi a1, a1, 160			; ZVE32F-NEXT: addi a1, a1, 160
	; ZVE32F-NEXT: bne a2, a5, .LBB1_1			; ZVE32F-NEXT: bnez a2, .LBB1_1
	; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup			; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup
	; ZVE32F-NEXT: ret			; ZVE32F-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 11 Lines

	for.cond.cleanup: ; preds = %vector.body			for.cond.cleanup: ; preds = %vector.body
	ret void			ret void
	}			}

	define void @gather_negative_stride(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {			define void @gather_negative_stride(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {
	; CHECK-LABEL: gather_negative_stride:			; CHECK-LABEL: gather_negative_stride:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a2, 0
	; CHECK-NEXT: addi a1, a1, 155			; CHECK-NEXT: addi a1, a1, 155
				; CHECK-NEXT: li a2, 1024
	; CHECK-NEXT: li a3, 32			; CHECK-NEXT: li a3, 32
	; CHECK-NEXT: li a4, -5			; CHECK-NEXT: li a4, -5
	; CHECK-NEXT: li a5, 1024
	; CHECK-NEXT: .LBB2_1: # %vector.body			; CHECK-NEXT: .LBB2_1: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; CHECK-NEXT: vlse8.v v8, (a1), a4			; CHECK-NEXT: vlse8.v v8, (a1), a4
	; CHECK-NEXT: add a6, a0, a2			; CHECK-NEXT: vle8.v v9, (a0)
	; CHECK-NEXT: vle8.v v9, (a6)
	; CHECK-NEXT: vadd.vv v8, v9, v8			; CHECK-NEXT: vadd.vv v8, v9, v8
	; CHECK-NEXT: vse8.v v8, (a6)			; CHECK-NEXT: vse8.v v8, (a0)
	; CHECK-NEXT: addi a2, a2, 32			; CHECK-NEXT: addi a2, a2, -32
				; CHECK-NEXT: addi a0, a0, 32
	; CHECK-NEXT: addi a1, a1, 160			; CHECK-NEXT: addi a1, a1, 160
	; CHECK-NEXT: bne a2, a5, .LBB2_1			; CHECK-NEXT: bnez a2, .LBB2_1
	; CHECK-NEXT: # %bb.2: # %for.cond.cleanup			; CHECK-NEXT: # %bb.2: # %for.cond.cleanup
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ <i64 31, i64 30, i64 29, i64 28, i64 27, i64 26, i64 25, i64 24, i64 23, i64 22, i64 21, i64 20, i64 19, i64 18, i64 17, i64 16, i64 15, i64 14, i64 13, i64 12, i64 11, i64 10, i64 9, i64 8, i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ <i64 31, i64 30, i64 29, i64 28, i64 27, i64 26, i64 25, i64 24, i64 23, i64 22, i64 21, i64 20, i64 19, i64 18, i64 17, i64 16, i64 15, i64 14, i64 13, i64 12, i64 11, i64 10, i64 9, i64 8, i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 11 Lines

	for.cond.cleanup: ; preds = %vector.body			for.cond.cleanup: ; preds = %vector.body
	ret void			ret void
	}			}

	define void @gather_zero_stride(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {			define void @gather_zero_stride(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {
	; CHECK-LABEL: gather_zero_stride:			; CHECK-LABEL: gather_zero_stride:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a2, 0			; CHECK-NEXT: li a2, 1024
	; CHECK-NEXT: li a3, 32			; CHECK-NEXT: li a3, 32
	; CHECK-NEXT: li a4, 1024
	; CHECK-NEXT: .LBB3_1: # %vector.body			; CHECK-NEXT: .LBB3_1: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: lbu a5, 0(a1)			; CHECK-NEXT: lbu a4, 0(a1)
	; CHECK-NEXT: add a6, a0, a2
	; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; CHECK-NEXT: vle8.v v8, (a6)			; CHECK-NEXT: vle8.v v8, (a0)
	; CHECK-NEXT: vadd.vx v8, v8, a5			; CHECK-NEXT: vadd.vx v8, v8, a4
	; CHECK-NEXT: vse8.v v8, (a6)			; CHECK-NEXT: vse8.v v8, (a0)
	; CHECK-NEXT: addi a2, a2, 32			; CHECK-NEXT: addi a2, a2, -32
				; CHECK-NEXT: addi a0, a0, 32
	; CHECK-NEXT: addi a1, a1, 160			; CHECK-NEXT: addi a1, a1, 160
	; CHECK-NEXT: bne a2, a4, .LBB3_1			; CHECK-NEXT: bnez a2, .LBB3_1
	; CHECK-NEXT: # %bb.2: # %for.cond.cleanup			; CHECK-NEXT: # %bb.2: # %for.cond.cleanup
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ zeroinitializer, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ zeroinitializer, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 11 Lines

	for.cond.cleanup: ; preds = %vector.body			for.cond.cleanup: ; preds = %vector.body
	ret void			ret void
	}			}

	define void @gather_zero_stride_unfold(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {			define void @gather_zero_stride_unfold(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {
	; V-LABEL: gather_zero_stride_unfold:			; V-LABEL: gather_zero_stride_unfold:
	; V: # %bb.0: # %entry			; V: # %bb.0: # %entry
	; V-NEXT: li a2, 0			; V-NEXT: li a2, 1024
	; V-NEXT: li a3, 32			; V-NEXT: li a3, 32
	; V-NEXT: li a4, 1024
	; V-NEXT: .LBB4_1: # %vector.body			; V-NEXT: .LBB4_1: # %vector.body
	; V-NEXT: # =>This Inner Loop Header: Depth=1			; V-NEXT: # =>This Inner Loop Header: Depth=1
	; V-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; V-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; V-NEXT: vlse8.v v8, (a1), zero			; V-NEXT: vlse8.v v8, (a1), zero
	; V-NEXT: add a5, a0, a2			; V-NEXT: vle8.v v9, (a0)
	; V-NEXT: vle8.v v9, (a5)
	; V-NEXT: vdivu.vv v8, v8, v9			; V-NEXT: vdivu.vv v8, v8, v9
	; V-NEXT: vse8.v v8, (a5)			; V-NEXT: vse8.v v8, (a0)
	; V-NEXT: addi a2, a2, 32			; V-NEXT: addi a2, a2, -32
				; V-NEXT: addi a0, a0, 32
	; V-NEXT: addi a1, a1, 160			; V-NEXT: addi a1, a1, 160
	; V-NEXT: bne a2, a4, .LBB4_1			; V-NEXT: bnez a2, .LBB4_1
	; V-NEXT: # %bb.2: # %for.cond.cleanup			; V-NEXT: # %bb.2: # %for.cond.cleanup
	; V-NEXT: ret			; V-NEXT: ret
	;			;
	; ZVE32F-LABEL: gather_zero_stride_unfold:			; ZVE32F-LABEL: gather_zero_stride_unfold:
	; ZVE32F: # %bb.0: # %entry			; ZVE32F: # %bb.0: # %entry
	; ZVE32F-NEXT: li a2, 0			; ZVE32F-NEXT: li a2, 1024
	; ZVE32F-NEXT: li a3, 32			; ZVE32F-NEXT: li a3, 32
	; ZVE32F-NEXT: li a4, 1024
	; ZVE32F-NEXT: .LBB4_1: # %vector.body			; ZVE32F-NEXT: .LBB4_1: # %vector.body
	; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1			; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1
	; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; ZVE32F-NEXT: vlse8.v v8, (a1), zero			; ZVE32F-NEXT: vlse8.v v8, (a1), zero
	; ZVE32F-NEXT: add a5, a0, a2			; ZVE32F-NEXT: vle8.v v9, (a0)
	; ZVE32F-NEXT: vle8.v v9, (a5)
	; ZVE32F-NEXT: vdivu.vv v8, v8, v9			; ZVE32F-NEXT: vdivu.vv v8, v8, v9
	; ZVE32F-NEXT: vse8.v v8, (a5)			; ZVE32F-NEXT: vse8.v v8, (a0)
	; ZVE32F-NEXT: addi a2, a2, 32			; ZVE32F-NEXT: addi a2, a2, -32
				; ZVE32F-NEXT: addi a0, a0, 32
	; ZVE32F-NEXT: addi a1, a1, 160			; ZVE32F-NEXT: addi a1, a1, 160
	; ZVE32F-NEXT: bne a2, a4, .LBB4_1			; ZVE32F-NEXT: bnez a2, .LBB4_1
	; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup			; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup
	; ZVE32F-NEXT: ret			; ZVE32F-NEXT: ret
	;			;
	; NOT-OPTIMIZED-LABEL: gather_zero_stride_unfold:			; NOT-OPTIMIZED-LABEL: gather_zero_stride_unfold:
	; NOT-OPTIMIZED: # %bb.0: # %entry			; NOT-OPTIMIZED: # %bb.0: # %entry
	; NOT-OPTIMIZED-NEXT: li a2, 0			; NOT-OPTIMIZED-NEXT: li a2, 1024
	; NOT-OPTIMIZED-NEXT: li a3, 32			; NOT-OPTIMIZED-NEXT: li a3, 32
	; NOT-OPTIMIZED-NEXT: li a4, 1024
	; NOT-OPTIMIZED-NEXT: .LBB4_1: # %vector.body			; NOT-OPTIMIZED-NEXT: .LBB4_1: # %vector.body
	; NOT-OPTIMIZED-NEXT: # =>This Inner Loop Header: Depth=1			; NOT-OPTIMIZED-NEXT: # =>This Inner Loop Header: Depth=1
	; NOT-OPTIMIZED-NEXT: lbu a5, 0(a1)			; NOT-OPTIMIZED-NEXT: lbu a4, 0(a1)
	; NOT-OPTIMIZED-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; NOT-OPTIMIZED-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; NOT-OPTIMIZED-NEXT: add a6, a0, a2			; NOT-OPTIMIZED-NEXT: vle8.v v8, (a0)
	; NOT-OPTIMIZED-NEXT: vle8.v v8, (a6)			; NOT-OPTIMIZED-NEXT: vmv.v.x v9, a4
	; NOT-OPTIMIZED-NEXT: vmv.v.x v9, a5
	; NOT-OPTIMIZED-NEXT: vdivu.vv v8, v9, v8			; NOT-OPTIMIZED-NEXT: vdivu.vv v8, v9, v8
	; NOT-OPTIMIZED-NEXT: vse8.v v8, (a6)			; NOT-OPTIMIZED-NEXT: vse8.v v8, (a0)
	; NOT-OPTIMIZED-NEXT: addi a2, a2, 32			; NOT-OPTIMIZED-NEXT: addi a2, a2, -32
				; NOT-OPTIMIZED-NEXT: addi a0, a0, 32
	; NOT-OPTIMIZED-NEXT: addi a1, a1, 160			; NOT-OPTIMIZED-NEXT: addi a1, a1, 160
	; NOT-OPTIMIZED-NEXT: bne a2, a4, .LBB4_1			; NOT-OPTIMIZED-NEXT: bnez a2, .LBB4_1
	; NOT-OPTIMIZED-NEXT: # %bb.2: # %for.cond.cleanup			; NOT-OPTIMIZED-NEXT: # %bb.2: # %for.cond.cleanup
	; NOT-OPTIMIZED-NEXT: ret			; NOT-OPTIMIZED-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ zeroinitializer, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ zeroinitializer, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 15 Lines

	;void scatter(signed char * __restrict A, signed char * __restrict B) {			;void scatter(signed char * __restrict A, signed char * __restrict B) {
	; for (int i = 0; i < 1024; ++i)			; for (int i = 0; i < 1024; ++i)
	; A[i * 5] += B[i];			; A[i * 5] += B[i];
	;}			;}
	define void @scatter(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {			define void @scatter(ptr noalias nocapture %A, ptr noalias nocapture readonly %B) {
	; CHECK-LABEL: scatter:			; CHECK-LABEL: scatter:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a2, 0			; CHECK-NEXT: li a2, 1024
	; CHECK-NEXT: li a3, 32			; CHECK-NEXT: li a3, 32
	; CHECK-NEXT: li a4, 5			; CHECK-NEXT: li a4, 5
	; CHECK-NEXT: li a5, 1024
	; CHECK-NEXT: .LBB5_1: # %vector.body			; CHECK-NEXT: .LBB5_1: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add a6, a1, a2
	; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma			; CHECK-NEXT: vsetvli zero, a3, e8, m1, ta, ma
	; CHECK-NEXT: vle8.v v8, (a6)			; CHECK-NEXT: vle8.v v8, (a1)
	; CHECK-NEXT: vlse8.v v9, (a0), a4			; CHECK-NEXT: vlse8.v v9, (a0), a4
	; CHECK-NEXT: vadd.vv v8, v9, v8			; CHECK-NEXT: vadd.vv v8, v9, v8
	; CHECK-NEXT: vsse8.v v8, (a0), a4			; CHECK-NEXT: vsse8.v v8, (a0), a4
	; CHECK-NEXT: addi a2, a2, 32			; CHECK-NEXT: addi a2, a2, -32
				; CHECK-NEXT: addi a1, a1, 32
	; CHECK-NEXT: addi a0, a0, 160			; CHECK-NEXT: addi a0, a0, 160
	; CHECK-NEXT: bne a2, a5, .LBB5_1			; CHECK-NEXT: bnez a2, .LBB5_1
	; CHECK-NEXT: # %bb.2: # %for.cond.cleanup			; CHECK-NEXT: # %bb.2: # %for.cond.cleanup
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 11 Lines

	for.cond.cleanup: ; preds = %vector.body			for.cond.cleanup: ; preds = %vector.body
	ret void			ret void
	}			}

	define void @scatter_masked(ptr noalias nocapture %A, ptr noalias nocapture readonly %B, <32 x i8> %maskedoff) {			define void @scatter_masked(ptr noalias nocapture %A, ptr noalias nocapture readonly %B, <32 x i8> %maskedoff) {
	; V-LABEL: scatter_masked:			; V-LABEL: scatter_masked:
	; V: # %bb.0: # %entry			; V: # %bb.0: # %entry
	; V-NEXT: li a2, 0			; V-NEXT: li a2, 1024
	; V-NEXT: li a3, 32			; V-NEXT: li a3, 32
	; V-NEXT: lui a4, 983765			; V-NEXT: lui a4, 983765
	; V-NEXT: addiw a4, a4, 873			; V-NEXT: addiw a4, a4, 873
	; V-NEXT: vsetivli zero, 1, e32, mf2, ta, ma			; V-NEXT: vsetivli zero, 1, e32, mf2, ta, ma
	; V-NEXT: vmv.s.x v0, a4			; V-NEXT: vmv.s.x v0, a4
	; V-NEXT: li a4, 5			; V-NEXT: li a4, 5
	; V-NEXT: li a5, 1024
	; V-NEXT: .LBB6_1: # %vector.body			; V-NEXT: .LBB6_1: # %vector.body
	; V-NEXT: # =>This Inner Loop Header: Depth=1			; V-NEXT: # =>This Inner Loop Header: Depth=1
	; V-NEXT: add a6, a1, a2
	; V-NEXT: vsetvli zero, a3, e8, m1, ta, mu			; V-NEXT: vsetvli zero, a3, e8, m1, ta, mu
	; V-NEXT: vle8.v v9, (a6)			; V-NEXT: vle8.v v9, (a1)
	; V-NEXT: vmv1r.v v10, v8			; V-NEXT: vmv1r.v v10, v8
	; V-NEXT: vlse8.v v10, (a0), a4, v0.t			; V-NEXT: vlse8.v v10, (a0), a4, v0.t
	; V-NEXT: vadd.vv v9, v10, v9			; V-NEXT: vadd.vv v9, v10, v9
	; V-NEXT: vsse8.v v9, (a0), a4, v0.t			; V-NEXT: vsse8.v v9, (a0), a4, v0.t
	; V-NEXT: addi a2, a2, 32			; V-NEXT: addi a2, a2, -32
				; V-NEXT: addi a1, a1, 32
	; V-NEXT: addi a0, a0, 160			; V-NEXT: addi a0, a0, 160
	; V-NEXT: bne a2, a5, .LBB6_1			; V-NEXT: bnez a2, .LBB6_1
	; V-NEXT: # %bb.2: # %for.cond.cleanup			; V-NEXT: # %bb.2: # %for.cond.cleanup
	; V-NEXT: ret			; V-NEXT: ret
	;			;
	; ZVE32F-LABEL: scatter_masked:			; ZVE32F-LABEL: scatter_masked:
	; ZVE32F: # %bb.0: # %entry			; ZVE32F: # %bb.0: # %entry
	; ZVE32F-NEXT: li a2, 0			; ZVE32F-NEXT: li a2, 1024
	; ZVE32F-NEXT: li a3, 32			; ZVE32F-NEXT: li a3, 32
	; ZVE32F-NEXT: lui a4, 983765			; ZVE32F-NEXT: lui a4, 983765
	; ZVE32F-NEXT: addiw a4, a4, 873			; ZVE32F-NEXT: addiw a4, a4, 873
	; ZVE32F-NEXT: vsetivli zero, 1, e32, m1, ta, ma			; ZVE32F-NEXT: vsetivli zero, 1, e32, m1, ta, ma
	; ZVE32F-NEXT: vmv.s.x v0, a4			; ZVE32F-NEXT: vmv.s.x v0, a4
	; ZVE32F-NEXT: li a4, 5			; ZVE32F-NEXT: li a4, 5
	; ZVE32F-NEXT: li a5, 1024
	; ZVE32F-NEXT: .LBB6_1: # %vector.body			; ZVE32F-NEXT: .LBB6_1: # %vector.body
	; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1			; ZVE32F-NEXT: # =>This Inner Loop Header: Depth=1
	; ZVE32F-NEXT: add a6, a1, a2
	; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, mu			; ZVE32F-NEXT: vsetvli zero, a3, e8, m1, ta, mu
	; ZVE32F-NEXT: vle8.v v9, (a6)			; ZVE32F-NEXT: vle8.v v9, (a1)
	; ZVE32F-NEXT: vmv1r.v v10, v8			; ZVE32F-NEXT: vmv1r.v v10, v8
	; ZVE32F-NEXT: vlse8.v v10, (a0), a4, v0.t			; ZVE32F-NEXT: vlse8.v v10, (a0), a4, v0.t
	; ZVE32F-NEXT: vadd.vv v9, v10, v9			; ZVE32F-NEXT: vadd.vv v9, v10, v9
	; ZVE32F-NEXT: vsse8.v v9, (a0), a4, v0.t			; ZVE32F-NEXT: vsse8.v v9, (a0), a4, v0.t
	; ZVE32F-NEXT: addi a2, a2, 32			; ZVE32F-NEXT: addi a2, a2, -32
				; ZVE32F-NEXT: addi a1, a1, 32
	; ZVE32F-NEXT: addi a0, a0, 160			; ZVE32F-NEXT: addi a0, a0, 160
	; ZVE32F-NEXT: bne a2, a5, .LBB6_1			; ZVE32F-NEXT: bnez a2, .LBB6_1
	; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup			; ZVE32F-NEXT: # %bb.2: # %for.cond.cleanup
	; ZVE32F-NEXT: ret			; ZVE32F-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <32 x i64> [ <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15, i64 16, i64 17, i64 18, i64 19, i64 20, i64 21, i64 22, i64 23, i64 24, i64 25, i64 26, i64 27, i64 28, i64 29, i64 30, i64 31>, %entry ], [ %vec.ind.next, %vector.body ]
	▲ Show 20 Lines • Show All 587 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

Show First 20 Lines • Show All 2,069 Lines • ▼ Show 20 Lines

for.cond.cleanup: ; preds = %vector.body		for.cond.cleanup: ; preds = %vector.body
ret void		ret void
}		}

define void @sink_splat_fma_scalable(ptr noalias nocapture %a, ptr noalias nocapture readonly %b, float %x) {		define void @sink_splat_fma_scalable(ptr noalias nocapture %a, ptr noalias nocapture readonly %b, float %x) {
; CHECK-LABEL: sink_splat_fma_scalable:		; CHECK-LABEL: sink_splat_fma_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a3, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a4, a3, 2
; CHECK-NEXT: li a4, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a4, a3, .LBB34_2		; CHECK-NEXT: bgeu a2, a4, .LBB34_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a4, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB34_5		; CHECK-NEXT: j .LBB34_5
; CHECK-NEXT: .LBB34_2: # %vector.ph		; CHECK-NEXT: .LBB34_2: # %vector.ph
; CHECK-NEXT: li a6, 0		; CHECK-NEXT: addiw a2, a4, -1
; CHECK-NEXT: addiw a4, a3, -1		; CHECK-NEXT: andi a5, a2, 1024
; CHECK-NEXT: andi a5, a4, 1024		; CHECK-NEXT: xori a2, a5, 1024
; CHECK-NEXT: xori a4, a5, 1024		; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, ma
; CHECK-NEXT: vsetvli a7, zero, e32, m1, ta, ma		; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a4		; CHECK-NEXT: mv a7, a1
		; CHECK-NEXT: mv t0, a2
; CHECK-NEXT: .LBB34_3: # %vector.body		; CHECK-NEXT: .LBB34_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: add t0, a0, a6		; CHECK-NEXT: vl1re32.v v8, (a6)
; CHECK-NEXT: vl1re32.v v8, (t0)		; CHECK-NEXT: vl1re32.v v9, (a7)
; CHECK-NEXT: add t1, a1, a6
; CHECK-NEXT: vl1re32.v v9, (t1)
; CHECK-NEXT: vfmacc.vf v9, fa0, v8		; CHECK-NEXT: vfmacc.vf v9, fa0, v8
; CHECK-NEXT: vs1r.v v9, (t0)		; CHECK-NEXT: vs1r.v v9, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: sub t0, t0, a4
; CHECK-NEXT: add a6, a6, a2		; CHECK-NEXT: add a7, a7, a3
; CHECK-NEXT: bnez a7, .LBB34_3		; CHECK-NEXT: add a6, a6, a3
		; CHECK-NEXT: bnez t0, .LBB34_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a5, .LBB34_7		; CHECK-NEXT: beqz a5, .LBB34_7
; CHECK-NEXT: .LBB34_5: # %for.body.preheader		; CHECK-NEXT: .LBB34_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a4, -1024		; CHECK-NEXT: addi a3, a2, -1024
; CHECK-NEXT: slli a4, a4, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a1, a1, a4		; CHECK-NEXT: add a1, a1, a2
; CHECK-NEXT: add a0, a0, a4		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB34_6: # %for.body		; CHECK-NEXT: .LBB34_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: flw ft1, 0(a1)		; CHECK-NEXT: flw ft1, 0(a1)
; CHECK-NEXT: fmadd.s ft0, ft0, fa0, ft1		; CHECK-NEXT: fmadd.s ft0, ft0, fa0, ft1
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a3, a3, 1
; CHECK-NEXT: addi a1, a1, 4		; CHECK-NEXT: addi a1, a1, 4
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB34_6		; CHECK-NEXT: bnez a3, .LBB34_6
; CHECK-NEXT: .LBB34_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB34_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	for.body: ; preds = %for.body.preheader, %for.body
%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1		%indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
%cmp.not = icmp eq i64 %indvars.iv.next, 1024		%cmp.not = icmp eq i64 %indvars.iv.next, 1024
br i1 %cmp.not, label %for.cond.cleanup, label %for.body		br i1 %cmp.not, label %for.cond.cleanup, label %for.body
}		}

define void @sink_splat_fma_commute_scalable(ptr noalias nocapture %a, ptr noalias nocapture readonly %b, float %x) {		define void @sink_splat_fma_commute_scalable(ptr noalias nocapture %a, ptr noalias nocapture readonly %b, float %x) {
; CHECK-LABEL: sink_splat_fma_commute_scalable:		; CHECK-LABEL: sink_splat_fma_commute_scalable:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: csrr a2, vlenb		; CHECK-NEXT: csrr a3, vlenb
; CHECK-NEXT: srli a3, a2, 2		; CHECK-NEXT: srli a4, a3, 2
; CHECK-NEXT: li a4, 1024		; CHECK-NEXT: li a2, 1024
; CHECK-NEXT: bgeu a4, a3, .LBB35_2		; CHECK-NEXT: bgeu a2, a4, .LBB35_2
; CHECK-NEXT: # %bb.1:		; CHECK-NEXT: # %bb.1:
; CHECK-NEXT: li a4, 0		; CHECK-NEXT: li a2, 0
; CHECK-NEXT: j .LBB35_5		; CHECK-NEXT: j .LBB35_5
; CHECK-NEXT: .LBB35_2: # %vector.ph		; CHECK-NEXT: .LBB35_2: # %vector.ph
; CHECK-NEXT: li a6, 0		; CHECK-NEXT: addiw a2, a4, -1
; CHECK-NEXT: addiw a4, a3, -1		; CHECK-NEXT: andi a5, a2, 1024
; CHECK-NEXT: andi a5, a4, 1024		; CHECK-NEXT: xori a2, a5, 1024
; CHECK-NEXT: xori a4, a5, 1024		; CHECK-NEXT: vsetvli a6, zero, e32, m1, ta, ma
; CHECK-NEXT: vsetvli a7, zero, e32, m1, ta, ma		; CHECK-NEXT: mv a6, a0
; CHECK-NEXT: mv a7, a4		; CHECK-NEXT: mv a7, a1
		; CHECK-NEXT: mv t0, a2
; CHECK-NEXT: .LBB35_3: # %vector.body		; CHECK-NEXT: .LBB35_3: # %vector.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: add t0, a0, a6		; CHECK-NEXT: vl1re32.v v8, (a6)
; CHECK-NEXT: vl1re32.v v8, (t0)		; CHECK-NEXT: vl1re32.v v9, (a7)
; CHECK-NEXT: add t1, a1, a6
; CHECK-NEXT: vl1re32.v v9, (t1)
; CHECK-NEXT: vfmacc.vf v9, fa0, v8		; CHECK-NEXT: vfmacc.vf v9, fa0, v8
; CHECK-NEXT: vs1r.v v9, (t0)		; CHECK-NEXT: vs1r.v v9, (a6)
; CHECK-NEXT: sub a7, a7, a3		; CHECK-NEXT: sub t0, t0, a4
; CHECK-NEXT: add a6, a6, a2		; CHECK-NEXT: add a7, a7, a3
; CHECK-NEXT: bnez a7, .LBB35_3		; CHECK-NEXT: add a6, a6, a3
		; CHECK-NEXT: bnez t0, .LBB35_3
; CHECK-NEXT: # %bb.4: # %middle.block		; CHECK-NEXT: # %bb.4: # %middle.block
; CHECK-NEXT: beqz a5, .LBB35_7		; CHECK-NEXT: beqz a5, .LBB35_7
; CHECK-NEXT: .LBB35_5: # %for.body.preheader		; CHECK-NEXT: .LBB35_5: # %for.body.preheader
; CHECK-NEXT: addi a2, a4, -1024		; CHECK-NEXT: addi a3, a2, -1024
; CHECK-NEXT: slli a4, a4, 2		; CHECK-NEXT: slli a2, a2, 2
; CHECK-NEXT: add a1, a1, a4		; CHECK-NEXT: add a1, a1, a2
; CHECK-NEXT: add a0, a0, a4		; CHECK-NEXT: add a0, a0, a2
; CHECK-NEXT: .LBB35_6: # %for.body		; CHECK-NEXT: .LBB35_6: # %for.body
; CHECK-NEXT: # =>This Inner Loop Header: Depth=1		; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
; CHECK-NEXT: flw ft0, 0(a0)		; CHECK-NEXT: flw ft0, 0(a0)
; CHECK-NEXT: flw ft1, 0(a1)		; CHECK-NEXT: flw ft1, 0(a1)
; CHECK-NEXT: fmadd.s ft0, fa0, ft0, ft1		; CHECK-NEXT: fmadd.s ft0, fa0, ft0, ft1
; CHECK-NEXT: fsw ft0, 0(a0)		; CHECK-NEXT: fsw ft0, 0(a0)
; CHECK-NEXT: addi a2, a2, 1		; CHECK-NEXT: addi a3, a3, 1
; CHECK-NEXT: addi a1, a1, 4		; CHECK-NEXT: addi a1, a1, 4
; CHECK-NEXT: addi a0, a0, 4		; CHECK-NEXT: addi a0, a0, 4
; CHECK-NEXT: bnez a2, .LBB35_6		; CHECK-NEXT: bnez a3, .LBB35_6
; CHECK-NEXT: .LBB35_7: # %for.cond.cleanup		; CHECK-NEXT: .LBB35_7: # %for.cond.cleanup
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%0 = call i64 @llvm.vscale.i64()		%0 = call i64 @llvm.vscale.i64()
%1 = shl i64 %0, 1		%1 = shl i64 %0, 1
%min.iters.check = icmp ugt i64 %1, 1024		%min.iters.check = icmp ugt i64 %1, 1024
br i1 %min.iters.check, label %for.body.preheader, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

▲ Show 20 Lines • Show All 2,144 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/vsetvli-insert-crossbb.ll

	Show First 20 Lines • Show All 586 Lines • ▼ Show 20 Lines

	; We should only need 1 vsetvli for this code.			; We should only need 1 vsetvli for this code.
	define void @vlmax(i64 %N, double* %c, double* %a, double* %b) {			define void @vlmax(i64 %N, double* %c, double* %a, double* %b) {
	; CHECK-LABEL: vlmax:			; CHECK-LABEL: vlmax:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vsetvli a6, zero, e64, m1, ta, mu			; CHECK-NEXT: vsetvli a6, zero, e64, m1, ta, mu
	; CHECK-NEXT: blez a0, .LBB11_3			; CHECK-NEXT: blez a0, .LBB11_3
	; CHECK-NEXT: # %bb.1: # %for.body.preheader			; CHECK-NEXT: # %bb.1: # %for.body.preheader
	; CHECK-NEXT: li a4, 0			; CHECK-NEXT: li a5, 0
	; CHECK-NEXT: li t1, 0			; CHECK-NEXT: slli a4, a6, 3
	; CHECK-NEXT: slli a7, a6, 3
	; CHECK-NEXT: .LBB11_2: # %for.body			; CHECK-NEXT: .LBB11_2: # %for.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add t0, a2, a4
	; CHECK-NEXT: vsetvli zero, zero, e64, m1, ta, ma			; CHECK-NEXT: vsetvli zero, zero, e64, m1, ta, ma
	; CHECK-NEXT: vle64.v v8, (t0)			; CHECK-NEXT: vle64.v v8, (a2)
	; CHECK-NEXT: add a5, a3, a4			; CHECK-NEXT: vle64.v v9, (a3)
	; CHECK-NEXT: vle64.v v9, (a5)
	; CHECK-NEXT: vfadd.vv v8, v8, v9			; CHECK-NEXT: vfadd.vv v8, v8, v9
	; CHECK-NEXT: add a5, a1, a4			; CHECK-NEXT: vse64.v v8, (a1)
	; CHECK-NEXT: vse64.v v8, (a5)			; CHECK-NEXT: add a5, a5, a6
	; CHECK-NEXT: add t1, t1, a6			; CHECK-NEXT: add a1, a1, a4
	; CHECK-NEXT: add a4, a4, a7			; CHECK-NEXT: add a3, a3, a4
	; CHECK-NEXT: blt t1, a0, .LBB11_2			; CHECK-NEXT: add a2, a2, a4
				; CHECK-NEXT: blt a5, a0, .LBB11_2
	; CHECK-NEXT: .LBB11_3: # %for.end			; CHECK-NEXT: .LBB11_3: # %for.end
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.riscv.vsetvlimax.i64(i64 3, i64 0)			%0 = tail call i64 @llvm.riscv.vsetvlimax.i64(i64 3, i64 0)
	%cmp13 = icmp sgt i64 %N, 0			%cmp13 = icmp sgt i64 %N, 0
	br i1 %cmp13, label %for.body, label %for.end			br i1 %cmp13, label %for.body, label %for.end

	for.body: ; preds = %entry, %for.body			for.body: ; preds = %entry, %for.body
	▲ Show 20 Lines • Show All 338 Lines • ▼ Show 20 Lines
	}			}

	; This case demonstrates a PRE oppurtunity where the first instruction			; This case demonstrates a PRE oppurtunity where the first instruction
	; in the block doesn't require a state transition. Essentially, we need			; in the block doesn't require a state transition. Essentially, we need
	; to FRE the transition to the start of the block, and then PRE it.			; to FRE the transition to the start of the block, and then PRE it.
	define void @pre_over_vle(ptr %A) {			define void @pre_over_vle(ptr %A) {
	; CHECK-LABEL: pre_over_vle:			; CHECK-LABEL: pre_over_vle:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: li a1, 0			; CHECK-NEXT: li a1, 100
	; CHECK-NEXT: li a2, 800
	; CHECK-NEXT: .LBB22_1: # %vector.body			; CHECK-NEXT: .LBB22_1: # %vector.body
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add a3, a0, a1
	; CHECK-NEXT: vsetivli zero, 2, e32, mf2, ta, ma			; CHECK-NEXT: vsetivli zero, 2, e32, mf2, ta, ma
	; CHECK-NEXT: vle8.v v8, (a3)			; CHECK-NEXT: vle8.v v8, (a0)
	; CHECK-NEXT: vsext.vf4 v9, v8			; CHECK-NEXT: vsext.vf4 v9, v8
	; CHECK-NEXT: addi a1, a1, 8			; CHECK-NEXT: vse32.v v9, (a0)
	; CHECK-NEXT: vse32.v v9, (a3)			; CHECK-NEXT: addi a1, a1, -1
	; CHECK-NEXT: bne a1, a2, .LBB22_1			; CHECK-NEXT: addi a0, a0, 8
				; CHECK-NEXT: bnez a1, .LBB22_1
	; CHECK-NEXT: # %bb.2: # %exit			; CHECK-NEXT: # %bb.2: # %exit
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%iv = phi i64 [ 0, %entry], [%iv.next, %vector.body]			%iv = phi i64 [ 0, %entry], [%iv.next, %vector.body]
	%addr = getelementptr inbounds <2 x i32>, ptr %A, i64 %iv			%addr = getelementptr inbounds <2 x i32>, ptr %A, i64 %iv
	Show All 21 Lines

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-cost-compare.ll

	Show All 35 Lines
	}			}

	; Same as test1, but with a use of a added outside the loop			; Same as test1, but with a use of a added outside the loop
	define void @test2(ptr %a) {			define void @test2(ptr %a) {
	; CHECK-LABEL: @test2(			; CHECK-LABEL: @test2(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br label [[LOOP:%.*]]			; CHECK-NEXT: br label [[LOOP:%.*]]
	; CHECK: loop:			; CHECK: loop:
	; CHECK-NEXT: [[LSR_IV:%.]] = phi i64 [ [[LSR_IV_NEXT:%.]], [[LOOP]] ], [ 0, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[LSR_IV1:%.]] = phi ptr [ [[UGLYGEP:%.]], [[LOOP]] ], [ [[A:%.]], [[ENTRY:%.]] ]
	; CHECK-NEXT: [[UGLYGEP:%.]] = getelementptr i8, ptr [[A:%.]], i64 [[LSR_IV]]			; CHECK-NEXT: [[LSR_IV:%.]] = phi i64 [ [[LSR_IV_NEXT:%.]], [[LOOP]] ], [ 32000, [[ENTRY]] ]
	; CHECK-NEXT: store float 1.000000e+00, ptr [[UGLYGEP]], align 4			; CHECK-NEXT: store float 1.000000e+00, ptr [[LSR_IV1]], align 4
	; CHECK-NEXT: [[LSR_IV_NEXT]] = add nuw nsw i64 [[LSR_IV]], 4			; CHECK-NEXT: [[LSR_IV_NEXT]] = add nsw i64 [[LSR_IV]], -1
	; CHECK-NEXT: [[T21:%.*]] = icmp eq i64 128000, [[LSR_IV_NEXT]]			; CHECK-NEXT: [[UGLYGEP]] = getelementptr i8, ptr [[LSR_IV1]], i64 4
				; CHECK-NEXT: [[T21:%.*]] = icmp eq i64 [[LSR_IV_NEXT]], 0
	; CHECK-NEXT: br i1 [[T21]], label [[EXIT:%.*]], label [[LOOP]]			; CHECK-NEXT: br i1 [[T21]], label [[EXIT:%.*]], label [[LOOP]]
	; CHECK: exit:			; CHECK: exit:
	; CHECK-NEXT: call void @use(ptr [[A]])			; CHECK-NEXT: call void @use(ptr [[A]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %loop			br label %loop

	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	}			}

	; Same as test3, but with a use of both a and b outside the loop			; Same as test3, but with a use of both a and b outside the loop
	define void @test4(ptr %a, ptr %b) {			define void @test4(ptr %a, ptr %b) {
	; CHECK-LABEL: @test4(			; CHECK-LABEL: @test4(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br label [[LOOP:%.*]]			; CHECK-NEXT: br label [[LOOP:%.*]]
	; CHECK: loop:			; CHECK: loop:
	; CHECK-NEXT: [[LSR_IV:%.]] = phi i64 [ [[LSR_IV_NEXT:%.]], [[LOOP]] ], [ 0, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[LSR_IV2:%.]] = phi ptr [ [[UGLYGEP3:%.]], [[LOOP]] ], [ [[A:%.]], [[ENTRY:%.]] ]
	; CHECK-NEXT: [[UGLYGEP1:%.]] = getelementptr i8, ptr [[A:%.]], i64 [[LSR_IV]]			; CHECK-NEXT: [[LSR_IV1:%.]] = phi ptr [ [[UGLYGEP:%.]], [[LOOP]] ], [ [[B:%.*]], [[ENTRY]] ]
	; CHECK-NEXT: [[T17:%.*]] = load float, ptr [[UGLYGEP1]], align 4			; CHECK-NEXT: [[LSR_IV:%.]] = phi i64 [ [[LSR_IV_NEXT:%.]], [[LOOP]] ], [ 32000, [[ENTRY]] ]
				; CHECK-NEXT: [[T17:%.*]] = load float, ptr [[LSR_IV2]], align 4
	; CHECK-NEXT: [[T18:%.*]] = fadd float [[T17]], 1.000000e+00			; CHECK-NEXT: [[T18:%.*]] = fadd float [[T17]], 1.000000e+00
	; CHECK-NEXT: [[UGLYGEP:%.]] = getelementptr i8, ptr [[B:%.]], i64 [[LSR_IV]]			; CHECK-NEXT: store float [[T18]], ptr [[LSR_IV1]], align 4
	; CHECK-NEXT: store float [[T18]], ptr [[UGLYGEP]], align 4			; CHECK-NEXT: [[LSR_IV_NEXT]] = add nsw i64 [[LSR_IV]], -1
	; CHECK-NEXT: [[LSR_IV_NEXT]] = add nuw nsw i64 [[LSR_IV]], 4			; CHECK-NEXT: [[UGLYGEP]] = getelementptr i8, ptr [[LSR_IV1]], i64 4
	; CHECK-NEXT: [[T21:%.*]] = icmp eq i64 128000, [[LSR_IV_NEXT]]			; CHECK-NEXT: [[UGLYGEP3]] = getelementptr i8, ptr [[LSR_IV2]], i64 4
				; CHECK-NEXT: [[T21:%.*]] = icmp eq i64 [[LSR_IV_NEXT]], 0
	; CHECK-NEXT: br i1 [[T21]], label [[EXIT:%.*]], label [[LOOP]]			; CHECK-NEXT: br i1 [[T21]], label [[EXIT:%.*]], label [[LOOP]]
	; CHECK: exit:			; CHECK: exit:
	; CHECK-NEXT: call void @use(ptr [[A]])			; CHECK-NEXT: call void @use(ptr [[A]])
	; CHECK-NEXT: call void @use(ptr [[B]])			; CHECK-NEXT: call void @use(ptr [[B]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %loop			br label %loop
	Show All 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[RISCV][LSR] Treat number of instructions as dominate factor in LSR cost decisionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 491864

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.h

llvm/lib/Target/RISCV/RISCVTargetTransformInfo.cpp

llvm/test/CodeGen/RISCV/loop-strength-reduce-loop-invar.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vector-strided-load-store-asm.ll

llvm/test/CodeGen/RISCV/rvv/sink-splat-operands.ll

llvm/test/CodeGen/RISCV/rvv/vsetvli-insert-crossbb.ll

llvm/test/Transforms/LoopStrengthReduce/RISCV/lsr-cost-compare.ll

[RISCV][LSR] Treat number of instructions as dominate factor in LSR cost decisions
ClosedPublic