This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/RISCV/
-
Target/
-
RISCV/
-
RISCVISelLowering.cpp
-
test/CodeGen/RISCV/rvv/
-
CodeGen/
-
RISCV/
-
rvv/
-
add-vsetvli-gpr.mir
-
add-vsetvli-vlmax.ll
-
load-add-store-16.ll
-
load-add-store-32.ll
-
load-add-store-64.ll
-
load-add-store-8.ll

Differential D93080

[RISCV] Use tail agnostic policy for vsetvli instruction emitted in the custom inserter
ClosedPublic

Authored by craig.topper on Dec 10 2020, 5:23 PM.

Download Raw Diff

Details

Reviewers

evandro
HsiangKai
frasercrmck

Commits

rGb90e2d850e78: [RISCV] Use tail agnostic policy for vsetvli instruction emitted in the custom…

Summary

The compiler is making no effort to preserve upper elements. To do so would require another source operand tied with the destination and a different intrinsic interface to give control of this source to the programmer.

This patch changes the tail policy to agnostic so that the CPU doesn't need to make an effort to preserve them.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

craig.topper created this revision.Dec 10 2020, 5:23 PM

Herald added subscribers: NickHung, luismarques, apazos and 24 others. · View Herald TranscriptDec 10 2020, 5:23 PM

craig.topper requested review of this revision.Dec 10 2020, 5:23 PM

Herald added a project: Restricted Project. · View Herald TranscriptDec 10 2020, 5:23 PM

Herald added a subscriber: MaskRay. · View Herald Transcript

LGTM.

This revision is now accepted and ready to land.Dec 10 2020, 5:27 PM

Hi @craig.topper
I think maybe default tail undisturbed would be more friendly and intuitive for programmer or vectorizer in reduction case.
please see below example:

//scalar
float sum=0;
for(int i=0;i<n;++i) {
  sum += src1[i]*src2[i];
}
return sum;

float foo(float *src1, float *src2, size_t n) {
  size_t len;
  vsetvlmax_e32m8();
  vfloat32m8_t v16 = vfmv_v_f_f32m8(0.0);
  vsetvl_e32m1();
  vfloat32m1_t v24 = vfmv_s_f_f32m1(vundefined_f32m1(), 0.0);
  for (; (len = vl_extract(vsetvl_e32m8(n))) > 0; n -= len) {
    vfloat32m8_t v0 = vle32_v_f32m8(src1);
    vfloat32m8_t v8 = vle32_v_f32m8(src2);
#if 0
    if maxvl = 2, n = 3;
    src1 = [1, 2, 3]
    src2 = [2, 3, 4]
    1st iteration, vl=2, input v16 = [0, 0], result v16 = [2, 6]
    2nd iteration, vl=1, input v16 = [2, 6], result v16 = [14, 6] // tail is still 6 because tail undisturbed. 
#endif
    v16 = vfmacc_vv_f32m1(v16, v0, v8); 
    src1 += len;
    src2 += len;
  }
  vsetvlmax_e32m8();
  // input v16 = [14, 6], result = [20, ?]
  vfloat32m1_t result = vfredosum_vs_f32m8_f32m1(v16, v24);
  return vfmv_f_s_f32m1_f32(result);
}

Community also discussed the difference in issue before.

In D93080#2447590, @khchen wrote:

Hi @craig.topper
I think maybe default tail undisturbed would be more friendly and intuitive for programmer or vectorizer in reduction case.
please see below example:

//scalar
float sum=0;
for(int i=0;i<n;++i) {
  sum += src1[i]*src2[i];
}
return sum;

float foo(float *src1, float *src2, size_t n) {
  size_t len;
  vsetvlmax_e32m8();
  vfloat32m8_t v16 = vfmv_v_f_f32m8(0.0);
  vsetvl_e32m1();
  vfloat32m1_t v24 = vfmv_s_f_f32m1(vundefined_f32m1(), 0.0);
  for (; (len = vl_extract(vsetvl_e32m8(n))) > 0; n -= len) {
    vfloat32m8_t v0 = vle32_v_f32m8(src1);
    vfloat32m8_t v8 = vle32_v_f32m8(src2);
#if 0
    if maxvl = 2, n = 3;
    src1 = [1, 2, 3]
    src2 = [2, 3, 4]
    1st iteration, vl=2, input v16 = [0, 0], result v16 = [2, 6]
    2nd iteration, vl=1, input v16 = [2, 6], result v16 = [14, 6] // tail is still 6 because tail undisturbed. 
#endif
    v16 = vfmacc_vv_f32m1(v16, v0, v8); 
    src1 += len;
    src2 += len;
  }
  vsetvlmax_e32m8();
  // input v16 = [14, 6], result = [20, ?]
  vfloat32m1_t result = vfredosum_vs_f32m8_f32m1(v16, v24);
  return vfmv_f_s_f32m1_f32(result);
}

Community also discussed the difference in issue before.

Maybe we should use tail undisturbed for instructions that have something like "let Constraints = "$rd = $rs3"?

Closed by commit rGb90e2d850e78: [RISCV] Use tail agnostic policy for vsetvli instruction emitted in the custom… (authored by craig.topper). · Explain WhyDec 10 2020, 7:58 PM

This revision was automatically updated to reflect the committed changes.

craig.topper added a commit: rGb90e2d850e78: [RISCV] Use tail agnostic policy for vsetvli instruction emitted in the custom….

Herald added a subscriber: jrtc27. · View Herald TranscriptDec 10 2020, 7:58 PM

Maybe we should use tail undisturbed for instructions that have something like "let Constraints = "$rd = $rs3"?

Yes. It remind me that we had discussed realted issue here before.

If intrinsic start to model tail behavior, when user giving a non vundefined() value in maskedoff argument, the tail behavior should be tail undisturbed.

arcbbb mentioned this in D93809: [RISCV] Add intrinsics for vcompress instruction.Dec 28 2020, 1:38 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

RISCV/

RISCVISelLowering.cpp

2 lines

test/

CodeGen/

RISCV/

rvv/

16 lines

8 lines

48 lines

40 lines

32 lines

56 lines

Diff 311100

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

Show First 20 Lines • Show All 1,946 Lines • ▼ Show 20 Lines	MIB.addReg(DestReg, RegState::Define \| RegState::Dead)
.addReg(MI.getOperand(VLIndex).getReg());		.addReg(MI.getOperand(VLIndex).getReg());
} else		} else
// With no VL operator in the pseudo, do not modify VL (rd = X0, rs1 = X0).		// With no VL operator in the pseudo, do not modify VL (rd = X0, rs1 = X0).
MIB.addReg(RISCV::X0, RegState::Define \| RegState::Dead)		MIB.addReg(RISCV::X0, RegState::Define \| RegState::Dead)
.addReg(RISCV::X0, RegState::Kill);		.addReg(RISCV::X0, RegState::Kill);

// For simplicity we reuse the vtype representation here.		// For simplicity we reuse the vtype representation here.
MIB.addImm(RISCVVType::encodeVTYPE(Multiplier, ElementWidth,		MIB.addImm(RISCVVType::encodeVTYPE(Multiplier, ElementWidth,
/TailAgnostic/ false,		/TailAgnostic/ true,
/MaskAgnostic/ false));		/MaskAgnostic/ false));

// Remove (now) redundant operands from pseudo		// Remove (now) redundant operands from pseudo
MI.getOperand(SEWIndex).setImm(-1);		MI.getOperand(SEWIndex).setImm(-1);
if (VLIndex >= 0) {		if (VLIndex >= 0) {
MI.getOperand(VLIndex).setReg(RISCV::NoRegister);		MI.getOperand(VLIndex).setReg(RISCV::NoRegister);
MI.getOperand(VLIndex).setIsKill(false);		MI.getOperand(VLIndex).setIsKill(false);
}		}
▲ Show 20 Lines • Show All 1,712 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/add-vsetvli-gpr.mir

Show All 34 Lines	bb.0 (%ir-block.0):
%8:vr = PseudoVADD_VV_M1 %9, killed %4, killed %6, $noreg, %3, 64, implicit $vl, implicit $vtype		%8:vr = PseudoVADD_VV_M1 %9, killed %4, killed %6, $noreg, %3, 64, implicit $vl, implicit $vtype
PseudoVSE64_V_M1 killed %8, %0, $noreg, %3, 64, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)		PseudoVSE64_V_M1 killed %8, %0, $noreg, %3, 64, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)
PseudoRET		PseudoRET

...		...

# POST-INSERTER: %0:gpr = COPY $x13		# POST-INSERTER: %0:gpr = COPY $x13
# POST-INSERTER: %4:vr = IMPLICIT_DEF		# POST-INSERTER: %4:vr = IMPLICIT_DEF
# POST-INSERTER: dead %10:gpr = PseudoVSETVLI %0, 12, implicit-def $vl, implicit-def $vtype		# POST-INSERTER: dead %10:gpr = PseudoVSETVLI %0, 76, implicit-def $vl, implicit-def $vtype
# POST-INSERTER: %5:vr = PseudoVLE64_V_M1 %4, %2, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)		# POST-INSERTER: %5:vr = PseudoVLE64_V_M1 %4, %2, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)
# POST-INSERTER: %6:vr = IMPLICIT_DEF		# POST-INSERTER: %6:vr = IMPLICIT_DEF
# POST-INSERTER: dead %11:gpr = PseudoVSETVLI %0, 12, implicit-def $vl, implicit-def $vtype		# POST-INSERTER: dead %11:gpr = PseudoVSETVLI %0, 76, implicit-def $vl, implicit-def $vtype
# POST-INSERTER: %7:vr = PseudoVLE64_V_M1 %6, %1, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)		# POST-INSERTER: %7:vr = PseudoVLE64_V_M1 %6, %1, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)
# POST-INSERTER: %8:vr = IMPLICIT_DEF		# POST-INSERTER: %8:vr = IMPLICIT_DEF
# POST-INSERTER: dead %12:gpr = PseudoVSETVLI %0, 12, implicit-def $vl, implicit-def $vtype		# POST-INSERTER: dead %12:gpr = PseudoVSETVLI %0, 76, implicit-def $vl, implicit-def $vtype
# POST-INSERTER: %9:vr = PseudoVADD_VV_M1 %8, killed %5, killed %7, $noreg, $noreg, -1, implicit $vl, implicit $vtype		# POST-INSERTER: %9:vr = PseudoVADD_VV_M1 %8, killed %5, killed %7, $noreg, $noreg, -1, implicit $vl, implicit $vtype
# POST-INSERTER: dead %13:gpr = PseudoVSETVLI %0, 12, implicit-def $vl, implicit-def $vtype		# POST-INSERTER: dead %13:gpr = PseudoVSETVLI %0, 76, implicit-def $vl, implicit-def $vtype
# POST-INSERTER: PseudoVSE64_V_M1 killed %9, %3, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)		# POST-INSERTER: PseudoVSE64_V_M1 killed %9, %3, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)

# CODEGEN: vsetvli a4, a3, e64,m1,tu,mu		# CODEGEN: vsetvli a4, a3, e64,m1,ta,mu
# CODEGEN-NEXT: vle64.v v25, (a1)		# CODEGEN-NEXT: vle64.v v25, (a1)
# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,tu,mu		# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,ta,mu
# CODEGEN-NEXT: vle64.v v26, (a2)		# CODEGEN-NEXT: vle64.v v26, (a2)
# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,tu,mu		# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,ta,mu
# CODEGEN-NEXT: vadd.vv v25, v25, v26		# CODEGEN-NEXT: vadd.vv v25, v25, v26
# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,tu,mu		# CODEGEN-NEXT: vsetvli a1, a3, e64,m1,ta,mu
# CODEGEN-NEXT: vse64.v v25, (a0)		# CODEGEN-NEXT: vse64.v v25, (a0)
# CODEGEN-NEXT: ret		# CODEGEN-NEXT: ret

llvm/test/CodeGen/RISCV/rvv/add-vsetvli-vlmax.ll

	Show All 23 Lines
	; PRE-INSERTER: %3:vr = PseudoVLE64_V_M1 %4, %1, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)			; PRE-INSERTER: %3:vr = PseudoVLE64_V_M1 %4, %1, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)
	; PRE-INSERTER: %6:vr = IMPLICIT_DEF			; PRE-INSERTER: %6:vr = IMPLICIT_DEF
	; PRE-INSERTER: %5:vr = PseudoVLE64_V_M1 %6, %2, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)			; PRE-INSERTER: %5:vr = PseudoVLE64_V_M1 %6, %2, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)
	; PRE-INSERTER: %8:vr = IMPLICIT_DEF			; PRE-INSERTER: %8:vr = IMPLICIT_DEF
	; PRE-INSERTER: %7:vr = PseudoVADD_VV_M1 %8, killed %3, killed %5, $noreg, $x0, 64, implicit $vl, implicit $vtype			; PRE-INSERTER: %7:vr = PseudoVADD_VV_M1 %8, killed %3, killed %5, $noreg, $x0, 64, implicit $vl, implicit $vtype
	; PRE-INSERTER: PseudoVSE64_V_M1 killed %7, %0, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)			; PRE-INSERTER: PseudoVSE64_V_M1 killed %7, %0, $noreg, $x0, 64, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)

	; POST-INSERTER: %4:vr = IMPLICIT_DEF			; POST-INSERTER: %4:vr = IMPLICIT_DEF
	; POST-INSERTER: dead %9:gpr = PseudoVSETVLI $x0, 12, implicit-def $vl, implicit-def $vtype			; POST-INSERTER: dead %9:gpr = PseudoVSETVLI $x0, 76, implicit-def $vl, implicit-def $vtype
	; POST-INSERTER: %3:vr = PseudoVLE64_V_M1 %4, %1, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)			; POST-INSERTER: %3:vr = PseudoVLE64_V_M1 %4, %1, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pa, align 8)
	; POST-INSERTER: %6:vr = IMPLICIT_DEF			; POST-INSERTER: %6:vr = IMPLICIT_DEF
	; POST-INSERTER: dead %10:gpr = PseudoVSETVLI $x0, 12, implicit-def $vl, implicit-def $vtype			; POST-INSERTER: dead %10:gpr = PseudoVSETVLI $x0, 76, implicit-def $vl, implicit-def $vtype
	; POST-INSERTER: %5:vr = PseudoVLE64_V_M1 %6, %2, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)			; POST-INSERTER: %5:vr = PseudoVLE64_V_M1 %6, %2, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (load unknown-size from %ir.pb, align 8)
	; POST-INSERTER: %8:vr = IMPLICIT_DEF			; POST-INSERTER: %8:vr = IMPLICIT_DEF
	; POST-INSERTER: dead %11:gpr = PseudoVSETVLI $x0, 12, implicit-def $vl, implicit-def $vtype			; POST-INSERTER: dead %11:gpr = PseudoVSETVLI $x0, 76, implicit-def $vl, implicit-def $vtype
	; POST-INSERTER: %7:vr = PseudoVADD_VV_M1 %8, killed %3, killed %5, $noreg, $noreg, -1, implicit $vl, implicit $vtype			; POST-INSERTER: %7:vr = PseudoVADD_VV_M1 %8, killed %3, killed %5, $noreg, $noreg, -1, implicit $vl, implicit $vtype
	; POST-INSERTER: dead %12:gpr = PseudoVSETVLI $x0, 12, implicit-def $vl, implicit-def $vtype			; POST-INSERTER: dead %12:gpr = PseudoVSETVLI $x0, 76, implicit-def $vl, implicit-def $vtype
	; POST-INSERTER: PseudoVSE64_V_M1 killed %7, %0, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)			; POST-INSERTER: PseudoVSE64_V_M1 killed %7, %0, $noreg, $noreg, -1, implicit $vl, implicit $vtype :: (store unknown-size into %ir.pc, align 8)

llvm/test/CodeGen/RISCV/rvv/load-add-store-16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s
	; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s

	define void @vadd_vint16m1(<vscale x 4 x i16> %pc, <vscale x 4 x i16> %pa, <vscale x 4 x i16> *%pb) nounwind {			define void @vadd_vint16m1(<vscale x 4 x i16> %pc, <vscale x 4 x i16> %pa, <vscale x 4 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16m1:			; CHECK-LABEL: vadd_vint16m1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,m1,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,m1,ta,mu
	; CHECK-NEXT: vle16.v v25, (a1)			; CHECK-NEXT: vle16.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m1,ta,mu
	; CHECK-NEXT: vle16.v v26, (a2)			; CHECK-NEXT: vle16.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m1,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e16,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m1,ta,mu
	; CHECK-NEXT: vse16.v v25, (a0)			; CHECK-NEXT: vse16.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 4 x i16>, <vscale x 4 x i16>* %pa			%va = load <vscale x 4 x i16>, <vscale x 4 x i16>* %pa
	%vb = load <vscale x 4 x i16>, <vscale x 4 x i16>* %pb			%vb = load <vscale x 4 x i16>, <vscale x 4 x i16>* %pb
	%vc = add <vscale x 4 x i16> %va, %vb			%vc = add <vscale x 4 x i16> %va, %vb
	store <vscale x 4 x i16> %vc, <vscale x 4 x i16> *%pc			store <vscale x 4 x i16> %vc, <vscale x 4 x i16> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint16m2(<vscale x 8 x i16> %pc, <vscale x 8 x i16> %pa, <vscale x 8 x i16> *%pb) nounwind {			define void @vadd_vint16m2(<vscale x 8 x i16> %pc, <vscale x 8 x i16> %pa, <vscale x 8 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16m2:			; CHECK-LABEL: vadd_vint16m2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,m2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,m2,ta,mu
	; CHECK-NEXT: vle16.v v26, (a1)			; CHECK-NEXT: vle16.v v26, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m2,ta,mu
	; CHECK-NEXT: vle16.v v28, (a2)			; CHECK-NEXT: vle16.v v28, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m2,ta,mu
	; CHECK-NEXT: vadd.vv v26, v26, v28			; CHECK-NEXT: vadd.vv v26, v26, v28
	; CHECK-NEXT: vsetvli a1, zero, e16,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m2,ta,mu
	; CHECK-NEXT: vse16.v v26, (a0)			; CHECK-NEXT: vse16.v v26, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 8 x i16>, <vscale x 8 x i16>* %pa			%va = load <vscale x 8 x i16>, <vscale x 8 x i16>* %pa
	%vb = load <vscale x 8 x i16>, <vscale x 8 x i16>* %pb			%vb = load <vscale x 8 x i16>, <vscale x 8 x i16>* %pb
	%vc = add <vscale x 8 x i16> %va, %vb			%vc = add <vscale x 8 x i16> %va, %vb
	store <vscale x 8 x i16> %vc, <vscale x 8 x i16> *%pc			store <vscale x 8 x i16> %vc, <vscale x 8 x i16> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint16m4(<vscale x 16 x i16> %pc, <vscale x 16 x i16> %pa, <vscale x 16 x i16> *%pb) nounwind {			define void @vadd_vint16m4(<vscale x 16 x i16> %pc, <vscale x 16 x i16> %pa, <vscale x 16 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16m4:			; CHECK-LABEL: vadd_vint16m4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,m4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,m4,ta,mu
	; CHECK-NEXT: vle16.v v28, (a1)			; CHECK-NEXT: vle16.v v28, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m4,ta,mu
	; CHECK-NEXT: vle16.v v8, (a2)			; CHECK-NEXT: vle16.v v8, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m4,ta,mu
	; CHECK-NEXT: vadd.vv v28, v28, v8			; CHECK-NEXT: vadd.vv v28, v28, v8
	; CHECK-NEXT: vsetvli a1, zero, e16,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m4,ta,mu
	; CHECK-NEXT: vse16.v v28, (a0)			; CHECK-NEXT: vse16.v v28, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 16 x i16>, <vscale x 16 x i16>* %pa			%va = load <vscale x 16 x i16>, <vscale x 16 x i16>* %pa
	%vb = load <vscale x 16 x i16>, <vscale x 16 x i16>* %pb			%vb = load <vscale x 16 x i16>, <vscale x 16 x i16>* %pb
	%vc = add <vscale x 16 x i16> %va, %vb			%vc = add <vscale x 16 x i16> %va, %vb
	store <vscale x 16 x i16> %vc, <vscale x 16 x i16> *%pc			store <vscale x 16 x i16> %vc, <vscale x 16 x i16> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint16m8(<vscale x 32 x i16> %pc, <vscale x 32 x i16> %pa, <vscale x 32 x i16> *%pb) nounwind {			define void @vadd_vint16m8(<vscale x 32 x i16> %pc, <vscale x 32 x i16> %pa, <vscale x 32 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16m8:			; CHECK-LABEL: vadd_vint16m8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,m8,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,m8,ta,mu
	; CHECK-NEXT: vle16.v v8, (a1)			; CHECK-NEXT: vle16.v v8, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m8,ta,mu
	; CHECK-NEXT: vle16.v v16, (a2)			; CHECK-NEXT: vle16.v v16, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m8,ta,mu
	; CHECK-NEXT: vadd.vv v8, v8, v16			; CHECK-NEXT: vadd.vv v8, v8, v16
	; CHECK-NEXT: vsetvli a1, zero, e16,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,m8,ta,mu
	; CHECK-NEXT: vse16.v v8, (a0)			; CHECK-NEXT: vse16.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 32 x i16>, <vscale x 32 x i16>* %pa			%va = load <vscale x 32 x i16>, <vscale x 32 x i16>* %pa
	%vb = load <vscale x 32 x i16>, <vscale x 32 x i16>* %pb			%vb = load <vscale x 32 x i16>, <vscale x 32 x i16>* %pb
	%vc = add <vscale x 32 x i16> %va, %vb			%vc = add <vscale x 32 x i16> %va, %vb
	store <vscale x 32 x i16> %vc, <vscale x 32 x i16> *%pc			store <vscale x 32 x i16> %vc, <vscale x 32 x i16> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint16mf2(<vscale x 2 x i16> %pc, <vscale x 2 x i16> %pa, <vscale x 2 x i16> *%pb) nounwind {			define void @vadd_vint16mf2(<vscale x 2 x i16> %pc, <vscale x 2 x i16> %pa, <vscale x 2 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16mf2:			; CHECK-LABEL: vadd_vint16mf2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,mf2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,mf2,ta,mu
	; CHECK-NEXT: vle16.v v25, (a1)			; CHECK-NEXT: vle16.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf2,ta,mu
	; CHECK-NEXT: vle16.v v26, (a2)			; CHECK-NEXT: vle16.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf2,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e16,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf2,ta,mu
	; CHECK-NEXT: vse16.v v25, (a0)			; CHECK-NEXT: vse16.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 2 x i16>, <vscale x 2 x i16>* %pa			%va = load <vscale x 2 x i16>, <vscale x 2 x i16>* %pa
	%vb = load <vscale x 2 x i16>, <vscale x 2 x i16>* %pb			%vb = load <vscale x 2 x i16>, <vscale x 2 x i16>* %pb
	%vc = add <vscale x 2 x i16> %va, %vb			%vc = add <vscale x 2 x i16> %va, %vb
	store <vscale x 2 x i16> %vc, <vscale x 2 x i16> *%pc			store <vscale x 2 x i16> %vc, <vscale x 2 x i16> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint16mf4(<vscale x 1 x i16> %pc, <vscale x 1 x i16> %pa, <vscale x 1 x i16> *%pb) nounwind {			define void @vadd_vint16mf4(<vscale x 1 x i16> %pc, <vscale x 1 x i16> %pa, <vscale x 1 x i16> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint16mf4:			; CHECK-LABEL: vadd_vint16mf4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e16,mf4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e16,mf4,ta,mu
	; CHECK-NEXT: vle16.v v25, (a1)			; CHECK-NEXT: vle16.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e16,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf4,ta,mu
	; CHECK-NEXT: vle16.v v26, (a2)			; CHECK-NEXT: vle16.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e16,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf4,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e16,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e16,mf4,ta,mu
	; CHECK-NEXT: vse16.v v25, (a0)			; CHECK-NEXT: vse16.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 1 x i16>, <vscale x 1 x i16>* %pa			%va = load <vscale x 1 x i16>, <vscale x 1 x i16>* %pa
	%vb = load <vscale x 1 x i16>, <vscale x 1 x i16>* %pb			%vb = load <vscale x 1 x i16>, <vscale x 1 x i16>* %pb
	%vc = add <vscale x 1 x i16> %va, %vb			%vc = add <vscale x 1 x i16> %va, %vb
	store <vscale x 1 x i16> %vc, <vscale x 1 x i16> *%pc			store <vscale x 1 x i16> %vc, <vscale x 1 x i16> *%pc
	ret void			ret void
	}			}

llvm/test/CodeGen/RISCV/rvv/load-add-store-32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s
	; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s

	define void @vadd_vint32m1(<vscale x 2 x i32> %pc, <vscale x 2 x i32> %pa, <vscale x 2 x i32> *%pb) nounwind {			define void @vadd_vint32m1(<vscale x 2 x i32> %pc, <vscale x 2 x i32> %pa, <vscale x 2 x i32> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint32m1:			; CHECK-LABEL: vadd_vint32m1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e32,m1,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e32,m1,ta,mu
	; CHECK-NEXT: vle32.v v25, (a1)			; CHECK-NEXT: vle32.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m1,ta,mu
	; CHECK-NEXT: vle32.v v26, (a2)			; CHECK-NEXT: vle32.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e32,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m1,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e32,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m1,ta,mu
	; CHECK-NEXT: vse32.v v25, (a0)			; CHECK-NEXT: vse32.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 2 x i32>, <vscale x 2 x i32>* %pa			%va = load <vscale x 2 x i32>, <vscale x 2 x i32>* %pa
	%vb = load <vscale x 2 x i32>, <vscale x 2 x i32>* %pb			%vb = load <vscale x 2 x i32>, <vscale x 2 x i32>* %pb
	%vc = add <vscale x 2 x i32> %va, %vb			%vc = add <vscale x 2 x i32> %va, %vb
	store <vscale x 2 x i32> %vc, <vscale x 2 x i32> *%pc			store <vscale x 2 x i32> %vc, <vscale x 2 x i32> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint32m2(<vscale x 4 x i32> %pc, <vscale x 4 x i32> %pa, <vscale x 4 x i32> *%pb) nounwind {			define void @vadd_vint32m2(<vscale x 4 x i32> %pc, <vscale x 4 x i32> %pa, <vscale x 4 x i32> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint32m2:			; CHECK-LABEL: vadd_vint32m2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e32,m2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e32,m2,ta,mu
	; CHECK-NEXT: vle32.v v26, (a1)			; CHECK-NEXT: vle32.v v26, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m2,ta,mu
	; CHECK-NEXT: vle32.v v28, (a2)			; CHECK-NEXT: vle32.v v28, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e32,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m2,ta,mu
	; CHECK-NEXT: vadd.vv v26, v26, v28			; CHECK-NEXT: vadd.vv v26, v26, v28
	; CHECK-NEXT: vsetvli a1, zero, e32,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m2,ta,mu
	; CHECK-NEXT: vse32.v v26, (a0)			; CHECK-NEXT: vse32.v v26, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 4 x i32>, <vscale x 4 x i32>* %pa			%va = load <vscale x 4 x i32>, <vscale x 4 x i32>* %pa
	%vb = load <vscale x 4 x i32>, <vscale x 4 x i32>* %pb			%vb = load <vscale x 4 x i32>, <vscale x 4 x i32>* %pb
	%vc = add <vscale x 4 x i32> %va, %vb			%vc = add <vscale x 4 x i32> %va, %vb
	store <vscale x 4 x i32> %vc, <vscale x 4 x i32> *%pc			store <vscale x 4 x i32> %vc, <vscale x 4 x i32> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint32m4(<vscale x 8 x i32> %pc, <vscale x 8 x i32> %pa, <vscale x 8 x i32> *%pb) nounwind {			define void @vadd_vint32m4(<vscale x 8 x i32> %pc, <vscale x 8 x i32> %pa, <vscale x 8 x i32> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint32m4:			; CHECK-LABEL: vadd_vint32m4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e32,m4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e32,m4,ta,mu
	; CHECK-NEXT: vle32.v v28, (a1)			; CHECK-NEXT: vle32.v v28, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m4,ta,mu
	; CHECK-NEXT: vle32.v v8, (a2)			; CHECK-NEXT: vle32.v v8, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e32,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m4,ta,mu
	; CHECK-NEXT: vadd.vv v28, v28, v8			; CHECK-NEXT: vadd.vv v28, v28, v8
	; CHECK-NEXT: vsetvli a1, zero, e32,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m4,ta,mu
	; CHECK-NEXT: vse32.v v28, (a0)			; CHECK-NEXT: vse32.v v28, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 8 x i32>, <vscale x 8 x i32>* %pa			%va = load <vscale x 8 x i32>, <vscale x 8 x i32>* %pa
	%vb = load <vscale x 8 x i32>, <vscale x 8 x i32>* %pb			%vb = load <vscale x 8 x i32>, <vscale x 8 x i32>* %pb
	%vc = add <vscale x 8 x i32> %va, %vb			%vc = add <vscale x 8 x i32> %va, %vb
	store <vscale x 8 x i32> %vc, <vscale x 8 x i32> *%pc			store <vscale x 8 x i32> %vc, <vscale x 8 x i32> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint32m8(<vscale x 16 x i32> %pc, <vscale x 16 x i32> %pa, <vscale x 16 x i32> *%pb) nounwind {			define void @vadd_vint32m8(<vscale x 16 x i32> %pc, <vscale x 16 x i32> %pa, <vscale x 16 x i32> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint32m8:			; CHECK-LABEL: vadd_vint32m8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e32,m8,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e32,m8,ta,mu
	; CHECK-NEXT: vle32.v v8, (a1)			; CHECK-NEXT: vle32.v v8, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m8,ta,mu
	; CHECK-NEXT: vle32.v v16, (a2)			; CHECK-NEXT: vle32.v v16, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e32,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m8,ta,mu
	; CHECK-NEXT: vadd.vv v8, v8, v16			; CHECK-NEXT: vadd.vv v8, v8, v16
	; CHECK-NEXT: vsetvli a1, zero, e32,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,m8,ta,mu
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 16 x i32>, <vscale x 16 x i32>* %pa			%va = load <vscale x 16 x i32>, <vscale x 16 x i32>* %pa
	%vb = load <vscale x 16 x i32>, <vscale x 16 x i32>* %pb			%vb = load <vscale x 16 x i32>, <vscale x 16 x i32>* %pb
	%vc = add <vscale x 16 x i32> %va, %vb			%vc = add <vscale x 16 x i32> %va, %vb
	store <vscale x 16 x i32> %vc, <vscale x 16 x i32> *%pc			store <vscale x 16 x i32> %vc, <vscale x 16 x i32> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint32mf2(<vscale x 1 x i32> %pc, <vscale x 1 x i32> %pa, <vscale x 1 x i32> *%pb) nounwind {			define void @vadd_vint32mf2(<vscale x 1 x i32> %pc, <vscale x 1 x i32> %pa, <vscale x 1 x i32> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint32mf2:			; CHECK-LABEL: vadd_vint32mf2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e32,mf2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e32,mf2,ta,mu
	; CHECK-NEXT: vle32.v v25, (a1)			; CHECK-NEXT: vle32.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,mf2,ta,mu
	; CHECK-NEXT: vle32.v v26, (a2)			; CHECK-NEXT: vle32.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e32,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,mf2,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e32,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e32,mf2,ta,mu
	; CHECK-NEXT: vse32.v v25, (a0)			; CHECK-NEXT: vse32.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 1 x i32>, <vscale x 1 x i32>* %pa			%va = load <vscale x 1 x i32>, <vscale x 1 x i32>* %pa
	%vb = load <vscale x 1 x i32>, <vscale x 1 x i32>* %pb			%vb = load <vscale x 1 x i32>, <vscale x 1 x i32>* %pb
	%vc = add <vscale x 1 x i32> %va, %vb			%vc = add <vscale x 1 x i32> %va, %vb
	store <vscale x 1 x i32> %vc, <vscale x 1 x i32> *%pc			store <vscale x 1 x i32> %vc, <vscale x 1 x i32> *%pc
	ret void			ret void
	}			}

llvm/test/CodeGen/RISCV/rvv/load-add-store-64.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s
	; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s

	define void @vadd_vint64m1(<vscale x 1 x i64> %pc, <vscale x 1 x i64> %pa, <vscale x 1 x i64> *%pb) nounwind {			define void @vadd_vint64m1(<vscale x 1 x i64> %pc, <vscale x 1 x i64> %pa, <vscale x 1 x i64> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint64m1:			; CHECK-LABEL: vadd_vint64m1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e64,m1,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e64,m1,ta,mu
	; CHECK-NEXT: vle64.v v25, (a1)			; CHECK-NEXT: vle64.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e64,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m1,ta,mu
	; CHECK-NEXT: vle64.v v26, (a2)			; CHECK-NEXT: vle64.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e64,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m1,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e64,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m1,ta,mu
	; CHECK-NEXT: vse64.v v25, (a0)			; CHECK-NEXT: vse64.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 1 x i64>, <vscale x 1 x i64>* %pa			%va = load <vscale x 1 x i64>, <vscale x 1 x i64>* %pa
	%vb = load <vscale x 1 x i64>, <vscale x 1 x i64>* %pb			%vb = load <vscale x 1 x i64>, <vscale x 1 x i64>* %pb
	%vc = add <vscale x 1 x i64> %va, %vb			%vc = add <vscale x 1 x i64> %va, %vb
	store <vscale x 1 x i64> %vc, <vscale x 1 x i64> *%pc			store <vscale x 1 x i64> %vc, <vscale x 1 x i64> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint64m2(<vscale x 2 x i64> %pc, <vscale x 2 x i64> %pa, <vscale x 2 x i64> *%pb) nounwind {			define void @vadd_vint64m2(<vscale x 2 x i64> %pc, <vscale x 2 x i64> %pa, <vscale x 2 x i64> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint64m2:			; CHECK-LABEL: vadd_vint64m2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e64,m2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e64,m2,ta,mu
	; CHECK-NEXT: vle64.v v26, (a1)			; CHECK-NEXT: vle64.v v26, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e64,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m2,ta,mu
	; CHECK-NEXT: vle64.v v28, (a2)			; CHECK-NEXT: vle64.v v28, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e64,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m2,ta,mu
	; CHECK-NEXT: vadd.vv v26, v26, v28			; CHECK-NEXT: vadd.vv v26, v26, v28
	; CHECK-NEXT: vsetvli a1, zero, e64,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m2,ta,mu
	; CHECK-NEXT: vse64.v v26, (a0)			; CHECK-NEXT: vse64.v v26, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 2 x i64>, <vscale x 2 x i64>* %pa			%va = load <vscale x 2 x i64>, <vscale x 2 x i64>* %pa
	%vb = load <vscale x 2 x i64>, <vscale x 2 x i64>* %pb			%vb = load <vscale x 2 x i64>, <vscale x 2 x i64>* %pb
	%vc = add <vscale x 2 x i64> %va, %vb			%vc = add <vscale x 2 x i64> %va, %vb
	store <vscale x 2 x i64> %vc, <vscale x 2 x i64> *%pc			store <vscale x 2 x i64> %vc, <vscale x 2 x i64> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint64m4(<vscale x 4 x i64> %pc, <vscale x 4 x i64> %pa, <vscale x 4 x i64> *%pb) nounwind {			define void @vadd_vint64m4(<vscale x 4 x i64> %pc, <vscale x 4 x i64> %pa, <vscale x 4 x i64> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint64m4:			; CHECK-LABEL: vadd_vint64m4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e64,m4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e64,m4,ta,mu
	; CHECK-NEXT: vle64.v v28, (a1)			; CHECK-NEXT: vle64.v v28, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e64,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m4,ta,mu
	; CHECK-NEXT: vle64.v v8, (a2)			; CHECK-NEXT: vle64.v v8, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e64,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m4,ta,mu
	; CHECK-NEXT: vadd.vv v28, v28, v8			; CHECK-NEXT: vadd.vv v28, v28, v8
	; CHECK-NEXT: vsetvli a1, zero, e64,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m4,ta,mu
	; CHECK-NEXT: vse64.v v28, (a0)			; CHECK-NEXT: vse64.v v28, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 4 x i64>, <vscale x 4 x i64>* %pa			%va = load <vscale x 4 x i64>, <vscale x 4 x i64>* %pa
	%vb = load <vscale x 4 x i64>, <vscale x 4 x i64>* %pb			%vb = load <vscale x 4 x i64>, <vscale x 4 x i64>* %pb
	%vc = add <vscale x 4 x i64> %va, %vb			%vc = add <vscale x 4 x i64> %va, %vb
	store <vscale x 4 x i64> %vc, <vscale x 4 x i64> *%pc			store <vscale x 4 x i64> %vc, <vscale x 4 x i64> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint64m8(<vscale x 8 x i64> %pc, <vscale x 8 x i64> %pa, <vscale x 8 x i64> *%pb) nounwind {			define void @vadd_vint64m8(<vscale x 8 x i64> %pc, <vscale x 8 x i64> %pa, <vscale x 8 x i64> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint64m8:			; CHECK-LABEL: vadd_vint64m8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e64,m8,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e64,m8,ta,mu
	; CHECK-NEXT: vle64.v v8, (a1)			; CHECK-NEXT: vle64.v v8, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e64,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m8,ta,mu
	; CHECK-NEXT: vle64.v v16, (a2)			; CHECK-NEXT: vle64.v v16, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e64,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m8,ta,mu
	; CHECK-NEXT: vadd.vv v8, v8, v16			; CHECK-NEXT: vadd.vv v8, v8, v16
	; CHECK-NEXT: vsetvli a1, zero, e64,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e64,m8,ta,mu
	; CHECK-NEXT: vse64.v v8, (a0)			; CHECK-NEXT: vse64.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 8 x i64>, <vscale x 8 x i64>* %pa			%va = load <vscale x 8 x i64>, <vscale x 8 x i64>* %pa
	%vb = load <vscale x 8 x i64>, <vscale x 8 x i64>* %pb			%vb = load <vscale x 8 x i64>, <vscale x 8 x i64>* %pb
	%vc = add <vscale x 8 x i64> %va, %vb			%vc = add <vscale x 8 x i64> %va, %vb
	store <vscale x 8 x i64> %vc, <vscale x 8 x i64> *%pc			store <vscale x 8 x i64> %vc, <vscale x 8 x i64> *%pc
	ret void			ret void
	}			}

llvm/test/CodeGen/RISCV/rvv/load-add-store-8.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv32 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s
	; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \			; RUN: llc -mtriple riscv64 -mattr=+experimental-v %s -o - \
	; RUN: -verify-machineinstrs \| FileCheck %s			; RUN: -verify-machineinstrs \| FileCheck %s

	define void @vadd_vint8m1(<vscale x 8 x i8> %pc, <vscale x 8 x i8> %pa, <vscale x 8 x i8> *%pb) nounwind {			define void @vadd_vint8m1(<vscale x 8 x i8> %pc, <vscale x 8 x i8> %pa, <vscale x 8 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8m1:			; CHECK-LABEL: vadd_vint8m1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,m1,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,m1,ta,mu
	; CHECK-NEXT: vle8.v v25, (a1)			; CHECK-NEXT: vle8.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m1,ta,mu
	; CHECK-NEXT: vle8.v v26, (a2)			; CHECK-NEXT: vle8.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m1,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e8,m1,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m1,ta,mu
	; CHECK-NEXT: vse8.v v25, (a0)			; CHECK-NEXT: vse8.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 8 x i8>, <vscale x 8 x i8>* %pa			%va = load <vscale x 8 x i8>, <vscale x 8 x i8>* %pa
	%vb = load <vscale x 8 x i8>, <vscale x 8 x i8>* %pb			%vb = load <vscale x 8 x i8>, <vscale x 8 x i8>* %pb
	%vc = add <vscale x 8 x i8> %va, %vb			%vc = add <vscale x 8 x i8> %va, %vb
	store <vscale x 8 x i8> %vc, <vscale x 8 x i8> *%pc			store <vscale x 8 x i8> %vc, <vscale x 8 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8m2(<vscale x 16 x i8> %pc, <vscale x 16 x i8> %pa, <vscale x 16 x i8> *%pb) nounwind {			define void @vadd_vint8m2(<vscale x 16 x i8> %pc, <vscale x 16 x i8> %pa, <vscale x 16 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8m2:			; CHECK-LABEL: vadd_vint8m2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,m2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,m2,ta,mu
	; CHECK-NEXT: vle8.v v26, (a1)			; CHECK-NEXT: vle8.v v26, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m2,ta,mu
	; CHECK-NEXT: vle8.v v28, (a2)			; CHECK-NEXT: vle8.v v28, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m2,ta,mu
	; CHECK-NEXT: vadd.vv v26, v26, v28			; CHECK-NEXT: vadd.vv v26, v26, v28
	; CHECK-NEXT: vsetvli a1, zero, e8,m2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m2,ta,mu
	; CHECK-NEXT: vse8.v v26, (a0)			; CHECK-NEXT: vse8.v v26, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 16 x i8>, <vscale x 16 x i8>* %pa			%va = load <vscale x 16 x i8>, <vscale x 16 x i8>* %pa
	%vb = load <vscale x 16 x i8>, <vscale x 16 x i8>* %pb			%vb = load <vscale x 16 x i8>, <vscale x 16 x i8>* %pb
	%vc = add <vscale x 16 x i8> %va, %vb			%vc = add <vscale x 16 x i8> %va, %vb
	store <vscale x 16 x i8> %vc, <vscale x 16 x i8> *%pc			store <vscale x 16 x i8> %vc, <vscale x 16 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8m4(<vscale x 32 x i8> %pc, <vscale x 32 x i8> %pa, <vscale x 32 x i8> *%pb) nounwind {			define void @vadd_vint8m4(<vscale x 32 x i8> %pc, <vscale x 32 x i8> %pa, <vscale x 32 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8m4:			; CHECK-LABEL: vadd_vint8m4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,m4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,m4,ta,mu
	; CHECK-NEXT: vle8.v v28, (a1)			; CHECK-NEXT: vle8.v v28, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m4,ta,mu
	; CHECK-NEXT: vle8.v v8, (a2)			; CHECK-NEXT: vle8.v v8, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m4,ta,mu
	; CHECK-NEXT: vadd.vv v28, v28, v8			; CHECK-NEXT: vadd.vv v28, v28, v8
	; CHECK-NEXT: vsetvli a1, zero, e8,m4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m4,ta,mu
	; CHECK-NEXT: vse8.v v28, (a0)			; CHECK-NEXT: vse8.v v28, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 32 x i8>, <vscale x 32 x i8>* %pa			%va = load <vscale x 32 x i8>, <vscale x 32 x i8>* %pa
	%vb = load <vscale x 32 x i8>, <vscale x 32 x i8>* %pb			%vb = load <vscale x 32 x i8>, <vscale x 32 x i8>* %pb
	%vc = add <vscale x 32 x i8> %va, %vb			%vc = add <vscale x 32 x i8> %va, %vb
	store <vscale x 32 x i8> %vc, <vscale x 32 x i8> *%pc			store <vscale x 32 x i8> %vc, <vscale x 32 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8m8(<vscale x 64 x i8> %pc, <vscale x 64 x i8> %pa, <vscale x 64 x i8> *%pb) nounwind {			define void @vadd_vint8m8(<vscale x 64 x i8> %pc, <vscale x 64 x i8> %pa, <vscale x 64 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8m8:			; CHECK-LABEL: vadd_vint8m8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,m8,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,m8,ta,mu
	; CHECK-NEXT: vle8.v v8, (a1)			; CHECK-NEXT: vle8.v v8, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m8,ta,mu
	; CHECK-NEXT: vle8.v v16, (a2)			; CHECK-NEXT: vle8.v v16, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m8,ta,mu
	; CHECK-NEXT: vadd.vv v8, v8, v16			; CHECK-NEXT: vadd.vv v8, v8, v16
	; CHECK-NEXT: vsetvli a1, zero, e8,m8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,m8,ta,mu
	; CHECK-NEXT: vse8.v v8, (a0)			; CHECK-NEXT: vse8.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 64 x i8>, <vscale x 64 x i8>* %pa			%va = load <vscale x 64 x i8>, <vscale x 64 x i8>* %pa
	%vb = load <vscale x 64 x i8>, <vscale x 64 x i8>* %pb			%vb = load <vscale x 64 x i8>, <vscale x 64 x i8>* %pb
	%vc = add <vscale x 64 x i8> %va, %vb			%vc = add <vscale x 64 x i8> %va, %vb
	store <vscale x 64 x i8> %vc, <vscale x 64 x i8> *%pc			store <vscale x 64 x i8> %vc, <vscale x 64 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8mf2(<vscale x 4 x i8> %pc, <vscale x 4 x i8> %pa, <vscale x 4 x i8> *%pb) nounwind {			define void @vadd_vint8mf2(<vscale x 4 x i8> %pc, <vscale x 4 x i8> %pa, <vscale x 4 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8mf2:			; CHECK-LABEL: vadd_vint8mf2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,mf2,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,mf2,ta,mu
	; CHECK-NEXT: vle8.v v25, (a1)			; CHECK-NEXT: vle8.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf2,ta,mu
	; CHECK-NEXT: vle8.v v26, (a2)			; CHECK-NEXT: vle8.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf2,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e8,mf2,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf2,ta,mu
	; CHECK-NEXT: vse8.v v25, (a0)			; CHECK-NEXT: vse8.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 4 x i8>, <vscale x 4 x i8>* %pa			%va = load <vscale x 4 x i8>, <vscale x 4 x i8>* %pa
	%vb = load <vscale x 4 x i8>, <vscale x 4 x i8>* %pb			%vb = load <vscale x 4 x i8>, <vscale x 4 x i8>* %pb
	%vc = add <vscale x 4 x i8> %va, %vb			%vc = add <vscale x 4 x i8> %va, %vb
	store <vscale x 4 x i8> %vc, <vscale x 4 x i8> *%pc			store <vscale x 4 x i8> %vc, <vscale x 4 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8mf4(<vscale x 2 x i8> %pc, <vscale x 2 x i8> %pa, <vscale x 2 x i8> *%pb) nounwind {			define void @vadd_vint8mf4(<vscale x 2 x i8> %pc, <vscale x 2 x i8> %pa, <vscale x 2 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8mf4:			; CHECK-LABEL: vadd_vint8mf4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,mf4,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,mf4,ta,mu
	; CHECK-NEXT: vle8.v v25, (a1)			; CHECK-NEXT: vle8.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf4,ta,mu
	; CHECK-NEXT: vle8.v v26, (a2)			; CHECK-NEXT: vle8.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf4,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e8,mf4,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf4,ta,mu
	; CHECK-NEXT: vse8.v v25, (a0)			; CHECK-NEXT: vse8.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 2 x i8>, <vscale x 2 x i8>* %pa			%va = load <vscale x 2 x i8>, <vscale x 2 x i8>* %pa
	%vb = load <vscale x 2 x i8>, <vscale x 2 x i8>* %pb			%vb = load <vscale x 2 x i8>, <vscale x 2 x i8>* %pb
	%vc = add <vscale x 2 x i8> %va, %vb			%vc = add <vscale x 2 x i8> %va, %vb
	store <vscale x 2 x i8> %vc, <vscale x 2 x i8> *%pc			store <vscale x 2 x i8> %vc, <vscale x 2 x i8> *%pc
	ret void			ret void
	}			}

	define void @vadd_vint8mf8(<vscale x 1 x i8> %pc, <vscale x 1 x i8> %pa, <vscale x 1 x i8> *%pb) nounwind {			define void @vadd_vint8mf8(<vscale x 1 x i8> %pc, <vscale x 1 x i8> %pa, <vscale x 1 x i8> *%pb) nounwind {
	; CHECK-LABEL: vadd_vint8mf8:			; CHECK-LABEL: vadd_vint8mf8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a3, zero, e8,mf8,tu,mu			; CHECK-NEXT: vsetvli a3, zero, e8,mf8,ta,mu
	; CHECK-NEXT: vle8.v v25, (a1)			; CHECK-NEXT: vle8.v v25, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf8,ta,mu
	; CHECK-NEXT: vle8.v v26, (a2)			; CHECK-NEXT: vle8.v v26, (a2)
	; CHECK-NEXT: vsetvli a1, zero, e8,mf8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf8,ta,mu
	; CHECK-NEXT: vadd.vv v25, v25, v26			; CHECK-NEXT: vadd.vv v25, v25, v26
	; CHECK-NEXT: vsetvli a1, zero, e8,mf8,tu,mu			; CHECK-NEXT: vsetvli a1, zero, e8,mf8,ta,mu
	; CHECK-NEXT: vse8.v v25, (a0)			; CHECK-NEXT: vse8.v v25, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%va = load <vscale x 1 x i8>, <vscale x 1 x i8>* %pa			%va = load <vscale x 1 x i8>, <vscale x 1 x i8>* %pa
	%vb = load <vscale x 1 x i8>, <vscale x 1 x i8>* %pb			%vb = load <vscale x 1 x i8>, <vscale x 1 x i8>* %pb
	%vc = add <vscale x 1 x i8> %va, %vb			%vc = add <vscale x 1 x i8> %va, %vb
	store <vscale x 1 x i8> %vc, <vscale x 1 x i8> *%pc			store <vscale x 1 x i8> %vc, <vscale x 1 x i8> *%pc
	ret void			ret void
	}			}