This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/RISCV/
-
Target/
-
RISCV/
1/3
RISCVISelLowering.h
2/7
RISCVISelLowering.cpp
-
RISCVInstrInfoVPseudos.td
1
RISCVInstrInfoVSDPatterns.td
3
RISCVInstrInfoVVLPatterns.td
1
RISCVSubtarget.h
1/3
RISCVSubtarget.cpp
-
test/CodeGen/RISCV/rvv/
-
CodeGen/
-
RISCV/
-
rvv/
2/5
fixed-vectors-fp.ll
-
fixed-vectors-int.ll

Differential D95705

[RISCV] Add initial support for converting fixed vectors to scalable vectors during lowering to use RVV instructions.
ClosedPublic

Authored by craig.topper on Jan 29 2021, 3:53 PM.

Download Raw Diff

Details

Reviewers

frasercrmck
khchen
HsiangKai
evandro
rogfer01

Commits

rGa719b667a979: [RISCV] Add initial support for converting fixed vectors to scalable vectors…

Summary

This is an alternative to D95563.

This is modeled after a similar feature for AArch64's SVE that uses
predicated scalable vector instructions.a

Rather than use predication, this patch uses an explicit VL operand.
I've limited it to always use LMUL=1 for now, but we can improve this
in the future.

This requires a bunch of new ISD opcodes to carry the VL operand.
I think we can probably lower intrinsics to these ISD opcodes to
cut down on the size of the isel table. Which is why I've added
patterns for all integer/float types and not just LMUL=1.

I'm only testing one vector width right now, but the width is
programmable via the command line.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	240 ms	x64 debian > libarcher.races::task-dependency.c
	270 ms	x64 debian > libarcher.races::task-taskgroup-unrelated.c
	270 ms	x64 debian > libarcher.races::task-taskwait-nested.c
	260 ms	x64 debian > libarcher.races::task-two.c
	330 ms	x64 debian > libarcher.task::task-barrier.c
		View Full Test Results (13 Failed)

Event Timeline

craig.topper created this revision.Jan 29 2021, 3:53 PM

Herald added subscribers: vkmr, NickHung, luismarques and 25 others. · View Herald TranscriptJan 29 2021, 3:53 PM

craig.topper requested review of this revision.Jan 29 2021, 3:53 PM

Herald added a project: Restricted Project. · View Herald TranscriptJan 29 2021, 3:53 PM

Herald added a subscriber: MaskRay. · View Herald Transcript

Use 0.10 as the version in the new td file

jrtc27 added inline comments.Jan 29 2021, 3:58 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1	Not sure how you managed this diff :)

craig.topper added inline comments.Jan 29 2021, 4:07 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1	That's amazing. I don't either.

Remove stray change

clang-format

Harbormaster completed remote builds in B87217: Diff 320230.Jan 29 2021, 4:26 PM

Harbormaster completed remote builds in B87218: Diff 320231.Jan 29 2021, 4:30 PM

Harbormaster completed remote builds in B87219: Diff 320232.Jan 29 2021, 4:56 PM

Harbormaster completed remote builds in B87220: Diff 320233.Jan 29 2021, 5:04 PM

arcbbb added a subscriber: arcbbb.Jan 31 2021, 6:37 PM

arcbbb added inline comments.

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

1716

For supporting LMUL > 1,
I was thinking calculating LMUL by

unsigned MinVLen = Subtarget.getMinRVVVectorSizeInBits();
unsigned LMul = (VT.getSizeInBits() + MinVLen - 1) / MinVLen;

and expand the case MVT::i8: by

case MVT::i8:
   if (LMul == 1)
      return EVT(MVT::nxv8i8);
   else if (LMul == 2)
      return EVT(MVT::nxv16i8);
   else if (LMul <= 4)
       return EVT(MVT::nxv32i8);
   else if (LMul <= 8)
       return EVT(MVT::nxv64i8);

craig.topper added inline comments.Jan 31 2021, 7:16 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1716	I guess my concern is that large LMULs increase register pressure so depending on the code it might be better to split the operations than use the increased LMUL if it will cause spills.

arcbbb added inline comments.Jan 31 2021, 7:35 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1716	I have a use case for [1] blur_x.store_at(blur_y, y).compute_at(blur_y, yi).vectorize(x, 8); User can evaluate various VLS choices by changing the number of element in `.vectorize()` and evaluate which LMul gains most performance. not sure if it makes sense. [1] https://github.com/halide/Halide/blob/master/apps/blur/halide_blur_generator.cpp

HsiangKai added inline comments.Jan 31 2021, 7:53 PM

llvm/lib/Target/RISCV/RISCVSubtarget.cpp
100	V has no such requirement or I misunderstood the specification?

craig.topper added inline comments.Jan 31 2021, 7:59 PM

llvm/lib/Target/RISCV/RISCVSubtarget.cpp
100	Good point. I blindly copied that from AArch64 and was more focused on getting on to the lowering work. What restrictions should we have here?

HsiangKai added inline comments.Jan 31 2021, 10:27 PM

llvm/lib/Target/RISCV/RISCVSubtarget.cpp
100	There are two restrictions in specification. VLEN≥128 and VLEN must be a power of 2.

khchen added inline comments.Jan 31 2021, 11:31 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1716	I think maybe the vectorizer or users(Halide) need to aware the register pressure (or performance) when they perform transformation. If codegen want to help on avoiding register pressure problem, maybe backend could have an IR pass to find out the best LMUL for scalabe vector type operation?

I think this is a sensible direction to consider. I do think we'll need to think about other LMULs though.

If we know the minimum size, there's presumably a way to successively enable larger vectors as the size increases? Ideally with vector-bits-min=1024 we'd be able to support e.g. <16 x i64> with LMUL=1, with vector-bits-min=512 we could do it with LMUL=2. Is that going to be challenging?

We might have to limit it somewhat sensibly: for vector types that would require LMUL=8 we're not necessarily going to see a huge difference in performance compared with just splitting the vector in two.

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
1737	Copy/paste on `SVE`?
llvm/lib/Target/RISCV/RISCVISelLowering.h
119	Is this something that is likely to be part of the vector predication support, once that becomes more "first class"?

Herald added a subscriber: StephenFan. · View Herald TranscriptFeb 1 2021, 7:07 AM

craig.topper added inline comments.Feb 1 2021, 11:45 AM

llvm/lib/Target/RISCV/RISCVISelLowering.h
119	It looks like the vector predication SD nodes also have a mask operand. So I'm not sure if we should synthesize an all 1s mask to pattern match back out. Or if we should DAG combine an all ones mask on the vector predication SD nodes to these nodes. It looks like for masking, the vector predication nodes just make the masked out elements undefined, so I think we still need a VSELECT to specify a passthru value? So I'm not sure if we should pattern match that sequence or DAG combine to an ISD node that has the mask, passthru, and VL all together?

Matt added a subscriber: Matt.Feb 1 2021, 12:52 PM

Add support for different LMuls with a command line option to limit.

Harbormaster completed remote builds in B87427: Diff 320600.Feb 1 2021, 4:51 PM

HsiangKai added inline comments.Feb 2 2021, 10:45 PM

llvm/lib/Target/RISCV/RISCVInstrInfoVSDPatterns.td
60	Need rebase here.
llvm/lib/Target/RISCV/RISCVInstrInfoVVLPatterns.td
65	Use RVVBaseAddr instead of reg_rs1.
llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll
2	small case for "experimental-zfh".
3	Do we need different check prefix for riscv32 and riscv64? That is LMULMAX2-RV32 and LMULMAX2-RV64.

-Rebase
-Correct the register classes for fixed vectors for LMUL > 1.
-Correct the mapping for udiv/sdiv. I copy pasted the same mistake SDPatterns had before

Remove stale FIXME

Harbormaster completed remote builds in B87757: Diff 321187.Feb 3 2021, 2:05 PM

Harbormaster completed remote builds in B87759: Diff 321189.Feb 3 2021, 2:26 PM

LGTM.

frasercrmck added inline comments.Feb 4 2021, 1:43 AM

llvm/lib/Target/RISCV/RISCVISelLowering.h
119	Yeah that seems a shame. I've been wondering how we'd support the vp intrinsics and I guess that this question about the SDNodes is an extension of that. I seem to recall @rogfer01 asking about them on the list: I wonder if he has any ideas? Do we only ever expect an all-ones mask and mandate that the VL is the only "predicate" we use? Circling back a bit: my original question was about the fact that it seems a shame we have to make our own copies of all of these nodes. Could we lower fixed-length vectors to scalable-vector VP nodes with an all-ones mask, and pattern-match that? But if we do indeed have to duplicate nodes to account for the passthru value for "full" VP support then we'd probably have to add some operands to these nodes. It would be good to share these nodes for this purpose and for the VP support. Do we do that now to get it out of the way, or later? Maybe the extra VP operands could be optional which means that the "fixed-length" patterns won't have to change when the time comes.
llvm/lib/Target/RISCV/RISCVSubtarget.h
152	typo: `beyong`

-Add mask argument to binary ops. Did not add passthru value which is consistent with VP_*
-Maintaining custom set of nodes since FP nodes ISD::VP_ are missing. Also the VE target is translating all VP_* nodes to custom nodes.

Harbormaster completed remote builds in B87958: Diff 321513.Feb 4 2021, 1:34 PM

craig.topper mentioned this in D96103: [RISCV] Add support for fixed vector FMA..Feb 4 2021, 9:05 PM

craig.topper added a child revision: D96103: [RISCV] Add support for fixed vector FMA..Feb 4 2021, 9:13 PM

craig.topper mentioned this in D96108: [RISCV] Add support for splat fixed length build_vectors using RVV..Feb 4 2021, 10:58 PM

frasercrmck requested changes to this revision.Feb 5 2021, 2:42 AM

frasercrmck added inline comments.

llvm/lib/Target/RISCV/RISCVInstrInfoVVLPatterns.td
165	The sdiv/udiv mapping is incorrect. Somehow it sneaked back in?

This revision now requires changes to proceed.Feb 5 2021, 2:42 AM

The "require changes" feels really drastic to me but I thought HsiangKai's LGTM was official acceptance, sorry!

In D95705#2544492, @frasercrmck wrote:

The "require changes" feels really drastic to me but I thought HsiangKai's LGTM was official acceptance, sorry!

I also think this patch needs your acceptance. So, I didn't accept the patch. I think there still are some issues to address. Thanks for your feedback.

craig.topper added inline comments.Feb 5 2021, 9:36 AM

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll
3	The RV32 and RV64 codegen seem to be the same for all tests for LMULMAX2. We're not allowed to have unused prefixes that don't appear in a function so I can't add LMULMAX2-RV32/RV64 if they aren't used.

Fix sdiv/udiv swap again

Use SDValue instead of auto in a couple places.
Run clang-format

Harbormaster completed remote builds in B88100: Diff 321810.Feb 5 2021, 10:32 AM

Harbormaster completed remote builds in B88103: Diff 321813.Feb 5 2021, 11:17 AM

Fix capitalization of +experimental-zfh in test RUN lines.

Harbormaster completed remote builds in B88134: Diff 321867.Feb 5 2021, 2:20 PM

LGTM. I don't know if others want to review it?

llvm/lib/Target/RISCV/RISCVInstrInfoVVLPatterns.td
182	nit: This is 14.12 in v0.10. I'm changing that in the SD pats as part of D96028

This revision is now accepted and ready to land.Feb 8 2021, 6:49 AM

LGTM.

This revision was landed with ongoing or failed builds.Feb 8 2021, 10:43 AM

Closed by commit rGa719b667a979: [RISCV] Add initial support for converting fixed vectors to scalable vectors… (authored by craig.topper). · Explain Why

This revision was automatically updated to reflect the committed changes.

craig.topper added a commit: rGa719b667a979: [RISCV] Add initial support for converting fixed vectors to scalable vectors….

craig.topper mentioned this in rGb8d719fbe81c: [RISCV] Add support for fixed vector FMA..Feb 8 2021, 11:14 AM

craig.topper mentioned this in rG8d8cafa32e83: [RISCV] Add support for splat fixed length build_vectors using RVV..

frasercrmck mentioned this in D91638: [RISCV] Add a proof-of-concept for supporting fixed-length vectors in RVV.Feb 9 2021, 4:27 AM

craig.topper mentioned this in D95563: [RISCV] Add initial support for 128-bit fixed vectors with RVV..Feb 10 2021, 1:36 PM

Jim added inline comments.Apr 19 2021, 6:38 PM

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll
257	Hi, Could I ask you how to update this check label of this function? I use update_llc_test_checks.py to update this check label of this function. But It deletes all LMULMAX1-RV32 and LMULMAX1-RV64 label and adds LMULMAX1. No just update label which is already existed.

craig.topper added inline comments.Apr 19 2021, 8:54 PM

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll
257	I just ran the script on the test on trunk and nothing change.

Revision Contents

Path

Size

llvm/

lib/

Target/

RISCV/

RISCVISelLowering.h

34 lines

RISCVISelLowering.cpp

297 lines

RISCVInstrInfoVPseudos.td

1 line

RISCVInstrInfoVSDPatterns.td

2 lines

RISCVInstrInfoVVLPatterns.td

172 lines

RISCVSubtarget.h

7 lines

RISCVSubtarget.cpp

34 lines

test/

CodeGen/

RISCV/

rvv/

fixed-vectors-fp.ll

926 lines

fixed-vectors-int.ll

3437 lines

Diff 320600

llvm/lib/Target/RISCV/RISCVISelLowering.h

//===-- RISCVISelLowering.h - RISCV DAG Lowering Interface ------- C++ --===//		//===-- RISCVISelLowering.h - RISCV DAG Lowering Interface ------- C++ --===//
		Lint: Lint Inline Actions clang-format not found in user's PATH; not linting file. Lint: Lint: clang-format not found in user's PATH; not linting file.
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
VSLIDEUP,		VSLIDEUP,
VSLIDEDOWN,		VSLIDEDOWN,
// Matches the semantics of the unmasked vid.v instruction.		// Matches the semantics of the unmasked vid.v instruction.
VID,		VID,
// Matches the semantics of the vfcnvt.rod function (Convert double-width		// Matches the semantics of the vfcnvt.rod function (Convert double-width
// float to single-width float, rounding towards odd). Takes a double-width		// float to single-width float, rounding towards odd). Takes a double-width
// float vector and produces a single-width float vector.		// float vector and produces a single-width float vector.
VFNCVT_ROD,		VFNCVT_ROD,

		// Vector binary and unary ops with VL as a third operand.
		ADD_VL,
		frasercrmckUnsubmitted Not Done Reply Inline Actions Is this something that is likely to be part of the vector predication support, once that becomes more "first class"? frasercrmck: Is this something that is likely to be part of the vector predication support, once that…
		craig.topperAuthorUnsubmitted Done Reply Inline Actions It looks like the vector predication SD nodes also have a mask operand. So I'm not sure if we should synthesize an all 1s mask to pattern match back out. Or if we should DAG combine an all ones mask on the vector predication SD nodes to these nodes. It looks like for masking, the vector predication nodes just make the masked out elements undefined, so I think we still need a VSELECT to specify a passthru value? So I'm not sure if we should pattern match that sequence or DAG combine to an ISD node that has the mask, passthru, and VL all together? craig.topper: It looks like the vector predication SD nodes also have a mask operand. So I'm not sure if we…
		frasercrmckUnsubmitted Not Done Reply Inline Actions Yeah that seems a shame. I've been wondering how we'd support the vp intrinsics and I guess that this question about the SDNodes is an extension of that. I seem to recall @rogfer01 asking about them on the list: I wonder if he has any ideas? Do we only ever expect an all-ones mask and mandate that the VL is the only "predicate" we use? Circling back a bit: my original question was about the fact that it seems a shame we have to make our own copies of all of these nodes. Could we lower fixed-length vectors to scalable-vector VP nodes with an all-ones mask, and pattern-match that? But if we do indeed have to duplicate nodes to account for the passthru value for "full" VP support then we'd probably have to add some operands to these nodes. It would be good to share these nodes for this purpose and for the VP support. Do we do that now to get it out of the way, or later? Maybe the extra VP operands could be optional which means that the "fixed-length" patterns won't have to change when the time comes. frasercrmck: Yeah that seems a shame. I've been wondering how we'd support the vp intrinsics and I guess…
		AND_VL,
		MUL_VL,
		OR_VL,
		SDIV_VL,
		SHL_VL,
		SREM_VL,
		SRA_VL,
		SRL_VL,
		SUB_VL,
		UDIV_VL,
		UREM_VL,
		XOR_VL,
		FADD_VL,
		FSUB_VL,
		FMUL_VL,
		FDIV_VL,
		FNEG_VL,

		// Memory opcodes start here.
		VLE_VL = ISD::FIRST_TARGET_MEMORY_OPCODE,
		VSE_VL,

		// WARNING: Do not add anything in the end unless you want the node to
		// have memop! In fact, starting from FIRST_TARGET_MEMORY_OPCODE all
		// opcodes will be thought as target memory ops!
};		};
} // namespace RISCVISD		} // namespace RISCVISD

class RISCVTargetLowering : public TargetLowering {		class RISCVTargetLowering : public TargetLowering {
const RISCVSubtarget &Subtarget;		const RISCVSubtarget &Subtarget;

public:		public:
explicit RISCVTargetLowering(const TargetMachine &TM,		explicit RISCVTargetLowering(const TargetMachine &TM,
▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines	private:
SDValue lowerSPLATVECTOR(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerSPLATVECTOR(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerVectorMaskExt(SDValue Op, SelectionDAG &DAG,		SDValue lowerVectorMaskExt(SDValue Op, SelectionDAG &DAG,
int64_t ExtTrueVal) const;		int64_t ExtTrueVal) const;
SDValue lowerVectorMaskTrunc(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerVectorMaskTrunc(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;
SDValue lowerEXTRACT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;		SDValue lowerEXTRACT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_WO_CHAIN(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerINTRINSIC_W_CHAIN(SDValue Op, SelectionDAG &DAG) const;
		SDValue lowerFixedLengthVectorLoadToRVV(SDValue Op, SelectionDAG &DAG) const;
		SDValue lowerFixedLengthVectorStoreToRVV(SDValue Op, SelectionDAG &DAG) const;
		SDValue lowerToScalableOp(SDValue Op, SelectionDAG &DAG,
		unsigned NewOpc) const;

bool isEligibleForTailCallOptimization(		bool isEligibleForTailCallOptimization(
CCState &CCInfo, CallLoweringInfo &CLI, MachineFunction &MF,		CCState &CCInfo, CallLoweringInfo &CLI, MachineFunction &MF,
const SmallVector<CCValAssign, 16> &ArgLocs) const;		const SmallVector<CCValAssign, 16> &ArgLocs) const;

/// Generate error diagnostics if any register used by CC has been marked		/// Generate error diagnostics if any register used by CC has been marked
/// reserved.		/// reserved.
void validateCCReservedRegs(		void validateCCReservedRegs(
const SmallVectorImpl<std::pair<llvm::Register, llvm::SDValue>> &Regs,		const SmallVectorImpl<std::pair<llvm::Register, llvm::SDValue>> &Regs,
MachineFunction &MF) const;		MachineFunction &MF) const;

		bool useRVVForFixedLengthVectorVT(EVT VT) const;
};		};

namespace RISCVVIntrinsicsTable {		namespace RISCVVIntrinsicsTable {

struct RISCVVIntrinsicInfo {		struct RISCVVIntrinsicInfo {
unsigned IntrinsicID;		unsigned IntrinsicID;
uint8_t ExtendedOperand;		uint8_t ExtendedOperand;
};		};
Show All 27 Lines

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

//===-- RISCVISelLowering.cpp - RISCV DAG Lowering Implementation --------===//		//===-- RISCVISelLowering.cpp - RISCV DAG Lowering Implementation --------===//
		Lint: Lint Inline Actions clang-format not found in user's PATH; not linting file. Lint: Lint: clang-format not found in user's PATH; not linting file.
		jrtc27Unsubmitted Not Done Reply Inline Actions Not sure how you managed this diff :) jrtc27: Not sure how you managed this diff :)
		craig.topperAuthorUnsubmitted Done Reply Inline Actions That's amazing. I don't either. craig.topper: That's amazing. I don't either.
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
// This file defines the interfaces that RISCV uses to lower LLVM code into a		// This file defines the interfaces that RISCV uses to lower LLVM code into a
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines	if (Subtarget.hasStdExtV()) {

if (Subtarget.hasStdExtF())		if (Subtarget.hasStdExtF())
for (MVT VT : F32VecVTs)		for (MVT VT : F32VecVTs)
addRegClassForRVV(VT);		addRegClassForRVV(VT);

if (Subtarget.hasStdExtD())		if (Subtarget.hasStdExtD())
for (MVT VT : F64VecVTs)		for (MVT VT : F64VecVTs)
addRegClassForRVV(VT);		addRegClassForRVV(VT);

		if (Subtarget.useRVVForFixedLengthVectors()) {
		// FIXME: How should we support larger LMUL values?
		for (MVT VT : MVT::integer_fixedlen_vector_valuetypes())
		if (useRVVForFixedLengthVectorVT(VT))
		addRegisterClass(VT, &RISCV::VRRegClass);

		for (MVT VT : MVT::fp_fixedlen_vector_valuetypes())
		if (useRVVForFixedLengthVectorVT(VT))
		addRegisterClass(VT, &RISCV::VRRegClass);
		}
}		}

// Compute derived properties from the register classes.		// Compute derived properties from the register classes.
computeRegisterProperties(STI.getRegisterInfo());		computeRegisterProperties(STI.getRegisterInfo());

setStackPointerRegisterToSaveRestore(RISCV::X2);		setStackPointerRegisterToSaveRestore(RISCV::X2);

for (auto N : {ISD::EXTLOAD, ISD::SEXTLOAD, ISD::ZEXTLOAD})		for (auto N : {ISD::EXTLOAD, ISD::SEXTLOAD, ISD::ZEXTLOAD})
▲ Show 20 Lines • Show All 305 Lines • ▼ Show 20 Lines	if (Subtarget.hasStdExtV()) {

if (Subtarget.hasStdExtF())		if (Subtarget.hasStdExtF())
for (MVT VT : F32VecVTs)		for (MVT VT : F32VecVTs)
SetCommonVFPActions(VT);		SetCommonVFPActions(VT);

if (Subtarget.hasStdExtD())		if (Subtarget.hasStdExtD())
for (MVT VT : F64VecVTs)		for (MVT VT : F64VecVTs)
SetCommonVFPActions(VT);		SetCommonVFPActions(VT);

		if (Subtarget.useRVVForFixedLengthVectors()) {
		for (MVT VT : MVT::integer_fixedlen_vector_valuetypes()) {
		if (!useRVVForFixedLengthVectorVT(VT))
		continue;

		// By default everything must be expanded.
		for (unsigned Op = 0; Op < ISD::BUILTIN_OP_END; ++Op)
		setOperationAction(Op, VT, Expand);

		// We use EXTRACT_SUBVECTOR as a "cast" from scalable to fixed.
		setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);

		setOperationAction(ISD::LOAD, VT, Custom);
		setOperationAction(ISD::STORE, VT, Custom);
		setOperationAction(ISD::ADD, VT, Custom);
		setOperationAction(ISD::MUL, VT, Custom);
		setOperationAction(ISD::SUB, VT, Custom);
		setOperationAction(ISD::AND, VT, Custom);
		setOperationAction(ISD::OR, VT, Custom);
		setOperationAction(ISD::XOR, VT, Custom);
		setOperationAction(ISD::SDIV, VT, Custom);
		setOperationAction(ISD::SREM, VT, Custom);
		setOperationAction(ISD::UDIV, VT, Custom);
		setOperationAction(ISD::UREM, VT, Custom);
		setOperationAction(ISD::SHL, VT, Custom);
		setOperationAction(ISD::SRA, VT, Custom);
		setOperationAction(ISD::SRL, VT, Custom);
		}

		for (MVT VT : MVT::fp_fixedlen_vector_valuetypes()) {
		if (!useRVVForFixedLengthVectorVT(VT))
		continue;

		// By default everything must be expanded.
		for (unsigned Op = 0; Op < ISD::BUILTIN_OP_END; ++Op)
		setOperationAction(Op, VT, Expand);

		// We use EXTRACT_SUBVECTOR as a "cast" from scalable to fixed.
		setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);

		setOperationAction(ISD::LOAD, VT, Custom);
		setOperationAction(ISD::STORE, VT, Custom);
		setOperationAction(ISD::FADD, VT, Custom);
		setOperationAction(ISD::FSUB, VT, Custom);
		setOperationAction(ISD::FMUL, VT, Custom);
		setOperationAction(ISD::FDIV, VT, Custom);
		setOperationAction(ISD::FNEG, VT, Custom);
		}
		}
}		}

// Function alignments.		// Function alignments.
const Align FunctionAlignment(Subtarget.hasStdExtC() ? 2 : 4);		const Align FunctionAlignment(Subtarget.hasStdExtC() ? 2 : 4);
setMinFunctionAlignment(FunctionAlignment);		setMinFunctionAlignment(FunctionAlignment);
setPrefFunctionAlignment(FunctionAlignment);		setPrefFunctionAlignment(FunctionAlignment);

setMinimumJumpTableEntries(5);		setMinimumJumpTableEntries(5);
▲ Show 20 Lines • Show All 416 Lines • ▼ Show 20 Lines	if (SrcEltSize > EltSize && (SrcEltSize / EltSize >= 4)) {
MVT::getVectorVT(MVT::getIntegerVT(SrcEltVT.getSizeInBits() / 2),		MVT::getVectorVT(MVT::getIntegerVT(SrcEltVT.getSizeInBits() / 2),
VT.getVectorElementCount());		VT.getVectorElementCount());
SDValue FP2Int = DAG.getNode(Op.getOpcode(), DL, IVecVT, Src);		SDValue FP2Int = DAG.getNode(Op.getOpcode(), DL, IVecVT, Src);
return DAG.getNode(ISD::TRUNCATE, DL, VT, FP2Int);		return DAG.getNode(ISD::TRUNCATE, DL, VT, FP2Int);
}		}

return Op;		return Op;
}		}
		case ISD::LOAD:
		return lowerFixedLengthVectorLoadToRVV(Op, DAG);
		case ISD::STORE:
		return lowerFixedLengthVectorStoreToRVV(Op, DAG);
		case ISD::ADD:
		return lowerToScalableOp(Op, DAG, RISCVISD::ADD_VL);
		case ISD::SUB:
		return lowerToScalableOp(Op, DAG, RISCVISD::SUB_VL);
		case ISD::MUL:
		return lowerToScalableOp(Op, DAG, RISCVISD::MUL_VL);
		case ISD::AND:
		return lowerToScalableOp(Op, DAG, RISCVISD::AND_VL);
		case ISD::OR:
		return lowerToScalableOp(Op, DAG, RISCVISD::OR_VL);
		case ISD::XOR:
		return lowerToScalableOp(Op, DAG, RISCVISD::XOR_VL);
		case ISD::SDIV:
		return lowerToScalableOp(Op, DAG, RISCVISD::SDIV_VL);
		case ISD::SREM:
		return lowerToScalableOp(Op, DAG, RISCVISD::SREM_VL);
		case ISD::UDIV:
		return lowerToScalableOp(Op, DAG, RISCVISD::UDIV_VL);
		case ISD::UREM:
		return lowerToScalableOp(Op, DAG, RISCVISD::UREM_VL);
		case ISD::SHL:
		return lowerToScalableOp(Op, DAG, RISCVISD::SHL_VL);
		case ISD::SRA:
		return lowerToScalableOp(Op, DAG, RISCVISD::SRA_VL);
		case ISD::SRL:
		return lowerToScalableOp(Op, DAG, RISCVISD::SRL_VL);
		case ISD::FADD:
		return lowerToScalableOp(Op, DAG, RISCVISD::FADD_VL);
		case ISD::FSUB:
		return lowerToScalableOp(Op, DAG, RISCVISD::FSUB_VL);
		case ISD::FMUL:
		return lowerToScalableOp(Op, DAG, RISCVISD::FMUL_VL);
		case ISD::FDIV:
		return lowerToScalableOp(Op, DAG, RISCVISD::FDIV_VL);
		case ISD::FNEG:
		return lowerToScalableOp(Op, DAG, RISCVISD::FNEG_VL);
}		}
}		}

static SDValue getTargetNode(GlobalAddressSDNode *N, SDLoc DL, EVT Ty,		static SDValue getTargetNode(GlobalAddressSDNode *N, SDLoc DL, EVT Ty,
SelectionDAG &DAG, unsigned Flags) {		SelectionDAG &DAG, unsigned Flags) {
return DAG.getTargetGlobalAddress(N->getGlobal(), DL, Ty, 0, Flags);		return DAG.getTargetGlobalAddress(N->getGlobal(), DL, Ty, 0, Flags);
}		}

▲ Show 20 Lines • Show All 697 Lines • ▼ Show 20 Lines	SDValue ReadVL =
SDValue(DAG.getMachineNode(RISCV::PseudoReadVL, DL, Op->getValueType(1),		SDValue(DAG.getMachineNode(RISCV::PseudoReadVL, DL, Op->getValueType(1),
Load.getValue(2)),		Load.getValue(2)),
0);		0);
return DAG.getMergeValues({Load, ReadVL, Load.getValue(1)}, DL);		return DAG.getMergeValues({Load, ReadVL, Load.getValue(1)}, DL);
}		}
}		}
}		}

		// Return the largest legal scalable vector type that matches VT's element type.
		static MVT getContainerForFixedLengthVector(SelectionDAG &DAG, MVT VT,
		const RISCVSubtarget &Subtarget) {
		assert(VT.isFixedLengthVector() &&
		DAG.getTargetLoweringInfo().isTypeLegal(VT) &&
		"Expected legal fixed length vector!");

		arcbbbUnsubmitted Not Done Reply Inline Actions For supporting LMUL > 1, I was thinking calculating LMUL by unsigned MinVLen = Subtarget.getMinRVVVectorSizeInBits(); unsigned LMul = (VT.getSizeInBits() + MinVLen - 1) / MinVLen; and expand the `case MVT::i8:` by case MVT::i8: if (LMul == 1) return EVT(MVT::nxv8i8); else if (LMul == 2) return EVT(MVT::nxv16i8); else if (LMul <= 4) return EVT(MVT::nxv32i8); else if (LMul <= 8) return EVT(MVT::nxv64i8); arcbbb: For supporting LMUL > 1, I was thinking calculating LMUL by ``` unsigned MinVLen = Subtarget.
		craig.topperAuthorUnsubmitted Done Reply Inline Actions I guess my concern is that large LMULs increase register pressure so depending on the code it might be better to split the operations than use the increased LMUL if it will cause spills. craig.topper: I guess my concern is that large LMULs increase register pressure so depending on the code it…
		arcbbbUnsubmitted Not Done Reply Inline Actions I have a use case for [1] blur_x.store_at(blur_y, y).compute_at(blur_y, yi).vectorize(x, 8); User can evaluate various VLS choices by changing the number of element in `.vectorize()` and evaluate which LMul gains most performance. not sure if it makes sense. [1] https://github.com/halide/Halide/blob/master/apps/blur/halide_blur_generator.cpp arcbbb: I have a use case for [1] ``` blur_x.store_at(blur_y, y).compute_at(blur_y, yi).vectorize(x, 8)…
		khchenUnsubmitted Not Done Reply Inline Actions I think maybe the vectorizer or users(Halide) need to aware the register pressure (or performance) when they perform transformation. If codegen want to help on avoiding register pressure problem, maybe backend could have an IR pass to find out the best LMUL for scalabe vector type operation? khchen: I think maybe the vectorizer or users(Halide) need to aware the register pressure (or…
		unsigned MinVLen = Subtarget.getMinRVVVectorSizeInBits();
		unsigned LMul = divideCeil(VT.getSizeInBits(), MinVLen);
		assert(LMul <= 8 && isPowerOf2_32(LMul) && "Unexpected LMUL!");

		// We use the types that will be mapped to LMUL=1 here.
		// FIXME: Should we have a way to support larger LMULs?
		switch (VT.getVectorElementType().SimpleTy) {
		default:
		llvm_unreachable("unexpected element type for RVV container");
		case MVT::i8:
		return MVT::getScalableVectorVT(MVT::i8, LMul * 8);
		case MVT::i16:
		return MVT::getScalableVectorVT(MVT::i16, LMul * 4);
		case MVT::i32:
		return MVT::getScalableVectorVT(MVT::i32, LMul * 2);
		case MVT::i64:
		return MVT::getScalableVectorVT(MVT::i64, LMul);
		case MVT::f16:
		return MVT::getScalableVectorVT(MVT::f16, LMul * 4);
		case MVT::f32:
		return MVT::getScalableVectorVT(MVT::f32, LMul * 2);
		frasercrmckUnsubmitted Not Done Reply Inline Actions Copy/paste on `SVE`? frasercrmck: Copy/paste on `SVE`?
		case MVT::f64:
		return MVT::getScalableVectorVT(MVT::f64, LMul);
		}
		}

		// Grow V to consume an entire RVV register.
		static SDValue convertToScalableVector(EVT VT, SDValue V, SelectionDAG &DAG,
		const RISCVSubtarget &Subtarget) {
		assert(VT.isScalableVector() &&
		"Expected to convert into a scalable vector!");
		assert(V.getValueType().isFixedLengthVector() &&
		"Expected a fixed length vector operand!");
		SDLoc DL(V);
		SDValue Zero = DAG.getConstant(0, DL, Subtarget.getXLenVT());
		return DAG.getNode(ISD::INSERT_SUBVECTOR, DL, VT, DAG.getUNDEF(VT), V, Zero);
		}

		// Shrink V so it's just big enough to maintain a VT's worth of data.
		static SDValue convertFromScalableVector(EVT VT, SDValue V, SelectionDAG &DAG,
		const RISCVSubtarget &Subtarget) {
		assert(VT.isFixedLengthVector() &&
		"Expected to convert into a fixed length vector!");
		assert(V.getValueType().isScalableVector() &&
		"Expected a scalable vector operand!");
		SDLoc DL(V);
		SDValue Zero = DAG.getConstant(0, DL, Subtarget.getXLenVT());
		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, VT, V, Zero);
		}

		SDValue
		RISCVTargetLowering::lowerFixedLengthVectorLoadToRVV(SDValue Op,
		SelectionDAG &DAG) const {
		auto *Load = cast<LoadSDNode>(Op);

		SDLoc DL(Op);
		MVT VT = Op.getSimpleValueType();
		MVT ContainerVT = getContainerForFixedLengthVector(DAG, VT, Subtarget);

		SDValue VL =
		DAG.getConstant(VT.getVectorNumElements(), DL, Subtarget.getXLenVT());

		SDVTList VTs = DAG.getVTList({ContainerVT, MVT::Other});
		auto NewLoad = DAG.getMemIntrinsicNode(
		RISCVISD::VLE_VL, DL, VTs, {Load->getChain(), Load->getBasePtr(), VL},
		Load->getMemoryVT(), Load->getMemOperand());

		auto Result = convertFromScalableVector(VT, NewLoad, DAG, Subtarget);
		return DAG.getMergeValues({Result, Load->getChain()}, DL);
		}

		SDValue
		RISCVTargetLowering::lowerFixedLengthVectorStoreToRVV(SDValue Op,
		SelectionDAG &DAG) const {
		auto *Store = cast<StoreSDNode>(Op);

		SDLoc DL(Op);
		MVT VT = Store->getValue().getSimpleValueType();
		MVT ContainerVT = getContainerForFixedLengthVector(DAG, VT, Subtarget);

		SDValue VL =
		DAG.getConstant(VT.getVectorNumElements(), DL, Subtarget.getXLenVT());

		SDValue NewValue =
		convertToScalableVector(ContainerVT, Store->getValue(), DAG, Subtarget);
		return DAG.getMemIntrinsicNode(
		RISCVISD::VSE_VL, DL, DAG.getVTList(MVT::Other),
		{Store->getChain(), NewValue, Store->getBasePtr(), VL},
		Store->getMemoryVT(), Store->getMemOperand());
		}

		SDValue RISCVTargetLowering::lowerToScalableOp(SDValue Op, SelectionDAG &DAG,
		unsigned NewOpc) const {
		MVT VT = Op.getSimpleValueType();
		assert(useRVVForFixedLengthVectorVT(VT) &&
		"Only expected to lower fixed length vector operation!");
		MVT ContainerVT = getContainerForFixedLengthVector(DAG, VT, Subtarget);

		// Create list of operands by converting existing ones to scalable types.
		SmallVector<SDValue, 5> Ops;
		for (const SDValue &V : Op->op_values()) {
		assert(!isa<VTSDNode>(V) && "Unexpected VTSDNode node!");

		// Pass through non-vector operands.
		if (!V.getValueType().isVector()) {
		Ops.push_back(V);
		continue;
		}

		// "cast" fixed length vector to a scalable vector.
		assert(useRVVForFixedLengthVectorVT(V.getValueType()) &&
		"Only fixed length vectors are supported!");
		Ops.push_back(convertToScalableVector(ContainerVT, V, DAG, Subtarget));
		}

		SDLoc DL(Op);
		SDValue VL =
		DAG.getConstant(VT.getVectorNumElements(), DL, Subtarget.getXLenVT());
		Ops.push_back(VL);

		SDValue ScalableRes = DAG.getNode(NewOpc, DL, ContainerVT, Ops);
		return convertFromScalableVector(VT, ScalableRes, DAG, Subtarget);
		}

// Returns the opcode of the target-specific SDNode that implements the 32-bit		// Returns the opcode of the target-specific SDNode that implements the 32-bit
// form of the given Opcode.		// form of the given Opcode.
static RISCVISD::NodeType getRISCVWOpcode(unsigned Opcode) {		static RISCVISD::NodeType getRISCVWOpcode(unsigned Opcode) {
switch (Opcode) {		switch (Opcode) {
default:		default:
llvm_unreachable("Unexpected opcode");		llvm_unreachable("Unexpected opcode");
case ISD::SHL:		case ISD::SHL:
return RISCVISD::SLLW;		return RISCVISD::SLLW;
▲ Show 20 Lines • Show All 2,529 Lines • ▼ Show 20 Lines	#define NODE_NAME_CASE(NODE) \
NODE_NAME_CASE(READ_VLENB)		NODE_NAME_CASE(READ_VLENB)
NODE_NAME_CASE(TRUNCATE_VECTOR)		NODE_NAME_CASE(TRUNCATE_VECTOR)
NODE_NAME_CASE(VLEFF)		NODE_NAME_CASE(VLEFF)
NODE_NAME_CASE(VLEFF_MASK)		NODE_NAME_CASE(VLEFF_MASK)
NODE_NAME_CASE(VSLIDEUP)		NODE_NAME_CASE(VSLIDEUP)
NODE_NAME_CASE(VSLIDEDOWN)		NODE_NAME_CASE(VSLIDEDOWN)
NODE_NAME_CASE(VID)		NODE_NAME_CASE(VID)
NODE_NAME_CASE(VFNCVT_ROD)		NODE_NAME_CASE(VFNCVT_ROD)
		NODE_NAME_CASE(ADD_VL)
		NODE_NAME_CASE(AND_VL)
		NODE_NAME_CASE(MUL_VL)
		NODE_NAME_CASE(OR_VL)
		NODE_NAME_CASE(SDIV_VL)
		NODE_NAME_CASE(SHL_VL)
		NODE_NAME_CASE(SREM_VL)
		NODE_NAME_CASE(SRA_VL)
		NODE_NAME_CASE(SRL_VL)
		NODE_NAME_CASE(SUB_VL)
		NODE_NAME_CASE(UDIV_VL)
		NODE_NAME_CASE(UREM_VL)
		NODE_NAME_CASE(XOR_VL)
		NODE_NAME_CASE(FADD_VL)
		NODE_NAME_CASE(FSUB_VL)
		NODE_NAME_CASE(FMUL_VL)
		NODE_NAME_CASE(FDIV_VL)
		NODE_NAME_CASE(FNEG_VL)
		NODE_NAME_CASE(VLE_VL)
		NODE_NAME_CASE(VSE_VL)
}		}
// clang-format on		// clang-format on
return nullptr;		return nullptr;
#undef NODE_NAME_CASE		#undef NODE_NAME_CASE
}		}

/// getConstraintType - Given a constraint letter, return the type of		/// getConstraintType - Given a constraint letter, return the type of
/// constraint it is for this target.		/// constraint it is for this target.
▲ Show 20 Lines • Show All 421 Lines • ▼ Show 20 Lines	if (auto *ConstNode = dyn_cast<ConstantSDNode>(C.getNode())) {
return true;		return true;
}		}
}		}
}		}

return false;		return false;
}		}

		bool RISCVTargetLowering::useRVVForFixedLengthVectorVT(EVT VT) const {
		if (!Subtarget.useRVVForFixedLengthVectors())
		return false;

		if (!VT.isFixedLengthVector())
		return false;

		// Don't use RVV for vectors we cannot scalarize if required.
		switch (VT.getVectorElementType().getSimpleVT().SimpleTy) {
		default:
		return false;
		case MVT::i1:
		case MVT::i8:
		case MVT::i16:
		case MVT::i32:
		case MVT::i64:
		break;
		case MVT::f16:
		if (!Subtarget.hasStdExtZfh())
		return false;
		break;
		case MVT::f32:
		if (!Subtarget.hasStdExtF())
		return false;
		break;
		case MVT::f64:
		if (!Subtarget.hasStdExtD())
		return false;
		break;
		}

		unsigned MinVLen = Subtarget.getMinRVVVectorSizeInBits();
		unsigned LMul = divideCeil(VT.getSizeInBits(), MinVLen);
		// Don't use RVV for types that don't fit.
		if (LMul > Subtarget.getMaxLMULForFixedLengthVectors())
		return false;

		// TODO: Perhaps an artificial restriction, but worth having whilst getting
		// the base fixed length RVV support in place.
		if (!VT.isPow2VectorType())
		return false;

		return true;
		}

#define GET_REGISTER_MATCHER		#define GET_REGISTER_MATCHER
#include "RISCVGenAsmMatcher.inc"		#include "RISCVGenAsmMatcher.inc"

Register		Register
RISCVTargetLowering::getRegisterByName(const char *RegName, LLT VT,		RISCVTargetLowering::getRegisterByName(const char *RegName, LLT VT,
const MachineFunction &MF) const {		const MachineFunction &MF) const {
Register Reg = MatchRegisterAltName(RegName);		Register Reg = MatchRegisterAltName(RegName);
if (Reg == RISCV::NoRegister)		if (Reg == RISCV::NoRegister)
Show All 26 Lines

llvm/lib/Target/RISCV/RISCVInstrInfoVPseudos.td

	Show First 20 Lines • Show All 4,392 Lines • ▼ Show 20 Lines
	} // Predicates = [HasStdExtV]			} // Predicates = [HasStdExtV]

	let Predicates = [HasStdExtV, HasStdExtF] in {			let Predicates = [HasStdExtV, HasStdExtF] in {
	defm "" : VPatUnaryV_V_AnyMask<"int_riscv_vcompress", "PseudoVCOMPRESS", AllFloatVectors>;			defm "" : VPatUnaryV_V_AnyMask<"int_riscv_vcompress", "PseudoVCOMPRESS", AllFloatVectors>;
	} // Predicates = [HasStdExtV, HasStdExtF]			} // Predicates = [HasStdExtV, HasStdExtF]

	// Include the non-intrinsic ISel patterns			// Include the non-intrinsic ISel patterns
	include "RISCVInstrInfoVSDPatterns.td"			include "RISCVInstrInfoVSDPatterns.td"
				include "RISCVInstrInfoVVLPatterns.td"

llvm/lib/Target/RISCV/RISCVInstrInfoVSDPatterns.td

Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	multiclass VPatUSLoadStoreSDNode<LLVMType type,
VReg reg_class>		VReg reg_class>
{		{
defvar load_instr = !cast<Instruction>("PseudoVLE"#sew#"_V_"#vlmul.MX);		defvar load_instr = !cast<Instruction>("PseudoVLE"#sew#"_V_"#vlmul.MX);
defvar store_instr = !cast<Instruction>("PseudoVSE"#sew#"_V_"#vlmul.MX);		defvar store_instr = !cast<Instruction>("PseudoVSE"#sew#"_V_"#vlmul.MX);
// Load		// Load
def : Pat<(type (load reg_rs1:$rs1)),		def : Pat<(type (load reg_rs1:$rs1)),
(load_instr reg_rs1:$rs1, avl, sew)>;		(load_instr reg_rs1:$rs1, avl, sew)>;
// Store		// Store
def : Pat<(store type:$rs2, reg_rs1:$rs1),		def : Pat<(store (type reg_class:$rs2), reg_rs1:$rs1),
		HsiangKaiUnsubmitted Not Done Reply Inline Actions Need rebase here. HsiangKai: Need rebase here.
(store_instr reg_class:$rs2, reg_rs1:$rs1, avl, sew)>;		(store_instr reg_class:$rs2, reg_rs1:$rs1, avl, sew)>;
}		}

multiclass VPatUSLoadStoreSDNodes<RegisterClass reg_rs1> {		multiclass VPatUSLoadStoreSDNodes<RegisterClass reg_rs1> {
foreach vti = AllVectors in		foreach vti = AllVectors in
defm "" : VPatUSLoadStoreSDNode<vti.Vector, vti.Mask, vti.SEW, vti.LMul,		defm "" : VPatUSLoadStoreSDNode<vti.Vector, vti.Mask, vti.SEW, vti.LMul,
vti.AVL, reg_rs1, vti.RegClass>;		vti.AVL, reg_rs1, vti.RegClass>;
}		}
▲ Show 20 Lines • Show All 744 Lines • Show Last 20 Lines

llvm/lib/Target/RISCV/RISCVInstrInfoVVLPatterns.td

This file was added.

				//===- RISCVInstrInfoVVLPatterns.td - RVV VL patterns ------- tablegen --===//
				//
				// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				// See https://llvm.org/LICENSE.txt for license information.
				// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
				//
				//===----------------------------------------------------------------------===//
				///
				/// This file contains the required infrastructure and VL patterns to
				/// support code generation for the standard 'V' (Vector) extension, version
				/// 0.10. This version is still experimental as the 'V' extension hasn't been
				/// ratified yet.
				///
				/// This file is included from and depends upon RISCVInstrInfoVPseudos.td
				///
				/// Note: the patterns for RVV intrinsics are found in
				/// RISCVInstrInfoVPseudos.td.
				///
				//===----------------------------------------------------------------------===//

				//===----------------------------------------------------------------------===//
				// Helpers to define the VL patterns.
				//===----------------------------------------------------------------------===//

				def SDT_RISCVVLE_VL : SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVT<2, XLenVT>]>;
				def SDT_RISCVVSE_VL : SDTypeProfile<0, 3, [SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVT<2, XLenVT>]>;

				def SDT_RISCVVecUnOp_VL : SDTypeProfile<1, 2, [SDTCisSameAs<0, 1>,
				SDTCisVec<0>,
				SDTCisVT<2, XLenVT>]>;
				def SDT_RISCVVecBinOp_VL : SDTypeProfile<1, 3, [SDTCisSameAs<0, 1>,
				SDTCisSameAs<0, 2>,
				SDTCisVec<0>,
				SDTCisVT<3, XLenVT>]>;

				def riscv_vle_vl : SDNode<"RISCVISD::VLE_VL", SDT_RISCVVLE_VL,
				[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;
				def riscv_vse_vl : SDNode<"RISCVISD::VSE_VL", SDT_RISCVVSE_VL,
				[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;

				def riscv_add_vl : SDNode<"RISCVISD::ADD_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_sub_vl : SDNode<"RISCVISD::SUB_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_mul_vl : SDNode<"RISCVISD::MUL_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_and_vl : SDNode<"RISCVISD::AND_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_or_vl : SDNode<"RISCVISD::OR_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_xor_vl : SDNode<"RISCVISD::XOR_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_sdiv_vl : SDNode<"RISCVISD::SDIV_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_srem_vl : SDNode<"RISCVISD::SREM_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_udiv_vl : SDNode<"RISCVISD::UDIV_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_urem_vl : SDNode<"RISCVISD::UREM_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_shl_vl : SDNode<"RISCVISD::SHL_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_sra_vl : SDNode<"RISCVISD::SRA_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_srl_vl : SDNode<"RISCVISD::SRL_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_fadd_vl : SDNode<"RISCVISD::FADD_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_fsub_vl : SDNode<"RISCVISD::FSUB_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_fmul_vl : SDNode<"RISCVISD::FMUL_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_fdiv_vl : SDNode<"RISCVISD::FDIV_VL", SDT_RISCVVecBinOp_VL>;
				def riscv_fneg_vl : SDNode<"RISCVISD::FNEG_VL", SDT_RISCVVecUnOp_VL>;

				multiclass VPatUSLoadStoreVL<RegisterClass reg_rs1> {
				foreach vti = AllVectors in {
				defvar load_instr = !cast<Instruction>("PseudoVLE"#vti.SEW#"_V_"#vti.LMul.MX);
				defvar store_instr = !cast<Instruction>("PseudoVSE"#vti.SEW#"_V_"#vti.LMul.MX);
				// Load
				def : Pat<(vti.Vector (riscv_vle_vl reg_rs1:$rs1, (XLenVT GPR:$vl))),
				HsiangKaiUnsubmitted Not Done Reply Inline Actions Use RVVBaseAddr instead of reg_rs1. HsiangKai: Use RVVBaseAddr instead of reg_rs1.
				(load_instr reg_rs1:$rs1, (NoX0 GPR:$vl), vti.SEW)>;
				// Store
				def : Pat<(riscv_vse_vl (vti.Vector vti.RegClass:$rs2), reg_rs1:$rs1, (XLenVT GPR:$vl)),
				(store_instr vti.RegClass:$rs2, reg_rs1:$rs1, (NoX0 GPR:$vl), vti.SEW)>;
				}
				}

				class VPatBinaryVL_VV<SDNode vop,
				string instruction_name,
				ValueType result_type,
				ValueType op_type,
				ValueType mask_type,
				int sew,
				LMULInfo vlmul,
				VReg RetClass,
				VReg op_reg_class> :
				Pat<(result_type (vop
				(op_type op_reg_class:$rs1),
				(op_type op_reg_class:$rs2),
				(XLenVT GPR:$vl))),
				(!cast<Instruction>(instruction_name#"_VV_"# vlmul.MX)
				op_reg_class:$rs1,
				op_reg_class:$rs2,
				(NoX0 GPR:$vl), sew)>;

				multiclass VPatBinaryVL_VV_VX<SDNode vop, string instruction_name> {
				foreach vti = AllIntegerVectors in {
				def : VPatBinaryVL_VV<vop, instruction_name,
				vti.Vector, vti.Vector, vti.Mask, vti.SEW,
				vti.LMul, vti.RegClass, vti.RegClass>;
				// FIXME: Support splats.
				}
				}

				multiclass VPatBinaryVL_VV_VX_VI<SDNode vop, string instruction_name,
				Operand ImmType = simm5> {
				foreach vti = AllIntegerVectors in {
				def : VPatBinaryVL_VV<vop, instruction_name,
				vti.Vector, vti.Vector, vti.Mask, vti.SEW,
				vti.LMul, vti.RegClass, vti.RegClass>;
				// FIXME: Support splats.
				}
				}

				multiclass VPatBinaryFPVL_VV_VF<SDNode vop, string instruction_name> {
				foreach vti = AllFloatVectors in {
				def : VPatBinaryVL_VV<vop, instruction_name,
				vti.Vector, vti.Vector, vti.Mask, vti.SEW,
				vti.LMul, vti.RegClass, vti.RegClass>;
				// FIXME: Support splats.
				}
				}

				//===----------------------------------------------------------------------===//
				// Patterns.
				//===----------------------------------------------------------------------===//

				let Predicates = [HasStdExtV] in {

				// 7.4. Vector Unit-Stride Instructions
				defm "" : VPatUSLoadStoreVL<GPR>;
				defm "" : VPatUSLoadStoreVL<AddrFI>;

				// 12.1. Vector Single-Width Integer Add and Subtract
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_add_vl, "PseudoVADD">;
				defm "" : VPatBinaryVL_VV_VX<riscv_sub_vl, "PseudoVSUB">;

				// 12.5. Vector Bitwise Logical Instructions
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_and_vl, "PseudoVAND">;
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_or_vl, "PseudoVOR">;
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_xor_vl, "PseudoVXOR">;

				// 12.6. Vector Single-Width Bit Shift Instructions
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_shl_vl, "PseudoVSLL", uimm5>;
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_srl_vl, "PseudoVSRL", uimm5>;
				defm "" : VPatBinaryVL_VV_VX_VI<riscv_sra_vl, "PseudoVSRA", uimm5>;

				// 12.10. Vector Single-Width Integer Multiply Instructions
				defm "" : VPatBinaryVL_VV_VX<riscv_mul_vl, "PseudoVMUL">;

				// 12.11. Vector Integer Divide Instructions
				defm "" : VPatBinaryVL_VV_VX<riscv_sdiv_vl, "PseudoVDIVU">;
				defm "" : VPatBinaryVL_VV_VX<riscv_udiv_vl, "PseudoVDIV">;
				defm "" : VPatBinaryVL_VV_VX<riscv_urem_vl, "PseudoVREMU">;
				defm "" : VPatBinaryVL_VV_VX<riscv_srem_vl, "PseudoVREM">;

				} // Predicates = [HasStdExtV]

				let Predicates = [HasStdExtV, HasStdExtF] in {

				// 14.2. Vector Single-Width Floating-Point Add/Subtract Instructions
				defm "" : VPatBinaryFPVL_VV_VF<riscv_fadd_vl, "PseudoVFADD">;
				defm "" : VPatBinaryFPVL_VV_VF<riscv_fsub_vl, "PseudoVFSUB">;

				// 14.4. Vector Single-Width Floating-Point Multiply/Divide Instructions
				defm "" : VPatBinaryFPVL_VV_VF<riscv_fmul_vl, "PseudoVFMUL">;
				defm "" : VPatBinaryFPVL_VV_VF<riscv_fdiv_vl, "PseudoVFDIV">;

				// 14.10. Vector Floating-Point Sign-Injection Instructions
				// Handle fneg with VFSGNJN using the same input for both operands.
				frasercrmckUnsubmitted Not Done Reply Inline Actions The sdiv/udiv mapping is incorrect. Somehow it sneaked back in? frasercrmck: The sdiv/udiv mapping is incorrect. Somehow it sneaked back in?
				foreach vti = AllFloatVectors in {
				def : Pat<(riscv_fneg_vl (vti.Vector vti.RegClass:$rs), (XLenVT GPR:$vl)),
				(!cast<Instruction>("PseudoVFSGNJN_VV_"# vti.LMul.MX)
				vti.RegClass:$rs, vti.RegClass:$rs, (NoX0 GPR:$vl), vti.SEW)>;
				}

				} // Predicates = [HasStdExtV, HasStdExtF]
				frasercrmckUnsubmitted Not Done Reply Inline Actions nit: This is 14.12 in v0.10. I'm changing that in the SD pats as part of D96028 frasercrmck: nit: This is 14.12 in v0.10. I'm changing that in the SD pats as part of D96028

llvm/lib/Target/RISCV/RISCVSubtarget.h

//===-- RISCVSubtarget.h - Define Subtarget for the RISCV -------- C++ --===//		//===-- RISCVSubtarget.h - Define Subtarget for the RISCV -------- C++ --===//
		Lint: Lint Inline Actions clang-format not found in user's PATH; not linting file. Lint: Lint: clang-format not found in user's PATH; not linting file.
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines	protected:
std::unique_ptr<LegalizerInfo> Legalizer;		std::unique_ptr<LegalizerInfo> Legalizer;
std::unique_ptr<RegisterBankInfo> RegBankInfo;		std::unique_ptr<RegisterBankInfo> RegBankInfo;

public:		public:
const CallLowering *getCallLowering() const override;		const CallLowering *getCallLowering() const override;
InstructionSelector *getInstructionSelector() const override;		InstructionSelector *getInstructionSelector() const override;
const LegalizerInfo *getLegalizerInfo() const override;		const LegalizerInfo *getLegalizerInfo() const override;
const RegisterBankInfo *getRegBankInfo() const override;		const RegisterBankInfo *getRegBankInfo() const override;

		// Return the known range for the bit length of RVV data registers. A value
		// of 0 means nothing is known about that particular limit beyong what's
		frasercrmckUnsubmitted Not Done Reply Inline Actions typo: `beyong` frasercrmck: typo: `beyong`
		// implied by the architecture.
		unsigned getMinRVVVectorSizeInBits() const;
		unsigned getMaxLMULForFixedLengthVectors() const;
		bool useRVVForFixedLengthVectors() const;
};		};
} // End llvm namespace		} // End llvm namespace

#endif		#endif

llvm/lib/Target/RISCV/RISCVSubtarget.cpp

	//===-- RISCVSubtarget.cpp - RISCV Subtarget Information ------------------===//			//===-- RISCVSubtarget.cpp - RISCV Subtarget Information ------------------===//
				Lint: Lint Inline Actions clang-format not found in user's PATH; not linting file. Lint: Lint: clang-format not found in user's PATH; not linting file.
	//			//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.			// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.			// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception			// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//			//
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	//			//
	Show All 13 Lines
	using namespace llvm;			using namespace llvm;

	#define DEBUG_TYPE "riscv-subtarget"			#define DEBUG_TYPE "riscv-subtarget"

	#define GET_SUBTARGETINFO_TARGET_DESC			#define GET_SUBTARGETINFO_TARGET_DESC
	#define GET_SUBTARGETINFO_CTOR			#define GET_SUBTARGETINFO_CTOR
	#include "RISCVGenSubtargetInfo.inc"			#include "RISCVGenSubtargetInfo.inc"

				static cl::opt<unsigned> RVVVectorBitsMin(
				"riscv-v-vector-bits-min",
				cl::desc("Assume V extension vector registers are at least this big, "
				"with zero meaning no minimum size is assumed."),
				cl::init(0), cl::Hidden);

				static cl::opt<unsigned> RVVVectorLMULMax(
				"riscv-v-fixed-length-vector-lmul-max",
				cl::desc("The maximum LMUL value to use for fixed length vectors. "
				"Fractional LMUL values are not supported."),
				cl::init(8), cl::Hidden);

	void RISCVSubtarget::anchor() {}			void RISCVSubtarget::anchor() {}

	RISCVSubtarget &RISCVSubtarget::initializeSubtargetDependencies(			RISCVSubtarget &RISCVSubtarget::initializeSubtargetDependencies(
	const Triple &TT, StringRef CPU, StringRef TuneCPU, StringRef FS, StringRef ABIName) {			const Triple &TT, StringRef CPU, StringRef TuneCPU, StringRef FS, StringRef ABIName) {
	// Determine default and user-specified characteristics			// Determine default and user-specified characteristics
	bool Is64Bit = TT.isArch64Bit();			bool Is64Bit = TT.isArch64Bit();
	std::string CPUName = std::string(CPU);			std::string CPUName = std::string(CPU);
	std::string TuneCPUName = std::string(TuneCPU);			std::string TuneCPUName = std::string(TuneCPU);
	Show All 38 Lines

	const LegalizerInfo *RISCVSubtarget::getLegalizerInfo() const {			const LegalizerInfo *RISCVSubtarget::getLegalizerInfo() const {
	return Legalizer.get();			return Legalizer.get();
	}			}

	const RegisterBankInfo *RISCVSubtarget::getRegBankInfo() const {			const RegisterBankInfo *RISCVSubtarget::getRegBankInfo() const {
	return RegBankInfo.get();			return RegBankInfo.get();
	}			}

				unsigned RISCVSubtarget::getMinRVVVectorSizeInBits() const {
				assert(hasStdExtV() &&
				"Tried to get vector length without V extension support!");
				assert((RVVVectorBitsMin == 0 \|\|
				HsiangKaiUnsubmitted Not Done Reply Inline Actions V has no such requirement or I misunderstood the specification? HsiangKai: V has no such requirement or I misunderstood the specification?
				craig.topperAuthorUnsubmitted Done Reply Inline Actions Good point. I blindly copied that from AArch64 and was more focused on getting on to the lowering work. What restrictions should we have here? craig.topper: Good point. I blindly copied that from AArch64 and was more focused on getting on to the…
				HsiangKaiUnsubmitted Not Done Reply Inline Actions There are two restrictions in specification. VLEN≥128 and VLEN must be a power of 2. HsiangKai: There are two restrictions in specification. VLEN≥128 and VLEN must be a power of 2.
				(RVVVectorBitsMin >= 128 && isPowerOf2_32(RVVVectorBitsMin))) &&
				"V extension requires vector length to be at least 128 and a power of "
				"2!");
				return PowerOf2Floor(RVVVectorBitsMin < 128 ? 0 : RVVVectorBitsMin);
				}

				unsigned RISCVSubtarget::getMaxLMULForFixedLengthVectors() const {
				assert(hasStdExtV() &&
				"Tried to get maximum LMUL without V extension support!");
				assert(RVVVectorLMULMax <= 8 && isPowerOf2_32(RVVVectorLMULMax) &&
				"V extension requires a LMUL to be at most 8 and a power of 2!");
				return PowerOf2Floor(std::max<unsigned>(RVVVectorLMULMax, 1));
				}

				bool RISCVSubtarget::useRVVForFixedLengthVectors() const {
				return hasStdExtV() && getMinRVVVectorSizeInBits() != 0;
				}

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=riscv32 -mattr=+experimental-v,+experimental-Zfh,+f,+d -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=2 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX2
				HsiangKaiUnsubmitted Not Done Reply Inline Actions small case for "experimental-zfh". HsiangKai: small case for "experimental-zfh".
				; RUN: llc -mtriple=riscv64 -mattr=+experimental-v,+experimental-Zfh,+f,+d -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=2 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX2
				HsiangKaiUnsubmitted Not Done Reply Inline Actions Do we need different check prefix for riscv32 and riscv64? That is LMULMAX2-RV32 and LMULMAX2-RV64. HsiangKai: Do we need different check prefix for riscv32 and riscv64? That is LMULMAX2-RV32 and LMULMAX2…
				craig.topperAuthorUnsubmitted Done Reply Inline Actions The RV32 and RV64 codegen seem to be the same for all tests for LMULMAX2. We're not allowed to have unused prefixes that don't appear in a function so I can't add LMULMAX2-RV32/RV64 if they aren't used. craig.topper: The RV32 and RV64 codegen seem to be the same for all tests for LMULMAX2. We're not allowed to…
				; RUN: llc -mtriple=riscv32 -mattr=+experimental-v,+experimental-Zfh,+f,+d -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=1 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX1,LMULMAX1-RV32
				; RUN: llc -mtriple=riscv64 -mattr=+experimental-v,+experimental-Zfh,+f,+d -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=1 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX1,LMULMAX1-RV64

				define void @fadd_v8f16(<8 x half>* %x, <8 x half>* %y) {
				; CHECK-LABEL: fadd_v8f16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vfadd.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x half>, <8 x half>* %x
				%b = load <8 x half>, <8 x half>* %y
				%c = fadd <8 x half> %a, %b
				store <8 x half> %c, <8 x half>* %x
				ret void
				}

				define void @fadd_v4f32(<4 x float>* %x, <4 x float>* %y) {
				; CHECK-LABEL: fadd_v4f32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vfadd.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x float>, <4 x float>* %x
				%b = load <4 x float>, <4 x float>* %y
				%c = fadd <4 x float> %a, %b
				store <4 x float> %c, <4 x float>* %x
				ret void
				}

				define void @fadd_v2f64(<2 x double>* %x, <2 x double>* %y) {
				; CHECK-LABEL: fadd_v2f64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vfadd.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x double>, <2 x double>* %x
				%b = load <2 x double>, <2 x double>* %y
				%c = fadd <2 x double> %a, %b
				store <2 x double> %c, <2 x double>* %x
				ret void
				}

				define void @fsub_v8f16(<8 x half>* %x, <8 x half>* %y) {
				; CHECK-LABEL: fsub_v8f16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vfsub.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x half>, <8 x half>* %x
				%b = load <8 x half>, <8 x half>* %y
				%c = fsub <8 x half> %a, %b
				store <8 x half> %c, <8 x half>* %x
				ret void
				}

				define void @fsub_v4f32(<4 x float>* %x, <4 x float>* %y) {
				; CHECK-LABEL: fsub_v4f32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vfsub.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x float>, <4 x float>* %x
				%b = load <4 x float>, <4 x float>* %y
				%c = fsub <4 x float> %a, %b
				store <4 x float> %c, <4 x float>* %x
				ret void
				}

				define void @fsub_v2f64(<2 x double>* %x, <2 x double>* %y) {
				; CHECK-LABEL: fsub_v2f64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vfsub.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x double>, <2 x double>* %x
				%b = load <2 x double>, <2 x double>* %y
				%c = fsub <2 x double> %a, %b
				store <2 x double> %c, <2 x double>* %x
				ret void
				}

				define void @fmul_v8f16(<8 x half>* %x, <8 x half>* %y) {
				; CHECK-LABEL: fmul_v8f16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vfmul.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x half>, <8 x half>* %x
				%b = load <8 x half>, <8 x half>* %y
				%c = fmul <8 x half> %a, %b
				store <8 x half> %c, <8 x half>* %x
				ret void
				}

				define void @fmul_v4f32(<4 x float>* %x, <4 x float>* %y) {
				; CHECK-LABEL: fmul_v4f32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vfmul.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x float>, <4 x float>* %x
				%b = load <4 x float>, <4 x float>* %y
				%c = fmul <4 x float> %a, %b
				store <4 x float> %c, <4 x float>* %x
				ret void
				}

				define void @fmul_v2f64(<2 x double>* %x, <2 x double>* %y) {
				; CHECK-LABEL: fmul_v2f64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vfmul.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x double>, <2 x double>* %x
				%b = load <2 x double>, <2 x double>* %y
				%c = fmul <2 x double> %a, %b
				store <2 x double> %c, <2 x double>* %x
				ret void
				}

				define void @fdiv_v8f16(<8 x half>* %x, <8 x half>* %y) {
				; CHECK-LABEL: fdiv_v8f16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vfdiv.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x half>, <8 x half>* %x
				%b = load <8 x half>, <8 x half>* %y
				%c = fdiv <8 x half> %a, %b
				store <8 x half> %c, <8 x half>* %x
				ret void
				}

				define void @fdiv_v4f32(<4 x float>* %x, <4 x float>* %y) {
				; CHECK-LABEL: fdiv_v4f32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vfdiv.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x float>, <4 x float>* %x
				%b = load <4 x float>, <4 x float>* %y
				%c = fdiv <4 x float> %a, %b
				store <4 x float> %c, <4 x float>* %x
				ret void
				}

				define void @fdiv_v2f64(<2 x double>* %x, <2 x double>* %y) {
				; CHECK-LABEL: fdiv_v2f64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vfdiv.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x double>, <2 x double>* %x
				%b = load <2 x double>, <2 x double>* %y
				%c = fdiv <2 x double> %a, %b
				store <2 x double> %c, <2 x double>* %x
				ret void
				}

				define void @fneg_v8f16(<8 x half>* %x) {
				; CHECK-LABEL: fneg_v8f16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a1, zero, 8
				; CHECK-NEXT: vsetvli a1, a1, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vfsgnjn.vv v25, v25, v25
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x half>, <8 x half>* %x
				%b = fneg <8 x half> %a
				store <8 x half> %b, <8 x half>* %x
				ret void
				}

				define void @fneg_v4f32(<4 x float>* %x) {
				; CHECK-LABEL: fneg_v4f32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a1, zero, 4
				; CHECK-NEXT: vsetvli a1, a1, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vfsgnjn.vv v25, v25, v25
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x float>, <4 x float>* %x
				%b = fneg <4 x float> %a
				store <4 x float> %b, <4 x float>* %x
				ret void
				}

				define void @fneg_v2f64(<2 x double>* %x) {
				; CHECK-LABEL: fneg_v2f64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a1, zero, 2
				; CHECK-NEXT: vsetvli a1, a1, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vfsgnjn.vv v25, v25, v25
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x double>, <2 x double>* %x
				%b = fneg <2 x double> %a
				store <2 x double> %b, <2 x double>* %x
				ret void
				}

				define void @fadd_v16f16(<16 x half>* %x, <16 x half>* %y) {
				; LMULMAX2-LABEL: fadd_v16f16:
				JimUnsubmitted Not Done Reply Inline Actions Hi, Could I ask you how to update this check label of this function? I use update_llc_test_checks.py to update this check label of this function. But It deletes all LMULMAX1-RV32 and LMULMAX1-RV64 label and adds LMULMAX1. No just update label which is already existed. Jim: Hi, Could I ask you how to update this check label of this function? I use…
				craig.topperAuthorUnsubmitted Done Reply Inline Actions I just ran the script on the test on trunk and nothing change. craig.topper: I just ran the script on the test on trunk and nothing change.
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vfadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fadd_v16f16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fadd_v16f16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x half>, <16 x half>* %x
				%b = load <16 x half>, <16 x half>* %y
				%c = fadd <16 x half> %a, %b
				store <16 x half> %c, <16 x half>* %x
				ret void
				}

				define void @fadd_v8f32(<8 x float>* %x, <8 x float>* %y) {
				; LMULMAX2-LABEL: fadd_v8f32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vfadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fadd_v8f32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fadd_v8f32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x float>, <8 x float>* %x
				%b = load <8 x float>, <8 x float>* %y
				%c = fadd <8 x float> %a, %b
				store <8 x float> %c, <8 x float>* %x
				ret void
				}

				define void @fadd_v4f64(<4 x double>* %x, <4 x double>* %y) {
				; LMULMAX2-LABEL: fadd_v4f64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vfadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fadd_v4f64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fadd_v4f64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x double>, <4 x double>* %x
				%b = load <4 x double>, <4 x double>* %y
				%c = fadd <4 x double> %a, %b
				store <4 x double> %c, <4 x double>* %x
				ret void
				}

				define void @fsub_v16f16(<16 x half>* %x, <16 x half>* %y) {
				; LMULMAX2-LABEL: fsub_v16f16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vfsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fsub_v16f16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fsub_v16f16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x half>, <16 x half>* %x
				%b = load <16 x half>, <16 x half>* %y
				%c = fsub <16 x half> %a, %b
				store <16 x half> %c, <16 x half>* %x
				ret void
				}

				define void @fsub_v8f32(<8 x float>* %x, <8 x float>* %y) {
				; LMULMAX2-LABEL: fsub_v8f32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vfsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fsub_v8f32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fsub_v8f32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x float>, <8 x float>* %x
				%b = load <8 x float>, <8 x float>* %y
				%c = fsub <8 x float> %a, %b
				store <8 x float> %c, <8 x float>* %x
				ret void
				}

				define void @fsub_v4f64(<4 x double>* %x, <4 x double>* %y) {
				; LMULMAX2-LABEL: fsub_v4f64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vfsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fsub_v4f64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fsub_v4f64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x double>, <4 x double>* %x
				%b = load <4 x double>, <4 x double>* %y
				%c = fsub <4 x double> %a, %b
				store <4 x double> %c, <4 x double>* %x
				ret void
				}

				define void @fmul_v16f16(<16 x half>* %x, <16 x half>* %y) {
				; LMULMAX2-LABEL: fmul_v16f16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vfmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fmul_v16f16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fmul_v16f16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x half>, <16 x half>* %x
				%b = load <16 x half>, <16 x half>* %y
				%c = fmul <16 x half> %a, %b
				store <16 x half> %c, <16 x half>* %x
				ret void
				}

				define void @fmul_v8f32(<8 x float>* %x, <8 x float>* %y) {
				; LMULMAX2-LABEL: fmul_v8f32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vfmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fmul_v8f32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fmul_v8f32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x float>, <8 x float>* %x
				%b = load <8 x float>, <8 x float>* %y
				%c = fmul <8 x float> %a, %b
				store <8 x float> %c, <8 x float>* %x
				ret void
				}

				define void @fmul_v4f64(<4 x double>* %x, <4 x double>* %y) {
				; LMULMAX2-LABEL: fmul_v4f64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vfmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fmul_v4f64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fmul_v4f64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x double>, <4 x double>* %x
				%b = load <4 x double>, <4 x double>* %y
				%c = fmul <4 x double> %a, %b
				store <4 x double> %c, <4 x double>* %x
				ret void
				}

				define void @fdiv_v16f16(<16 x half>* %x, <16 x half>* %y) {
				; LMULMAX2-LABEL: fdiv_v16f16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vfdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fdiv_v16f16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fdiv_v16f16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x half>, <16 x half>* %x
				%b = load <16 x half>, <16 x half>* %y
				%c = fdiv <16 x half> %a, %b
				store <16 x half> %c, <16 x half>* %x
				ret void
				}

				define void @fdiv_v8f32(<8 x float>* %x, <8 x float>* %y) {
				; LMULMAX2-LABEL: fdiv_v8f32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vfdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fdiv_v8f32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fdiv_v8f32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x float>, <8 x float>* %x
				%b = load <8 x float>, <8 x float>* %y
				%c = fdiv <8 x float> %a, %b
				store <8 x float> %c, <8 x float>* %x
				ret void
				}

				define void @fdiv_v4f64(<4 x double>* %x, <4 x double>* %y) {
				; LMULMAX2-LABEL: fdiv_v4f64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vfdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: fdiv_v4f64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vfdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: fdiv_v4f64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vfdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vfdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x double>, <4 x double>* %x
				%b = load <4 x double>, <4 x double>* %y
				%c = fdiv <4 x double> %a, %b
				store <4 x double> %c, <4 x double>* %x
				ret void
				}

				define void @fneg_v16f16(<16 x half>* %x) {
				; LMULMAX2-LABEL: fneg_v16f16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a1, zero, 16
				; LMULMAX2-NEXT: vsetvli a1, a1, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-LABEL: fneg_v16f16:
				; LMULMAX1: # %bb.0:
				; LMULMAX1-NEXT: addi a1, zero, 8
				; LMULMAX1-NEXT: vsetvli a1, a1, e16,m1,ta,mu
				; LMULMAX1-NEXT: addi a1, a0, 16
				; LMULMAX1-NEXT: vle16.v v25, (a1)
				; LMULMAX1-NEXT: vle16.v v26, (a0)
				; LMULMAX1-NEXT: vfsgnjn.vv v25, v25, v25
				; LMULMAX1-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX1-NEXT: vse16.v v26, (a0)
				; LMULMAX1-NEXT: vse16.v v25, (a1)
				; LMULMAX1-NEXT: ret
				%a = load <16 x half>, <16 x half>* %x
				%b = fneg <16 x half> %a
				store <16 x half> %b, <16 x half>* %x
				ret void
				}

				define void @fneg_v8f32(<8 x float>* %x) {
				; LMULMAX2-LABEL: fneg_v8f32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a1, zero, 8
				; LMULMAX2-NEXT: vsetvli a1, a1, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-LABEL: fneg_v8f32:
				; LMULMAX1: # %bb.0:
				; LMULMAX1-NEXT: addi a1, zero, 4
				; LMULMAX1-NEXT: vsetvli a1, a1, e32,m1,ta,mu
				; LMULMAX1-NEXT: addi a1, a0, 16
				; LMULMAX1-NEXT: vle32.v v25, (a1)
				; LMULMAX1-NEXT: vle32.v v26, (a0)
				; LMULMAX1-NEXT: vfsgnjn.vv v25, v25, v25
				; LMULMAX1-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX1-NEXT: vse32.v v26, (a0)
				; LMULMAX1-NEXT: vse32.v v25, (a1)
				; LMULMAX1-NEXT: ret
				%a = load <8 x float>, <8 x float>* %x
				%b = fneg <8 x float> %a
				store <8 x float> %b, <8 x float>* %x
				ret void
				}

				define void @fneg_v4f64(<4 x double>* %x) {
				; LMULMAX2-LABEL: fneg_v4f64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a1, zero, 4
				; LMULMAX2-NEXT: vsetvli a1, a1, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-LABEL: fneg_v4f64:
				; LMULMAX1: # %bb.0:
				; LMULMAX1-NEXT: addi a1, zero, 2
				; LMULMAX1-NEXT: vsetvli a1, a1, e64,m1,ta,mu
				; LMULMAX1-NEXT: addi a1, a0, 16
				; LMULMAX1-NEXT: vle64.v v25, (a1)
				; LMULMAX1-NEXT: vle64.v v26, (a0)
				; LMULMAX1-NEXT: vfsgnjn.vv v25, v25, v25
				; LMULMAX1-NEXT: vfsgnjn.vv v26, v26, v26
				; LMULMAX1-NEXT: vse64.v v26, (a0)
				; LMULMAX1-NEXT: vse64.v v25, (a1)
				; LMULMAX1-NEXT: ret
				%a = load <4 x double>, <4 x double>* %x
				%b = fneg <4 x double> %a
				store <4 x double> %b, <4 x double>* %x
				ret void
				}

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=riscv32 -mattr=+experimental-v -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=2 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX2
				; RUN: llc -mtriple=riscv64 -mattr=+experimental-v -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=2 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX2
				; RUN: llc -mtriple=riscv32 -mattr=+experimental-v -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=1 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX1-RV32
				; RUN: llc -mtriple=riscv64 -mattr=+experimental-v -verify-machineinstrs -riscv-v-vector-bits-min=128 -riscv-v-fixed-length-vector-lmul-max=1 -verify-machineinstrs < %s \| FileCheck %s --check-prefixes=CHECK,LMULMAX1-RV64

				define void @add_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: add_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vadd.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = add <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @add_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: add_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vadd.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = add <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @add_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: add_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vadd.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = add <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @add_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: add_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vadd.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = add <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @sub_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: sub_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vsub.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = sub <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @sub_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: sub_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vsub.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = sub <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @sub_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: sub_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vsub.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = sub <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @sub_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: sub_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vsub.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = sub <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @mul_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: mul_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vmul.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = mul <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @mul_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: mul_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vmul.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = mul <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @mul_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: mul_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vmul.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = mul <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @mul_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: mul_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vmul.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = mul <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @and_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: and_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vand.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = and <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @and_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: and_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vand.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = and <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @and_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: and_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vand.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = and <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @and_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: and_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vand.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = and <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @or_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: or_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vor.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = or <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @or_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: or_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vor.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = or <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @or_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: or_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vor.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = or <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @or_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: or_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vor.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = or <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @xor_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: xor_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vxor.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = xor <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @xor_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: xor_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vxor.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = xor <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @xor_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: xor_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vxor.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = xor <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @xor_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: xor_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vxor.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = xor <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @lshr_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: lshr_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vsrl.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = lshr <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @lshr_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: lshr_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vsrl.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = lshr <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @lshr_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: lshr_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vsrl.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = lshr <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @lshr_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: lshr_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vsrl.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = lshr <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @ashr_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: ashr_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vsra.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = ashr <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @ashr_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: ashr_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vsra.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = ashr <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @ashr_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: ashr_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vsra.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = ashr <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @ashr_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: ashr_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vsra.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = ashr <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @shl_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: shl_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vsll.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = shl <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @shl_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: shl_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vsll.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = shl <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @shl_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: shl_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vsll.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = shl <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @shl_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: shl_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vsll.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = shl <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @sdiv_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: sdiv_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vdivu.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = sdiv <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @sdiv_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: sdiv_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vdivu.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = sdiv <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @sdiv_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: sdiv_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vdivu.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = sdiv <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @sdiv_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: sdiv_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vdivu.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = sdiv <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @srem_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: srem_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vrem.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = srem <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @srem_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: srem_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vrem.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = srem <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @srem_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: srem_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vrem.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = srem <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @srem_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: srem_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vrem.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = srem <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @udiv_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: udiv_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vdiv.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = udiv <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @udiv_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: udiv_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vdiv.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = udiv <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @udiv_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: udiv_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vdiv.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = udiv <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @udiv_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: udiv_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vdiv.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = udiv <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @urem_v16i8(<16 x i8>* %x, <16 x i8>* %y) {
				; CHECK-LABEL: urem_v16i8:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 16
				; CHECK-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; CHECK-NEXT: vle8.v v25, (a0)
				; CHECK-NEXT: vle8.v v26, (a1)
				; CHECK-NEXT: vremu.vv v25, v25, v26
				; CHECK-NEXT: vse8.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <16 x i8>, <16 x i8>* %x
				%b = load <16 x i8>, <16 x i8>* %y
				%c = urem <16 x i8> %a, %b
				store <16 x i8> %c, <16 x i8>* %x
				ret void
				}

				define void @urem_v8i16(<8 x i16>* %x, <8 x i16>* %y) {
				; CHECK-LABEL: urem_v8i16:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 8
				; CHECK-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; CHECK-NEXT: vle16.v v25, (a0)
				; CHECK-NEXT: vle16.v v26, (a1)
				; CHECK-NEXT: vremu.vv v25, v25, v26
				; CHECK-NEXT: vse16.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <8 x i16>, <8 x i16>* %x
				%b = load <8 x i16>, <8 x i16>* %y
				%c = urem <8 x i16> %a, %b
				store <8 x i16> %c, <8 x i16>* %x
				ret void
				}

				define void @urem_v4i32(<4 x i32>* %x, <4 x i32>* %y) {
				; CHECK-LABEL: urem_v4i32:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 4
				; CHECK-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; CHECK-NEXT: vle32.v v25, (a0)
				; CHECK-NEXT: vle32.v v26, (a1)
				; CHECK-NEXT: vremu.vv v25, v25, v26
				; CHECK-NEXT: vse32.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <4 x i32>, <4 x i32>* %x
				%b = load <4 x i32>, <4 x i32>* %y
				%c = urem <4 x i32> %a, %b
				store <4 x i32> %c, <4 x i32>* %x
				ret void
				}

				define void @urem_v2i64(<2 x i64>* %x, <2 x i64>* %y) {
				; CHECK-LABEL: urem_v2i64:
				; CHECK: # %bb.0:
				; CHECK-NEXT: addi a2, zero, 2
				; CHECK-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; CHECK-NEXT: vle64.v v25, (a0)
				; CHECK-NEXT: vle64.v v26, (a1)
				; CHECK-NEXT: vremu.vv v25, v25, v26
				; CHECK-NEXT: vse64.v v25, (a0)
				; CHECK-NEXT: ret
				%a = load <2 x i64>, <2 x i64>* %x
				%b = load <2 x i64>, <2 x i64>* %y
				%c = urem <2 x i64> %a, %b
				store <2 x i64> %c, <2 x i64>* %x
				ret void
				}

				define void @add_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: add_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: add_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: add_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = add <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @add_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: add_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: add_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: add_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = add <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @add_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: add_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: add_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: add_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = add <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @add_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: add_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vadd.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: add_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vadd.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: add_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vadd.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vadd.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = add <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @sub_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: sub_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sub_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sub_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = sub <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @sub_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: sub_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sub_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sub_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = sub <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @sub_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: sub_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sub_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sub_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = sub <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @sub_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: sub_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vsub.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sub_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsub.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sub_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsub.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsub.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = sub <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @mul_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: mul_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: mul_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: mul_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = mul <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @mul_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: mul_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: mul_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: mul_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = mul <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @mul_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: mul_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: mul_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: mul_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = mul <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @mul_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: mul_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vmul.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: mul_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vmul.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: mul_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vmul.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vmul.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = mul <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @and_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: and_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vand.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: and_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vand.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: and_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vand.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = and <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @and_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: and_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vand.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: and_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vand.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: and_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vand.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = and <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @and_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: and_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vand.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: and_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vand.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: and_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vand.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = and <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @and_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: and_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vand.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: and_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vand.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: and_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vand.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vand.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = and <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @or_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: or_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: or_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: or_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = or <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @or_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: or_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: or_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: or_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = or <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @or_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: or_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: or_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: or_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = or <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @or_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: or_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: or_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: or_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = or <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @xor_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: xor_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vxor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: xor_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vxor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: xor_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vxor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = xor <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @xor_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: xor_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vxor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: xor_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vxor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: xor_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vxor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = xor <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @xor_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: xor_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vxor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: xor_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vxor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: xor_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vxor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = xor <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @xor_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: xor_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vxor.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: xor_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vxor.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: xor_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vxor.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vxor.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = xor <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @lshr_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: lshr_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vsrl.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: lshr_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsrl.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: lshr_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsrl.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = lshr <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @lshr_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: lshr_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vsrl.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: lshr_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsrl.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: lshr_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsrl.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = lshr <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @lshr_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: lshr_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vsrl.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: lshr_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsrl.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: lshr_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsrl.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = lshr <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @lshr_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: lshr_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vsrl.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: lshr_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsrl.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: lshr_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsrl.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsrl.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = lshr <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @ashr_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: ashr_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vsra.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: ashr_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsra.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: ashr_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsra.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = ashr <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @ashr_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: ashr_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vsra.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: ashr_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsra.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: ashr_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsra.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = ashr <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @ashr_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: ashr_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vsra.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: ashr_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsra.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: ashr_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsra.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = ashr <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @ashr_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: ashr_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vsra.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: ashr_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsra.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: ashr_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsra.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsra.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = ashr <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @shl_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: shl_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vsll.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: shl_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsll.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: shl_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsll.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = shl <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @shl_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: shl_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vsll.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: shl_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsll.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: shl_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsll.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = shl <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @shl_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: shl_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vsll.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: shl_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsll.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: shl_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsll.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = shl <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @shl_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: shl_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vsll.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: shl_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vsll.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: shl_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vsll.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vsll.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = shl <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @sdiv_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: sdiv_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vdivu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sdiv_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdivu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sdiv_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdivu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = sdiv <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @sdiv_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: sdiv_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vdivu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sdiv_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdivu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sdiv_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdivu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = sdiv <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @sdiv_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: sdiv_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vdivu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sdiv_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdivu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sdiv_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdivu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = sdiv <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @sdiv_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: sdiv_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vdivu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: sdiv_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdivu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: sdiv_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdivu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdivu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = sdiv <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @srem_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: srem_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vrem.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: srem_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vrem.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: srem_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vrem.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = srem <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @srem_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: srem_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vrem.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: srem_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vrem.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: srem_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vrem.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = srem <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @srem_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: srem_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vrem.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: srem_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vrem.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: srem_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vrem.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = srem <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @srem_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: srem_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vrem.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: srem_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vrem.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: srem_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vrem.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vrem.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = srem <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @udiv_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: udiv_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: udiv_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: udiv_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = udiv <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @udiv_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: udiv_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: udiv_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: udiv_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = udiv <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @udiv_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: udiv_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: udiv_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: udiv_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = udiv <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @udiv_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: udiv_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vdiv.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: udiv_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vdiv.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: udiv_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vdiv.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vdiv.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = udiv <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

				define void @urem_v32i8(<32 x i8>* %x, <32 x i8>* %y) {
				; LMULMAX2-LABEL: urem_v32i8:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 32
				; LMULMAX2-NEXT: vsetvli a2, a2, e8,m2,ta,mu
				; LMULMAX2-NEXT: vle8.v v26, (a0)
				; LMULMAX2-NEXT: vle8.v v28, (a1)
				; LMULMAX2-NEXT: vremu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse8.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: urem_v32i8:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 16
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle8.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vremu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: urem_v32i8:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 16
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e8,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle8.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle8.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vremu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse8.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse8.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <32 x i8>, <32 x i8>* %x
				%b = load <32 x i8>, <32 x i8>* %y
				%c = urem <32 x i8> %a, %b
				store <32 x i8> %c, <32 x i8>* %x
				ret void
				}

				define void @urem_v16i16(<16 x i16>* %x, <16 x i16>* %y) {
				; LMULMAX2-LABEL: urem_v16i16:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 16
				; LMULMAX2-NEXT: vsetvli a2, a2, e16,m2,ta,mu
				; LMULMAX2-NEXT: vle16.v v26, (a0)
				; LMULMAX2-NEXT: vle16.v v28, (a1)
				; LMULMAX2-NEXT: vremu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse16.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: urem_v16i16:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 8
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle16.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vremu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: urem_v16i16:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 8
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e16,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle16.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle16.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vremu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse16.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse16.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <16 x i16>, <16 x i16>* %x
				%b = load <16 x i16>, <16 x i16>* %y
				%c = urem <16 x i16> %a, %b
				store <16 x i16> %c, <16 x i16>* %x
				ret void
				}

				define void @urem_v8i32(<8 x i32>* %x, <8 x i32>* %y) {
				; LMULMAX2-LABEL: urem_v8i32:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 8
				; LMULMAX2-NEXT: vsetvli a2, a2, e32,m2,ta,mu
				; LMULMAX2-NEXT: vle32.v v26, (a0)
				; LMULMAX2-NEXT: vle32.v v28, (a1)
				; LMULMAX2-NEXT: vremu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse32.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: urem_v8i32:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 4
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle32.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vremu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: urem_v8i32:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 4
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e32,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle32.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle32.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vremu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse32.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse32.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <8 x i32>, <8 x i32>* %x
				%b = load <8 x i32>, <8 x i32>* %y
				%c = urem <8 x i32> %a, %b
				store <8 x i32> %c, <8 x i32>* %x
				ret void
				}

				define void @urem_v4i64(<4 x i64>* %x, <4 x i64>* %y) {
				; LMULMAX2-LABEL: urem_v4i64:
				; LMULMAX2: # %bb.0:
				; LMULMAX2-NEXT: addi a2, zero, 4
				; LMULMAX2-NEXT: vsetvli a2, a2, e64,m2,ta,mu
				; LMULMAX2-NEXT: vle64.v v26, (a0)
				; LMULMAX2-NEXT: vle64.v v28, (a1)
				; LMULMAX2-NEXT: vremu.vv v26, v26, v28
				; LMULMAX2-NEXT: vse64.v v26, (a0)
				; LMULMAX2-NEXT: ret
				;
				; LMULMAX1-RV32-LABEL: urem_v4i64:
				; LMULMAX1-RV32: # %bb.0:
				; LMULMAX1-RV32-NEXT: addi a2, zero, 2
				; LMULMAX1-RV32-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV32-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: addi a2, a0, 16
				; LMULMAX1-RV32-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: addi a3, a1, 16
				; LMULMAX1-RV32-NEXT: vle64.v v27, (a3)
				; LMULMAX1-RV32-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV32-NEXT: vremu.vv v26, v26, v27
				; LMULMAX1-RV32-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV32-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV32-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV32-NEXT: ret
				;
				; LMULMAX1-RV64-LABEL: urem_v4i64:
				; LMULMAX1-RV64: # %bb.0:
				; LMULMAX1-RV64-NEXT: addi a2, zero, 2
				; LMULMAX1-RV64-NEXT: vsetvli a2, a2, e64,m1,ta,mu
				; LMULMAX1-RV64-NEXT: vle64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: addi a2, a1, 16
				; LMULMAX1-RV64-NEXT: vle64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: addi a2, a0, 16
				; LMULMAX1-RV64-NEXT: vle64.v v27, (a2)
				; LMULMAX1-RV64-NEXT: vle64.v v28, (a1)
				; LMULMAX1-RV64-NEXT: vremu.vv v26, v27, v26
				; LMULMAX1-RV64-NEXT: vremu.vv v25, v25, v28
				; LMULMAX1-RV64-NEXT: vse64.v v25, (a0)
				; LMULMAX1-RV64-NEXT: vse64.v v26, (a2)
				; LMULMAX1-RV64-NEXT: ret
				%a = load <4 x i64>, <4 x i64>* %x
				%b = load <4 x i64>, <4 x i64>* %y
				%c = urem <4 x i64> %a, %b
				store <4 x i64> %c, <4 x i64>* %x
				ret void
				}

This is an archive of the discontinued LLVM Phabricator instance.

[RISCV] Add initial support for converting fixed vectors to scalable vectors during lowering to use RVV instructions.ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 320600

llvm/lib/Target/RISCV/RISCVISelLowering.h

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

llvm/lib/Target/RISCV/RISCVInstrInfoVPseudos.td

llvm/lib/Target/RISCV/RISCVInstrInfoVSDPatterns.td

llvm/lib/Target/RISCV/RISCVInstrInfoVVLPatterns.td

llvm/lib/Target/RISCV/RISCVSubtarget.h

llvm/lib/Target/RISCV/RISCVSubtarget.cpp

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int.ll

[RISCV] Add initial support for converting fixed vectors to scalable vectors during lowering to use RVV instructions.
ClosedPublic