This is an archive of the discontinued LLVM Phabricator instance.

[RISCV] Use vmv.v.i for insertion into lane 0 of undef vector when profitable
ClosedPublic

Authored by reames on Dec 8 2022, 10:00 AM.

Download Raw Diff

Details

Reviewers

craig.topper
• pcwang-thead
kito-cheng
asb

Commits

rG8adde6941a4b: [RISCV] Use vmv.v.i for insertion into lane 0 of undef vector when profitable

Summary

If we're initializing lane 0 of an undef vector, we can optionally write to other lanes of the vector. Doing so may require additional work, so we don't want to e.g. always use a splat. However, since we don't have an immediate form of vmv.s.x it's useful to use a vmv.v.i if the work required is expected to be equal in practice.

At the moment, the new utility is only used by one case in INSERT_VECTOR_ELT lowering. My expectation is that we will reuse this in a couple other places, but each of those deserve individual review.

This change is inspired by D137530, but is not directly related to it. I vaguely remember we discussed the tradeoffs of using vmv.v.i in another recent review, but couldn't find it.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

reames created this revision.Dec 8 2022, 10:00 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 8 2022, 10:00 AM

Herald added subscribers: sunshaoce, VincentWu, StephenFan and 29 others. · View Herald Transcript

reames requested review of this revision.Dec 8 2022, 10:00 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 8 2022, 10:00 AM

Herald added subscribers: eopXD, MaskRay. · View Herald Transcript

reames mentioned this in D139656: [RISCV] Reuse VL (if non-zero) when building single element vector for start of reduction chain.Dec 8 2022, 11:32 AM

reames added a child revision: D139656: [RISCV] Reuse VL (if non-zero) when building single element vector for start of reduction chain.Dec 8 2022, 11:36 AM

craig.topper added inline comments.Dec 8 2022, 11:45 AM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
2840	insrt -> insert
2841	This might not be strictly true on an architecture with data path width less than VLEN. If SEW fits within the datapath length, vmv.x.s could be done in less than cycles than an LMUL=1 vmv.v.i. And LMUL=2 vmv.v.i would be 4x or more cycles than than vmv.x.s in such an architecture. But I'm not sure how big of an issue that is.

reames added inline comments.Dec 8 2022, 1:10 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
2841	While I agree with you in principle, I think we can safely punt this to the future. Our cost modeling for vector operations considers splats linear in LMUL. When we change that, we can change this location as well.

Address review comments

• pcwang-thead added inline comments.Dec 8 2022, 7:10 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
2838	Apart from craig's concern about μ-arch implementation, LMUL>1 may increase register pressure so I limited it to LMUL<=1 in my patch, though I haven't assessed the impact of this yet :-).

Harbormaster completed remote builds in B202073: Diff 481431.Dec 8 2022, 7:27 PM

Move back to LMUL1. The regalloc effect of LMUL2 isn't a point I'd considered, and we can switch back in a separate patch which independent review if it appears worthwhile.

Harbormaster completed remote builds in B202237: Diff 481654.Dec 9 2022, 9:18 AM

LGTM
@craig.topper Any other thoughts?

This revision is now accepted and ready to land.Dec 12 2022, 1:02 AM

This revision was landed with ongoing or failed builds.Dec 13 2022, 8:03 AM

Closed by commit rG8adde6941a4b: [RISCV] Use vmv.v.i for insertion into lane 0 of undef vector when profitable (authored by reames). · Explain Why

This revision was automatically updated to reflect the committed changes.

reames added a commit: rG8adde6941a4b: [RISCV] Use vmv.v.i for insertion into lane 0 of undef vector when profitable.

Revision Contents

Path

Size

llvm/

lib/

Target/

RISCV/

RISCVISelLowering.cpp

57 lines

test/

CodeGen/

RISCV/

rvv/

fixed-vectors-extract.ll

6 lines

fixed-vectors-int-buildvec.ll

94 lines

fixed-vectors-int-shuffles.ll

15 lines

fixed-vectors-int.ll

45 lines

fixed-vectors-stepvector.ll

15 lines

Diff 482490

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,794 Lines • ▼ Show 20 Lines	static SDValue lowerScalarSplat(SDValue Passthru, SDValue Scalar, SDValue VL,
if (isOneConstant(VL) && isNullConstant(Scalar))		if (isOneConstant(VL) && isNullConstant(Scalar))
return DAG.getNode(RISCVISD::VMV_S_X_VL, DL, VT, Passthru,		return DAG.getNode(RISCVISD::VMV_S_X_VL, DL, VT, Passthru,
DAG.getConstant(0, DL, XLenVT), VL);		DAG.getConstant(0, DL, XLenVT), VL);

// Otherwise use the more complicated splatting algorithm.		// Otherwise use the more complicated splatting algorithm.
return splatSplitI64WithVL(DL, VT, Passthru, Scalar, VL, DAG);		return splatSplitI64WithVL(DL, VT, Passthru, Scalar, VL, DAG);
}		}

		static MVT getLMUL1VT(MVT VT) {
		assert(VT.getVectorElementType().getSizeInBits() <= 64 &&
		"Unexpected vector MVT");
		return MVT::getScalableVectorVT(
		VT.getVectorElementType(),
		RISCV::RVVBitsPerBlock / VT.getVectorElementType().getSizeInBits());
		}

		// This function lowers an insert of a scalar operand Scalar into lane
		// 0 of the vector regardless of the value of VL. The contents of the
		// remaining lanes of the result vector are unspecified. VL is assumed
		// to be non-zero.
		static SDValue lowerScalarInsert(SDValue Scalar, SDValue VL,
		MVT VT, SDLoc DL, SelectionDAG &DAG,
		const RISCVSubtarget &Subtarget) {
		SDValue Passthru = DAG.getUNDEF(VT);
		if (VT.isFloatingPoint())
		// TODO: Use vmv.v.i for appropriate constants
		return DAG.getNode(RISCVISD::VFMV_S_F_VL, DL, VT, Passthru, Scalar, VL);

		// Avoid the tricky legalization cases by falling back to using the
		// splat code which already handles it gracefully.
		const MVT XLenVT = Subtarget.getXLenVT();
		if (!Scalar.getValueType().bitsLE(XLenVT))
		return lowerScalarSplat(DAG.getUNDEF(VT), Scalar,
		DAG.getConstant(1, DL, XLenVT),
		VT, DL, DAG, Subtarget);

		// If the operand is a constant, sign extend to increase our chances
		// of being able to use a .vi instruction. ANY_EXTEND would become a
		// a zero extend and the simm5 check in isel would fail.
		// FIXME: Should we ignore the upper bits in isel instead?
		unsigned ExtOpc =
		isa<ConstantSDNode>(Scalar) ? ISD::SIGN_EXTEND : ISD::ANY_EXTEND;
		Scalar = DAG.getNode(ExtOpc, DL, XLenVT, Scalar);
		// We use a vmv.v.i if possible. We limit this to LMUL1. LMUL2 or
		pcwang-theadUnsubmitted Not Done Reply Inline Actions Apart from craig's concern about μ-arch implementation, LMUL>1 may increase register pressure so I limited it to LMUL<=1 in my patch, though I haven't assessed the impact of this yet :-). pcwang-thead: Apart from craig's concern about μ-arch implementation, LMUL>1 may increase register pressure…
		// higher would involve overly constraining the register allocator for
		// no purpose.
		craig.topperUnsubmitted Not Done Reply Inline Actions insrt -> insert craig.topper: insrt -> insert
		if (ConstantSDNode *Const = dyn_cast<ConstantSDNode>(Scalar)) {
		craig.topperUnsubmitted Not Done Reply Inline Actions This might not be strictly true on an architecture with data path width less than VLEN. If SEW fits within the datapath length, vmv.x.s could be done in less than cycles than an LMUL=1 vmv.v.i. And LMUL=2 vmv.v.i would be 4x or more cycles than than vmv.x.s in such an architecture. But I'm not sure how big of an issue that is. craig.topper: This might not be strictly true on an architecture with data path width less than VLEN. If SEW…
		reamesAuthorUnsubmitted Done Reply Inline Actions While I agree with you in principle, I think we can safely punt this to the future. Our cost modeling for vector operations considers splats linear in LMUL. When we change that, we can change this location as well. reames: While I agree with you in principle, I think we can safely punt this to the future. Our cost…
		if (!isNullConstant(Scalar) && isInt<5>(Const->getSExtValue()) &&
		VT.bitsLE(getLMUL1VT(VT)))
		return DAG.getNode(RISCVISD::VMV_V_X_VL, DL, VT, Passthru, Scalar, VL);
		}
		return DAG.getNode(RISCVISD::VMV_S_X_VL, DL, VT, Passthru, Scalar, VL);
		}

static bool isInterleaveShuffle(ArrayRef<int> Mask, MVT VT, bool &SwapSources,		static bool isInterleaveShuffle(ArrayRef<int> Mask, MVT VT, bool &SwapSources,
const RISCVSubtarget &Subtarget) {		const RISCVSubtarget &Subtarget) {
// We need to be able to widen elements to the next larger integer type.		// We need to be able to widen elements to the next larger integer type.
if (VT.getScalarSizeInBits() >= Subtarget.getELEN())		if (VT.getScalarSizeInBits() >= Subtarget.getELEN())
return false;		return false;

int Size = Mask.size();		int Size = Mask.size();
assert(Size == (int)VT.getVectorNumElements() && "Unexpected mask size");		assert(Size == (int)VT.getVectorNumElements() && "Unexpected mask size");
▲ Show 20 Lines • Show All 2,279 Lines • ▼ Show 20 Lines	if (IsLegalInsert) {
unsigned Opc =		unsigned Opc =
VecVT.isFloatingPoint() ? RISCVISD::VFMV_S_F_VL : RISCVISD::VMV_S_X_VL;		VecVT.isFloatingPoint() ? RISCVISD::VFMV_S_F_VL : RISCVISD::VMV_S_X_VL;
if (isNullConstant(Idx)) {		if (isNullConstant(Idx)) {
Vec = DAG.getNode(Opc, DL, ContainerVT, Vec, Val, VL);		Vec = DAG.getNode(Opc, DL, ContainerVT, Vec, Val, VL);
if (!VecVT.isFixedLengthVector())		if (!VecVT.isFixedLengthVector())
return Vec;		return Vec;
return convertFromScalableVector(VecVT, Vec, DAG, Subtarget);		return convertFromScalableVector(VecVT, Vec, DAG, Subtarget);
}		}
ValInVec =		ValInVec = lowerScalarInsert(Val, VL, ContainerVT, DL, DAG, Subtarget);
DAG.getNode(Opc, DL, ContainerVT, DAG.getUNDEF(ContainerVT), Val, VL);
} else {		} else {
// On RV32, i64-element vectors must be specially handled to place the		// On RV32, i64-element vectors must be specially handled to place the
// value at element 0, by using two vslide1down instructions in sequence on		// value at element 0, by using two vslide1down instructions in sequence on
// the i32 split lo/hi value. Use an equivalently-sized i32 vector for		// the i32 split lo/hi value. Use an equivalently-sized i32 vector for
// this.		// this.
SDValue One = DAG.getConstant(1, DL, XLenVT);		SDValue One = DAG.getConstant(1, DL, XLenVT);
SDValue ValLo = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Val, Zero);		SDValue ValLo = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Val, Zero);
SDValue ValHi = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Val, One);		SDValue ValHi = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Val, One);
▲ Show 20 Lines • Show All 573 Lines • ▼ Show 20 Lines	return DAG.getMemIntrinsicNode(ISD::INTRINSIC_VOID, DL, Store->getVTList(),
Ops, Store->getMemoryVT(),		Ops, Store->getMemoryVT(),
Store->getMemOperand());		Store->getMemOperand());
}		}
}		}

return SDValue();		return SDValue();
}		}

static MVT getLMUL1VT(MVT VT) {
assert(VT.getVectorElementType().getSizeInBits() <= 64 &&
"Unexpected vector MVT");
return MVT::getScalableVectorVT(
VT.getVectorElementType(),
RISCV::RVVBitsPerBlock / VT.getVectorElementType().getSizeInBits());
}

static unsigned getRVVReductionOp(unsigned ISDOpcode) {		static unsigned getRVVReductionOp(unsigned ISDOpcode) {
switch (ISDOpcode) {		switch (ISDOpcode) {
default:		default:
llvm_unreachable("Unhandled reduction");		llvm_unreachable("Unhandled reduction");
case ISD::VECREDUCE_ADD:		case ISD::VECREDUCE_ADD:
return RISCVISD::VECREDUCE_ADD_VL;		return RISCVISD::VECREDUCE_ADD_VL;
case ISD::VECREDUCE_UMAX:		case ISD::VECREDUCE_UMAX:
return RISCVISD::VECREDUCE_UMAX_VL;		return RISCVISD::VECREDUCE_UMAX_VL;
▲ Show 20 Lines • Show All 7,858 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-extract.ll

Show First 20 Lines • Show All 690 Lines • ▼ Show 20 Lines	; RV64-NEXT: ret
%bo = mul <4 x i32> %x, <i32 11, i32 12, i32 13, i32 14>		%bo = mul <4 x i32> %x, <i32 11, i32 12, i32 13, i32 14>
%ext = extractelement <4 x i32> %bo, i32 2		%ext = extractelement <4 x i32> %bo, i32 2
ret i32 %ext		ret i32 %ext
}		}

define i32 @extractelt_sdiv_v4i32(<4 x i32> %x) {		define i32 @extractelt_sdiv_v4i32(<4 x i32> %x) {
; RV32NOM-LABEL: extractelt_sdiv_v4i32:		; RV32NOM-LABEL: extractelt_sdiv_v4i32:
; RV32NOM: # %bb.0:		; RV32NOM: # %bb.0:
; RV32NOM-NEXT: li a0, -1
; RV32NOM-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32NOM-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32NOM-NEXT: vmv.s.x v9, a0		; RV32NOM-NEXT: vmv.v.i v9, -1
; RV32NOM-NEXT: vmv.v.i v10, 0		; RV32NOM-NEXT: vmv.v.i v10, 0
; RV32NOM-NEXT: vsetvli zero, zero, e32, m1, tu, ma		; RV32NOM-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; RV32NOM-NEXT: vslideup.vi v10, v9, 3		; RV32NOM-NEXT: vslideup.vi v10, v9, 3
; RV32NOM-NEXT: vsetvli zero, zero, e32, m1, ta, ma		; RV32NOM-NEXT: vsetvli zero, zero, e32, m1, ta, ma
; RV32NOM-NEXT: lui a0, %hi(.LCPI38_0)		; RV32NOM-NEXT: lui a0, %hi(.LCPI38_0)
; RV32NOM-NEXT: addi a0, a0, %lo(.LCPI38_0)		; RV32NOM-NEXT: addi a0, a0, %lo(.LCPI38_0)
; RV32NOM-NEXT: vle32.v v9, (a0)		; RV32NOM-NEXT: vle32.v v9, (a0)
; RV32NOM-NEXT: lui a0, %hi(.LCPI38_1)		; RV32NOM-NEXT: lui a0, %hi(.LCPI38_1)
Show All 20 Lines
; RV32M-NEXT: mulh a0, a0, a1		; RV32M-NEXT: mulh a0, a0, a1
; RV32M-NEXT: srli a1, a0, 31		; RV32M-NEXT: srli a1, a0, 31
; RV32M-NEXT: srai a0, a0, 2		; RV32M-NEXT: srai a0, a0, 2
; RV32M-NEXT: add a0, a0, a1		; RV32M-NEXT: add a0, a0, a1
; RV32M-NEXT: ret		; RV32M-NEXT: ret
;		;
; RV64-LABEL: extractelt_sdiv_v4i32:		; RV64-LABEL: extractelt_sdiv_v4i32:
; RV64: # %bb.0:		; RV64: # %bb.0:
; RV64-NEXT: li a0, -1
; RV64-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV64-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV64-NEXT: vmv.s.x v9, a0		; RV64-NEXT: vmv.v.i v9, -1
; RV64-NEXT: vmv.v.i v10, 0		; RV64-NEXT: vmv.v.i v10, 0
; RV64-NEXT: vsetvli zero, zero, e32, m1, tu, ma		; RV64-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; RV64-NEXT: vslideup.vi v10, v9, 3		; RV64-NEXT: vslideup.vi v10, v9, 3
; RV64-NEXT: vsetvli zero, zero, e32, m1, ta, ma		; RV64-NEXT: vsetvli zero, zero, e32, m1, ta, ma
; RV64-NEXT: lui a0, %hi(.LCPI38_0)		; RV64-NEXT: lui a0, %hi(.LCPI38_0)
; RV64-NEXT: addi a0, a0, %lo(.LCPI38_0)		; RV64-NEXT: addi a0, a0, %lo(.LCPI38_0)
; RV64-NEXT: vle32.v v9, (a0)		; RV64-NEXT: vle32.v v9, (a0)
; RV64-NEXT: lui a0, %hi(.LCPI38_1)		; RV64-NEXT: lui a0, %hi(.LCPI38_1)
▲ Show 20 Lines • Show All 118 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int-buildvec.ll

Show First 20 Lines • Show All 185 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
store <4 x i32> <i32 -3, i32 undef, i32 undef, i32 -12>, <4 x i32>* %z3		store <4 x i32> <i32 -3, i32 undef, i32 undef, i32 -12>, <4 x i32>* %z3
ret void		ret void
}		}

; FIXME: RV32 doesn't catch this pattern due to BUILD_VECTOR legalization.		; FIXME: RV32 doesn't catch this pattern due to BUILD_VECTOR legalization.
define <4 x i64> @buildvec_vid_step1_add0_v4i64() {		define <4 x i64> @buildvec_vid_step1_add0_v4i64() {
; RV32-LABEL: buildvec_vid_step1_add0_v4i64:		; RV32-LABEL: buildvec_vid_step1_add0_v4i64:
; RV32: # %bb.0:		; RV32: # %bb.0:
; RV32-NEXT: li a0, 1
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vmv.s.x v9, a0		; RV32-NEXT: vmv.v.i v9, 1
; RV32-NEXT: vmv.v.i v8, 0		; RV32-NEXT: vmv.v.i v8, 0
; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32-NEXT: vslideup.vi v8, v9, 2		; RV32-NEXT: vslideup.vi v8, v9, 2
; RV32-NEXT: lui a0, %hi(.LCPI12_0)		; RV32-NEXT: lui a0, %hi(.LCPI12_0)
; RV32-NEXT: addi a0, a0, %lo(.LCPI12_0)		; RV32-NEXT: addi a0, a0, %lo(.LCPI12_0)
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vle32.v v9, (a0)		; RV32-NEXT: vle32.v v9, (a0)
; RV32-NEXT: ret		; RV32-NEXT: ret
;		;
; RV64-LABEL: buildvec_vid_step1_add0_v4i64:		; RV64-LABEL: buildvec_vid_step1_add0_v4i64:
; RV64: # %bb.0:		; RV64: # %bb.0:
; RV64-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV64-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV64-NEXT: vid.v v8		; RV64-NEXT: vid.v v8
; RV64-NEXT: vadd.vi v9, v8, 2		; RV64-NEXT: vadd.vi v9, v8, 2
; RV64-NEXT: ret		; RV64-NEXT: ret
ret <4 x i64> <i64 0, i64 1, i64 2, i64 3>		ret <4 x i64> <i64 0, i64 1, i64 2, i64 3>
}		}

define <4 x i64> @buildvec_vid_step2_add0_v4i64() {		define <4 x i64> @buildvec_vid_step2_add0_v4i64() {
; RV32-LABEL: buildvec_vid_step2_add0_v4i64:		; RV32-LABEL: buildvec_vid_step2_add0_v4i64:
; RV32: # %bb.0:		; RV32: # %bb.0:
; RV32-NEXT: li a0, 2
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vmv.s.x v9, a0		; RV32-NEXT: vmv.v.i v9, 2
; RV32-NEXT: vmv.v.i v8, 0		; RV32-NEXT: vmv.v.i v8, 0
; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32-NEXT: vslideup.vi v8, v9, 2		; RV32-NEXT: vslideup.vi v8, v9, 2
; RV32-NEXT: lui a0, %hi(.LCPI13_0)		; RV32-NEXT: lui a0, %hi(.LCPI13_0)
; RV32-NEXT: addi a0, a0, %lo(.LCPI13_0)		; RV32-NEXT: addi a0, a0, %lo(.LCPI13_0)
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vle32.v v9, (a0)		; RV32-NEXT: vle32.v v9, (a0)
; RV32-NEXT: ret		; RV32-NEXT: ret
▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma
; CHECK-NEXT: vse16.v v8, (a0)		; CHECK-NEXT: vse16.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <4 x i16> <i16 -127, i16 -1, i16 -127, i16 -1>, <4 x i16>* %x		store <4 x i16> <i16 -127, i16 -1, i16 -127, i16 -1>, <4 x i16>* %x
ret void		ret void
}		}

define void @buildvec_vid_step1o2_v4i32(<4 x i32>* %z0, <4 x i32>* %z1, <4 x i32>* %z2, <4 x i32>* %z3, <4 x i32>* %z4, <4 x i32>* %z5, <4 x i32>* %z6) {		define void @buildvec_vid_step1o2_v4i32(<4 x i32>* %z0, <4 x i32>* %z1, <4 x i32>* %z2, <4 x i32>* %z3, <4 x i32>* %z4, <4 x i32>* %z5, <4 x i32>* %z6) {
; RV32-LABEL: buildvec_vid_step1o2_v4i32:		; CHECK-LABEL: buildvec_vid_step1o2_v4i32:
; RV32: # %bb.0:		; CHECK: # %bb.0:
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vid.v v8		; CHECK-NEXT: vid.v v8
; RV32-NEXT: vsrl.vi v8, v8, 1		; CHECK-NEXT: vsrl.vi v8, v8, 1
; RV32-NEXT: vse32.v v8, (a0)		; CHECK-NEXT: vse32.v v8, (a0)
; RV32-NEXT: vse32.v v8, (a1)		; CHECK-NEXT: vse32.v v8, (a1)
; RV32-NEXT: vmv.v.i v9, 1		; CHECK-NEXT: vse32.v v8, (a2)
; RV32-NEXT: vse32.v v8, (a2)		; CHECK-NEXT: vse32.v v8, (a3)
; RV32-NEXT: vse32.v v8, (a3)		; CHECK-NEXT: vse32.v v8, (a4)
; RV32-NEXT: vse32.v v8, (a4)		; CHECK-NEXT: vmv.s.x v8, zero
; RV32-NEXT: vmv.s.x v8, zero		; CHECK-NEXT: vmv.v.i v9, 1
; RV32-NEXT: vsetivli zero, 2, e32, m1, tu, ma		; CHECK-NEXT: vsetivli zero, 2, e32, m1, tu, ma
; RV32-NEXT: vslideup.vi v9, v8, 1		; CHECK-NEXT: vmv1r.v v10, v9
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; CHECK-NEXT: vslideup.vi v10, v8, 1
; RV32-NEXT: vse32.v v9, (a5)		; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: li a0, 1		; CHECK-NEXT: vse32.v v10, (a5)
; RV32-NEXT: vmv.s.x v8, a0		; CHECK-NEXT: vmv.v.i v8, 0
; RV32-NEXT: vmv.v.i v9, 0		; CHECK-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; RV32-NEXT: vsetvli zero, zero, e32, m1, tu, ma		; CHECK-NEXT: vslideup.vi v8, v9, 3
; RV32-NEXT: vslideup.vi v9, v8, 3		; CHECK-NEXT: vse32.v v8, (a6)
; RV32-NEXT: vse32.v v9, (a6)		; CHECK-NEXT: ret
; RV32-NEXT: ret
;
; RV64-LABEL: buildvec_vid_step1o2_v4i32:
; RV64: # %bb.0:
; RV64-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV64-NEXT: vid.v v8
; RV64-NEXT: vsrl.vi v8, v8, 1
; RV64-NEXT: vse32.v v8, (a0)
; RV64-NEXT: vmv.v.i v9, 1
; RV64-NEXT: vse32.v v8, (a1)
; RV64-NEXT: vse32.v v8, (a2)
; RV64-NEXT: vse32.v v8, (a3)
; RV64-NEXT: vse32.v v8, (a4)
; RV64-NEXT: vmv.s.x v8, zero
; RV64-NEXT: vsetivli zero, 2, e32, m1, tu, ma
; RV64-NEXT: vslideup.vi v9, v8, 1
; RV64-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV64-NEXT: vse32.v v9, (a5)
; RV64-NEXT: li a0, 1
; RV64-NEXT: vmv.s.x v8, a0
; RV64-NEXT: vmv.v.i v9, 0
; RV64-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; RV64-NEXT: vslideup.vi v9, v8, 3
; RV64-NEXT: vse32.v v9, (a6)
; RV64-NEXT: ret
store <4 x i32> <i32 0, i32 0, i32 1, i32 1>, <4 x i32>* %z0		store <4 x i32> <i32 0, i32 0, i32 1, i32 1>, <4 x i32>* %z0
store <4 x i32> <i32 0, i32 0, i32 1, i32 undef>, <4 x i32>* %z1		store <4 x i32> <i32 0, i32 0, i32 1, i32 undef>, <4 x i32>* %z1
store <4 x i32> <i32 0, i32 undef, i32 1, i32 1>, <4 x i32>* %z2		store <4 x i32> <i32 0, i32 undef, i32 1, i32 1>, <4 x i32>* %z2
store <4 x i32> <i32 undef, i32 0, i32 undef, i32 1>, <4 x i32>* %z3		store <4 x i32> <i32 undef, i32 0, i32 undef, i32 1>, <4 x i32>* %z3
store <4 x i32> <i32 0, i32 undef, i32 1, i32 undef>, <4 x i32>* %z4		store <4 x i32> <i32 0, i32 undef, i32 1, i32 undef>, <4 x i32>* %z4
; We don't catch this one		; We don't catch this one
store <4 x i32> <i32 undef, i32 0, i32 1, i32 1>, <4 x i32>* %z5		store <4 x i32> <i32 undef, i32 0, i32 1, i32 1>, <4 x i32>* %z5
; We catch this one but as VID/3 rather than VID/2		; We catch this one but as VID/3 rather than VID/2
store <4 x i32> <i32 0, i32 0, i32 undef, i32 1>, <4 x i32>* %z6		store <4 x i32> <i32 0, i32 0, i32 undef, i32 1>, <4 x i32>* %z6
ret void		ret void
}		}

define void @buildvec_vid_step1o2_add3_v4i16(<4 x i16>* %z0, <4 x i16>* %z1, <4 x i16>* %z2, <4 x i16>* %z3, <4 x i16>* %z4, <4 x i16>* %z5, <4 x i16>* %z6) {		define void @buildvec_vid_step1o2_add3_v4i16(<4 x i16>* %z0, <4 x i16>* %z1, <4 x i16>* %z2, <4 x i16>* %z3, <4 x i16>* %z4, <4 x i16>* %z5, <4 x i16>* %z6) {
; CHECK-LABEL: buildvec_vid_step1o2_add3_v4i16:		; CHECK-LABEL: buildvec_vid_step1o2_add3_v4i16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma
; CHECK-NEXT: vid.v v8		; CHECK-NEXT: vid.v v8
; CHECK-NEXT: vsrl.vi v8, v8, 1		; CHECK-NEXT: vsrl.vi v8, v8, 1
; CHECK-NEXT: vadd.vi v8, v8, 3		; CHECK-NEXT: vadd.vi v8, v8, 3
; CHECK-NEXT: vse16.v v8, (a0)		; CHECK-NEXT: vse16.v v8, (a0)
; CHECK-NEXT: vmv.v.i v9, 3
; CHECK-NEXT: vse16.v v8, (a1)		; CHECK-NEXT: vse16.v v8, (a1)
; CHECK-NEXT: vse16.v v8, (a2)		; CHECK-NEXT: vse16.v v8, (a2)
; CHECK-NEXT: vse16.v v8, (a3)		; CHECK-NEXT: vse16.v v8, (a3)
; CHECK-NEXT: vse16.v v8, (a4)		; CHECK-NEXT: vse16.v v8, (a4)
; CHECK-NEXT: li a0, 3		; CHECK-NEXT: vmv.v.i v8, 3
; CHECK-NEXT: vmv.s.x v8, a0		; CHECK-NEXT: vmv.v.i v9, 4
; CHECK-NEXT: vmv.v.i v10, 4
; CHECK-NEXT: vsetivli zero, 2, e16, mf2, tu, ma		; CHECK-NEXT: vsetivli zero, 2, e16, mf2, tu, ma
		; CHECK-NEXT: vmv1r.v v10, v9
; CHECK-NEXT: vslideup.vi v10, v8, 1		; CHECK-NEXT: vslideup.vi v10, v8, 1
; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e16, mf2, tu, ma
; CHECK-NEXT: vse16.v v10, (a5)		; CHECK-NEXT: vse16.v v10, (a5)
; CHECK-NEXT: li a0, 4		; CHECK-NEXT: vslideup.vi v8, v9, 3
; CHECK-NEXT: vmv.s.x v8, a0		; CHECK-NEXT: vse16.v v8, (a6)
; CHECK-NEXT: vsetvli zero, zero, e16, mf2, tu, ma
; CHECK-NEXT: vslideup.vi v9, v8, 3
; CHECK-NEXT: vse16.v v9, (a6)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <4 x i16> <i16 3, i16 3, i16 4, i16 4>, <4 x i16>* %z0		store <4 x i16> <i16 3, i16 3, i16 4, i16 4>, <4 x i16>* %z0
store <4 x i16> <i16 3, i16 3, i16 4, i16 undef>, <4 x i16>* %z1		store <4 x i16> <i16 3, i16 3, i16 4, i16 undef>, <4 x i16>* %z1
store <4 x i16> <i16 3, i16 undef, i16 4, i16 4>, <4 x i16>* %z2		store <4 x i16> <i16 3, i16 undef, i16 4, i16 4>, <4 x i16>* %z2
store <4 x i16> <i16 undef, i16 3, i16 undef, i16 4>, <4 x i16>* %z3		store <4 x i16> <i16 undef, i16 3, i16 undef, i16 4>, <4 x i16>* %z3
store <4 x i16> <i16 3, i16 undef, i16 4, i16 undef>, <4 x i16>* %z4		store <4 x i16> <i16 3, i16 undef, i16 4, i16 undef>, <4 x i16>* %z4
; We don't catch this one		; We don't catch this one
store <4 x i16> <i16 undef, i16 3, i16 4, i16 4>, <4 x i16>* %z5		store <4 x i16> <i16 undef, i16 3, i16 4, i16 4>, <4 x i16>* %z5
▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
ret <4 x i8> <i8 3, i8 3, i8 1, i8 0>		ret <4 x i8> <i8 3, i8 3, i8 1, i8 0>
}		}

; We match this as a VID sequence (-3 / 8) + 5 but choose not to introduce		; We match this as a VID sequence (-3 / 8) + 5 but choose not to introduce
; division to compute it.		; division to compute it.
define <16 x i8> @buildvec_not_vid_v16i8() {		define <16 x i8> @buildvec_not_vid_v16i8() {
; CHECK-LABEL: buildvec_not_vid_v16i8:		; CHECK-LABEL: buildvec_not_vid_v16i8:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: li a0, 3
; CHECK-NEXT: vsetivli zero, 16, e8, m1, ta, ma		; CHECK-NEXT: vsetivli zero, 16, e8, m1, ta, ma
; CHECK-NEXT: vmv.s.x v9, a0		; CHECK-NEXT: vmv.v.i v9, 3
; CHECK-NEXT: vmv.v.i v8, 0		; CHECK-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vsetivli zero, 7, e8, m1, tu, ma		; CHECK-NEXT: vsetivli zero, 7, e8, m1, tu, ma
; CHECK-NEXT: vslideup.vi v8, v9, 6		; CHECK-NEXT: vslideup.vi v8, v9, 6
; CHECK-NEXT: ret		; CHECK-NEXT: ret
ret <16 x i8> <i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 3, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0>		ret <16 x i8> <i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 3, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0>
}		}

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int-shuffles.ll

	Show First 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	; RV64-NEXT: ret			; RV64-NEXT: ret
	%s = shufflevector <8 x i64> poison, <8 x i64> %x, <8 x i32> <i32 9, i32 10, i32 8, i32 9, i32 15, i32 8, i32 8, i32 11>			%s = shufflevector <8 x i64> poison, <8 x i64> %x, <8 x i32> <i32 9, i32 10, i32 8, i32 9, i32 15, i32 8, i32 8, i32 11>
	ret <8 x i64> %s			ret <8 x i64> %s
	}			}

	define <8 x i64> @vrgather_shuffle_vv_v8i64(<8 x i64> %x, <8 x i64> %y) {			define <8 x i64> @vrgather_shuffle_vv_v8i64(<8 x i64> %x, <8 x i64> %y) {
	; RV32-LABEL: vrgather_shuffle_vv_v8i64:			; RV32-LABEL: vrgather_shuffle_vv_v8i64:
	; RV32: # %bb.0:			; RV32: # %bb.0:
	; RV32-NEXT: li a0, 5
	; RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma			; RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma
	; RV32-NEXT: vmv.s.x v16, a0			; RV32-NEXT: vmv.v.i v16, 5
	; RV32-NEXT: vmv.v.i v20, 2			; RV32-NEXT: vmv.v.i v20, 2
	; RV32-NEXT: vsetvli zero, zero, e16, m1, tu, ma			; RV32-NEXT: vsetvli zero, zero, e16, m1, tu, ma
	; RV32-NEXT: vslideup.vi v20, v16, 7			; RV32-NEXT: vslideup.vi v20, v16, 7
	; RV32-NEXT: lui a0, %hi(.LCPI11_0)			; RV32-NEXT: lui a0, %hi(.LCPI11_0)
	; RV32-NEXT: addi a0, a0, %lo(.LCPI11_0)			; RV32-NEXT: addi a0, a0, %lo(.LCPI11_0)
	; RV32-NEXT: vsetvli zero, zero, e64, m4, ta, mu			; RV32-NEXT: vsetvli zero, zero, e64, m4, ta, mu
	; RV32-NEXT: vle16.v v21, (a0)			; RV32-NEXT: vle16.v v21, (a0)
	; RV32-NEXT: li a0, 164			; RV32-NEXT: li a0, 164
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%shuff = shufflevector <8 x i8> %v, <8 x i8> poison, <8 x i32> <i32 2, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shuff = shufflevector <8 x i8> %v, <8 x i8> poison, <8 x i32> <i32 2, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	ret <8 x i8> %shuff			ret <8 x i8> %shuff
	}			}

	define <8 x i8> @splat_ve4_ins_i1ve3(<8 x i8> %v) {			define <8 x i8> @splat_ve4_ins_i1ve3(<8 x i8> %v) {
	; CHECK-LABEL: splat_ve4_ins_i1ve3:			; CHECK-LABEL: splat_ve4_ins_i1ve3:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: li a0, 3
	; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; CHECK-NEXT: vmv.s.x v9, a0			; CHECK-NEXT: vmv.v.i v9, 3
	; CHECK-NEXT: vmv.v.i v10, 4			; CHECK-NEXT: vmv.v.i v10, 4
	; CHECK-NEXT: vsetivli zero, 2, e8, mf2, tu, ma			; CHECK-NEXT: vsetivli zero, 2, e8, mf2, tu, ma
	; CHECK-NEXT: vslideup.vi v10, v9, 1			; CHECK-NEXT: vslideup.vi v10, v9, 1
	; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; CHECK-NEXT: vrgather.vv v9, v8, v10			; CHECK-NEXT: vrgather.vv v9, v8, v10
	; CHECK-NEXT: vmv1r.v v8, v9			; CHECK-NEXT: vmv1r.v v8, v9
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%shuff = shufflevector <8 x i8> %v, <8 x i8> poison, <8 x i32> <i32 4, i32 3, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shuff = shufflevector <8 x i8> %v, <8 x i8> poison, <8 x i32> <i32 4, i32 3, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; RV64-NEXT: ret			; RV64-NEXT: ret
	%shuff = shufflevector <8 x i8> %v, <8 x i8> %w, <8 x i32> <i32 2, i32 8, i32 4, i32 2, i32 2, i32 2, i32 8, i32 2>			%shuff = shufflevector <8 x i8> %v, <8 x i8> %w, <8 x i32> <i32 2, i32 8, i32 4, i32 2, i32 2, i32 2, i32 8, i32 2>
	ret <8 x i8> %shuff			ret <8 x i8> %shuff
	}			}

	define <8 x i8> @splat_ve2_we0_ins_i2we4(<8 x i8> %v, <8 x i8> %w) {			define <8 x i8> @splat_ve2_we0_ins_i2we4(<8 x i8> %v, <8 x i8> %w) {
	; CHECK-LABEL: splat_ve2_we0_ins_i2we4:			; CHECK-LABEL: splat_ve2_we0_ins_i2we4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: li a0, 4
	; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; CHECK-NEXT: vmv.s.x v10, a0			; CHECK-NEXT: vmv.v.i v10, 4
	; CHECK-NEXT: vmv.v.i v11, 0			; CHECK-NEXT: vmv.v.i v11, 0
	; CHECK-NEXT: vsetivli zero, 3, e8, mf2, tu, ma			; CHECK-NEXT: vsetivli zero, 3, e8, mf2, tu, ma
	; CHECK-NEXT: vslideup.vi v11, v10, 2			; CHECK-NEXT: vslideup.vi v11, v10, 2
	; CHECK-NEXT: li a0, 70			; CHECK-NEXT: li a0, 70
	; CHECK-NEXT: vmv.s.x v0, a0			; CHECK-NEXT: vmv.s.x v0, a0
	; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; CHECK-NEXT: vrgather.vi v10, v8, 2			; CHECK-NEXT: vrgather.vi v10, v8, 2
	; CHECK-NEXT: vrgather.vv v10, v9, v11, v0.t			; CHECK-NEXT: vrgather.vv v10, v9, v11, v0.t
	; CHECK-NEXT: vmv1r.v v8, v10			; CHECK-NEXT: vmv1r.v v8, v10
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%shuff = shufflevector <8 x i8> %v, <8 x i8> %w, <8 x i32> <i32 2, i32 8, i32 12, i32 2, i32 2, i32 2, i32 8, i32 2>			%shuff = shufflevector <8 x i8> %v, <8 x i8> %w, <8 x i32> <i32 2, i32 8, i32 12, i32 2, i32 2, i32 2, i32 8, i32 2>
	ret <8 x i8> %shuff			ret <8 x i8> %shuff
	}			}

	define <8 x i8> @splat_ve2_we0_ins_i2ve4_i5we6(<8 x i8> %v, <8 x i8> %w) {			define <8 x i8> @splat_ve2_we0_ins_i2ve4_i5we6(<8 x i8> %v, <8 x i8> %w) {
	; RV32-LABEL: splat_ve2_we0_ins_i2ve4_i5we6:			; RV32-LABEL: splat_ve2_we0_ins_i2ve4_i5we6:
	; RV32: # %bb.0:			; RV32: # %bb.0:
	; RV32-NEXT: li a0, 6
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; RV32-NEXT: vmv.s.x v10, a0			; RV32-NEXT: vmv.v.i v10, 6
	; RV32-NEXT: vmv.v.i v11, 0			; RV32-NEXT: vmv.v.i v11, 0
	; RV32-NEXT: vsetivli zero, 6, e8, mf2, tu, ma			; RV32-NEXT: vsetivli zero, 6, e8, mf2, tu, ma
	; RV32-NEXT: vslideup.vi v11, v10, 5			; RV32-NEXT: vslideup.vi v11, v10, 5
	; RV32-NEXT: lui a0, 8256			; RV32-NEXT: lui a0, 8256
	; RV32-NEXT: addi a0, a0, 2			; RV32-NEXT: addi a0, a0, 2
	; RV32-NEXT: vsetivli zero, 2, e32, mf2, ta, ma			; RV32-NEXT: vsetivli zero, 2, e32, mf2, ta, ma
	; RV32-NEXT: vmv.v.x v12, a0			; RV32-NEXT: vmv.v.x v12, a0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: li a0, 98			; RV32-NEXT: li a0, 98
	; RV32-NEXT: vmv.s.x v0, a0			; RV32-NEXT: vmv.s.x v0, a0
	; RV32-NEXT: vrgather.vv v10, v8, v12			; RV32-NEXT: vrgather.vv v10, v8, v12
	; RV32-NEXT: vrgather.vv v10, v9, v11, v0.t			; RV32-NEXT: vrgather.vv v10, v9, v11, v0.t
	; RV32-NEXT: vmv1r.v v8, v10			; RV32-NEXT: vmv1r.v v8, v10
	; RV32-NEXT: ret			; RV32-NEXT: ret
	;			;
	; RV64-LABEL: splat_ve2_we0_ins_i2ve4_i5we6:			; RV64-LABEL: splat_ve2_we0_ins_i2ve4_i5we6:
	; RV64: # %bb.0:			; RV64: # %bb.0:
	; RV64-NEXT: li a0, 6
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; RV64-NEXT: vmv.s.x v10, a0			; RV64-NEXT: vmv.v.i v10, 6
	; RV64-NEXT: vmv.v.i v11, 0			; RV64-NEXT: vmv.v.i v11, 0
	; RV64-NEXT: vsetivli zero, 6, e8, mf2, tu, ma			; RV64-NEXT: vsetivli zero, 6, e8, mf2, tu, ma
	; RV64-NEXT: vslideup.vi v11, v10, 5			; RV64-NEXT: vslideup.vi v11, v10, 5
	; RV64-NEXT: lui a0, 8256			; RV64-NEXT: lui a0, 8256
	; RV64-NEXT: addiw a0, a0, 2			; RV64-NEXT: addiw a0, a0, 2
	; RV64-NEXT: vsetivli zero, 2, e32, mf2, ta, ma			; RV64-NEXT: vsetivli zero, 2, e32, mf2, ta, ma
	; RV64-NEXT: vmv.v.x v12, a0			; RV64-NEXT: vmv.v.x v12, a0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 937 Lines • ▼ Show 20 Lines	; RV64-NEXT: ret
ret void		ret void
}		}

define void @mulhu_v8i16(<8 x i16>* %x) {		define void @mulhu_v8i16(<8 x i16>* %x) {
; CHECK-LABEL: mulhu_v8i16:		; CHECK-LABEL: mulhu_v8i16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma		; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma
; CHECK-NEXT: vle16.v v8, (a0)		; CHECK-NEXT: vle16.v v8, (a0)
; CHECK-NEXT: li a1, 1		; CHECK-NEXT: vmv.v.i v9, 0
; CHECK-NEXT: vmv.s.x v9, a1
; CHECK-NEXT: li a1, 33
; CHECK-NEXT: vmv.s.x v0, a1
; CHECK-NEXT: vmv.v.i v10, 3
; CHECK-NEXT: vmerge.vim v10, v10, 2, v0
; CHECK-NEXT: vsetivli zero, 7, e16, m1, tu, ma
; CHECK-NEXT: vslideup.vi v10, v9, 6
; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma
; CHECK-NEXT: vmv.v.i v11, 0
; CHECK-NEXT: lui a1, 1048568		; CHECK-NEXT: lui a1, 1048568
; CHECK-NEXT: vsetvli zero, zero, e16, m1, tu, ma		; CHECK-NEXT: vsetvli zero, zero, e16, m1, tu, ma
; CHECK-NEXT: vmv.v.i v12, 0		; CHECK-NEXT: vmv.v.i v10, 0
; CHECK-NEXT: vmv.s.x v12, a1		; CHECK-NEXT: vmv.s.x v10, a1
		; CHECK-NEXT: vsetvli zero, zero, e16, m1, ta, ma
		; CHECK-NEXT: vmv.v.i v11, 1
; CHECK-NEXT: vsetivli zero, 7, e16, m1, tu, ma		; CHECK-NEXT: vsetivli zero, 7, e16, m1, tu, ma
; CHECK-NEXT: vslideup.vi v11, v9, 6		; CHECK-NEXT: vslideup.vi v9, v11, 6
; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma		; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma
; CHECK-NEXT: lui a1, %hi(.LCPI53_0)		; CHECK-NEXT: lui a1, %hi(.LCPI53_0)
; CHECK-NEXT: addi a1, a1, %lo(.LCPI53_0)		; CHECK-NEXT: addi a1, a1, %lo(.LCPI53_0)
; CHECK-NEXT: vle16.v v9, (a1)		; CHECK-NEXT: vle16.v v12, (a1)
; CHECK-NEXT: vsrl.vv v11, v8, v11		; CHECK-NEXT: vsrl.vv v9, v8, v9
; CHECK-NEXT: vmulhu.vv v9, v11, v9		; CHECK-NEXT: vmulhu.vv v9, v9, v12
; CHECK-NEXT: vsub.vv v8, v8, v9		; CHECK-NEXT: vsub.vv v8, v8, v9
; CHECK-NEXT: vmulhu.vv v8, v8, v12		; CHECK-NEXT: vmulhu.vv v8, v8, v10
; CHECK-NEXT: vadd.vv v8, v8, v9		; CHECK-NEXT: vadd.vv v8, v8, v9
; CHECK-NEXT: vsrl.vv v8, v8, v10		; CHECK-NEXT: li a1, 33
		; CHECK-NEXT: vmv.s.x v0, a1
		; CHECK-NEXT: vmv.v.i v9, 3
		; CHECK-NEXT: vmerge.vim v9, v9, 2, v0
		; CHECK-NEXT: vsetivli zero, 7, e16, m1, tu, ma
		; CHECK-NEXT: vslideup.vi v9, v11, 6
		; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma
		; CHECK-NEXT: vsrl.vv v8, v8, v9
; CHECK-NEXT: vse16.v v8, (a0)		; CHECK-NEXT: vse16.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = load <8 x i16>, <8 x i16>* %x		%a = load <8 x i16>, <8 x i16>* %x
%b = udiv <8 x i16> %a, <i16 7, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>		%b = udiv <8 x i16> %a, <i16 7, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
store <8 x i16> %b, <8 x i16>* %x		store <8 x i16> %b, <8 x i16>* %x
ret void		ret void
}		}

Show All 10 Lines
; CHECK-NEXT: lui a1, %hi(.LCPI54_0)		; CHECK-NEXT: lui a1, %hi(.LCPI54_0)
; CHECK-NEXT: addi a1, a1, %lo(.LCPI54_0)		; CHECK-NEXT: addi a1, a1, %lo(.LCPI54_0)
; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; CHECK-NEXT: vle32.v v9, (a1)		; CHECK-NEXT: vle32.v v9, (a1)
; CHECK-NEXT: vmulhu.vv v9, v8, v9		; CHECK-NEXT: vmulhu.vv v9, v8, v9
; CHECK-NEXT: vsub.vv v8, v8, v9		; CHECK-NEXT: vsub.vv v8, v8, v9
; CHECK-NEXT: vmulhu.vv v8, v8, v10		; CHECK-NEXT: vmulhu.vv v8, v8, v10
; CHECK-NEXT: vadd.vv v8, v8, v9		; CHECK-NEXT: vadd.vv v8, v8, v9
; CHECK-NEXT: li a1, 1		; CHECK-NEXT: vmv.v.i v9, 1
; CHECK-NEXT: vmv.s.x v9, a1
; CHECK-NEXT: vmv.v.i v10, 2		; CHECK-NEXT: vmv.v.i v10, 2
; CHECK-NEXT: vsetvli zero, zero, e32, m1, tu, ma		; CHECK-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; CHECK-NEXT: vslideup.vi v10, v9, 3		; CHECK-NEXT: vslideup.vi v10, v9, 3
; CHECK-NEXT: vsetvli zero, zero, e32, m1, ta, ma		; CHECK-NEXT: vsetvli zero, zero, e32, m1, ta, ma
; CHECK-NEXT: vsrl.vv v8, v8, v10		; CHECK-NEXT: vsrl.vv v8, v8, v10
; CHECK-NEXT: vse32.v v8, (a0)		; CHECK-NEXT: vse32.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = load <4 x i32>, <4 x i32>* %x		%a = load <4 x i32>, <4 x i32>* %x
▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV32-NEXT: vmulh.vv v9, v8, v9		; RV32-NEXT: vmulh.vv v9, v8, v9
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32-NEXT: vid.v v10		; RV32-NEXT: vid.v v10
; RV32-NEXT: vsrl.vi v10, v10, 1		; RV32-NEXT: vsrl.vi v10, v10, 1
; RV32-NEXT: vrsub.vi v10, v10, 0		; RV32-NEXT: vrsub.vi v10, v10, 0
; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV32-NEXT: vmadd.vv v10, v8, v9		; RV32-NEXT: vmadd.vv v10, v8, v9
; RV32-NEXT: li a1, 1
; RV32-NEXT: vmv.s.x v8, a1
; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
		; RV32-NEXT: vmv.v.i v8, 1
; RV32-NEXT: vmv.v.i v9, 0		; RV32-NEXT: vmv.v.i v9, 0
; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32-NEXT: vslideup.vi v9, v8, 2		; RV32-NEXT: vslideup.vi v9, v8, 2
; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV32-NEXT: vsra.vv v8, v10, v9		; RV32-NEXT: vsra.vv v8, v10, v9
; RV32-NEXT: li a1, 63		; RV32-NEXT: li a1, 63
; RV32-NEXT: vsrl.vx v9, v10, a1		; RV32-NEXT: vsrl.vx v9, v10, a1
; RV32-NEXT: vadd.vv v8, v8, v9		; RV32-NEXT: vadd.vv v8, v8, v9
▲ Show 20 Lines • Show All 3,381 Lines • ▼ Show 20 Lines
; LMULMAX1-RV32-NEXT: lui a2, %hi(.LCPI155_0)		; LMULMAX1-RV32-NEXT: lui a2, %hi(.LCPI155_0)
; LMULMAX1-RV32-NEXT: addi a2, a2, %lo(.LCPI155_0)		; LMULMAX1-RV32-NEXT: addi a2, a2, %lo(.LCPI155_0)
; LMULMAX1-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; LMULMAX1-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; LMULMAX1-RV32-NEXT: vle32.v v10, (a2)		; LMULMAX1-RV32-NEXT: vle32.v v10, (a2)
; LMULMAX1-RV32-NEXT: vmulhu.vv v12, v9, v10		; LMULMAX1-RV32-NEXT: vmulhu.vv v12, v9, v10
; LMULMAX1-RV32-NEXT: vsub.vv v9, v9, v12		; LMULMAX1-RV32-NEXT: vsub.vv v9, v9, v12
; LMULMAX1-RV32-NEXT: vmulhu.vv v9, v9, v11		; LMULMAX1-RV32-NEXT: vmulhu.vv v9, v9, v11
; LMULMAX1-RV32-NEXT: vadd.vv v9, v9, v12		; LMULMAX1-RV32-NEXT: vadd.vv v9, v9, v12
; LMULMAX1-RV32-NEXT: li a2, 1		; LMULMAX1-RV32-NEXT: vmv.v.i v12, 1
; LMULMAX1-RV32-NEXT: vmv.s.x v12, a2
; LMULMAX1-RV32-NEXT: vmv.v.i v13, 2		; LMULMAX1-RV32-NEXT: vmv.v.i v13, 2
; LMULMAX1-RV32-NEXT: vsetvli zero, zero, e32, m1, tu, ma		; LMULMAX1-RV32-NEXT: vsetvli zero, zero, e32, m1, tu, ma
; LMULMAX1-RV32-NEXT: vslideup.vi v13, v12, 3		; LMULMAX1-RV32-NEXT: vslideup.vi v13, v12, 3
; LMULMAX1-RV32-NEXT: vsetvli zero, zero, e32, m1, ta, ma		; LMULMAX1-RV32-NEXT: vsetvli zero, zero, e32, m1, ta, ma
; LMULMAX1-RV32-NEXT: vsrl.vv v9, v9, v13		; LMULMAX1-RV32-NEXT: vsrl.vv v9, v9, v13
; LMULMAX1-RV32-NEXT: vmulhu.vv v10, v8, v10		; LMULMAX1-RV32-NEXT: vmulhu.vv v10, v8, v10
; LMULMAX1-RV32-NEXT: vsub.vv v8, v8, v10		; LMULMAX1-RV32-NEXT: vsub.vv v8, v8, v10
; LMULMAX1-RV32-NEXT: vmulhu.vv v8, v8, v11		; LMULMAX1-RV32-NEXT: vmulhu.vv v8, v8, v11
▲ Show 20 Lines • Show All 3,233 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-stepvector.ll

Show First 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	; LMULMAX2-NEXT: ret
ret <16 x i32> %v		ret <16 x i32> %v
}		}

declare <2 x i64> @llvm.experimental.stepvector.v2i64()		declare <2 x i64> @llvm.experimental.stepvector.v2i64()

define <2 x i64> @stepvector_v2i64() {		define <2 x i64> @stepvector_v2i64() {
; RV32LMULMAX1-LABEL: stepvector_v2i64:		; RV32LMULMAX1-LABEL: stepvector_v2i64:
; RV32LMULMAX1: # %bb.0:		; RV32LMULMAX1: # %bb.0:
; RV32LMULMAX1-NEXT: li a0, 1
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vmv.s.x v9, a0		; RV32LMULMAX1-NEXT: vmv.v.i v9, 1
; RV32LMULMAX1-NEXT: vmv.v.i v8, 0		; RV32LMULMAX1-NEXT: vmv.v.i v8, 0
; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2		; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2
; RV32LMULMAX1-NEXT: ret		; RV32LMULMAX1-NEXT: ret
;		;
; RV64LMULMAX1-LABEL: stepvector_v2i64:		; RV64LMULMAX1-LABEL: stepvector_v2i64:
; RV64LMULMAX1: # %bb.0:		; RV64LMULMAX1: # %bb.0:
; RV64LMULMAX1-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV64LMULMAX1-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV64LMULMAX1-NEXT: vid.v v8		; RV64LMULMAX1-NEXT: vid.v v8
; RV64LMULMAX1-NEXT: ret		; RV64LMULMAX1-NEXT: ret
;		;
; RV32LMULMAX2-LABEL: stepvector_v2i64:		; RV32LMULMAX2-LABEL: stepvector_v2i64:
; RV32LMULMAX2: # %bb.0:		; RV32LMULMAX2: # %bb.0:
; RV32LMULMAX2-NEXT: li a0, 1
; RV32LMULMAX2-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX2-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX2-NEXT: vmv.s.x v9, a0		; RV32LMULMAX2-NEXT: vmv.v.i v9, 1
; RV32LMULMAX2-NEXT: vmv.v.i v8, 0		; RV32LMULMAX2-NEXT: vmv.v.i v8, 0
; RV32LMULMAX2-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32LMULMAX2-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32LMULMAX2-NEXT: vslideup.vi v8, v9, 2		; RV32LMULMAX2-NEXT: vslideup.vi v8, v9, 2
; RV32LMULMAX2-NEXT: ret		; RV32LMULMAX2-NEXT: ret
;		;
; RV64LMULMAX2-LABEL: stepvector_v2i64:		; RV64LMULMAX2-LABEL: stepvector_v2i64:
; RV64LMULMAX2: # %bb.0:		; RV64LMULMAX2: # %bb.0:
; RV64LMULMAX2-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; RV64LMULMAX2-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; RV64LMULMAX2-NEXT: vid.v v8		; RV64LMULMAX2-NEXT: vid.v v8
; RV64LMULMAX2-NEXT: ret		; RV64LMULMAX2-NEXT: ret
%v = call <2 x i64> @llvm.experimental.stepvector.v2i64()		%v = call <2 x i64> @llvm.experimental.stepvector.v2i64()
ret <2 x i64> %v		ret <2 x i64> %v
}		}

declare <4 x i64> @llvm.experimental.stepvector.v4i64()		declare <4 x i64> @llvm.experimental.stepvector.v4i64()

define <4 x i64> @stepvector_v4i64() {		define <4 x i64> @stepvector_v4i64() {
; RV32LMULMAX1-LABEL: stepvector_v4i64:		; RV32LMULMAX1-LABEL: stepvector_v4i64:
; RV32LMULMAX1: # %bb.0:		; RV32LMULMAX1: # %bb.0:
; RV32LMULMAX1-NEXT: li a0, 1
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vmv.s.x v9, a0		; RV32LMULMAX1-NEXT: vmv.v.i v9, 1
; RV32LMULMAX1-NEXT: vmv.v.i v8, 0		; RV32LMULMAX1-NEXT: vmv.v.i v8, 0
; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2		; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2
; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI14_0)		; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI14_0)
; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI14_0)		; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI14_0)
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vle32.v v9, (a0)		; RV32LMULMAX1-NEXT: vle32.v v9, (a0)
; RV32LMULMAX1-NEXT: ret		; RV32LMULMAX1-NEXT: ret
Show All 22 Lines	; RV64LMULMAX2-NEXT: ret
ret <4 x i64> %v		ret <4 x i64> %v
}		}

declare <8 x i64> @llvm.experimental.stepvector.v8i64()		declare <8 x i64> @llvm.experimental.stepvector.v8i64()

define <8 x i64> @stepvector_v8i64() {		define <8 x i64> @stepvector_v8i64() {
; RV32LMULMAX1-LABEL: stepvector_v8i64:		; RV32LMULMAX1-LABEL: stepvector_v8i64:
; RV32LMULMAX1: # %bb.0:		; RV32LMULMAX1: # %bb.0:
; RV32LMULMAX1-NEXT: li a0, 1
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vmv.s.x v9, a0		; RV32LMULMAX1-NEXT: vmv.v.i v9, 1
; RV32LMULMAX1-NEXT: vmv.v.i v8, 0		; RV32LMULMAX1-NEXT: vmv.v.i v8, 0
; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2		; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2
; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI15_0)		; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI15_0)
; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI15_0)		; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI15_0)
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vle32.v v9, (a0)		; RV32LMULMAX1-NEXT: vle32.v v9, (a0)
; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI15_1)		; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI15_1)
Show All 34 Lines	; RV64LMULMAX2-NEXT: ret
ret <8 x i64> %v		ret <8 x i64> %v
}		}

declare <16 x i64> @llvm.experimental.stepvector.v16i64()		declare <16 x i64> @llvm.experimental.stepvector.v16i64()

define <16 x i64> @stepvector_v16i64() {		define <16 x i64> @stepvector_v16i64() {
; RV32LMULMAX1-LABEL: stepvector_v16i64:		; RV32LMULMAX1-LABEL: stepvector_v16i64:
; RV32LMULMAX1: # %bb.0:		; RV32LMULMAX1: # %bb.0:
; RV32LMULMAX1-NEXT: li a0, 1
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vmv.s.x v9, a0		; RV32LMULMAX1-NEXT: vmv.v.i v9, 1
; RV32LMULMAX1-NEXT: vmv.v.i v8, 0		; RV32LMULMAX1-NEXT: vmv.v.i v8, 0
; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 3, e32, m1, tu, ma
; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2		; RV32LMULMAX1-NEXT: vslideup.vi v8, v9, 2
; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI16_0)		; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI16_0)
; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI16_0)		; RV32LMULMAX1-NEXT: addi a0, a0, %lo(.LCPI16_0)
; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; RV32LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; RV32LMULMAX1-NEXT: vle32.v v9, (a0)		; RV32LMULMAX1-NEXT: vle32.v v9, (a0)
; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI16_1)		; RV32LMULMAX1-NEXT: lui a0, %hi(.LCPI16_1)
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines