This is an archive of the discontinued LLVM Phabricator instance.

[RISCV] Use scalar stores for splats of zero to memory up to XLen
ClosedPublic

Authored by reames on May 16 2023, 1:39 PM.

Download Raw Diff

Details

Reviewers

craig.topper
asb
luke
kito-cheng

Commits

rG4dc9a2c5b936: [RISCV] Use scalar stores for splats of zero to memory up to XLen

Summary

The direct motivation here is to undo an unprofitable vectorization performed by SLP, but the transform seems generally useful as well. If we are storing a zero to memory, we can use a single scalar store (from X0) for all power of two sizes up to XLen.

Note: We can extend this transform in a bunch of ways. I'm deliberately starting narrow to focus on the two questions highlighted just above.

Diff Detail

Event Timeline

reames created this revision.May 16 2023, 1:39 PM

Herald added a project: Restricted Project. · View Herald TranscriptMay 16 2023, 1:39 PM

Herald added subscribers: jobnoorman, VincentWu, vkmr and 27 others. · View Herald Transcript

reames requested review of this revision.May 16 2023, 1:39 PM

Herald added a project: Restricted Project. · View Herald TranscriptMay 16 2023, 1:39 PM

Herald added subscribers: • pcwang-thead, eopXD, MaskRay. · View Herald Transcript

Harbormaster completed remote builds in B232418: Diff 522764.May 16 2023, 3:42 PM

craig.topper added inline comments.May 16 2023, 5:55 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
12176	Did you intend to leave FLAGIT in here?

reames added inline comments.May 16 2023, 6:11 PM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
12176	Nope. :) That's my usual easy grep flag for local work, will remove.

reames updated this revision to Diff 522869.May 16 2023, 6:16 PM

Noticed while looking at something else that DAG combine store merging will produce the <2 x i64> vector stores this is splitting. The particular test case came from memset lowering. Oddly, this seeming conflict appears to work out, but it feels like we should really fix the store merging preference before handling the two stores part of this.

(following is removed from review description as it no longer applies, saved only for my later reference)

One concern here is that splitting the store into two instructions could introduce a store-to-load forwarding stall. I think this is worth doing, but what do others think? Should we restrict this to a maximum of XLEN sized operations which can be done in a single store?

This transform is potentially increasing the number of memory operations (from 1 to 2). The same restriction mentioned above would resolve this as well.

Harbormaster completed remote builds in B232483: Diff 522873.May 16 2023, 7:29 PM

This seems reasonable to me.

This revision is now accepted and ready to land.May 16 2023, 8:09 PM

luke added inline comments.May 17 2023, 2:24 AM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

12189

Do we want to check if the memory access is fast? Currently we always report unaligned scalar accesses as slow, but that sounds like it's at odds with this combine

bool RISCVTargetLowering::allowsMisalignedMemoryAccesses(
    EVT VT, unsigned AddrSpace, Align Alignment, MachineMemOperand::Flags Flags,
    unsigned *Fast) const {
  if (!VT.isVector()) {
    if (Fast)
      *Fast = 0;
    return Subtarget.enableUnalignedScalarMem();
  }

asb added inline comments.May 17 2023, 4:14 AM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
12189	Luke and I chatted about this earlier today, and the specific case would be where a vector access that is aligned according to the natural alignment of its elements is converted to a wider scalar access that is misaligned. Though now reminding myself of the how +unaligned-scalar-mem is used (https://reviews.llvm.org/D126085), this is probably not a concern, as it's only enabled if unaligned scalar mem is performant enough to be worth using.

reames added inline comments.May 17 2023, 7:26 AM

llvm/lib/Target/RISCV/RISCVISelLowering.cpp
12189	Honestly, this is whole area is a bit of a mess. What exactly the fast flag means (it's a unsigned so it has many possible states) is very poorly defined. It's also extremely target specific, but interacts with generic codegen, so the best kind of fun. At the moment, we're interpreting it as basically a hint that misaligned accesses should be aggressively formed - as opposed to simply used when natural during lowering. In this case, I think moving forward without Fast is the right practical answer, but this is a bit of a code smell. Thanks for pointing this out, I'd not considered it. I'm going to be looking at a couple other aspects of mem-op lowering, and I'll see if I can clean this up.

Closed by commit rG4dc9a2c5b936: [RISCV] Use scalar stores for splats of zero to memory up to XLen (authored by reames). · Explain WhyMay 17 2023, 7:31 AM

This revision was automatically updated to reflect the committed changes.

reames added a commit: rG4dc9a2c5b936: [RISCV] Use scalar stores for splats of zero to memory up to XLen.

luke mentioned this in D151103: [RISCV] Scalarize small fixed vector copies < XLEN.May 22 2023, 7:42 AM

luke mentioned this in D151211: [RISCV] Add test for small vector copies.May 23 2023, 10:04 AM

luke mentioned this in rG28b21c4c7478: [RISCV] Scalarize small fixed vector copies < XLEN.May 24 2023, 2:25 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

RISCV/

RISCVISelLowering.cpp

27 lines

test/

CodeGen/

RISCV/

rvv/

fixed-vectors-calling-conv.ll

108 lines

fixed-vectors-fp-splat.ll

54 lines

fixed-vectors-int-splat.ll

256 lines

fixed-vectors-mask-splat.ll

45 lines

splats-with-mixed-vl.ll

26 lines

Diff 522869

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,164 Lines • ▼ Show 20 Lines	case ISD::STORE: {
if (DCI.isAfterLegalizeDAG())		if (DCI.isAfterLegalizeDAG())
if (SDValue V = performMemPairCombine(N, DCI))		if (SDValue V = performMemPairCombine(N, DCI))
return V;		return V;

if (N->getOpcode() != ISD::STORE)		if (N->getOpcode() != ISD::STORE)
break;		break;

auto *Store = cast<StoreSDNode>(N);		auto *Store = cast<StoreSDNode>(N);
		EVT MemVT = Store->getMemoryVT();
SDValue Val = Store->getValue();		SDValue Val = Store->getValue();

		// Using vector to store zeros requires e.g.:
		craig.topperUnsubmitted Not Done Reply Inline Actions Did you intend to leave FLAGIT in here? craig.topper: Did you intend to leave FLAGIT in here?
		reamesAuthorUnsubmitted Done Reply Inline Actions Nope. :) That's my usual easy grep flag for local work, will remove. reames: Nope. :) That's my usual easy grep flag for local work, will remove.
		// vsetivli zero, 2, e64, m1, ta, ma
		// vmv.v.i v8, 0
		// vse64.v v8, (a0)
		// If sufficiently aligned, we can use at most two scalar stores to zero
		// initialize any power-of-two size up to XLen * 2 bits.
		if (DCI.isBeforeLegalize() && !Store->isTruncatingStore() &&
		!Store->isIndexed() && ISD::isBuildVectorAllZeros(Val.getNode()) &&
		MemVT.getVectorElementType().bitsLE(Subtarget.getXLenVT()) &&
		isPowerOf2_64(MemVT.getSizeInBits()) &&
		MemVT.getSizeInBits() <= Subtarget.getXLen() * 2) {
		assert(!MemVT.isScalableVector());
		auto NewVT = MVT::getIntegerVT(MemVT.getSizeInBits());
		if (allowsMemoryAccessForAlignment(*DAG.getContext(), DAG.getDataLayout(),
		lukeUnsubmitted Not Done Reply Inline Actions Do we want to check if the memory access is fast? Currently we always report unaligned scalar accesses as slow, but that sounds like it's at odds with this combine bool RISCVTargetLowering::allowsMisalignedMemoryAccesses( EVT VT, unsigned AddrSpace, Align Alignment, MachineMemOperand::Flags Flags, unsigned Fast) const { if (!VT.isVector()) { if (Fast) Fast = 0; return Subtarget.enableUnalignedScalarMem(); } luke: Do we want to check if the memory access is fast? Currently we always report unaligned scalar…
		asbUnsubmitted Not Done Reply Inline Actions Luke and I chatted about this earlier today, and the specific case would be where a vector access that is aligned according to the natural alignment of its elements is converted to a wider scalar access that is misaligned. Though now reminding myself of the how +unaligned-scalar-mem is used (https://reviews.llvm.org/D126085), this is probably not a concern, as it's only enabled if unaligned scalar mem is performant enough to be worth using. asb: Luke and I chatted about this earlier today, and the specific case would be where a vector…
		reamesAuthorUnsubmitted Done Reply Inline Actions Honestly, this is whole area is a bit of a mess. What exactly the fast flag means (it's a unsigned so it has many possible states) is very poorly defined. It's also extremely target specific, but interacts with generic codegen, so the best kind of fun. At the moment, we're interpreting it as basically a hint that misaligned accesses should be aggressively formed - as opposed to simply used when natural during lowering. In this case, I think moving forward without Fast is the right practical answer, but this is a bit of a code smell. Thanks for pointing this out, I'd not considered it. I'm going to be looking at a couple other aspects of mem-op lowering, and I'll see if I can clean this up. reames: Honestly, this is whole area is a bit of a mess. What exactly the fast flag means (it's a…
		NewVT, *Store->getMemOperand())) {
		SDLoc DL(N);
		SDValue Chain = Store->getChain();
		auto NewV = DAG.getConstant(0, DL, NewVT);
		return DAG.getStore(Chain, DL, NewV, Store->getBasePtr(),
		Store->getPointerInfo(), Store->getOriginalAlign(),
		Store->getMemOperand()->getFlags());
		}
		}

// Combine store of vmv.x.s/vfmv.f.s to vse with VL of 1.		// Combine store of vmv.x.s/vfmv.f.s to vse with VL of 1.
// vfmv.f.s is represented as extract element from 0. Match it late to avoid		// vfmv.f.s is represented as extract element from 0. Match it late to avoid
// any illegal types.		// any illegal types.
if (Val.getOpcode() == RISCVISD::VMV_X_S \|\|		if (Val.getOpcode() == RISCVISD::VMV_X_S \|\|
(DCI.isAfterLegalizeDAG() &&		(DCI.isAfterLegalizeDAG() &&
Val.getOpcode() == ISD::EXTRACT_VECTOR_ELT &&		Val.getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
isNullConstant(Val.getOperand(1)))) {		isNullConstant(Val.getOperand(1)))) {
SDValue Src = Val.getOperand(0);		SDValue Src = Val.getOperand(0);
MVT VecVT = Src.getSimpleValueType();		MVT VecVT = Src.getSimpleValueType();
EVT MemVT = Store->getMemoryVT();
// VecVT should be scalable and memory VT should match the element type.		// VecVT should be scalable and memory VT should match the element type.
if (VecVT.isScalableVector() &&		if (VecVT.isScalableVector() &&
MemVT == VecVT.getVectorElementType()) {		MemVT == VecVT.getVectorElementType()) {
SDLoc DL(N);		SDLoc DL(N);
MVT MaskVT = getMaskTypeFor(VecVT);		MVT MaskVT = getMaskTypeFor(VecVT);
return DAG.getStoreVP(		return DAG.getStoreVP(
Store->getChain(), DL, Src, Store->getBasePtr(), Store->getOffset(),		Store->getChain(), DL, Src, Store->getBasePtr(), Store->getOffset(),
DAG.getConstant(1, DL, MaskVT),		DAG.getConstant(1, DL, MaskVT),
▲ Show 20 Lines • Show All 4,119 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-calling-conv.ll

	Show First 20 Lines • Show All 1,344 Lines • ▼ Show 20 Lines
	; LMULMAX2-NEXT: ret			; LMULMAX2-NEXT: ret
	;			;
	; LMULMAX1-LABEL: pass_vector_arg_via_stack:			; LMULMAX1-LABEL: pass_vector_arg_via_stack:
	; LMULMAX1: # %bb.0:			; LMULMAX1: # %bb.0:
	; LMULMAX1-NEXT: addi sp, sp, -144			; LMULMAX1-NEXT: addi sp, sp, -144
	; LMULMAX1-NEXT: .cfi_def_cfa_offset 144			; LMULMAX1-NEXT: .cfi_def_cfa_offset 144
	; LMULMAX1-NEXT: sd ra, 136(sp) # 8-byte Folded Spill			; LMULMAX1-NEXT: sd ra, 136(sp) # 8-byte Folded Spill
	; LMULMAX1-NEXT: .cfi_offset ra, -8			; LMULMAX1-NEXT: .cfi_offset ra, -8
				; LMULMAX1-NEXT: sd zero, 120(sp)
				; LMULMAX1-NEXT: sd zero, 112(sp)
				; LMULMAX1-NEXT: sd zero, 104(sp)
				; LMULMAX1-NEXT: sd zero, 96(sp)
				; LMULMAX1-NEXT: sd zero, 88(sp)
				; LMULMAX1-NEXT: sd zero, 80(sp)
				; LMULMAX1-NEXT: sd zero, 72(sp)
				; LMULMAX1-NEXT: sd zero, 64(sp)
				; LMULMAX1-NEXT: sd zero, 56(sp)
				; LMULMAX1-NEXT: sd zero, 48(sp)
				; LMULMAX1-NEXT: sd zero, 40(sp)
				; LMULMAX1-NEXT: sd zero, 32(sp)
				; LMULMAX1-NEXT: sd zero, 24(sp)
				; LMULMAX1-NEXT: sd zero, 16(sp)
				; LMULMAX1-NEXT: sd zero, 8(sp)
				; LMULMAX1-NEXT: sd zero, 0(sp)
	; LMULMAX1-NEXT: li a0, 8			; LMULMAX1-NEXT: li a0, 8
	; LMULMAX1-NEXT: sd a0, 128(sp)			; LMULMAX1-NEXT: sd a0, 128(sp)
	; LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
	; LMULMAX1-NEXT: vmv.v.i v8, 0			; LMULMAX1-NEXT: vmv.v.i v8, 0
	; LMULMAX1-NEXT: vse32.v v8, (sp)
	; LMULMAX1-NEXT: addi a0, sp, 112
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 96
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 80
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 64
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 48
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 32
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 16
	; LMULMAX1-NEXT: li a1, 1			; LMULMAX1-NEXT: li a1, 1
	; LMULMAX1-NEXT: li a2, 2			; LMULMAX1-NEXT: li a2, 2
	; LMULMAX1-NEXT: li a3, 3			; LMULMAX1-NEXT: li a3, 3
	; LMULMAX1-NEXT: li a4, 4			; LMULMAX1-NEXT: li a4, 4
	; LMULMAX1-NEXT: li a5, 5			; LMULMAX1-NEXT: li a5, 5
	; LMULMAX1-NEXT: li a6, 6			; LMULMAX1-NEXT: li a6, 6
	; LMULMAX1-NEXT: li a7, 7			; LMULMAX1-NEXT: li a7, 7
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: li a0, 0			; LMULMAX1-NEXT: li a0, 0
	; LMULMAX1-NEXT: vmv.v.i v9, 0			; LMULMAX1-NEXT: vmv.v.i v9, 0
	; LMULMAX1-NEXT: vmv.v.i v10, 0			; LMULMAX1-NEXT: vmv.v.i v10, 0
	; LMULMAX1-NEXT: vmv.v.i v11, 0			; LMULMAX1-NEXT: vmv.v.i v11, 0
	; LMULMAX1-NEXT: vmv.v.i v12, 0			; LMULMAX1-NEXT: vmv.v.i v12, 0
	; LMULMAX1-NEXT: vmv.v.i v13, 0			; LMULMAX1-NEXT: vmv.v.i v13, 0
	; LMULMAX1-NEXT: vmv.v.i v14, 0			; LMULMAX1-NEXT: vmv.v.i v14, 0
	; LMULMAX1-NEXT: vmv.v.i v15, 0			; LMULMAX1-NEXT: vmv.v.i v15, 0
	▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; LMULMAX2-NEXT: ret			; LMULMAX2-NEXT: ret
	;			;
	; LMULMAX1-LABEL: pass_vector_mask_arg_via_stack:			; LMULMAX1-LABEL: pass_vector_mask_arg_via_stack:
	; LMULMAX1: # %bb.0:			; LMULMAX1: # %bb.0:
	; LMULMAX1-NEXT: addi sp, sp, -160			; LMULMAX1-NEXT: addi sp, sp, -160
	; LMULMAX1-NEXT: .cfi_def_cfa_offset 160			; LMULMAX1-NEXT: .cfi_def_cfa_offset 160
	; LMULMAX1-NEXT: sd ra, 152(sp) # 8-byte Folded Spill			; LMULMAX1-NEXT: sd ra, 152(sp) # 8-byte Folded Spill
	; LMULMAX1-NEXT: .cfi_offset ra, -8			; LMULMAX1-NEXT: .cfi_offset ra, -8
				; LMULMAX1-NEXT: sd zero, 120(sp)
				; LMULMAX1-NEXT: sd zero, 112(sp)
				; LMULMAX1-NEXT: sd zero, 104(sp)
				; LMULMAX1-NEXT: sd zero, 96(sp)
				; LMULMAX1-NEXT: sd zero, 88(sp)
				; LMULMAX1-NEXT: sd zero, 80(sp)
				; LMULMAX1-NEXT: sd zero, 72(sp)
				; LMULMAX1-NEXT: sd zero, 64(sp)
				; LMULMAX1-NEXT: sd zero, 56(sp)
				; LMULMAX1-NEXT: sd zero, 48(sp)
				; LMULMAX1-NEXT: sd zero, 40(sp)
				; LMULMAX1-NEXT: sd zero, 32(sp)
				; LMULMAX1-NEXT: sd zero, 24(sp)
				; LMULMAX1-NEXT: sd zero, 16(sp)
				; LMULMAX1-NEXT: sd zero, 8(sp)
				; LMULMAX1-NEXT: sd zero, 0(sp)
	; LMULMAX1-NEXT: li a0, 8			; LMULMAX1-NEXT: li a0, 8
	; LMULMAX1-NEXT: sd a0, 128(sp)			; LMULMAX1-NEXT: sd a0, 128(sp)
	; LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; LMULMAX1-NEXT: vsetivli zero, 4, e8, mf4, ta, ma
	; LMULMAX1-NEXT: vmv.v.i v8, 0			; LMULMAX1-NEXT: vmv.v.i v8, 0
	; LMULMAX1-NEXT: vse32.v v8, (sp)			; LMULMAX1-NEXT: vmerge.vim v8, v8, 1, v0
	; LMULMAX1-NEXT: addi a0, sp, 112
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 96
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 80
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 64
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 48
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 32
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: addi a0, sp, 16
	; LMULMAX1-NEXT: vse32.v v8, (a0)
	; LMULMAX1-NEXT: vsetvli zero, zero, e8, mf4, ta, ma
	; LMULMAX1-NEXT: vmv.v.i v9, 0
	; LMULMAX1-NEXT: vmerge.vim v9, v9, 1, v0
	; LMULMAX1-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; LMULMAX1-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; LMULMAX1-NEXT: vmv.v.i v10, 0			; LMULMAX1-NEXT: vmv.v.i v9, 0
	; LMULMAX1-NEXT: vsetivli zero, 4, e8, mf2, tu, ma			; LMULMAX1-NEXT: vsetivli zero, 4, e8, mf2, tu, ma
	; LMULMAX1-NEXT: vslideup.vi v10, v9, 0			; LMULMAX1-NEXT: vslideup.vi v9, v8, 0
	; LMULMAX1-NEXT: vsetivli zero, 8, e8, mf2, ta, ma			; LMULMAX1-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
	; LMULMAX1-NEXT: vmsne.vi v9, v10, 0			; LMULMAX1-NEXT: vmsne.vi v8, v9, 0
	; LMULMAX1-NEXT: addi a0, sp, 136			; LMULMAX1-NEXT: addi a0, sp, 136
				; LMULMAX1-NEXT: vsm.v v8, (a0)
				; LMULMAX1-NEXT: vsetivli zero, 4, e32, m1, ta, ma
				; LMULMAX1-NEXT: vmv.v.i v8, 0
	; LMULMAX1-NEXT: li a5, 5			; LMULMAX1-NEXT: li a5, 5
	; LMULMAX1-NEXT: li a6, 6			; LMULMAX1-NEXT: li a6, 6
	; LMULMAX1-NEXT: li a7, 7			; LMULMAX1-NEXT: li a7, 7
	; LMULMAX1-NEXT: vsm.v v9, (a0)
	; LMULMAX1-NEXT: li a0, 0			; LMULMAX1-NEXT: li a0, 0
	; LMULMAX1-NEXT: li a1, 0			; LMULMAX1-NEXT: li a1, 0
	; LMULMAX1-NEXT: li a2, 0			; LMULMAX1-NEXT: li a2, 0
	; LMULMAX1-NEXT: li a3, 0			; LMULMAX1-NEXT: li a3, 0
	; LMULMAX1-NEXT: li a4, 0			; LMULMAX1-NEXT: li a4, 0
	; LMULMAX1-NEXT: vmv1r.v v9, v8			; LMULMAX1-NEXT: vmv.v.i v9, 0
	; LMULMAX1-NEXT: vmv1r.v v10, v8			; LMULMAX1-NEXT: vmv.v.i v10, 0
	; LMULMAX1-NEXT: vmv1r.v v11, v8			; LMULMAX1-NEXT: vmv.v.i v11, 0
	; LMULMAX1-NEXT: vmv1r.v v12, v8			; LMULMAX1-NEXT: vmv.v.i v12, 0
	; LMULMAX1-NEXT: vmv1r.v v13, v8			; LMULMAX1-NEXT: vmv.v.i v13, 0
	; LMULMAX1-NEXT: vmv1r.v v14, v8			; LMULMAX1-NEXT: vmv.v.i v14, 0
	; LMULMAX1-NEXT: vmv1r.v v15, v8			; LMULMAX1-NEXT: vmv.v.i v15, 0
	; LMULMAX1-NEXT: vmv1r.v v16, v8			; LMULMAX1-NEXT: vmv.v.i v16, 0
	; LMULMAX1-NEXT: vmv1r.v v17, v8			; LMULMAX1-NEXT: vmv.v.i v17, 0
	; LMULMAX1-NEXT: vmv1r.v v18, v8			; LMULMAX1-NEXT: vmv.v.i v18, 0
	; LMULMAX1-NEXT: vmv1r.v v19, v8			; LMULMAX1-NEXT: vmv.v.i v19, 0
	; LMULMAX1-NEXT: vmv1r.v v20, v8			; LMULMAX1-NEXT: vmv.v.i v20, 0
	; LMULMAX1-NEXT: vmv1r.v v21, v8			; LMULMAX1-NEXT: vmv.v.i v21, 0
	; LMULMAX1-NEXT: vmv1r.v v22, v8			; LMULMAX1-NEXT: vmv.v.i v22, 0
	; LMULMAX1-NEXT: vmv1r.v v23, v8			; LMULMAX1-NEXT: vmv.v.i v23, 0
	; LMULMAX1-NEXT: call vector_mask_arg_via_stack@plt			; LMULMAX1-NEXT: call vector_mask_arg_via_stack@plt
	; LMULMAX1-NEXT: ld ra, 152(sp) # 8-byte Folded Reload			; LMULMAX1-NEXT: ld ra, 152(sp) # 8-byte Folded Reload
	; LMULMAX1-NEXT: addi sp, sp, 160			; LMULMAX1-NEXT: addi sp, sp, 160
	; LMULMAX1-NEXT: ret			; LMULMAX1-NEXT: ret
	%r = call <4 x i1> @vector_mask_arg_via_stack(i32 0, i32 0, i32 0, i32 0, i32 0, i32 5, i32 6, i32 7, <32 x i32> zeroinitializer, <32 x i32> zeroinitializer, <32 x i32> zeroinitializer, i32 8, <4 x i1> %v, <4 x i1> %v)			%r = call <4 x i1> @vector_mask_arg_via_stack(i32 0, i32 0, i32 0, i32 0, i32 0, i32 5, i32 6, i32 7, <32 x i32> zeroinitializer, <32 x i32> zeroinitializer, <32 x i32> zeroinitializer, i32 8, <4 x i1> %v, <4 x i1> %v)
	ret <4 x i1> %r			ret <4 x i1> %r
	}			}

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp-splat.ll

	Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; LMULMAX1-NEXT: ret			; LMULMAX1-NEXT: ret
	%a = insertelement <4 x double> poison, double %y, i32 0			%a = insertelement <4 x double> poison, double %y, i32 0
	%b = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> zeroinitializer			%b = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> zeroinitializer
	store <4 x double> %b, ptr %x			store <4 x double> %b, ptr %x
	ret void			ret void
	}			}

	define void @splat_zero_v8f16(ptr %x) {			define void @splat_zero_v8f16(ptr %x) {
	; CHECK-LABEL: splat_zero_v8f16:			; CHECK-RV32-LABEL: splat_zero_v8f16:
	; CHECK: # %bb.0:			; CHECK-RV32: # %bb.0:
	; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma			; CHECK-RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-RV32-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse16.v v8, (a0)			; CHECK-RV32-NEXT: vse16.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-RV32-NEXT: ret
				;
				; CHECK-RV64-LABEL: splat_zero_v8f16:
				; CHECK-RV64: # %bb.0:
				; CHECK-RV64-NEXT: sd zero, 8(a0)
				; CHECK-RV64-NEXT: sd zero, 0(a0)
				; CHECK-RV64-NEXT: ret
	%a = insertelement <8 x half> poison, half 0.0, i32 0			%a = insertelement <8 x half> poison, half 0.0, i32 0
	%b = shufflevector <8 x half> %a, <8 x half> poison, <8 x i32> zeroinitializer			%b = shufflevector <8 x half> %a, <8 x half> poison, <8 x i32> zeroinitializer
	store <8 x half> %b, ptr %x			store <8 x half> %b, ptr %x
	ret void			ret void
	}			}

	define void @splat_zero_v4f32(ptr %x) {			define void @splat_zero_v4f32(ptr %x) {
	; CHECK-LABEL: splat_zero_v4f32:			; CHECK-RV32-LABEL: splat_zero_v4f32:
	; CHECK: # %bb.0:			; CHECK-RV32: # %bb.0:
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-RV32-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-RV32-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-RV32-NEXT: ret
				;
				; CHECK-RV64-LABEL: splat_zero_v4f32:
				; CHECK-RV64: # %bb.0:
				; CHECK-RV64-NEXT: sd zero, 8(a0)
				; CHECK-RV64-NEXT: sd zero, 0(a0)
				; CHECK-RV64-NEXT: ret
	%a = insertelement <4 x float> poison, float 0.0, i32 0			%a = insertelement <4 x float> poison, float 0.0, i32 0
	%b = shufflevector <4 x float> %a, <4 x float> poison, <4 x i32> zeroinitializer			%b = shufflevector <4 x float> %a, <4 x float> poison, <4 x i32> zeroinitializer
	store <4 x float> %b, ptr %x			store <4 x float> %b, ptr %x
	ret void			ret void
	}			}

	define void @splat_zero_v2f64(ptr %x) {			define void @splat_zero_v2f64(ptr %x) {
	; CHECK-LABEL: splat_zero_v2f64:			; CHECK-RV32-LABEL: splat_zero_v2f64:
	; CHECK: # %bb.0:			; CHECK-RV32: # %bb.0:
	; CHECK-NEXT: vsetivli zero, 2, e64, m1, ta, ma			; CHECK-RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-RV32-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse64.v v8, (a0)			; CHECK-RV32-NEXT: vse64.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-RV32-NEXT: ret
				;
				; CHECK-RV64-LABEL: splat_zero_v2f64:
				; CHECK-RV64: # %bb.0:
				; CHECK-RV64-NEXT: sd zero, 8(a0)
				; CHECK-RV64-NEXT: sd zero, 0(a0)
				; CHECK-RV64-NEXT: ret
	%a = insertelement <2 x double> poison, double 0.0, i32 0			%a = insertelement <2 x double> poison, double 0.0, i32 0
	%b = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> zeroinitializer			%b = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> zeroinitializer
	store <2 x double> %b, ptr %x			store <2 x double> %b, ptr %x
	ret void			ret void
	}			}

	define void @splat_zero_16f16(ptr %x) {			define void @splat_zero_16f16(ptr %x) {
	; LMULMAX2-LABEL: splat_zero_16f16:			; LMULMAX2-LABEL: splat_zero_16f16:
	▲ Show 20 Lines • Show All 209 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int-splat.ll

Show First 20 Lines • Show All 263 Lines • ▼ Show 20 Lines
; LMULMAX1-RV64-NEXT: ret		; LMULMAX1-RV64-NEXT: ret
%a = insertelement <4 x i64> poison, i64 %y, i32 0		%a = insertelement <4 x i64> poison, i64 %y, i32 0
%b = shufflevector <4 x i64> %a, <4 x i64> poison, <4 x i32> zeroinitializer		%b = shufflevector <4 x i64> %a, <4 x i64> poison, <4 x i32> zeroinitializer
store <4 x i64> %b, ptr %x		store <4 x i64> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v16i8(ptr %x) {		define void @splat_zero_v16i8(ptr %x) {
; CHECK-LABEL: splat_zero_v16i8:		; LMULMAX8-RV32-LABEL: splat_zero_v16i8:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 16, e8, m1, ta, ma		; LMULMAX8-RV32-NEXT: vsetivli zero, 16, e8, m1, ta, ma
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vse8.v v8, (a0)		; LMULMAX8-RV32-NEXT: vse8.v v8, (a0)
; CHECK-NEXT: ret		; LMULMAX8-RV32-NEXT: ret
		;
		; LMULMAX2-RV32-LABEL: splat_zero_v16i8:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: vsetivli zero, 16, e8, m1, ta, ma
		; LMULMAX2-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX2-RV32-NEXT: vse8.v v8, (a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v16i8:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: vsetivli zero, 16, e8, m1, ta, ma
		; LMULMAX1-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX1-RV32-NEXT: vse8.v v8, (a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v16i8:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v16i8:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v16i8:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
%a = insertelement <16 x i8> poison, i8 0, i32 0		%a = insertelement <16 x i8> poison, i8 0, i32 0
%b = shufflevector <16 x i8> %a, <16 x i8> poison, <16 x i32> zeroinitializer		%b = shufflevector <16 x i8> %a, <16 x i8> poison, <16 x i32> zeroinitializer
store <16 x i8> %b, ptr %x		store <16 x i8> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v8i16(ptr %x) {		define void @splat_zero_v8i16(ptr %x) {
; CHECK-LABEL: splat_zero_v8i16:		; LMULMAX8-RV32-LABEL: splat_zero_v8i16:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 8, e16, m1, ta, ma		; LMULMAX8-RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vse16.v v8, (a0)		; LMULMAX8-RV32-NEXT: vse16.v v8, (a0)
; CHECK-NEXT: ret		; LMULMAX8-RV32-NEXT: ret
		;
		; LMULMAX2-RV32-LABEL: splat_zero_v8i16:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma
		; LMULMAX2-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX2-RV32-NEXT: vse16.v v8, (a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v8i16:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: vsetivli zero, 8, e16, m1, ta, ma
		; LMULMAX1-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX1-RV32-NEXT: vse16.v v8, (a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v8i16:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v8i16:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v8i16:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
%a = insertelement <8 x i16> poison, i16 0, i32 0		%a = insertelement <8 x i16> poison, i16 0, i32 0
%b = shufflevector <8 x i16> %a, <8 x i16> poison, <8 x i32> zeroinitializer		%b = shufflevector <8 x i16> %a, <8 x i16> poison, <8 x i32> zeroinitializer
store <8 x i16> %b, ptr %x		store <8 x i16> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v4i32(ptr %x) {		define void @splat_zero_v4i32(ptr %x) {
; CHECK-LABEL: splat_zero_v4i32:		; LMULMAX8-RV32-LABEL: splat_zero_v4i32:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma		; LMULMAX8-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vse32.v v8, (a0)		; LMULMAX8-RV32-NEXT: vse32.v v8, (a0)
; CHECK-NEXT: ret		; LMULMAX8-RV32-NEXT: ret
		;
		; LMULMAX2-RV32-LABEL: splat_zero_v4i32:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
		; LMULMAX2-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX2-RV32-NEXT: vse32.v v8, (a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v4i32:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: vsetivli zero, 4, e32, m1, ta, ma
		; LMULMAX1-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX1-RV32-NEXT: vse32.v v8, (a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v4i32:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v4i32:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v4i32:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
%a = insertelement <4 x i32> poison, i32 0, i32 0		%a = insertelement <4 x i32> poison, i32 0, i32 0
%b = shufflevector <4 x i32> %a, <4 x i32> poison, <4 x i32> zeroinitializer		%b = shufflevector <4 x i32> %a, <4 x i32> poison, <4 x i32> zeroinitializer
store <4 x i32> %b, ptr %x		store <4 x i32> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v2i64(ptr %x) {		define void @splat_zero_v2i64(ptr %x) {
; CHECK-LABEL: splat_zero_v2i64:		; LMULMAX8-RV32-LABEL: splat_zero_v2i64:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 2, e64, m1, ta, ma		; LMULMAX8-RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vse64.v v8, (a0)		; LMULMAX8-RV32-NEXT: vse64.v v8, (a0)
; CHECK-NEXT: ret		; LMULMAX8-RV32-NEXT: ret
		;
		; LMULMAX2-RV32-LABEL: splat_zero_v2i64:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
		; LMULMAX2-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX2-RV32-NEXT: vse64.v v8, (a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v2i64:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: vsetivli zero, 2, e64, m1, ta, ma
		; LMULMAX1-RV32-NEXT: vmv.v.i v8, 0
		; LMULMAX1-RV32-NEXT: vse64.v v8, (a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v2i64:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v2i64:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v2i64:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 8(a0)
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
%a = insertelement <2 x i64> poison, i64 0, i32 0		%a = insertelement <2 x i64> poison, i64 0, i32 0
%b = shufflevector <2 x i64> %a, <2 x i64> poison, <2 x i32> zeroinitializer		%b = shufflevector <2 x i64> %a, <2 x i64> poison, <2 x i32> zeroinitializer
store <2 x i64> %b, ptr %x		store <2 x i64> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v32i8(ptr %x) {		define void @splat_zero_v32i8(ptr %x) {
; LMULMAX8-LABEL: splat_zero_v32i8:		; LMULMAX8-LABEL: splat_zero_v32i8:
▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines	; LMULMAX1-RV64-NEXT: ret
%b = shufflevector <4 x i64> %a, <4 x i64> poison, <4 x i32> zeroinitializer		%b = shufflevector <4 x i64> %a, <4 x i64> poison, <4 x i32> zeroinitializer
store <4 x i64> %b, ptr %x		store <4 x i64> %b, ptr %x
ret void		ret void
}		}

define void @splat_zero_v2i16(ptr %p) {		define void @splat_zero_v2i16(ptr %p) {
; CHECK-LABEL: splat_zero_v2i16:		; CHECK-LABEL: splat_zero_v2i16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 2, e16, mf4, ta, ma		; CHECK-NEXT: sw zero, 0(a0)
; CHECK-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vse16.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <2 x i16> zeroinitializer, ptr %p		store <2 x i16> zeroinitializer, ptr %p
ret void		ret void
}		}

define void @splat_zero_v2i16_unaligned(ptr %p) {		define void @splat_zero_v2i16_unaligned(ptr %p) {
; CHECK-LABEL: splat_zero_v2i16_unaligned:		; CHECK-LABEL: splat_zero_v2i16_unaligned:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 2, e16, mf4, ta, ma		; CHECK-NEXT: vsetivli zero, 2, e16, mf4, ta, ma
; CHECK-NEXT: vmv.v.i v8, 0		; CHECK-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vsetivli zero, 4, e8, mf4, ta, ma		; CHECK-NEXT: vsetivli zero, 4, e8, mf4, ta, ma
; CHECK-NEXT: vse8.v v8, (a0)		; CHECK-NEXT: vse8.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <2 x i16> zeroinitializer, ptr %p, align 1		store <2 x i16> zeroinitializer, ptr %p, align 1
ret void		ret void
}		}

define void @splat_zero_v4i16(ptr %p) {		define void @splat_zero_v4i16(ptr %p) {
; CHECK-LABEL: splat_zero_v4i16:		; LMULMAX8-RV32-LABEL: splat_zero_v4i16:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 4, e16, mf2, ta, ma		; LMULMAX8-RV32-NEXT: sw zero, 4(a0)
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: sw zero, 0(a0)
; CHECK-NEXT: vse16.v v8, (a0)		; LMULMAX8-RV32-NEXT: ret
; CHECK-NEXT: ret		;
		; LMULMAX2-RV32-LABEL: splat_zero_v4i16:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: sw zero, 4(a0)
		; LMULMAX2-RV32-NEXT: sw zero, 0(a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v4i16:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: sw zero, 4(a0)
		; LMULMAX1-RV32-NEXT: sw zero, 0(a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v4i16:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v4i16:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v4i16:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
store <4 x i16> zeroinitializer, ptr %p		store <4 x i16> zeroinitializer, ptr %p
ret void		ret void
}		}

define void @splat_zero_v2i32(ptr %p) {		define void @splat_zero_v2i32(ptr %p) {
; CHECK-LABEL: splat_zero_v2i32:		; LMULMAX8-RV32-LABEL: splat_zero_v2i32:
; CHECK: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
; CHECK-NEXT: vsetivli zero, 2, e32, mf2, ta, ma		; LMULMAX8-RV32-NEXT: sw zero, 4(a0)
; CHECK-NEXT: vmv.v.i v8, 0		; LMULMAX8-RV32-NEXT: sw zero, 0(a0)
; CHECK-NEXT: vse32.v v8, (a0)		; LMULMAX8-RV32-NEXT: ret
; CHECK-NEXT: ret		;
		; LMULMAX2-RV32-LABEL: splat_zero_v2i32:
		; LMULMAX2-RV32: # %bb.0:
		; LMULMAX2-RV32-NEXT: sw zero, 4(a0)
		; LMULMAX2-RV32-NEXT: sw zero, 0(a0)
		; LMULMAX2-RV32-NEXT: ret
		;
		; LMULMAX1-RV32-LABEL: splat_zero_v2i32:
		; LMULMAX1-RV32: # %bb.0:
		; LMULMAX1-RV32-NEXT: sw zero, 4(a0)
		; LMULMAX1-RV32-NEXT: sw zero, 0(a0)
		; LMULMAX1-RV32-NEXT: ret
		;
		; LMULMAX8-RV64-LABEL: splat_zero_v2i32:
		; LMULMAX8-RV64: # %bb.0:
		; LMULMAX8-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX8-RV64-NEXT: ret
		;
		; LMULMAX2-RV64-LABEL: splat_zero_v2i32:
		; LMULMAX2-RV64: # %bb.0:
		; LMULMAX2-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX2-RV64-NEXT: ret
		;
		; LMULMAX1-RV64-LABEL: splat_zero_v2i32:
		; LMULMAX1-RV64: # %bb.0:
		; LMULMAX1-RV64-NEXT: sd zero, 0(a0)
		; LMULMAX1-RV64-NEXT: ret
store <2 x i32> zeroinitializer, ptr %p		store <2 x i32> zeroinitializer, ptr %p
ret void		ret void
}		}

; Not a power of two and requires more than two scalar stores.		; Not a power of two and requires more than two scalar stores.
define void @splat_zero_v7i16(ptr %p) {		define void @splat_zero_v7i16(ptr %p) {
; LMULMAX8-RV32-LABEL: splat_zero_v7i16:		; LMULMAX8-RV32-LABEL: splat_zero_v7i16:
; LMULMAX8-RV32: # %bb.0:		; LMULMAX8-RV32: # %bb.0:
▲ Show 20 Lines • Show All 474 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-mask-splat.ll

Show All 20 Lines
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <1 x i1> <i1 1>, ptr %x		store <1 x i1> <i1 1>, ptr %x
ret void		ret void
}		}

define void @splat_zeros_v2i1(ptr %x) {		define void @splat_zeros_v2i1(ptr %x) {
; CHECK-LABEL: splat_zeros_v2i1:		; CHECK-LABEL: splat_zeros_v2i1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 2, e8, mf8, ta, ma		; CHECK-NEXT: sb zero, 0(a0)
; CHECK-NEXT: vmclr.m v0
; CHECK-NEXT: vmv.v.i v8, 0
; CHECK-NEXT: vmerge.vim v8, v8, 1, v0
; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
; CHECK-NEXT: vmv.v.i v9, 0
; CHECK-NEXT: vsetivli zero, 2, e8, mf2, tu, ma
; CHECK-NEXT: vslideup.vi v9, v8, 0
; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma
; CHECK-NEXT: vmsne.vi v8, v9, 0
; CHECK-NEXT: vsm.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <2 x i1> zeroinitializer, ptr %x		store <2 x i1> zeroinitializer, ptr %x
ret void		ret void
}		}

define void @splat_v1i1(ptr %x, i1 %y) {		define void @splat_v1i1(ptr %x, i1 %y) {
; CHECK-LABEL: splat_v1i1:		; CHECK-LABEL: splat_v1i1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%b = shufflevector <4 x i1> %a, <4 x i1> poison, <4 x i32> zeroinitializer		%b = shufflevector <4 x i1> %a, <4 x i1> poison, <4 x i32> zeroinitializer
store <4 x i1> %b, ptr %x		store <4 x i1> %b, ptr %x
ret void		ret void
}		}

define void @splat_zeros_v8i1(ptr %x) {		define void @splat_zeros_v8i1(ptr %x) {
; CHECK-LABEL: splat_zeros_v8i1:		; CHECK-LABEL: splat_zeros_v8i1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsetivli zero, 8, e8, mf2, ta, ma		; CHECK-NEXT: sb zero, 0(a0)
; CHECK-NEXT: vmclr.m v8
; CHECK-NEXT: vsm.v v8, (a0)
; CHECK-NEXT: ret		; CHECK-NEXT: ret
store <8 x i1> zeroinitializer, ptr %x		store <8 x i1> zeroinitializer, ptr %x
ret void		ret void
}		}

define void @splat_v8i1(ptr %x, i1 %y) {		define void @splat_v8i1(ptr %x, i1 %y) {
; CHECK-LABEL: splat_v8i1:		; CHECK-LABEL: splat_v8i1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
Show All 31 Lines
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = insertelement <16 x i1> poison, i1 %y, i32 0		%a = insertelement <16 x i1> poison, i1 %y, i32 0
%b = shufflevector <16 x i1> %a, <16 x i1> poison, <16 x i32> zeroinitializer		%b = shufflevector <16 x i1> %a, <16 x i1> poison, <16 x i32> zeroinitializer
store <16 x i1> %b, ptr %x		store <16 x i1> %b, ptr %x
ret void		ret void
}		}

define void @splat_zeros_v32i1(ptr %x) {		define void @splat_zeros_v32i1(ptr %x) {
; LMULMAX2-LABEL: splat_zeros_v32i1:		; CHECK-LABEL: splat_zeros_v32i1:
; LMULMAX2: # %bb.0:		; CHECK: # %bb.0:
; LMULMAX2-NEXT: li a1, 32		; CHECK-NEXT: sw zero, 0(a0)
; LMULMAX2-NEXT: vsetvli zero, a1, e8, m2, ta, ma		; CHECK-NEXT: ret
; LMULMAX2-NEXT: vmclr.m v8
; LMULMAX2-NEXT: vsm.v v8, (a0)
; LMULMAX2-NEXT: ret
;
; LMULMAX1-RV32-LABEL: splat_zeros_v32i1:
; LMULMAX1-RV32: # %bb.0:
; LMULMAX1-RV32-NEXT: vsetivli zero, 16, e8, m1, ta, ma
; LMULMAX1-RV32-NEXT: vmclr.m v8
; LMULMAX1-RV32-NEXT: vsm.v v8, (a0)
; LMULMAX1-RV32-NEXT: addi a0, a0, 2
; LMULMAX1-RV32-NEXT: vsm.v v8, (a0)
; LMULMAX1-RV32-NEXT: ret
;
; LMULMAX1-RV64-LABEL: splat_zeros_v32i1:
; LMULMAX1-RV64: # %bb.0:
; LMULMAX1-RV64-NEXT: vsetivli zero, 16, e8, m1, ta, ma
; LMULMAX1-RV64-NEXT: vmclr.m v8
; LMULMAX1-RV64-NEXT: vsm.v v8, (a0)
; LMULMAX1-RV64-NEXT: addi a0, a0, 2
; LMULMAX1-RV64-NEXT: vsm.v v8, (a0)
; LMULMAX1-RV64-NEXT: ret
store <32 x i1> zeroinitializer, ptr %x		store <32 x i1> zeroinitializer, ptr %x
ret void		ret void
}		}

define void @splat_v32i1(ptr %x, i1 %y) {		define void @splat_v32i1(ptr %x, i1 %y) {
; LMULMAX2-LABEL: splat_v32i1:		; LMULMAX2-LABEL: splat_v32i1:
; LMULMAX2: # %bb.0:		; LMULMAX2: # %bb.0:
; LMULMAX2-NEXT: andi a1, a1, 1		; LMULMAX2-NEXT: andi a1, a1, 1
▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/splats-with-mixed-vl.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -O3 -mtriple=riscv64 -mattr=+v < %s \| FileCheck %s			; RUN: llc -O3 -mtriple=riscv64 -mattr=+v < %s \| FileCheck %s

	define void @constant_splat_fixed(ptr %p) {			define void @constant_splat_fixed(ptr %p) {
	; CHECK-LABEL: constant_splat_fixed:			; CHECK-LABEL: constant_splat_fixed:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-NEXT: sd zero, 8(a0)
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: sd zero, 0(a0)
	; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	store <4 x i32> zeroinitializer, ptr %p			store <4 x i32> zeroinitializer, ptr %p
	ret void			ret void
	}			}

	define void @constant_splat_scalable(ptr %p) {			define void @constant_splat_scalable(ptr %p) {
	; CHECK-LABEL: constant_splat_scalable:			; CHECK-LABEL: constant_splat_scalable:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a1, zero, e32, mf2, ta, ma			; CHECK-NEXT: vsetvli a1, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	store <vscale x 1 x i32> zeroinitializer, ptr %p			store <vscale x 1 x i32> zeroinitializer, ptr %p
	ret void			ret void
	}			}

	; FIXME: We should be able to use the earlier splat of zero here			; FIXME: We should be able to use the earlier splat of zero here
	; since VLMAX >= 4.			; since VLMAX >= 4.
	define void @constant_splat_scalable_then_fixed(ptr %p, ptr %p2) {			define void @constant_splat_scalable_then_fixed(ptr %p, ptr %p2) {
	; CHECK-LABEL: constant_splat_scalable_then_fixed:			; CHECK-LABEL: constant_splat_scalable_then_fixed:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma			; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-NEXT: sd zero, 8(a1)
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: sd zero, 0(a1)
	; CHECK-NEXT: vse32.v v8, (a1)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	store <vscale x 1 x i32> zeroinitializer, ptr %p			store <vscale x 1 x i32> zeroinitializer, ptr %p
	store <4 x i32> zeroinitializer, ptr %p2			store <4 x i32> zeroinitializer, ptr %p2
	ret void			ret void
	}			}

	; We could widen the first splat to VLMAX, but this might not			; We could widen the first splat to VLMAX, but this might not
	; be generally profitable.			; be generally profitable.
	define void @constant_splat_fixed_then_scalable(ptr %p, ptr %p2) {			define void @constant_splat_fixed_then_scalable(ptr %p, ptr %p2) {
	; CHECK-LABEL: constant_splat_fixed_then_scalable:			; CHECK-LABEL: constant_splat_fixed_then_scalable:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-NEXT: sd zero, 8(a1)
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: sd zero, 0(a1)
	; CHECK-NEXT: vse32.v v8, (a1)
	; CHECK-NEXT: vsetvli a1, zero, e32, mf2, ta, ma			; CHECK-NEXT: vsetvli a1, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: vmv.v.i v8, 0
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	store <4 x i32> zeroinitializer, ptr %p2			store <4 x i32> zeroinitializer, ptr %p2
	store <vscale x 1 x i32> zeroinitializer, ptr %p			store <vscale x 1 x i32> zeroinitializer, ptr %p
	ret void			ret void
	}			}
	Show All 26 Lines

	; FIXME: We should reschedule the first splat to reduce the need			; FIXME: We should reschedule the first splat to reduce the need
	; for toggling VL			; for toggling VL
	define void @mixed_splats1(ptr %p, i32 %v) {			define void @mixed_splats1(ptr %p, i32 %v) {
	; CHECK-LABEL: mixed_splats1:			; CHECK-LABEL: mixed_splats1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma			; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vmv.v.x v8, a1			; CHECK-NEXT: vmv.v.x v8, a1
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-NEXT: sd zero, 8(a0)
	; CHECK-NEXT: vmv.v.i v9, 0			; CHECK-NEXT: sd zero, 0(a0)
	; CHECK-NEXT: vse32.v v9, (a0)
	; CHECK-NEXT: vsetvli a1, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%elt.head = insertelement <vscale x 1 x i32> poison, i32 %v, i32 0			%elt.head = insertelement <vscale x 1 x i32> poison, i32 %v, i32 0
	%splat = shufflevector <vscale x 1 x i32> %elt.head, <vscale x 1 x i32> poison, <vscale x 1 x i32> zeroinitializer			%splat = shufflevector <vscale x 1 x i32> %elt.head, <vscale x 1 x i32> poison, <vscale x 1 x i32> zeroinitializer

	store <4 x i32> zeroinitializer, ptr %p			store <4 x i32> zeroinitializer, ptr %p
	store <vscale x 1 x i32> %splat, ptr %p			store <vscale x 1 x i32> %splat, ptr %p
	ret void			ret void
	}			}

	define void @mixed_splats2(ptr %p, i32 %v) {			define void @mixed_splats2(ptr %p, i32 %v) {
	; CHECK-LABEL: mixed_splats2:			; CHECK-LABEL: mixed_splats2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma			; CHECK-NEXT: vsetvli a2, zero, e32, mf2, ta, ma
	; CHECK-NEXT: vmv.v.x v8, a1			; CHECK-NEXT: vmv.v.x v8, a1
	; CHECK-NEXT: vse32.v v8, (a0)			; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: vsetivli zero, 4, e32, m1, ta, ma			; CHECK-NEXT: sd zero, 8(a0)
	; CHECK-NEXT: vmv.v.i v8, 0			; CHECK-NEXT: sd zero, 0(a0)
	; CHECK-NEXT: vse32.v v8, (a0)
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%elt.head = insertelement <vscale x 1 x i32> poison, i32 %v, i32 0			%elt.head = insertelement <vscale x 1 x i32> poison, i32 %v, i32 0
	%splat = shufflevector <vscale x 1 x i32> %elt.head, <vscale x 1 x i32> poison, <vscale x 1 x i32> zeroinitializer			%splat = shufflevector <vscale x 1 x i32> %elt.head, <vscale x 1 x i32> poison, <vscale x 1 x i32> zeroinitializer

	store <vscale x 1 x i32> %splat, ptr %p			store <vscale x 1 x i32> %splat, ptr %p
	store <4 x i32> zeroinitializer, ptr %p			store <4 x i32> zeroinitializer, ptr %p
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[RISCV] Use scalar stores for splats of zero to memory up to XLenClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 522869

llvm/lib/Target/RISCV/RISCVISelLowering.cpp

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-calling-conv.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-fp-splat.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-int-splat.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-mask-splat.ll

llvm/test/CodeGen/RISCV/rvv/splats-with-mixed-vl.ll

[RISCV] Use scalar stores for splats of zero to memory up to XLen
ClosedPublic