This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AArch64/
-
Target/
-
AArch64/
-
AArch64ISelLowering.cpp
-
test/CodeGen/AArch64/
-
CodeGen/
-
AArch64/
-
sve-fixed-length-vector-shuffle.ll

Differential D150125

[AArch64][SVE] Custom ISelLowering for 256b `shuffle_vector v, undef, <1, 0, 1, 0>`
Needs ReviewPublic

Authored by cameron.mcinally on May 8 2023, 9:14 AM.

Download Raw Diff

Details

Reviewers

paulwalker-arm
dmgreen
efriedma

Summary

Continuing from D149749, here is another neoverse-v1 VLS shuffle that could be lowered better...

%x = shufflevector <2 x double> %v, <2 x double> poison, <4 x i32> <i32 1, i32 0, i32 1, i32 0>

It could be lowered in a number of ways, but I chose:

zip1 z0.d, z0.d, z0.d
uzp1 z0.d, z0.d, z0.d
ext z0.b, z0.b, z0.b, #8

The new lowering shows a 9% performance boost on 538.namd with our out-of-tree compiler.

Note that this solution takes 6 cycles, compared to a NEON sequence at 4 cycles. This is unfortunate, but I could not find a faster SVE sequence for this shuffle. [Maybe a better solution is to fall back to NEON for shuffles of this form?]

Diff Detail

Unit TestsFailed

	Time	Test
	60,060 ms	x64 debian > MLIR.Examples/standalone::test.toy

Event Timeline

cameron.mcinally created this revision.May 8 2023, 9:14 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 8 2023, 9:14 AM

Herald added subscribers: ctetreau, psnobl, hiraditya and 2 others. · View Herald Transcript

cameron.mcinally requested review of this revision.May 8 2023, 9:14 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 8 2023, 9:14 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Why not dup z0.q, z0.q[0]; rev z0.d, z0.d?

Harbormaster completed remote builds in B230666: Diff 520390.May 8 2023, 10:15 AM

Matt added a subscriber: Matt.May 8 2023, 2:07 PM

Good call, @efriedma. I didn't realize there are quadword splats.

Harbormaster completed remote builds in B230753: Diff 520522.May 8 2023, 6:28 PM

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64ISelLowering.cpp

27 lines

test/

CodeGen/

AArch64/

sve-fixed-length-vector-shuffle.ll

56 lines

Diff 520522

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 11,017 Lines • ▼ Show 20 Lines	static bool isTRN_v_undef_Mask(ArrayRef<int> M, EVT VT, unsigned &WhichResult) {
for (unsigned i = 0; i < NumElts; i += 2) {		for (unsigned i = 0; i < NumElts; i += 2) {
if ((M[i] >= 0 && (unsigned)M[i] != i + WhichResult) \|\|		if ((M[i] >= 0 && (unsigned)M[i] != i + WhichResult) \|\|
(M[i + 1] >= 0 && (unsigned)M[i + 1] != i + WhichResult))		(M[i + 1] >= 0 && (unsigned)M[i + 1] != i + WhichResult))
return false;		return false;
}		}
return true;		return true;
}		}

		/// is256bRevDupMask - Special case for <2 x double> shuffles of the form:
		/// "vector_shuffle v, undef, <1, 0, 1, 0>"
		static bool is256bRevDupMask(ArrayRef<int> M, EVT VT) {
		unsigned NumElts = VT.getVectorNumElements();
		if (NumElts % 2 != 0)
		return false;
		if (VT.getSizeInBits() != 256 \|\| VT.getScalarSizeInBits() != 64)
		return false;
		for (unsigned i = 0; i != NumElts; i ++) {
		if (i % 2 == 0) {
		if (M[i] != 1)
		return false;
		} else {
		if (M[i] != 0)
		return false;
		}
		}
		return true;
		}

static bool isINSMask(ArrayRef<int> M, int NumInputElements,		static bool isINSMask(ArrayRef<int> M, int NumInputElements,
bool &DstIsLeft, int &Anomaly) {		bool &DstIsLeft, int &Anomaly) {
if (M.size() != static_cast<size_t>(NumInputElements))		if (M.size() != static_cast<size_t>(NumInputElements))
return false;		return false;

int NumLHSMatch = 0, NumRHSMatch = 0;		int NumLHSMatch = 0, NumRHSMatch = 0;
int LastLHSMismatch = -1, LastRHSMismatch = -1;		int LastLHSMismatch = -1, LastRHSMismatch = -1;

▲ Show 20 Lines • Show All 13,684 Lines • ▼ Show 20 Lines	if (isZIP_v_undef_Mask(ShuffleMask, VT, WhichResult) && WhichResult != 0)
return convertFromScalableVector(		return convertFromScalableVector(
DAG, VT, DAG.getNode(AArch64ISD::ZIP2, DL, ContainerVT, Op1, Op1));		DAG, VT, DAG.getNode(AArch64ISD::ZIP2, DL, ContainerVT, Op1, Op1));

if (isUZP_v_undef_Mask(ShuffleMask, VT, WhichResult)) {		if (isUZP_v_undef_Mask(ShuffleMask, VT, WhichResult)) {
unsigned Opc = (WhichResult == 0) ? AArch64ISD::UZP1 : AArch64ISD::UZP2;		unsigned Opc = (WhichResult == 0) ? AArch64ISD::UZP1 : AArch64ISD::UZP2;
return convertFromScalableVector(		return convertFromScalableVector(
DAG, VT, DAG.getNode(Opc, DL, ContainerVT, Op1, Op1));		DAG, VT, DAG.getNode(Opc, DL, ContainerVT, Op1, Op1));
}		}

		if (is256bRevDupMask(ShuffleMask, VT)) {
		Op = DAG.getNode(AArch64ISD::DUPLANE128, DL, ContainerVT, Op1,
		DAG.getTargetConstant(0, DL, MVT::i64));
		Op = DAG.getNode(ISD::VECTOR_REVERSE, DL, ContainerVT, Op);
		return convertFromScalableVector(DAG, VT, Op);
		}
}		}

return SDValue();		return SDValue();
}		}

SDValue AArch64TargetLowering::getSVESafeBitCast(EVT VT, SDValue Op,		SDValue AArch64TargetLowering::getSVESafeBitCast(EVT VT, SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDLoc DL(Op);		SDLoc DL(Op);
▲ Show 20 Lines • Show All 252 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/sve-fixed-length-vector-shuffle.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	%ret = shufflevector <32 x i8> %op1, <32 x i8> %op2, <32 x i32> <i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38,
i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>		i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>
store <32 x i8> %ret, ptr %a		store <32 x i8> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v64i8(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v64i8(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v64i8:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v64i8:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov w8, #32		; VBITS_GE_256-NEXT: mov w8, #32 // =0x20
; VBITS_GE_256-NEXT: ptrue p0.b, vl32		; VBITS_GE_256-NEXT: ptrue p0.b, vl32
; VBITS_GE_256-NEXT: ld1b { z0.b }, p0/z, [x0, x8]		; VBITS_GE_256-NEXT: ld1b { z0.b }, p0/z, [x0, x8]
; VBITS_GE_256-NEXT: ld1b { z1.b }, p0/z, [x1, x8]		; VBITS_GE_256-NEXT: ld1b { z1.b }, p0/z, [x1, x8]
; VBITS_GE_256-NEXT: ld1b { z2.b }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1b { z2.b }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.b, z0.b[31]		; VBITS_GE_256-NEXT: mov z0.b, z0.b[31]
; VBITS_GE_256-NEXT: mov z3.b, z2.b[31]		; VBITS_GE_256-NEXT: mov z3.b, z2.b[31]
; VBITS_GE_256-NEXT: fmov w9, s0		; VBITS_GE_256-NEXT: fmov w9, s0
; VBITS_GE_256-NEXT: fmov w10, s3		; VBITS_GE_256-NEXT: fmov w10, s3
Show All 26 Lines	; VBITS_GE_512-NEXT: ret
store <64 x i8> %ret, ptr %a		store <64 x i8> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v128i8(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v128i8(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v128i8:		; CHECK-LABEL: shuffle_ext_byone_v128i8:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.b, vl128		; CHECK-NEXT: ptrue p0.b, vl128
; CHECK-NEXT: mov w8, #127		; CHECK-NEXT: mov w8, #127 // =0x7f
; CHECK-NEXT: ld1b { z0.b }, p0/z, [x0]		; CHECK-NEXT: ld1b { z0.b }, p0/z, [x0]
; CHECK-NEXT: ld1b { z1.b }, p0/z, [x1]		; CHECK-NEXT: ld1b { z1.b }, p0/z, [x1]
; CHECK-NEXT: whilels p1.b, xzr, x8		; CHECK-NEXT: whilels p1.b, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.b		; CHECK-NEXT: lastb w8, p1, z0.b
; CHECK-NEXT: insr z1.b, w8		; CHECK-NEXT: insr z1.b, w8
; CHECK-NEXT: st1b { z1.b }, p0, [x0]		; CHECK-NEXT: st1b { z1.b }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <128 x i8>, ptr %a		%op1 = load <128 x i8>, ptr %a
Show All 17 Lines	; CHECK-NEXT: ret
store <128 x i8> %ret, ptr %a		store <128 x i8> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v256i8(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v256i8(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v256i8:		; CHECK-LABEL: shuffle_ext_byone_v256i8:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.b, vl256		; CHECK-NEXT: ptrue p0.b, vl256
; CHECK-NEXT: mov w8, #255		; CHECK-NEXT: mov w8, #255 // =0xff
; CHECK-NEXT: ld1b { z0.b }, p0/z, [x0]		; CHECK-NEXT: ld1b { z0.b }, p0/z, [x0]
; CHECK-NEXT: ld1b { z1.b }, p0/z, [x1]		; CHECK-NEXT: ld1b { z1.b }, p0/z, [x1]
; CHECK-NEXT: whilels p1.b, xzr, x8		; CHECK-NEXT: whilels p1.b, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.b		; CHECK-NEXT: lastb w8, p1, z0.b
; CHECK-NEXT: insr z1.b, w8		; CHECK-NEXT: insr z1.b, w8
; CHECK-NEXT: st1b { z1.b }, p0, [x0]		; CHECK-NEXT: st1b { z1.b }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <256 x i8>, ptr %a		%op1 = load <256 x i8>, ptr %a
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	%ret = shufflevector <16 x i16> %op1, <16 x i16> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,
i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>		i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>
store <16 x i16> %ret, ptr %a		store <16 x i16> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32i16(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v32i16(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v32i16:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v32i16:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #16		; VBITS_GE_256-NEXT: mov x8, #16 // =0x10
; VBITS_GE_256-NEXT: ptrue p0.h, vl16		; VBITS_GE_256-NEXT: ptrue p0.h, vl16
; VBITS_GE_256-NEXT: ld1h { z0.h }, p0/z, [x0, x8, lsl #1]		; VBITS_GE_256-NEXT: ld1h { z0.h }, p0/z, [x0, x8, lsl #1]
; VBITS_GE_256-NEXT: ld1h { z1.h }, p0/z, [x1, x8, lsl #1]		; VBITS_GE_256-NEXT: ld1h { z1.h }, p0/z, [x1, x8, lsl #1]
; VBITS_GE_256-NEXT: ld1h { z2.h }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1h { z2.h }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.h, z0.h[15]		; VBITS_GE_256-NEXT: mov z0.h, z0.h[15]
; VBITS_GE_256-NEXT: mov z3.h, z2.h[15]		; VBITS_GE_256-NEXT: mov z3.h, z2.h[15]
; VBITS_GE_256-NEXT: fmov w9, s0		; VBITS_GE_256-NEXT: fmov w9, s0
; VBITS_GE_256-NEXT: fmov w10, s3		; VBITS_GE_256-NEXT: fmov w10, s3
Show All 22 Lines	; VBITS_GE_512-NEXT: ret
store <32 x i16> %ret, ptr %a		store <32 x i16> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v64i16(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v64i16(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v64i16:		; CHECK-LABEL: shuffle_ext_byone_v64i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.h, vl64		; CHECK-NEXT: ptrue p0.h, vl64
; CHECK-NEXT: mov w8, #63		; CHECK-NEXT: mov w8, #63 // =0x3f
; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]		; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]		; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
; CHECK-NEXT: whilels p1.h, xzr, x8		; CHECK-NEXT: whilels p1.h, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.h		; CHECK-NEXT: lastb w8, p1, z0.h
; CHECK-NEXT: insr z1.h, w8		; CHECK-NEXT: insr z1.h, w8
; CHECK-NEXT: st1h { z1.h }, p0, [x0]		; CHECK-NEXT: st1h { z1.h }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <64 x i16>, ptr %a		%op1 = load <64 x i16>, ptr %a
Show All 9 Lines	; CHECK-NEXT: ret
store <64 x i16> %ret, ptr %a		store <64 x i16> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v128i16(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v128i16(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v128i16:		; CHECK-LABEL: shuffle_ext_byone_v128i16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.h, vl128		; CHECK-NEXT: ptrue p0.h, vl128
; CHECK-NEXT: mov w8, #127		; CHECK-NEXT: mov w8, #127 // =0x7f
; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]		; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]		; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
; CHECK-NEXT: whilels p1.h, xzr, x8		; CHECK-NEXT: whilels p1.h, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.h		; CHECK-NEXT: lastb w8, p1, z0.h
; CHECK-NEXT: insr z1.h, w8		; CHECK-NEXT: insr z1.h, w8
; CHECK-NEXT: st1h { z1.h }, p0, [x0]		; CHECK-NEXT: st1h { z1.h }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <128 x i16>, ptr %a		%op1 = load <128 x i16>, ptr %a
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%ret = shufflevector <8 x i32> %op1, <8 x i32> %op2, <8 x i32> <i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14>		%ret = shufflevector <8 x i32> %op1, <8 x i32> %op2, <8 x i32> <i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14>
store <8 x i32> %ret, ptr %a		store <8 x i32> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v16i32(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v16i32(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v16i32:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v16i32:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #8		; VBITS_GE_256-NEXT: mov x8, #8 // =0x8
; VBITS_GE_256-NEXT: ptrue p0.s, vl8		; VBITS_GE_256-NEXT: ptrue p0.s, vl8
; VBITS_GE_256-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]		; VBITS_GE_256-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]
; VBITS_GE_256-NEXT: ld1w { z1.s }, p0/z, [x1, x8, lsl #2]		; VBITS_GE_256-NEXT: ld1w { z1.s }, p0/z, [x1, x8, lsl #2]
; VBITS_GE_256-NEXT: ld1w { z2.s }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1w { z2.s }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.s, z0.s[7]		; VBITS_GE_256-NEXT: mov z0.s, z0.s[7]
; VBITS_GE_256-NEXT: mov z3.s, z2.s[7]		; VBITS_GE_256-NEXT: mov z3.s, z2.s[7]
; VBITS_GE_256-NEXT: fmov w9, s0		; VBITS_GE_256-NEXT: fmov w9, s0
; VBITS_GE_256-NEXT: fmov w10, s3		; VBITS_GE_256-NEXT: fmov w10, s3
Show All 20 Lines	; VBITS_GE_512-NEXT: ret
store <16 x i32> %ret, ptr %a		store <16 x i32> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32i32(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v32i32(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v32i32:		; CHECK-LABEL: shuffle_ext_byone_v32i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.s, vl32		; CHECK-NEXT: ptrue p0.s, vl32
; CHECK-NEXT: mov w8, #31		; CHECK-NEXT: mov w8, #31 // =0x1f
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
; CHECK-NEXT: whilels p1.s, xzr, x8		; CHECK-NEXT: whilels p1.s, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.s		; CHECK-NEXT: lastb w8, p1, z0.s
; CHECK-NEXT: insr z1.s, w8		; CHECK-NEXT: insr z1.s, w8
; CHECK-NEXT: st1w { z1.s }, p0, [x0]		; CHECK-NEXT: st1w { z1.s }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <32 x i32>, ptr %a		%op1 = load <32 x i32>, ptr %a
%op2 = load <32 x i32>, ptr %b		%op2 = load <32 x i32>, ptr %b
%ret = shufflevector <32 x i32> %op1, <32 x i32> %op2, <32 x i32> <i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38,		%ret = shufflevector <32 x i32> %op1, <32 x i32> %op2, <32 x i32> <i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38,
i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46,		i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46,
i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54,		i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54,
i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>		i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>
store <32 x i32> %ret, ptr %a		store <32 x i32> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v64i32(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v64i32(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v64i32:		; CHECK-LABEL: shuffle_ext_byone_v64i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.s, vl64		; CHECK-NEXT: ptrue p0.s, vl64
; CHECK-NEXT: mov w8, #63		; CHECK-NEXT: mov w8, #63 // =0x3f
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
; CHECK-NEXT: whilels p1.s, xzr, x8		; CHECK-NEXT: whilels p1.s, xzr, x8
; CHECK-NEXT: lastb w8, p1, z0.s		; CHECK-NEXT: lastb w8, p1, z0.s
; CHECK-NEXT: insr z1.s, w8		; CHECK-NEXT: insr z1.s, w8
; CHECK-NEXT: st1w { z1.s }, p0, [x0]		; CHECK-NEXT: st1w { z1.s }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <64 x i32>, ptr %a		%op1 = load <64 x i32>, ptr %a
Show All 36 Lines	; CHECK-NEXT: ret
%ret = shufflevector <4 x i64> %op1, <4 x i64> %op2, <4 x i32> <i32 3, i32 4, i32 5, i32 6>		%ret = shufflevector <4 x i64> %op1, <4 x i64> %op2, <4 x i32> <i32 3, i32 4, i32 5, i32 6>
store <4 x i64> %ret, ptr %a		store <4 x i64> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v8i64(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v8i64(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v8i64:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v8i64:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #4		; VBITS_GE_256-NEXT: mov x8, #4 // =0x4
; VBITS_GE_256-NEXT: ptrue p0.d, vl4		; VBITS_GE_256-NEXT: ptrue p0.d, vl4
; VBITS_GE_256-NEXT: ld1d { z0.d }, p0/z, [x0, x8, lsl #3]		; VBITS_GE_256-NEXT: ld1d { z0.d }, p0/z, [x0, x8, lsl #3]
; VBITS_GE_256-NEXT: ld1d { z1.d }, p0/z, [x1, x8, lsl #3]		; VBITS_GE_256-NEXT: ld1d { z1.d }, p0/z, [x1, x8, lsl #3]
; VBITS_GE_256-NEXT: ld1d { z2.d }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1d { z2.d }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.d, z0.d[3]		; VBITS_GE_256-NEXT: mov z0.d, z0.d[3]
; VBITS_GE_256-NEXT: mov z3.d, z2.d[3]		; VBITS_GE_256-NEXT: mov z3.d, z2.d[3]
; VBITS_GE_256-NEXT: fmov x9, d0		; VBITS_GE_256-NEXT: fmov x9, d0
; VBITS_GE_256-NEXT: fmov x10, d3		; VBITS_GE_256-NEXT: fmov x10, d3
Show All 19 Lines	; VBITS_GE_512-NEXT: ret
store <8 x i64> %ret, ptr %a		store <8 x i64> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v16i64(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v16i64(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v16i64:		; CHECK-LABEL: shuffle_ext_byone_v16i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.d, vl16		; CHECK-NEXT: ptrue p0.d, vl16
; CHECK-NEXT: mov w8, #15		; CHECK-NEXT: mov w8, #15 // =0xf
; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]		; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]		; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]
; CHECK-NEXT: whilels p1.d, xzr, x8		; CHECK-NEXT: whilels p1.d, xzr, x8
; CHECK-NEXT: lastb x8, p1, z0.d		; CHECK-NEXT: lastb x8, p1, z0.d
; CHECK-NEXT: insr z1.d, x8		; CHECK-NEXT: insr z1.d, x8
; CHECK-NEXT: st1d { z1.d }, p0, [x0]		; CHECK-NEXT: st1d { z1.d }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <16 x i64>, ptr %a		%op1 = load <16 x i64>, ptr %a
%op2 = load <16 x i64>, ptr %b		%op2 = load <16 x i64>, ptr %b
%ret = shufflevector <16 x i64> %op1, <16 x i64> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,		%ret = shufflevector <16 x i64> %op1, <16 x i64> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,
i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>		i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>
store <16 x i64> %ret, ptr %a		store <16 x i64> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32i64(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v32i64(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v32i64:		; CHECK-LABEL: shuffle_ext_byone_v32i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.d, vl32		; CHECK-NEXT: ptrue p0.d, vl32
; CHECK-NEXT: mov w8, #31		; CHECK-NEXT: mov w8, #31 // =0x1f
; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]		; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]		; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]
; CHECK-NEXT: whilels p1.d, xzr, x8		; CHECK-NEXT: whilels p1.d, xzr, x8
; CHECK-NEXT: lastb x8, p1, z0.d		; CHECK-NEXT: lastb x8, p1, z0.d
; CHECK-NEXT: insr z1.d, x8		; CHECK-NEXT: insr z1.d, x8
; CHECK-NEXT: st1d { z1.d }, p0, [x0]		; CHECK-NEXT: st1d { z1.d }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <32 x i64>, ptr %a		%op1 = load <32 x i64>, ptr %a
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	%ret = shufflevector <16 x half> %op1, <16 x half> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,
i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>		i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>
store <16 x half> %ret, ptr %a		store <16 x half> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32f16(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v32f16(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v32f16:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v32f16:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #16		; VBITS_GE_256-NEXT: mov x8, #16 // =0x10
; VBITS_GE_256-NEXT: ptrue p0.h, vl16		; VBITS_GE_256-NEXT: ptrue p0.h, vl16
; VBITS_GE_256-NEXT: ld1h { z0.h }, p0/z, [x0, x8, lsl #1]		; VBITS_GE_256-NEXT: ld1h { z0.h }, p0/z, [x0, x8, lsl #1]
; VBITS_GE_256-NEXT: ld1h { z1.h }, p0/z, [x1, x8, lsl #1]		; VBITS_GE_256-NEXT: ld1h { z1.h }, p0/z, [x1, x8, lsl #1]
; VBITS_GE_256-NEXT: ld1h { z2.h }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1h { z2.h }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.h, z0.h[15]		; VBITS_GE_256-NEXT: mov z0.h, z0.h[15]
; VBITS_GE_256-NEXT: mov z3.h, z2.h[15]		; VBITS_GE_256-NEXT: mov z3.h, z2.h[15]
; VBITS_GE_256-NEXT: insr z2.h, h0		; VBITS_GE_256-NEXT: insr z2.h, h0
; VBITS_GE_256-NEXT: insr z1.h, h3		; VBITS_GE_256-NEXT: insr z1.h, h3
Show All 19 Lines	; VBITS_GE_512-NEXT: ret
store <32 x half> %ret, ptr %a		store <32 x half> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v64f16(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v64f16(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v64f16:		; CHECK-LABEL: shuffle_ext_byone_v64f16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.h, vl64		; CHECK-NEXT: ptrue p0.h, vl64
; CHECK-NEXT: mov w8, #63		; CHECK-NEXT: mov w8, #63 // =0x3f
; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]		; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]		; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
; CHECK-NEXT: whilels p1.h, xzr, x8		; CHECK-NEXT: whilels p1.h, xzr, x8
; CHECK-NEXT: lastb h0, p1, z0.h		; CHECK-NEXT: lastb h0, p1, z0.h
; CHECK-NEXT: insr z1.h, h0		; CHECK-NEXT: insr z1.h, h0
; CHECK-NEXT: st1h { z1.h }, p0, [x0]		; CHECK-NEXT: st1h { z1.h }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <64 x half>, ptr %a		%op1 = load <64 x half>, ptr %a
Show All 9 Lines	; CHECK-NEXT: ret
store <64 x half> %ret, ptr %a		store <64 x half> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v128f16(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v128f16(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v128f16:		; CHECK-LABEL: shuffle_ext_byone_v128f16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.h, vl128		; CHECK-NEXT: ptrue p0.h, vl128
; CHECK-NEXT: mov w8, #127		; CHECK-NEXT: mov w8, #127 // =0x7f
; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]		; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]		; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
; CHECK-NEXT: whilels p1.h, xzr, x8		; CHECK-NEXT: whilels p1.h, xzr, x8
; CHECK-NEXT: lastb h0, p1, z0.h		; CHECK-NEXT: lastb h0, p1, z0.h
; CHECK-NEXT: insr z1.h, h0		; CHECK-NEXT: insr z1.h, h0
; CHECK-NEXT: st1h { z1.h }, p0, [x0]		; CHECK-NEXT: st1h { z1.h }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <128 x half>, ptr %a		%op1 = load <128 x half>, ptr %a
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%ret = shufflevector <8 x float> %op1, <8 x float> %op2, <8 x i32> <i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14>		%ret = shufflevector <8 x float> %op1, <8 x float> %op2, <8 x i32> <i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14>
store <8 x float> %ret, ptr %a		store <8 x float> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v16f32(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v16f32(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v16f32:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v16f32:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #8		; VBITS_GE_256-NEXT: mov x8, #8 // =0x8
; VBITS_GE_256-NEXT: ptrue p0.s, vl8		; VBITS_GE_256-NEXT: ptrue p0.s, vl8
; VBITS_GE_256-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]		; VBITS_GE_256-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]
; VBITS_GE_256-NEXT: ld1w { z1.s }, p0/z, [x1, x8, lsl #2]		; VBITS_GE_256-NEXT: ld1w { z1.s }, p0/z, [x1, x8, lsl #2]
; VBITS_GE_256-NEXT: ld1w { z2.s }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1w { z2.s }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.s, z0.s[7]		; VBITS_GE_256-NEXT: mov z0.s, z0.s[7]
; VBITS_GE_256-NEXT: mov z3.s, z2.s[7]		; VBITS_GE_256-NEXT: mov z3.s, z2.s[7]
; VBITS_GE_256-NEXT: insr z2.s, s0		; VBITS_GE_256-NEXT: insr z2.s, s0
; VBITS_GE_256-NEXT: insr z1.s, s3		; VBITS_GE_256-NEXT: insr z1.s, s3
Show All 17 Lines	; VBITS_GE_512-NEXT: ret
store <16 x float> %ret, ptr %a		store <16 x float> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32f32(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v32f32(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v32f32:		; CHECK-LABEL: shuffle_ext_byone_v32f32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.s, vl32		; CHECK-NEXT: ptrue p0.s, vl32
; CHECK-NEXT: mov w8, #31		; CHECK-NEXT: mov w8, #31 // =0x1f
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
; CHECK-NEXT: whilels p1.s, xzr, x8		; CHECK-NEXT: whilels p1.s, xzr, x8
; CHECK-NEXT: lastb s0, p1, z0.s		; CHECK-NEXT: lastb s0, p1, z0.s
; CHECK-NEXT: insr z1.s, s0		; CHECK-NEXT: insr z1.s, s0
; CHECK-NEXT: st1w { z1.s }, p0, [x0]		; CHECK-NEXT: st1w { z1.s }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <32 x float>, ptr %a		%op1 = load <32 x float>, ptr %a
%op2 = load <32 x float>, ptr %b		%op2 = load <32 x float>, ptr %b
%ret = shufflevector <32 x float> %op1, <32 x float> %op2, <32 x i32> <i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38,		%ret = shufflevector <32 x float> %op1, <32 x float> %op2, <32 x i32> <i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38,
i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46,		i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46,
i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54,		i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54,
i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>		i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62>
store <32 x float> %ret, ptr %a		store <32 x float> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v64f32(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v64f32(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v64f32:		; CHECK-LABEL: shuffle_ext_byone_v64f32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.s, vl64		; CHECK-NEXT: ptrue p0.s, vl64
; CHECK-NEXT: mov w8, #63		; CHECK-NEXT: mov w8, #63 // =0x3f
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
; CHECK-NEXT: whilels p1.s, xzr, x8		; CHECK-NEXT: whilels p1.s, xzr, x8
; CHECK-NEXT: lastb s0, p1, z0.s		; CHECK-NEXT: lastb s0, p1, z0.s
; CHECK-NEXT: insr z1.s, s0		; CHECK-NEXT: insr z1.s, s0
; CHECK-NEXT: st1w { z1.s }, p0, [x0]		; CHECK-NEXT: st1w { z1.s }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <64 x float>, ptr %a		%op1 = load <64 x float>, ptr %a
Show All 35 Lines	; CHECK-NEXT: ret
%ret = shufflevector <4 x double> %op1, <4 x double> %op2, <4 x i32> <i32 3, i32 4, i32 5, i32 6>		%ret = shufflevector <4 x double> %op1, <4 x double> %op2, <4 x i32> <i32 3, i32 4, i32 5, i32 6>
store <4 x double> %ret, ptr %a		store <4 x double> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v8f64(ptr %a, ptr %b) #0 {		define void @shuffle_ext_byone_v8f64(ptr %a, ptr %b) #0 {
; VBITS_GE_256-LABEL: shuffle_ext_byone_v8f64:		; VBITS_GE_256-LABEL: shuffle_ext_byone_v8f64:
; VBITS_GE_256: // %bb.0:		; VBITS_GE_256: // %bb.0:
; VBITS_GE_256-NEXT: mov x8, #4		; VBITS_GE_256-NEXT: mov x8, #4 // =0x4
; VBITS_GE_256-NEXT: ptrue p0.d, vl4		; VBITS_GE_256-NEXT: ptrue p0.d, vl4
; VBITS_GE_256-NEXT: ld1d { z0.d }, p0/z, [x0, x8, lsl #3]		; VBITS_GE_256-NEXT: ld1d { z0.d }, p0/z, [x0, x8, lsl #3]
; VBITS_GE_256-NEXT: ld1d { z1.d }, p0/z, [x1, x8, lsl #3]		; VBITS_GE_256-NEXT: ld1d { z1.d }, p0/z, [x1, x8, lsl #3]
; VBITS_GE_256-NEXT: ld1d { z2.d }, p0/z, [x1]		; VBITS_GE_256-NEXT: ld1d { z2.d }, p0/z, [x1]
; VBITS_GE_256-NEXT: mov z0.d, z0.d[3]		; VBITS_GE_256-NEXT: mov z0.d, z0.d[3]
; VBITS_GE_256-NEXT: mov z3.d, z2.d[3]		; VBITS_GE_256-NEXT: mov z3.d, z2.d[3]
; VBITS_GE_256-NEXT: insr z2.d, d0		; VBITS_GE_256-NEXT: insr z2.d, d0
; VBITS_GE_256-NEXT: insr z1.d, d3		; VBITS_GE_256-NEXT: insr z1.d, d3
Show All 16 Lines	; VBITS_GE_512-NEXT: ret
store <8 x double> %ret, ptr %a		store <8 x double> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v16f64(ptr %a, ptr %b) vscale_range(8,0) #0 {		define void @shuffle_ext_byone_v16f64(ptr %a, ptr %b) vscale_range(8,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v16f64:		; CHECK-LABEL: shuffle_ext_byone_v16f64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.d, vl16		; CHECK-NEXT: ptrue p0.d, vl16
; CHECK-NEXT: mov w8, #15		; CHECK-NEXT: mov w8, #15 // =0xf
; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]		; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]		; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]
; CHECK-NEXT: whilels p1.d, xzr, x8		; CHECK-NEXT: whilels p1.d, xzr, x8
; CHECK-NEXT: lastb d0, p1, z0.d		; CHECK-NEXT: lastb d0, p1, z0.d
; CHECK-NEXT: insr z1.d, d0		; CHECK-NEXT: insr z1.d, d0
; CHECK-NEXT: st1d { z1.d }, p0, [x0]		; CHECK-NEXT: st1d { z1.d }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <16 x double>, ptr %a		%op1 = load <16 x double>, ptr %a
%op2 = load <16 x double>, ptr %b		%op2 = load <16 x double>, ptr %b
%ret = shufflevector <16 x double> %op1, <16 x double> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,		%ret = shufflevector <16 x double> %op1, <16 x double> %op2, <16 x i32> <i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22,
i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>		i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30>
store <16 x double> %ret, ptr %a		store <16 x double> %ret, ptr %a
ret void		ret void
}		}

define void @shuffle_ext_byone_v32f64(ptr %a, ptr %b) vscale_range(16,0) #0 {		define void @shuffle_ext_byone_v32f64(ptr %a, ptr %b) vscale_range(16,0) #0 {
; CHECK-LABEL: shuffle_ext_byone_v32f64:		; CHECK-LABEL: shuffle_ext_byone_v32f64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.d, vl32		; CHECK-NEXT: ptrue p0.d, vl32
; CHECK-NEXT: mov w8, #31		; CHECK-NEXT: mov w8, #31 // =0x1f
; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]		; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]		; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]
; CHECK-NEXT: whilels p1.d, xzr, x8		; CHECK-NEXT: whilels p1.d, xzr, x8
; CHECK-NEXT: lastb d0, p1, z0.d		; CHECK-NEXT: lastb d0, p1, z0.d
; CHECK-NEXT: insr z1.d, d0		; CHECK-NEXT: insr z1.d, d0
; CHECK-NEXT: st1d { z1.d }, p0, [x0]		; CHECK-NEXT: st1d { z1.d }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <32 x double>, ptr %a		%op1 = load <32 x double>, ptr %a
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <4 x double>, ptr %a		%op1 = load <4 x double>, ptr %a
%op2 = load <4 x double>, ptr %b		%op2 = load <4 x double>, ptr %b
%ret = shufflevector <4 x double> %op1, <4 x double> %op2, <4 x i32> <i32 2, i32 3, i32 4, i32 5>		%ret = shufflevector <4 x double> %op1, <4 x double> %op2, <4 x i32> <i32 2, i32 3, i32 4, i32 5>
store <4 x double> %ret, ptr %a		store <4 x double> %ret, ptr %a
ret void		ret void
}		}

		define void @shuffle_256b_rev_and_dup(ptr %a) vscale_range(2,2) #0 {
		; CHECK-LABEL: shuffle_256b_rev_and_dup:
		; CHECK: // %bb.0:
		; CHECK-NEXT: ptrue p0.d
		; CHECK-NEXT: ld1rqd { z0.d }, p0/z, [x0]
		; CHECK-NEXT: rev z0.d, z0.d
		; CHECK-NEXT: st1d { z0.d }, p0, [x0]
		; CHECK-NEXT: ret
		%op = load <2 x double>, ptr %a
		%ret = shufflevector <2 x double> %op, <2 x double> poison, <4 x i32> <i32 1, i32 0, i32 1, i32 0>
		store <4 x double> %ret, ptr %a
		ret void
		}

attributes #0 = { "target-features"="+sve" }		attributes #0 = { "target-features"="+sve" }