This is an archive of the discontinued LLVM Phabricator instance.

[ARM,MVE] Add ACLE intrinsics for VQMOV[U]N family.
ClosedPublic

Authored by simon_tatham on Feb 27 2020, 6:56 AM.

Download Raw Diff

Details

Reviewers

MarkMurrayARM
dmgreen
miyuki
ostannard

Commits

rGa41ecf0eb051: [ARM,MVE] Add ACLE intrinsics for VQMOV[U]N family.

Summary

These instructions work like VMOVN (narrowing a vector of wide values
to half size, and overwriting every other lane of an output register
with the result), except that the narrowing conversion is saturating.
They come in three signedness flavours: signed to signed, unsigned to
unsigned, and signed to unsigned. All are represented in IR by a
target-specific intrinsic that takes two separate 'unsigned' flags.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

simon_tatham created this revision.Feb 27 2020, 6:56 AM

Herald added projects: Restricted Project, Restricted Project. · View Herald TranscriptFeb 27 2020, 6:56 AM

Herald added subscribers: llvm-commits, cfe-commits, hiraditya, kristof.beyls. · View Herald Transcript

Harbormaster completed remote builds in B47417: Diff 246934.Feb 27 2020, 6:57 AM

I had some code somewhere that was trying to produce VQMOVNbh from codegen, treating them as a saturating truncate. It would only work in certain situations thought, relying on demand bits to not use the top half. And IIRC it was making some test cases worse, which I never got a chance to check what was going wrong, which is why it never made it into tree. I may try and figure out what was going wrong there.

Anyway, this LGTM for the more general cases needed in the intrinsics.

This revision is now accepted and ready to land.Feb 28 2020, 5:49 AM

Closed by commit rGa41ecf0eb051: [ARM,MVE] Add ACLE intrinsics for VQMOV[U]N family. (authored by simon_tatham). · Explain WhyMar 2 2020, 2:34 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

clang/

include/

clang/

Basic/

arm_mve.td

27 lines

arm_mve_defs.td

6 lines

test/

CodeGen/

arm-mve-intrinsics/

vqmovn.c

366 lines

llvm/

include/

llvm/

IR/

IntrinsicsARM.td

9 lines

lib/

Target/

ARM/

ARMInstrMVE.td

29 lines

test/

CodeGen/

Thumb2/

mve-intrinsics/

vqmovn.ll

299 lines

Diff 247580

clang/include/clang/Basic/arm_mve.td

Show First 20 Lines • Show All 508 Lines • ▼ Show 20 Lines	def _m: Intrinsic<HalfVector, (args HalfVector:$inactive, Vector:$a,
$inactive, $a, top, $pred)>;		$inactive, $a, top, $pred)>;
}		}
}		}

defm vmovntq: vmovn<1, (zip (vreinterpret $inactive, Vector), $a)>;		defm vmovntq: vmovn<1, (zip (vreinterpret $inactive, Vector), $a)>;
defm vmovnbq: vmovn<0,		defm vmovnbq: vmovn<0,
(zip $a, (vreinterpret (vrev $inactive, (bitsize Scalar)), Vector))>;		(zip $a, (vreinterpret (vrev $inactive, (bitsize Scalar)), Vector))>;

		multiclass vqmovn<bit top, Type RetScalar> {
		defvar RetVector = VecOf<RetScalar>;

		let params = [s16, u16, s32, u32] in {
		def : Intrinsic<
		RetVector, (args RetVector:$inactive, Vector:$a),
		(IRInt<"vqmovn", [RetVector, Vector]>
		$inactive, $a, (unsignedflag RetScalar), (unsignedflag Scalar), top)>,
		NameOverride<NAME>;
		def: Intrinsic<
		RetVector, (args RetVector:$inactive, Vector:$a, Predicate:$pred),
		(IRInt<"vqmovn_predicated", [RetVector, Vector, Predicate]>
		$inactive, $a, (unsignedflag RetScalar), (unsignedflag Scalar),
		top, $pred)>,
		NameOverride<NAME # "_m">;
		}
		}

		let params = [s16, s32, u16, u32] in {
		defm vqmovntq: vqmovn<1, HalfScalar>;
		defm vqmovnbq: vqmovn<0, HalfScalar>;
		}
		let params = [s16, s32] in {
		defm vqmovuntq: vqmovn<1, UHalfScalar>;
		defm vqmovunbq: vqmovn<0, UHalfScalar>;
		}

multiclass vrnd<IRIntBase ir_int, string suffix> {		multiclass vrnd<IRIntBase ir_int, string suffix> {
let params = T.Float in {		let params = T.Float in {
def "": Intrinsic<Vector, (args Vector:$a), (ir_int $a)>;		def "": Intrinsic<Vector, (args Vector:$a), (ir_int $a)>;
defm "": IntrinsicMX<Vector, (args Vector:$a, Predicate:$pred),		defm "": IntrinsicMX<Vector, (args Vector:$a, Predicate:$pred),
(IRInt<"vrint"#suffix#"_predicated", [Vector, Predicate]>		(IRInt<"vrint"#suffix#"_predicated", [Vector, Predicate]>
$a, $pred, $inactive)>;		$a, $pred, $inactive)>;
}		}
}		}
▲ Show 20 Lines • Show All 856 Lines • Show Last 20 Lines

clang/include/clang/Basic/arm_mve_defs.td

	Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
	def SVector: VecOf<SScalar>;			def SVector: VecOf<SScalar>;

	// DblVector expands to a vector of scalars of size twice the size of Scalar.			// DblVector expands to a vector of scalars of size twice the size of Scalar.
	// DblPredicate expands to a predicate corresponding to DblVector			// DblPredicate expands to a predicate corresponding to DblVector
	// HalfVector, similarly, expands to a vector of half-sized scalars. And			// HalfVector, similarly, expands to a vector of half-sized scalars. And
	// UHalfVector is a vector of half-sized _unsigned integers_.			// UHalfVector is a vector of half-sized _unsigned integers_.
	def DblVector: VecOf<DoubleSize<Scalar>>;			def DblVector: VecOf<DoubleSize<Scalar>>;
	def DblPredicate: PredOf<DoubleSize<Scalar>>;			def DblPredicate: PredOf<DoubleSize<Scalar>>;
	def HalfVector: VecOf<HalfSize<Scalar>>;			def HalfScalar: HalfSize<Scalar>;
	def UHalfVector: VecOf<Unsigned<HalfSize<Scalar>>>;			def HalfVector: VecOf<HalfScalar>;
				def UHalfScalar: Unsigned<HalfSize<Scalar>>;
				def UHalfVector: VecOf<UHalfScalar>;

	// Expands to the 32-bit integer of the same signedness as Scalar.			// Expands to the 32-bit integer of the same signedness as Scalar.
	def Scalar32: CopyKind<u32, Scalar>;			def Scalar32: CopyKind<u32, Scalar>;
	// Expands to the 64-bit integer of the same signedness as Scalar.			// Expands to the 64-bit integer of the same signedness as Scalar.
	def Scalar64: CopyKind<u64, Scalar>;			def Scalar64: CopyKind<u64, Scalar>;

	// -----------------------------------------------------------------------------			// -----------------------------------------------------------------------------
	// Internal definitions for specifying immediate arguments for an intrinsic.			// Internal definitions for specifying immediate arguments for an intrinsic.
	▲ Show 20 Lines • Show All 244 Lines • Show Last 20 Lines

clang/test/CodeGen/arm-mve-intrinsics/vqmovn.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple thumbv8.1m.main-arm-none-eabi -target-feature +mve -mfloat-abi hard -fallow-half-arguments-and-returns -O0 -disable-O0-optnone -S -emit-llvm -o - %s \| opt -S -mem2reg \| FileCheck %s
				// RUN: %clang_cc1 -DPOLYMORPHIC -triple thumbv8.1m.main-arm-none-eabi -target-feature +mve -mfloat-abi hard -fallow-half-arguments-and-returns -O0 -disable-O0-optnone -S -emit-llvm -o - %s \| opt -S -mem2reg \| FileCheck %s

				#include <arm_mve.h>

				// CHECK-LABEL: @test_vqmovnbq_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 0, i32 0, i32 0)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				int8x16_t test_vqmovnbq_s16(int8x16_t a, int16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovnbq_s16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 0, i32 0, i32 0)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				int16x8_t test_vqmovnbq_s32(int16x8_t a, int32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovnbq_s32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_u16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 1, i32 0)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				uint8x16_t test_vqmovnbq_u16(uint8x16_t a, uint16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovnbq_u16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_u32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 1, i32 0)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				uint16x8_t test_vqmovnbq_u32(uint16x8_t a, uint32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovnbq_u32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 0, i32 0, i32 1)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				int8x16_t test_vqmovntq_s16(int8x16_t a, int16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovntq_s16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 0, i32 0, i32 1)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				int16x8_t test_vqmovntq_s32(int16x8_t a, int32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovntq_s32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_u16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 1, i32 1)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				uint8x16_t test_vqmovntq_u16(uint8x16_t a, uint16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovntq_u16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_u32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 1, i32 1)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				uint16x8_t test_vqmovntq_u32(uint16x8_t a, uint32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovntq_u32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovunbq_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 0, i32 0)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				uint8x16_t test_vqmovunbq_s16(uint8x16_t a, int16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovunbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovunbq_s16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovunbq_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 0, i32 0)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				uint16x8_t test_vqmovunbq_s32(uint16x8_t a, int32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovunbq(a, b);
				#else /* POLYMORPHIC */
				return vqmovunbq_s32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovuntq_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 0, i32 1)
				// CHECK-NEXT: ret <16 x i8> [[TMP0]]
				//
				uint8x16_t test_vqmovuntq_s16(uint8x16_t a, int16x8_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovuntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovuntq_s16(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovuntq_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 0, i32 1)
				// CHECK-NEXT: ret <8 x i16> [[TMP0]]
				//
				uint16x8_t test_vqmovuntq_s32(uint16x8_t a, int32x4_t b)
				{
				#ifdef POLYMORPHIC
				return vqmovuntq(a, b);
				#else /* POLYMORPHIC */
				return vqmovuntq_s32(a, b);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_m_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 0, i32 0, i32 0, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				int8x16_t test_vqmovnbq_m_s16(int8x16_t a, int16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovnbq_m_s16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_m_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 0, i32 0, i32 0, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				int16x8_t test_vqmovnbq_m_s32(int16x8_t a, int32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovnbq_m_s32(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_m_u16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 1, i32 0, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				uint8x16_t test_vqmovnbq_m_u16(uint8x16_t a, uint16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovnbq_m_u16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovnbq_m_u32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 1, i32 0, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				uint16x8_t test_vqmovnbq_m_u32(uint16x8_t a, uint32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovnbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovnbq_m_u32(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_m_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 0, i32 0, i32 1, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				int8x16_t test_vqmovntq_m_s16(int8x16_t a, int16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovntq_m_s16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_m_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 0, i32 0, i32 1, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				int16x8_t test_vqmovntq_m_s32(int16x8_t a, int32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovntq_m_s32(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_m_u16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 1, i32 1, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				uint8x16_t test_vqmovntq_m_u16(uint8x16_t a, uint16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovntq_m_u16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovntq_m_u32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 1, i32 1, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				uint16x8_t test_vqmovntq_m_u32(uint16x8_t a, uint32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovntq_m_u32(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovunbq_m_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 0, i32 0, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				uint8x16_t test_vqmovunbq_m_s16(uint8x16_t a, int16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovunbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovunbq_m_s16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovunbq_m_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 0, i32 0, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				uint16x8_t test_vqmovunbq_m_s32(uint16x8_t a, int32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovunbq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovunbq_m_s32(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovuntq_m_s16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> [[A:%.]], <8 x i16> [[B:%.*]], i32 1, i32 0, i32 1, <8 x i1> [[TMP1]])
				// CHECK-NEXT: ret <16 x i8> [[TMP2]]
				//
				uint8x16_t test_vqmovuntq_m_s16(uint8x16_t a, int16x8_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovuntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovuntq_m_s16(a, b, p);
				#endif /* POLYMORPHIC */
				}

				// CHECK-LABEL: @test_vqmovuntq_m_s32(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = zext i16 [[P:%.]] to i32
				// CHECK-NEXT: [[TMP1:%.*]] = call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 [[TMP0]])
				// CHECK-NEXT: [[TMP2:%.]] = call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> [[A:%.]], <4 x i32> [[B:%.*]], i32 1, i32 0, i32 1, <4 x i1> [[TMP1]])
				// CHECK-NEXT: ret <8 x i16> [[TMP2]]
				//
				uint16x8_t test_vqmovuntq_m_s32(uint16x8_t a, int32x4_t b, mve_pred16_t p)
				{
				#ifdef POLYMORPHIC
				return vqmovuntq_m(a, b, p);
				#else /* POLYMORPHIC */
				return vqmovuntq_m_s32(a, b, p);
				#endif /* POLYMORPHIC */
				}

llvm/include/llvm/IR/IntrinsicsARM.td

	Show First 20 Lines • Show All 1,205 Lines • ▼ Show 20 Lines

	def int_arm_mve_vmovl_predicated: Intrinsic<[llvm_anyvector_ty],			def int_arm_mve_vmovl_predicated: Intrinsic<[llvm_anyvector_ty],
	[llvm_anyvector_ty, llvm_i32_ty /* unsigned /, llvm_i32_ty / top half */,			[llvm_anyvector_ty, llvm_i32_ty /* unsigned /, llvm_i32_ty / top half */,
	llvm_anyvector_ty /* predicate */, LLVMMatchType<0>], [IntrNoMem]>;			llvm_anyvector_ty /* predicate */, LLVMMatchType<0>], [IntrNoMem]>;
	def int_arm_mve_vmovn_predicated: Intrinsic<[llvm_anyvector_ty],			def int_arm_mve_vmovn_predicated: Intrinsic<[llvm_anyvector_ty],
	[LLVMMatchType<0>, llvm_anyvector_ty, llvm_i32_ty /* top half */,			[LLVMMatchType<0>, llvm_anyvector_ty, llvm_i32_ty /* top half */,
	llvm_anyvector_ty /* predicate */], [IntrNoMem]>;			llvm_anyvector_ty /* predicate */], [IntrNoMem]>;

				def int_arm_mve_vqmovn: Intrinsic<[llvm_anyvector_ty],
				[LLVMMatchType<0>, llvm_anyvector_ty,
				llvm_i32_ty /* unsigned output /, llvm_i32_ty / unsigned input */,
				llvm_i32_ty /* top half */], [IntrNoMem]>;
				def int_arm_mve_vqmovn_predicated: Intrinsic<[llvm_anyvector_ty],
				[LLVMMatchType<0>, llvm_anyvector_ty,
				llvm_i32_ty /* unsigned output /, llvm_i32_ty / unsigned input */,
				llvm_i32_ty /* top half /, llvm_anyvector_ty / pred */], [IntrNoMem]>;

	} // end TargetPrefix			} // end TargetPrefix

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,446 Lines • ▼ Show 20 Lines	def : Pat<(VTI.Vec (int_arm_mve_vmovn_predicated (VTI.Vec MQPR:$Qd_src),
ARMVCCThen, (InVTI.Pred VCCR:$pred)))>;		ARMVCCThen, (InVTI.Pred VCCR:$pred)))>;
}		}

defm : MVE_VMOVN_p<MVE_VMOVNi32bh, 0, MVE_v8i16, MVE_v4i32>;		defm : MVE_VMOVN_p<MVE_VMOVNi32bh, 0, MVE_v8i16, MVE_v4i32>;
defm : MVE_VMOVN_p<MVE_VMOVNi32th, 1, MVE_v8i16, MVE_v4i32>;		defm : MVE_VMOVN_p<MVE_VMOVNi32th, 1, MVE_v8i16, MVE_v4i32>;
defm : MVE_VMOVN_p<MVE_VMOVNi16bh, 0, MVE_v16i8, MVE_v8i16>;		defm : MVE_VMOVN_p<MVE_VMOVNi16bh, 0, MVE_v16i8, MVE_v8i16>;
defm : MVE_VMOVN_p<MVE_VMOVNi16th, 1, MVE_v16i8, MVE_v8i16>;		defm : MVE_VMOVN_p<MVE_VMOVNi16th, 1, MVE_v16i8, MVE_v8i16>;

		multiclass MVE_VQMOVN_p<Instruction Inst, bit outU, bit inU, bit top,
		MVEVectorVTInfo VTI, MVEVectorVTInfo InVTI> {
		def : Pat<(VTI.Vec (int_arm_mve_vqmovn (VTI.Vec MQPR:$Qd_src),
		(InVTI.Vec MQPR:$Qm),
		(i32 outU), (i32 inU), (i32 top))),
		(VTI.Vec (Inst (VTI.Vec MQPR:$Qd_src),
		(InVTI.Vec MQPR:$Qm)))>;

		def : Pat<(VTI.Vec (int_arm_mve_vqmovn_predicated (VTI.Vec MQPR:$Qd_src),
		(InVTI.Vec MQPR:$Qm),
		(i32 outU), (i32 inU), (i32 top),
		(InVTI.Pred VCCR:$pred))),
		(VTI.Vec (Inst (VTI.Vec MQPR:$Qd_src),
		(InVTI.Vec MQPR:$Qm),
		ARMVCCThen, (InVTI.Pred VCCR:$pred)))>;
		}

		defm : MVE_VQMOVN_p<MVE_VQMOVNs32bh, 0, 0, 0, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNs32th, 0, 0, 1, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNs16bh, 0, 0, 0, MVE_v16i8, MVE_v8i16>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNs16th, 0, 0, 1, MVE_v16i8, MVE_v8i16>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNu32bh, 1, 1, 0, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNu32th, 1, 1, 1, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNu16bh, 1, 1, 0, MVE_v16i8, MVE_v8i16>;
		defm : MVE_VQMOVN_p<MVE_VQMOVNu16th, 1, 1, 1, MVE_v16i8, MVE_v8i16>;
		defm : MVE_VQMOVN_p<MVE_VQMOVUNs32bh, 1, 0, 0, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVUNs32th, 1, 0, 1, MVE_v8i16, MVE_v4i32>;
		defm : MVE_VQMOVN_p<MVE_VQMOVUNs16bh, 1, 0, 0, MVE_v16i8, MVE_v8i16>;
		defm : MVE_VQMOVN_p<MVE_VQMOVUNs16th, 1, 0, 1, MVE_v16i8, MVE_v8i16>;

class MVE_VCVT_ff<string iname, string suffix, bit op, bit T,		class MVE_VCVT_ff<string iname, string suffix, bit op, bit T,
list<dag> pattern=[]>		list<dag> pattern=[]>
: MVE_qDest_qSrc<iname, suffix, (outs MQPR:$Qd), (ins MQPR:$Qd_src, MQPR:$Qm),		: MVE_qDest_qSrc<iname, suffix, (outs MQPR:$Qd), (ins MQPR:$Qd_src, MQPR:$Qm),
"$Qd, $Qm", vpred_n, "$Qd = $Qd_src", pattern> {		"$Qd, $Qm", vpred_n, "$Qd = $Qd_src", pattern> {
let Inst{28} = op;		let Inst{28} = op;
let Inst{21-16} = 0b111111;		let Inst{21-16} = 0b111111;
let Inst{12} = T;		let Inst{12} = T;
▲ Show 20 Lines • Show All 2,369 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-intrinsics/vqmovn.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve.fp -verify-machineinstrs -o - %s \| FileCheck %s

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovnbq_s16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovnbq_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnb.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 0, i32 0, i32 0)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovnbq_s32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovnbq_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnb.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 0, i32 0, i32 0)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovnbq_u16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovnbq_u16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnb.u16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 1, i32 1, i32 0)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovnbq_u32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovnbq_u32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnb.u32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 1, i32 1, i32 0)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovntq_s16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovntq_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 0, i32 0, i32 1)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovntq_s32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovntq_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 0, i32 0, i32 1)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovntq_u16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovntq_u16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnt.u16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 1, i32 1, i32 1)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovntq_u32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovntq_u32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovnt.u32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 1, i32 1, i32 1)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovunbq_s16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovunbq_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovunb.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 1, i32 0, i32 0)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovunbq_s32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovunbq_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovunb.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 1, i32 0, i32 0)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovuntq_s16(<16 x i8> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_vqmovuntq_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovunt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8> %a, <8 x i16> %b, i32 1, i32 0, i32 1)
				ret <16 x i8> %0
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovuntq_s32(<8 x i16> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_vqmovuntq_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vqmovunt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = tail call <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16> %a, <4 x i32> %b, i32 1, i32 0, i32 1)
				ret <8 x i16> %0
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovnbq_m_s16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovnbq_m_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovnbt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 0, i32 0, i32 0, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovnbq_m_s32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovnbq_m_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovnbt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 0, i32 0, i32 0, <4 x i1> %1)
				ret <8 x i16> %2
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovnbq_m_u16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovnbq_m_u16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovnbt.u16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 1, i32 1, i32 0, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovnbq_m_u32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovnbq_m_u32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovnbt.u32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 1, i32 1, i32 0, <4 x i1> %1)
				ret <8 x i16> %2
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovntq_m_s16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovntq_m_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovntt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 0, i32 0, i32 1, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovntq_m_s32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovntq_m_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovntt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 0, i32 0, i32 1, <4 x i1> %1)
				ret <8 x i16> %2
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovntq_m_u16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovntq_m_u16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovntt.u16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 1, i32 1, i32 1, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovntq_m_u32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovntq_m_u32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovntt.u32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 1, i32 1, i32 1, <4 x i1> %1)
				ret <8 x i16> %2
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovunbq_m_s16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovunbq_m_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovunbt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 1, i32 0, i32 0, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovunbq_m_s32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovunbq_m_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovunbt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 1, i32 0, i32 0, <4 x i1> %1)
				ret <8 x i16> %2
				}

				define arm_aapcs_vfpcc <16 x i8> @test_vqmovuntq_m_s16(<16 x i8> %a, <8 x i16> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovuntq_m_s16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovuntt.s16 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
				%2 = tail call <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8> %a, <8 x i16> %b, i32 1, i32 0, i32 1, <8 x i1> %1)
				ret <16 x i8> %2
				}

				define arm_aapcs_vfpcc <8 x i16> @test_vqmovuntq_m_s32(<8 x i16> %a, <4 x i32> %b, i16 zeroext %p) {
				; CHECK-LABEL: test_vqmovuntq_m_s32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmsr p0, r0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vqmovuntt.s32 q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%0 = zext i16 %p to i32
				%1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
				%2 = tail call <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16> %a, <4 x i32> %b, i32 1, i32 0, i32 1, <4 x i1> %1)
				ret <8 x i16> %2
				}

				declare <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32)
				declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32)

				declare <16 x i8> @llvm.arm.mve.vqmovn.v16i8.v8i16(<16 x i8>, <8 x i16>, i32, i32, i32)
				declare <8 x i16> @llvm.arm.mve.vqmovn.v8i16.v4i32(<8 x i16>, <4 x i32>, i32, i32, i32)

				declare <16 x i8> @llvm.arm.mve.vqmovn.predicated.v16i8.v8i16.v8i1(<16 x i8>, <8 x i16>, i32, i32, i32, <8 x i1>)
				declare <8 x i16> @llvm.arm.mve.vqmovn.predicated.v8i16.v4i32.v4i1(<8 x i16>, <4 x i32>, i32, i32, i32, <4 x i1>)