This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lowering integer truncation intrinsics to native IR
ClosedPublic

Authored by mike.dvoretsky on Jun 28 2018, 2:12 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
spatel

Commits

rGd1bf9ef0c792: [X86] Lowering integer truncation intrinsics to native IR
rL336643: [X86] Lowering integer truncation intrinsics to native IR
rC336643: [X86] Lowering integer truncation intrinsics to native IR

Summary

This patch lowers the _mm[256|512]_cvtepi{64|32|16}_epi{32|16|8} intrinsics to native IR in cases where the result's length is less than 128 bits.

The resulting IR for 256-bit inputs is folded into VPMOV instructions in D46957, while for 128-bit inputs the vpshufb (or, in the 64-to-32-bit case, vinsertps) instructions are generated instead. D48822 adds fast-isel tests that demonstrate generated instructions.

Diff Detail

Event Timeline

mike.dvoretsky created this revision.Jun 28 2018, 2:12 AM

Herald added a subscriber: cfe-commits. · View Herald TranscriptJun 28 2018, 2:12 AM

Uploaded the correct diff.

craig.topper added inline comments.Jun 28 2018, 10:17 AM

clang/lib/Headers/avx512vlintrin.h
7421	If you need to add more zeroes than the width of the input, can you just repeat the zero vector in order as many times as necessary. It should look more like a concatentation. so 0, 1, 2, 3, 4, 5, 6, 7, 4, 5, 6, 7, 4, 5, 6, 7

craig.topper added reviewers: RKSimon, spatel.Jun 28 2018, 12:07 PM

craig.topper added inline comments.Jun 28 2018, 12:12 PM

clang/lib/Headers/avx512vlintrin.h
33	Can you just do a local typedef in the functions that need them? That way we don't expose them to all users of the header.

Updated per comments. Typedefs for intermediate short vectors moved into the bodies of the functions using them.

RKSimon added inline comments.Jun 29 2018, 5:36 AM

clang/lib/Headers/avx512vlbwintrin.h
1501	Are we happy with using illegal types like this? What about flipping the shuffle and convert? return (__m128i)__builtin_convertvector( __builtin_shufflevector((__v8hi)__A, (__v8hi){0, 0, 0, 0, 0, 0, 0, 0}, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15), __v16qi);

mike.dvoretsky edited the summary of this revision. (Show Details)Jun 29 2018, 9:11 AM

mike.dvoretsky added inline comments.Jun 29 2018, 9:16 AM

clang/lib/Headers/avx512vlbwintrin.h
1501	This would bring its own issues, since in the cvtepi64_epi8 cases the inner shuffle would produce vectors of 16 64-bit values. There would be no extra typedef, but in the back-end these would be split in type legalization, making it harder to fold them into VPMOV instructions.

Please can you create a llvm side parallel patch that updates the relevant fast-isel tests

clang/lib/Headers/avx512vlbwintrin.h
1501	Yeah, neither solution is particularly clean. Please keep it as is.

mike.dvoretsky mentioned this in D48822: [X86] Fast-isel tests for lowered truncation intrinsics.Jul 2 2018, 2:28 AM

mike.dvoretsky edited the summary of this revision. (Show Details)Jul 2 2018, 2:31 AM

mike.dvoretsky marked 3 inline comments as done.

mike.dvoretsky edited the summary of this revision. (Show Details)

LGTM - @craig.topper any comments?

LGTM

This revision is now accepted and ready to land.Jul 8 2018, 10:38 AM

Closed by commit rC336643: [X86] Lowering integer truncation intrinsics to native IR (authored by mike.dvoretsky). · Explain WhyJul 10 2018, 1:27 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

clang/

lib/

Headers/

avx512vlbwintrin.h

8 lines

avx512vlintrin.h

52 lines

test/

CodeGen/

avx512vl-builtins.c

24 lines

avx512vlbw-builtins.c

3 lines

Diff 153277

clang/lib/Headers/avx512vlbwintrin.h

	Show First 20 Lines • Show All 1,489 Lines • ▼ Show 20 Lines
	_mm256_maskz_cvtusepi16_epi8 (__mmask16 __M, __m256i __A) {			_mm256_maskz_cvtusepi16_epi8 (__mmask16 __M, __m256i __A) {
	return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A,			return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A,
	(__v16qi) _mm_setzero_si128(),			(__v16qi) _mm_setzero_si128(),
	__M);			__M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi16_epi8 (__m128i __A) {			_mm_cvtepi16_epi8 (__m128i __A) {
				return (__m128i)__builtin_shufflevector(
	return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,			__builtin_convertvector((__v8hi)__A, __v8qi),
	(__v16qi) _mm_setzero_si128(),			(__v8qi){0, 0, 0, 0, 0, 0, 0, 0}, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
	(__mmask8) -1);			12, 13, 14, 15);
				RKSimonUnsubmitted Done Reply Inline Actions Are we happy with using illegal types like this? What about flipping the shuffle and convert? return (__m128i)__builtin_convertvector( __builtin_shufflevector((__v8hi)__A, (__v8hi){0, 0, 0, 0, 0, 0, 0, 0}, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15), __v16qi); RKSimon: Are we happy with using illegal types like this? What about flipping the shuffle and convert?
				mike.dvoretskyAuthorUnsubmitted Done Reply Inline Actions This would bring its own issues, since in the cvtepi64_epi8 cases the inner shuffle would produce vectors of 16 64-bit values. There would be no extra typedef, but in the back-end these would be split in type legalization, making it harder to fold them into VPMOV instructions. mike.dvoretsky: This would bring its own issues, since in the cvtepi64_epi8 cases the inner shuffle would…
				RKSimonUnsubmitted Done Reply Inline Actions Yeah, neither solution is particularly clean. Please keep it as is. RKSimon: Yeah, neither solution is particularly clean. Please keep it as is.
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) {			_mm_mask_cvtepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) {
	return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,			return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A,
	(__v16qi) __O,			(__v16qi) __O,
	__M);			__M);
	}			}
	▲ Show 20 Lines • Show All 1,237 Lines • Show Last 20 Lines

clang/lib/Headers/avx512vlintrin.h

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show All 24 Lines
	#error "Never use <avx512vlintrin.h> directly; include <immintrin.h> instead."			#error "Never use <avx512vlintrin.h> directly; include <immintrin.h> instead."
	#endif			#endif

	#ifndef __AVX512VLINTRIN_H			#ifndef __AVX512VLINTRIN_H
	#define __AVX512VLINTRIN_H			#define __AVX512VLINTRIN_H

	#define __DEFAULT_FN_ATTRS __attribute__((__always_inline__, __nodebug__, __target__("avx512vl")))			#define __DEFAULT_FN_ATTRS __attribute__((__always_inline__, __nodebug__, __target__("avx512vl")))

				typedef short __v2hi __attribute__((__vector_size__(4)));
				craig.topperUnsubmitted Done Reply Inline Actions Can you just do a local typedef in the functions that need them? That way we don't expose them to all users of the header. craig.topper: Can you just do a local typedef in the functions that need them? That way we don't expose them…
				typedef char __v4qi __attribute__((__vector_size__(4)));
				typedef char __v2qi __attribute__((__vector_size__(2)));

	/* Integer compare */			/* Integer compare */

	#define _mm_cmpeq_epi32_mask(A, B) \			#define _mm_cmpeq_epi32_mask(A, B) \
	_mm_cmp_epi32_mask((A), (B), _MM_CMPINT_EQ)			_mm_cmp_epi32_mask((A), (B), _MM_CMPINT_EQ)
	#define _mm_mask_cmpeq_epi32_mask(k, A, B) \			#define _mm_mask_cmpeq_epi32_mask(k, A, B) \
	_mm_mask_cmp_epi32_mask((k), (A), (B), _MM_CMPINT_EQ)			_mm_mask_cmp_epi32_mask((k), (A), (B), _MM_CMPINT_EQ)
	#define _mm_cmpge_epi32_mask(A, B) \			#define _mm_cmpge_epi32_mask(A, B) \
	_mm_cmp_epi32_mask((A), (B), _MM_CMPINT_GE)			_mm_cmp_epi32_mask((A), (B), _MM_CMPINT_GE)
	▲ Show 20 Lines • Show All 7,366 Lines • ▼ Show 20 Lines
	_mm256_mask_cvtusepi64_storeu_epi16 (void * __P, __mmask8 __M, __m256i __A)			_mm256_mask_cvtusepi64_storeu_epi16 (void * __P, __mmask8 __M, __m256i __A)
	{			{
	__builtin_ia32_pmovusqw256mem_mask ((__v8hi *) __P, (__v4di) __A, __M);			__builtin_ia32_pmovusqw256mem_mask ((__v8hi *) __P, (__v4di) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi32_epi8 (__m128i __A)			_mm_cvtepi32_epi8 (__m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdb128_mask ((__v4si) __A,			return (__m128i)__builtin_shufflevector(
	(__v16qi)_mm_undefined_si128(),			__builtin_convertvector((__v4si)__A, __v4qi), (__v4qi){0, 0, 0, 0}, 0, 1,
	(__mmask8) -1);			2, 3, 4, 5, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7);
				craig.topperUnsubmitted Done Reply Inline Actions If you need to add more zeroes than the width of the input, can you just repeat the zero vector in order as many times as necessary. It should look more like a concatentation. so 0, 1, 2, 3, 4, 5, 6, 7, 4, 5, 6, 7, 4, 5, 6, 7 craig.topper: If you need to add more zeroes than the width of the input, can you just repeat the zero vector…
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi32_epi8 (__m128i __O, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi32_epi8 (__m128i __O, __mmask8 __M, __m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdb128_mask ((__v4si) __A,			return (__m128i) __builtin_ia32_pmovdb128_mask ((__v4si) __A,
	(__v16qi) __O, __M);			(__v16qi) __O, __M);
	}			}
	Show All 11 Lines
	_mm_mask_cvtepi32_storeu_epi8 (void * __P, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi32_storeu_epi8 (void * __P, __mmask8 __M, __m128i __A)
	{			{
	__builtin_ia32_pmovdb128mem_mask ((__v16qi *) __P, (__v4si) __A, __M);			__builtin_ia32_pmovdb128mem_mask ((__v16qi *) __P, (__v4si) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_cvtepi32_epi8 (__m256i __A)			_mm256_cvtepi32_epi8 (__m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdb256_mask ((__v8si) __A,			return (__m128i)__builtin_shufflevector(
	(__v16qi)_mm_undefined_si128(),			__builtin_convertvector((__v8si)__A, __v8qi),
	(__mmask8) -1);			(__v8qi){0, 0, 0, 0, 0, 0, 0, 0}, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
				12, 13, 14, 15);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_mask_cvtepi32_epi8 (__m128i __O, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi32_epi8 (__m128i __O, __mmask8 __M, __m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdb256_mask ((__v8si) __A,			return (__m128i) __builtin_ia32_pmovdb256_mask ((__v8si) __A,
	(__v16qi) __O, __M);			(__v16qi) __O, __M);
	}			}
	Show All 10 Lines
	_mm256_mask_cvtepi32_storeu_epi8 (void * __P, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi32_storeu_epi8 (void * __P, __mmask8 __M, __m256i __A)
	{			{
	__builtin_ia32_pmovdb256mem_mask ((__v16qi *) __P, (__v8si) __A, __M);			__builtin_ia32_pmovdb256mem_mask ((__v16qi *) __P, (__v8si) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi32_epi16 (__m128i __A)			_mm_cvtepi32_epi16 (__m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdw128_mask ((__v4si) __A,			return (__m128i)__builtin_shufflevector(
	(__v8hi) _mm_setzero_si128 (),			__builtin_convertvector((__v4si)__A, __v4hi), (__v4hi){0, 0, 0, 0}, 0, 1,
	(__mmask8) -1);			2, 3, 4, 5, 6, 7);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi32_epi16 (__m128i __O, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi32_epi16 (__m128i __O, __mmask8 __M, __m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovdw128_mask ((__v4si) __A,			return (__m128i) __builtin_ia32_pmovdw128_mask ((__v4si) __A,
	(__v8hi) __O, __M);			(__v8hi) __O, __M);
	}			}
	Show All 37 Lines
	_mm256_mask_cvtepi32_storeu_epi16 (void * __P, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi32_storeu_epi16 (void * __P, __mmask8 __M, __m256i __A)
	{			{
	__builtin_ia32_pmovdw256mem_mask ((__v8hi *) __P, (__v8si) __A, __M);			__builtin_ia32_pmovdw256mem_mask ((__v8hi *) __P, (__v8si) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi64_epi8 (__m128i __A)			_mm_cvtepi64_epi8 (__m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqb128_mask ((__v2di) __A,			return (__m128i)__builtin_shufflevector(
	(__v16qi) _mm_undefined_si128(),			__builtin_convertvector((__v2di)__A, __v2qi), (__v2qi){0, 0}, 0, 1, 2, 3,
	(__mmask8) -1);			3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi64_epi8 (__m128i __O, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi64_epi8 (__m128i __O, __mmask8 __M, __m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqb128_mask ((__v2di) __A,			return (__m128i) __builtin_ia32_pmovqb128_mask ((__v2di) __A,
	(__v16qi) __O, __M);			(__v16qi) __O, __M);
	}			}
	Show All 10 Lines
	_mm_mask_cvtepi64_storeu_epi8 (void * __P, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi64_storeu_epi8 (void * __P, __mmask8 __M, __m128i __A)
	{			{
	__builtin_ia32_pmovqb128mem_mask ((__v16qi *) __P, (__v2di) __A, __M);			__builtin_ia32_pmovqb128mem_mask ((__v16qi *) __P, (__v2di) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_cvtepi64_epi8 (__m256i __A)			_mm256_cvtepi64_epi8 (__m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqb256_mask ((__v4di) __A,			return (__m128i)__builtin_shufflevector(
	(__v16qi) _mm_undefined_si128(),			__builtin_convertvector((__v4di)__A, __v4qi), (__v4qi){0, 0, 0, 0}, 0, 1,
	(__mmask8) -1);			2, 3, 4, 5, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_mask_cvtepi64_epi8 (__m128i __O, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi64_epi8 (__m128i __O, __mmask8 __M, __m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqb256_mask ((__v4di) __A,			return (__m128i) __builtin_ia32_pmovqb256_mask ((__v4di) __A,
	(__v16qi) __O, __M);			(__v16qi) __O, __M);
	}			}
	Show All 10 Lines
	_mm256_mask_cvtepi64_storeu_epi8 (void * __P, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi64_storeu_epi8 (void * __P, __mmask8 __M, __m256i __A)
	{			{
	__builtin_ia32_pmovqb256mem_mask ((__v16qi *) __P, (__v4di) __A, __M);			__builtin_ia32_pmovqb256mem_mask ((__v16qi *) __P, (__v4di) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi64_epi32 (__m128i __A)			_mm_cvtepi64_epi32 (__m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqd128_mask ((__v2di) __A,			return (__m128i)__builtin_shufflevector(
	(__v4si)_mm_undefined_si128(),			__builtin_convertvector((__v2di)__A, __v2si), (__v2si){0, 0}, 0, 1, 2, 3);
	(__mmask8) -1);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi64_epi32 (__m128i __O, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi64_epi32 (__m128i __O, __mmask8 __M, __m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqd128_mask ((__v2di) __A,			return (__m128i) __builtin_ia32_pmovqd128_mask ((__v2di) __A,
	(__v4si) __O, __M);			(__v4si) __O, __M);
	}			}
	Show All 38 Lines
	_mm256_mask_cvtepi64_storeu_epi32 (void * __P, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi64_storeu_epi32 (void * __P, __mmask8 __M, __m256i __A)
	{			{
	__builtin_ia32_pmovqd256mem_mask ((__v4si *) __P, (__v4di) __A, __M);			__builtin_ia32_pmovqd256mem_mask ((__v4si *) __P, (__v4di) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_cvtepi64_epi16 (__m128i __A)			_mm_cvtepi64_epi16 (__m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqw128_mask ((__v2di) __A,			return (__m128i)__builtin_shufflevector(
	(__v8hi) _mm_undefined_si128(),			__builtin_convertvector((__v2di)__A, __v2hi), (__v2hi){0, 0}, 0, 1, 2, 3,
	(__mmask8) -1);			3, 3, 3, 3);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm_mask_cvtepi64_epi16 (__m128i __O, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi64_epi16 (__m128i __O, __mmask8 __M, __m128i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqw128_mask ((__v2di) __A,			return (__m128i) __builtin_ia32_pmovqw128_mask ((__v2di) __A,
	(__v8hi)__O,			(__v8hi)__O,
	__M);			__M);
	Show All 11 Lines
	_mm_mask_cvtepi64_storeu_epi16 (void * __P, __mmask8 __M, __m128i __A)			_mm_mask_cvtepi64_storeu_epi16 (void * __P, __mmask8 __M, __m128i __A)
	{			{
	__builtin_ia32_pmovqw128mem_mask ((__v8hi *) __P, (__v2di) __A, __M);			__builtin_ia32_pmovqw128mem_mask ((__v8hi *) __P, (__v2di) __A, __M);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_cvtepi64_epi16 (__m256i __A)			_mm256_cvtepi64_epi16 (__m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqw256_mask ((__v4di) __A,			return (__m128i)__builtin_shufflevector(
	(__v8hi)_mm_undefined_si128(),			__builtin_convertvector((__v4di)__A, __v4hi), (__v4hi){0, 0, 0, 0}, 0, 1,
	(__mmask8) -1);			2, 3, 4, 5, 6, 7);
	}			}

	static __inline__ __m128i __DEFAULT_FN_ATTRS			static __inline__ __m128i __DEFAULT_FN_ATTRS
	_mm256_mask_cvtepi64_epi16 (__m128i __O, __mmask8 __M, __m256i __A)			_mm256_mask_cvtepi64_epi16 (__m128i __O, __mmask8 __M, __m256i __A)
	{			{
	return (__m128i) __builtin_ia32_pmovqw256_mask ((__v4di) __A,			return (__m128i) __builtin_ia32_pmovqw256_mask ((__v4di) __A,
	(__v8hi) __O, __M);			(__v8hi) __O, __M);
	}			}
	▲ Show 20 Lines • Show All 649 Lines • Show Last 20 Lines

clang/test/CodeGen/avx512vl-builtins.c

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,968 Lines • ▼ Show 20 Lines
	void test_mm256_mask_cvtusepi64_storeu_epi16(void * __P, __mmask8 __M, __m256i __A) {			void test_mm256_mask_cvtusepi64_storeu_epi16(void * __P, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtusepi64_storeu_epi16			// CHECK-LABEL: @test_mm256_mask_cvtusepi64_storeu_epi16
	// CHECK: @llvm.x86.avx512.mask.pmovus.qw.mem.256			// CHECK: @llvm.x86.avx512.mask.pmovus.qw.mem.256
	return _mm256_mask_cvtusepi64_storeu_epi16(__P, __M, __A);			return _mm256_mask_cvtusepi64_storeu_epi16(__P, __M, __A);
	}			}

	__m128i test_mm_cvtepi32_epi8(__m128i __A) {			__m128i test_mm_cvtepi32_epi8(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi32_epi8			// CHECK-LABEL: @test_mm_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.128			// CHECK: trunc <4 x i32> %{{.*}} to <4 x i8>
				// CHECK: shufflevector <4 x i8> %{{.}}, <4 x i8> %{{.}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	return _mm_cvtepi32_epi8(__A);			return _mm_cvtepi32_epi8(__A);
	}			}

	__m128i test_mm_mask_cvtepi32_epi8(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi32_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi32_epi8			// CHECK-LABEL: @test_mm_mask_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.128			// CHECK: @llvm.x86.avx512.mask.pmov.db.128
	return _mm_mask_cvtepi32_epi8(__O, __M, __A);			return _mm_mask_cvtepi32_epi8(__O, __M, __A);
	}			}

	__m128i test_mm_maskz_cvtepi32_epi8(__mmask8 __M, __m128i __A) {			__m128i test_mm_maskz_cvtepi32_epi8(__mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_maskz_cvtepi32_epi8			// CHECK-LABEL: @test_mm_maskz_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.128			// CHECK: @llvm.x86.avx512.mask.pmov.db.128
	return _mm_maskz_cvtepi32_epi8(__M, __A);			return _mm_maskz_cvtepi32_epi8(__M, __A);
	}			}

	void test_mm_mask_cvtepi32_storeu_epi8(void * __P, __mmask8 __M, __m128i __A) {			void test_mm_mask_cvtepi32_storeu_epi8(void * __P, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi32_storeu_epi8			// CHECK-LABEL: @test_mm_mask_cvtepi32_storeu_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.mem.128			// CHECK: @llvm.x86.avx512.mask.pmov.db.mem.128
	return _mm_mask_cvtepi32_storeu_epi8(__P, __M, __A);			return _mm_mask_cvtepi32_storeu_epi8(__P, __M, __A);
	}			}

	__m128i test_mm256_cvtepi32_epi8(__m256i __A) {			__m128i test_mm256_cvtepi32_epi8(__m256i __A) {
	// CHECK-LABEL: @test_mm256_cvtepi32_epi8			// CHECK-LABEL: @test_mm256_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.256			// CHECK: trunc <8 x i32> %{{.*}} to <8 x i8>
				// CHECK: shufflevector <8 x i8> %{{.}}, <8 x i8> %{{.}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	return _mm256_cvtepi32_epi8(__A);			return _mm256_cvtepi32_epi8(__A);
	}			}

	__m128i test_mm256_mask_cvtepi32_epi8(__m128i __O, __mmask8 __M, __m256i __A) {			__m128i test_mm256_mask_cvtepi32_epi8(__m128i __O, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi32_epi8			// CHECK-LABEL: @test_mm256_mask_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.256			// CHECK: @llvm.x86.avx512.mask.pmov.db.256
	return _mm256_mask_cvtepi32_epi8(__O, __M, __A);			return _mm256_mask_cvtepi32_epi8(__O, __M, __A);
	}			}

	__m128i test_mm256_maskz_cvtepi32_epi8(__mmask8 __M, __m256i __A) {			__m128i test_mm256_maskz_cvtepi32_epi8(__mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_maskz_cvtepi32_epi8			// CHECK-LABEL: @test_mm256_maskz_cvtepi32_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.256			// CHECK: @llvm.x86.avx512.mask.pmov.db.256
	return _mm256_maskz_cvtepi32_epi8(__M, __A);			return _mm256_maskz_cvtepi32_epi8(__M, __A);
	}			}

	void test_mm256_mask_cvtepi32_storeu_epi8(void * __P, __mmask8 __M, __m256i __A) {			void test_mm256_mask_cvtepi32_storeu_epi8(void * __P, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi32_storeu_epi8			// CHECK-LABEL: @test_mm256_mask_cvtepi32_storeu_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.db.mem.256			// CHECK: @llvm.x86.avx512.mask.pmov.db.mem.256
	return _mm256_mask_cvtepi32_storeu_epi8(__P, __M, __A);			return _mm256_mask_cvtepi32_storeu_epi8(__P, __M, __A);
	}			}

	__m128i test_mm_cvtepi32_epi16(__m128i __A) {			__m128i test_mm_cvtepi32_epi16(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi32_epi16			// CHECK-LABEL: @test_mm_cvtepi32_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.dw.128			// CHECK: trunc <4 x i32> %{{.*}} to <4 x i16>
				// CHECK: shufflevector <4 x i16> %{{.}}, <4 x i16> %{{.}}, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	return _mm_cvtepi32_epi16(__A);			return _mm_cvtepi32_epi16(__A);
	}			}

	__m128i test_mm_mask_cvtepi32_epi16(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi32_epi16(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi32_epi16			// CHECK-LABEL: @test_mm_mask_cvtepi32_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.dw.128			// CHECK: @llvm.x86.avx512.mask.pmov.dw.128
	return _mm_mask_cvtepi32_epi16(__O, __M, __A);			return _mm_mask_cvtepi32_epi16(__O, __M, __A);
	}			}
	Show All 31 Lines
	void test_mm256_mask_cvtepi32_storeu_epi16(void * __P, __mmask8 __M, __m256i __A) {			void test_mm256_mask_cvtepi32_storeu_epi16(void * __P, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi32_storeu_epi16			// CHECK-LABEL: @test_mm256_mask_cvtepi32_storeu_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.dw.mem.256			// CHECK: @llvm.x86.avx512.mask.pmov.dw.mem.256
	return _mm256_mask_cvtepi32_storeu_epi16(__P, __M, __A);			return _mm256_mask_cvtepi32_storeu_epi16(__P, __M, __A);
	}			}

	__m128i test_mm_cvtepi64_epi8(__m128i __A) {			__m128i test_mm_cvtepi64_epi8(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi64_epi8			// CHECK-LABEL: @test_mm_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.128			// CHECK: trunc <2 x i64> %{{.*}} to <2 x i8>
				// CHECK: shufflevector <2 x i8> %{{.}}, <2 x i8> %{{.}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
	return _mm_cvtepi64_epi8(__A);			return _mm_cvtepi64_epi8(__A);
	}			}

	__m128i test_mm_mask_cvtepi64_epi8(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi64_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi64_epi8			// CHECK-LABEL: @test_mm_mask_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.128			// CHECK: @llvm.x86.avx512.mask.pmov.qb.128
	return _mm_mask_cvtepi64_epi8(__O, __M, __A);			return _mm_mask_cvtepi64_epi8(__O, __M, __A);
	}			}

	__m128i test_mm_maskz_cvtepi64_epi8(__mmask8 __M, __m128i __A) {			__m128i test_mm_maskz_cvtepi64_epi8(__mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_maskz_cvtepi64_epi8			// CHECK-LABEL: @test_mm_maskz_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.128			// CHECK: @llvm.x86.avx512.mask.pmov.qb.128
	return _mm_maskz_cvtepi64_epi8(__M, __A);			return _mm_maskz_cvtepi64_epi8(__M, __A);
	}			}

	void test_mm_mask_cvtepi64_storeu_epi8(void * __P, __mmask8 __M, __m128i __A) {			void test_mm_mask_cvtepi64_storeu_epi8(void * __P, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi64_storeu_epi8			// CHECK-LABEL: @test_mm_mask_cvtepi64_storeu_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.mem.128			// CHECK: @llvm.x86.avx512.mask.pmov.qb.mem.128
	return _mm_mask_cvtepi64_storeu_epi8(__P, __M, __A);			return _mm_mask_cvtepi64_storeu_epi8(__P, __M, __A);
	}			}

	__m128i test_mm256_cvtepi64_epi8(__m256i __A) {			__m128i test_mm256_cvtepi64_epi8(__m256i __A) {
	// CHECK-LABEL: @test_mm256_cvtepi64_epi8			// CHECK-LABEL: @test_mm256_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.256			// CHECK: trunc <4 x i64> %{{.*}} to <4 x i8>
				// CHECK: shufflevector <4 x i8> %{{.}}, <4 x i8> %{{.}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	return _mm256_cvtepi64_epi8(__A);			return _mm256_cvtepi64_epi8(__A);
	}			}

	__m128i test_mm256_mask_cvtepi64_epi8(__m128i __O, __mmask8 __M, __m256i __A) {			__m128i test_mm256_mask_cvtepi64_epi8(__m128i __O, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi64_epi8			// CHECK-LABEL: @test_mm256_mask_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.256			// CHECK: @llvm.x86.avx512.mask.pmov.qb.256
	return _mm256_mask_cvtepi64_epi8(__O, __M, __A);			return _mm256_mask_cvtepi64_epi8(__O, __M, __A);
	}			}

	__m128i test_mm256_maskz_cvtepi64_epi8(__mmask8 __M, __m256i __A) {			__m128i test_mm256_maskz_cvtepi64_epi8(__mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_maskz_cvtepi64_epi8			// CHECK-LABEL: @test_mm256_maskz_cvtepi64_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.256			// CHECK: @llvm.x86.avx512.mask.pmov.qb.256
	return _mm256_maskz_cvtepi64_epi8(__M, __A);			return _mm256_maskz_cvtepi64_epi8(__M, __A);
	}			}

	void test_mm256_mask_cvtepi64_storeu_epi8(void * __P, __mmask8 __M, __m256i __A) {			void test_mm256_mask_cvtepi64_storeu_epi8(void * __P, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi64_storeu_epi8			// CHECK-LABEL: @test_mm256_mask_cvtepi64_storeu_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.qb.mem.256			// CHECK: @llvm.x86.avx512.mask.pmov.qb.mem.256
	return _mm256_mask_cvtepi64_storeu_epi8(__P, __M, __A);			return _mm256_mask_cvtepi64_storeu_epi8(__P, __M, __A);
	}			}

	__m128i test_mm_cvtepi64_epi32(__m128i __A) {			__m128i test_mm_cvtepi64_epi32(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi64_epi32			// CHECK-LABEL: @test_mm_cvtepi64_epi32
	// CHECK: @llvm.x86.avx512.mask.pmov.qd.128			// CHECK: trunc <2 x i64> %{{.*}} to <2 x i32>
				// CHECK: shufflevector <2 x i32> %{{.}}, <2 x i32> %{{.}}, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	return _mm_cvtepi64_epi32(__A);			return _mm_cvtepi64_epi32(__A);
	}			}

	__m128i test_mm_mask_cvtepi64_epi32(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi64_epi32(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi64_epi32			// CHECK-LABEL: @test_mm_mask_cvtepi64_epi32
	// CHECK: @llvm.x86.avx512.mask.pmov.qd.128			// CHECK: @llvm.x86.avx512.mask.pmov.qd.128
	return _mm_mask_cvtepi64_epi32(__O, __M, __A);			return _mm_mask_cvtepi64_epi32(__O, __M, __A);
	}			}
	Show All 33 Lines
	void test_mm256_mask_cvtepi64_storeu_epi32(void * __P, __mmask8 __M, __m256i __A) {			void test_mm256_mask_cvtepi64_storeu_epi32(void * __P, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi64_storeu_epi32			// CHECK-LABEL: @test_mm256_mask_cvtepi64_storeu_epi32
	// CHECK: @llvm.x86.avx512.mask.pmov.qd.mem.256			// CHECK: @llvm.x86.avx512.mask.pmov.qd.mem.256
	return _mm256_mask_cvtepi64_storeu_epi32(__P, __M, __A);			return _mm256_mask_cvtepi64_storeu_epi32(__P, __M, __A);
	}			}

	__m128i test_mm_cvtepi64_epi16(__m128i __A) {			__m128i test_mm_cvtepi64_epi16(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi64_epi16			// CHECK-LABEL: @test_mm_cvtepi64_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.128			// CHECK: trunc <2 x i64> %{{.*}} to <2 x i16>
				// CHECK: shufflevector <2 x i16> %{{.}}, <2 x i16> %{{.}}, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 3, i32 3, i32 3, i32 3>
	return _mm_cvtepi64_epi16(__A);			return _mm_cvtepi64_epi16(__A);
	}			}

	__m128i test_mm_mask_cvtepi64_epi16(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi64_epi16(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi64_epi16			// CHECK-LABEL: @test_mm_mask_cvtepi64_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.128			// CHECK: @llvm.x86.avx512.mask.pmov.qw.128
	return _mm_mask_cvtepi64_epi16(__O, __M, __A);			return _mm_mask_cvtepi64_epi16(__O, __M, __A);
	}			}

	__m128i test_mm_maskz_cvtepi64_epi16(__mmask8 __M, __m128i __A) {			__m128i test_mm_maskz_cvtepi64_epi16(__mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_maskz_cvtepi64_epi16			// CHECK-LABEL: @test_mm_maskz_cvtepi64_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.128			// CHECK: @llvm.x86.avx512.mask.pmov.qw.128
	return _mm_maskz_cvtepi64_epi16(__M, __A);			return _mm_maskz_cvtepi64_epi16(__M, __A);
	}			}

	void test_mm_mask_cvtepi64_storeu_epi16(void * __P, __mmask8 __M, __m128i __A) {			void test_mm_mask_cvtepi64_storeu_epi16(void * __P, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi64_storeu_epi16			// CHECK-LABEL: @test_mm_mask_cvtepi64_storeu_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.mem.128			// CHECK: @llvm.x86.avx512.mask.pmov.qw.mem.128
	return _mm_mask_cvtepi64_storeu_epi16(__P, __M, __A);			return _mm_mask_cvtepi64_storeu_epi16(__P, __M, __A);
	}			}

	__m128i test_mm256_cvtepi64_epi16(__m256i __A) {			__m128i test_mm256_cvtepi64_epi16(__m256i __A) {
	// CHECK-LABEL: @test_mm256_cvtepi64_epi16			// CHECK-LABEL: @test_mm256_cvtepi64_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.256			// CHECK: trunc <4 x i64> %{{.*}} to <4 x i16>
				// CHECK: shufflevector <4 x i16> %{{.}}, <4 x i16> %{{.}}, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	return _mm256_cvtepi64_epi16(__A);			return _mm256_cvtepi64_epi16(__A);
	}			}

	__m128i test_mm256_mask_cvtepi64_epi16(__m128i __O, __mmask8 __M, __m256i __A) {			__m128i test_mm256_mask_cvtepi64_epi16(__m128i __O, __mmask8 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_mask_cvtepi64_epi16			// CHECK-LABEL: @test_mm256_mask_cvtepi64_epi16
	// CHECK: @llvm.x86.avx512.mask.pmov.qw.256			// CHECK: @llvm.x86.avx512.mask.pmov.qw.256
	return _mm256_mask_cvtepi64_epi16(__O, __M, __A);			return _mm256_mask_cvtepi64_epi16(__O, __M, __A);
	}			}
	▲ Show 20 Lines • Show All 761 Lines • Show Last 20 Lines

clang/test/CodeGen/avx512vlbw-builtins.c

	Show First 20 Lines • Show All 1,786 Lines • ▼ Show 20 Lines
	__m128i test_mm256_maskz_cvtusepi16_epi8(__mmask16 __M, __m256i __A) {			__m128i test_mm256_maskz_cvtusepi16_epi8(__mmask16 __M, __m256i __A) {
	// CHECK-LABEL: @test_mm256_maskz_cvtusepi16_epi8			// CHECK-LABEL: @test_mm256_maskz_cvtusepi16_epi8
	// CHECK: @llvm.x86.avx512.mask.pmovus.wb.256			// CHECK: @llvm.x86.avx512.mask.pmovus.wb.256
	return _mm256_maskz_cvtusepi16_epi8(__M, __A);			return _mm256_maskz_cvtusepi16_epi8(__M, __A);
	}			}

	__m128i test_mm_cvtepi16_epi8(__m128i __A) {			__m128i test_mm_cvtepi16_epi8(__m128i __A) {
	// CHECK-LABEL: @test_mm_cvtepi16_epi8			// CHECK-LABEL: @test_mm_cvtepi16_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.wb.128			// CHECK: trunc <8 x i16> %{{.*}} to <8 x i8>
				// CHECK: shufflevector <8 x i8> %{{.}}, <8 x i8> %{{.}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	return _mm_cvtepi16_epi8(__A);			return _mm_cvtepi16_epi8(__A);
	}			}

	__m128i test_mm_mask_cvtepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) {			__m128i test_mm_mask_cvtepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) {
	// CHECK-LABEL: @test_mm_mask_cvtepi16_epi8			// CHECK-LABEL: @test_mm_mask_cvtepi16_epi8
	// CHECK: @llvm.x86.avx512.mask.pmov.wb.128			// CHECK: @llvm.x86.avx512.mask.pmov.wb.128
	return _mm_mask_cvtepi16_epi8(__O, __M, __A);			return _mm_mask_cvtepi16_epi8(__O, __M, __A);
	}			}
	▲ Show 20 Lines • Show All 1,311 Lines • Show Last 20 Lines