Index: include/clang/Basic/BuiltinsX86.def =================================================================== --- include/clang/Basic/BuiltinsX86.def +++ include/clang/Basic/BuiltinsX86.def @@ -1794,6 +1794,24 @@ TARGET_BUILTIN(__builtin_ia32_loadupd256_mask, "V4dV4d*V4dUc","","avx512vl") TARGET_BUILTIN(__builtin_ia32_loadups128_mask, "V4fV4f*V4fUc","","avx512vl") TARGET_BUILTIN(__builtin_ia32_loadups256_mask, "V8fV8f*V8fUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckhdq512_mask, "V16iV16iV16iV16iUs","","avx512f") +TARGET_BUILTIN(__builtin_ia32_punpckhqdq512_mask, "V8LLiV8LLiV8LLiV8LLiUc","","avx512f") +TARGET_BUILTIN(__builtin_ia32_punpckldq512_mask, "V16iV16iV16iV16iUs","","avx512f") +TARGET_BUILTIN(__builtin_ia32_punpcklqdq512_mask, "V8LLiV8LLiV8LLiV8LLiUc","","avx512f") +TARGET_BUILTIN(__builtin_ia32_punpckhdq128_mask, "V4iV4iV4iV4iUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckhdq256_mask, "V8iV8iV8iV8iUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckhqdq128_mask, "V2LLiV2LLiV2LLiV2LLiUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckhqdq256_mask, "V4LLiV4LLiV4LLiV4LLiUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckldq128_mask, "V4iV4iV4iV4iUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpckldq256_mask, "V8iV8iV8iV8iUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpcklqdq128_mask, "V2LLiV2LLiV2LLiV2LLiUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_punpcklqdq256_mask, "V4LLiV4LLiV4LLiV4LLiUc","","avx512vl") +TARGET_BUILTIN(__builtin_ia32_rndscalesd_round_mask, "V2dV2dV2dV2dUcIiIi","","avx512f") +TARGET_BUILTIN(__builtin_ia32_rndscaless_round_mask, "V4fV4fV4fV4fUcIiIi","","avx512f") +TARGET_BUILTIN(__builtin_ia32_scalefpd512_mask, "V8dV8dV8dV8dUcIi","","avx512f") +TARGET_BUILTIN(__builtin_ia32_scalefps512_mask, "V16fV16fV16fV16fUsIi","","avx512f") +TARGET_BUILTIN(__builtin_ia32_scalefsd_round_mask, "V2dV2dV2dV2dUcIi","","avx512f") +TARGET_BUILTIN(__builtin_ia32_scalefss_round_mask, "V4fV4fV4fV4fUcIi","","avx512f") #undef BUILTIN #undef TARGET_BUILTIN Index: lib/Headers/avx512fintrin.h =================================================================== --- lib/Headers/avx512fintrin.h +++ lib/Headers/avx512fintrin.h @@ -3974,6 +3974,431 @@ __builtin_ia32_vcomiss ((__v4sf) (__A), (__v4sf) (__B), ( __P), ( __R));\ }) +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_unpackhi_epi32 (__m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhdq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) + _mm512_setzero_si512 (), + (__mmask16) -1); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_mask_unpackhi_epi32 (__m512i __W, __mmask16 __U, __m512i __A, + __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhdq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) __W, + (__mmask16) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_maskz_unpackhi_epi32 (__mmask16 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhdq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) + _mm512_setzero_si512 (), + (__mmask16) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_unpackhi_epi64 (__m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) + _mm512_setzero_si512 (), + (__mmask8) -1); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_mask_unpackhi_epi64 (__m512i __W, __mmask8 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) __W, + (__mmask8) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_maskz_unpackhi_epi64 (__mmask8 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckhqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) + _mm512_setzero_si512 (), + (__mmask8) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_unpacklo_epi32 (__m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckldq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) + _mm512_setzero_si512 (), + (__mmask16) -1); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_mask_unpacklo_epi32 (__m512i __W, __mmask16 __U, __m512i __A, + __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckldq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) __W, + (__mmask16) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_maskz_unpacklo_epi32 (__mmask16 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpckldq512_mask ((__v16si) __A, + (__v16si) __B, + (__v16si) + _mm512_setzero_si512 (), + (__mmask16) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_unpacklo_epi64 (__m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpcklqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) + _mm512_setzero_si512 (), + (__mmask8) -1); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_mask_unpacklo_epi64 (__m512i __W, __mmask8 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpcklqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) __W, + (__mmask8) __U); +} + +static __inline__ __m512i __DEFAULT_FN_ATTRS +_mm512_maskz_unpacklo_epi64 (__mmask8 __U, __m512i __A, __m512i __B) +{ + return (__m512i) __builtin_ia32_punpcklqdq512_mask ((__v8di) __A, + (__v8di) __B, + (__v8di) + _mm512_setzero_si512 (), + (__mmask8) __U); +} + +#define _mm_roundscale_round_sd( __A, __B, __imm, __R) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ((__v2df)( __A),\ + (__v2df)( __B), (__v2df) _mm_setzero_pd(),\ + (__mmask8) -1,( __imm),( __R));\ +}) + +#define _mm_roundscale_sd( __A, __B, __imm) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ((__v2df)( __A),\ + (__v2df)( __B), (__v2df) _mm_setzero_pd(),\ + (__mmask8) -1, ( __imm),\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_mask_roundscale_sd( __W, __U, __A, __B, __imm) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ( (__v2df)( __A),\ + (__v2df)( __B),\ + (__v2df)( __W),\ + (__mmask8)( __U),\ + (__imm),\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_mask_roundscale_round_sd( __W, __U, __A, __B, __I, __R) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ( (__v2df)( __A),\ + (__v2df)( __B),\ + (__v2df)( __W),\ + (__mmask8)( __U),\ + __I,\ + __R);\ +}) + +#define _mm_maskz_roundscale_sd( __U, __A, __B, __I) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ( (__v2df)( __A),\ + (__v2df)( __B),\ + (__v2df) _mm_setzero_pd (),\ + (__mmask8)( __U),\ + __I,\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_maskz_roundscale_round_sd( __U, __A, __B, __I, __R) __extension__ ({ \ +__builtin_ia32_rndscalesd_round_mask ( (__v2df)( __A),\ + (__v2df)( __B),\ + (__v2df) _mm_setzero_pd (),\ + (__mmask8)( __U),\ + __I,\ + __R);\ +}) + +#define _mm_roundscale_round_ss( __A, __B, __imm, __R) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ((__v4sf)( __A),\ + (__v4sf)( __B), (__v4sf) _mm_setzero_ps(),\ + (__mmask8) -1, __imm, __R);\ +}) + +#define _mm_roundscale_ss( __A, __B, __imm) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ((__v4sf)( __A),\ + (__v4sf)( __B), (__v4sf) _mm_setzero_ps(),\ + (__mmask8) -1, ( __imm),\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_mask_roundscale_ss( __W, __U, __A, __B, __I) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ( (__v4sf)(( __)A),\ + (__v4sf)( __B),\ + (__v4sf)( __W),\ + (__mmask8)( __U),\ + __I,\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_mask_roundscale_round_ss( __W, __U, __A, __B, __I, __R) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ( (__v4sf)( __A),\ + (__v4sf)( __B),\ + (__v4sf)( __W),\ + (__mmask8)( __U),\ + __I,\ + __R);\ +}) + +#define _mm_maskz_roundscale_ss( __U, __A, __B, __I) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ( (__v4sf)( __A),\ + (__v4sf)( __B),\ + (__v4sf) _mm_setzero_ps (),\ + (__mmask8)( __U),\ + __I,\ + _MM_FROUND_CUR_DIRECTION);\ +}) + +#define _mm_maskz_roundscale_round_ss( __U, __A, __B, __I, __R) __extension__ ({ \ +__builtin_ia32_rndscaless_round_mask ( (__v4sf)( __A),\ + (__v4sf)( __B),\ + (__v4sf) _mm_setzero_ps (),\ + (__mmask8)( __U),\ + __I,\ + __R);\ +}) + +#define _mm512_scalef_round_pd( __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefpd512_mask ((__v8df)( __A),\ + (__v8df)( __B),\ + (__v8df)\ + _mm512_undefined_pd (),\ + (__mmask8) -1,( __R));\ +}) + +#define _mm512_mask_scalef_round_pd( __W, __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefpd512_mask ((__v8df)( __A),\ + (__v8df)( __B),\ + (__v8df)( __W),\ + (__mmask8)( __U),( __R));\ +}) + +#define _mm512_maskz_scalef_round_pd( __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefpd512_mask ((__v8df)( __A),\ + (__v8df)( __B),\ + (__v8df)\ + _mm512_setzero_pd (),\ + (__mmask8)( __U),( __R));\ +}) + +static __inline__ __m512d __DEFAULT_FN_ATTRS +_mm512_scalef_pd (__m512d __A, __m512d __B) +{ + return (__m512d) __builtin_ia32_scalefpd512_mask ((__v8df) __A, + (__v8df) __B, + (__v8df) + _mm512_undefined_pd (), + (__mmask8) -1, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m512d __DEFAULT_FN_ATTRS +_mm512_mask_scalef_pd (__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) +{ + return (__m512d) __builtin_ia32_scalefpd512_mask ((__v8df) __A, + (__v8df) __B, + (__v8df) __W, + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m512d __DEFAULT_FN_ATTRS +_mm512_maskz_scalef_pd (__mmask8 __U, __m512d __A, __m512d __B) +{ + return (__m512d) __builtin_ia32_scalefpd512_mask ((__v8df) __A, + (__v8df) __B, + (__v8df) + _mm512_setzero_pd (), + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm512_scalef_round_ps( __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefps512_mask ((__v16sf)( __A),\ + (__v16sf)( __B),\ + (__v16sf)\ + _mm512_undefined_ps (),\ + (__mmask16) -1,( __R));\ +}) + +#define _mm512_mask_scalef_round_ps( __W, __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefps512_mask ((__v16sf)( __A),\ + (__v16sf)( __B),\ + (__v16sf)( __W),\ + (__mmask16)( __U),( __R));\ +}) + +#define _mm512_maskz_scalef_round_ps( __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefps512_mask ((__v16sf)( __A),\ + (__v16sf)( __B),\ + (__v16sf)\ + _mm512_setzero_ps (),\ + (__mmask16)( __U),( __R));\ +}) + +static __inline__ __m512 __DEFAULT_FN_ATTRS +_mm512_scalef_ps (__m512 __A, __m512 __B) +{ + return (__m512) __builtin_ia32_scalefps512_mask ((__v16sf) __A, + (__v16sf) __B, + (__v16sf) + _mm512_undefined_ps (), + (__mmask16) -1, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m512 __DEFAULT_FN_ATTRS +_mm512_mask_scalef_ps (__m512 __W, __mmask16 __U, __m512 __A, __m512 __B) +{ + return (__m512) __builtin_ia32_scalefps512_mask ((__v16sf) __A, + (__v16sf) __B, + (__v16sf) __W, + (__mmask16) __U, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m512 __DEFAULT_FN_ATTRS +_mm512_maskz_scalef_ps (__mmask16 __U, __m512 __A, __m512 __B) +{ + return (__m512) __builtin_ia32_scalefps512_mask ((__v16sf) __A, + (__v16sf) __B, + (__v16sf) + _mm512_setzero_ps (), + (__mmask16) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm_scalef_round_sd( __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefsd_round_mask ((__v2df)( __A),\ + (__v2df)( __B), (__v2df) _mm_setzero_pd(),\ + (__mmask8) -1,\ + ( __R));\ +}) + +static __inline__ __m128d __DEFAULT_FN_ATTRS +_mm_scalef_sd (__m128d __A, __m128d __B) +{ + return (__m128d) __builtin_ia32_scalefsd_round_mask ((__v2df) __A, + (__v2df)( __B), (__v2df) _mm_setzero_pd(), + (__mmask8) -1, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m128d __DEFAULT_FN_ATTRS +_mm_mask_scalef_sd (__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) +{ + return (__m128d) __builtin_ia32_scalefsd_round_mask ( (__v2df) __A, + (__v2df) __B, + (__v2df) __W, + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm_mask_scalef_round_sd( __W, __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefsd_round_mask ((__v2df)( __A),\ + (__v2df)( __B), (__v2df) __W,\ + (__mmask8) __U,\ + ( __R));\ +}) + +static __inline__ __m128d __DEFAULT_FN_ATTRS +_mm_maskz_scalef_sd (__mmask8 __U, __m128d __A, __m128d __B) +{ + return (__m128d) __builtin_ia32_scalefsd_round_mask ( (__v2df) __A, + (__v2df) __B, + (__v2df) _mm_setzero_pd (), + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm_maskz_scalef_round_sd( __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefsd_round_mask ((__v2df)( __A),\ + (__v2df)( __B), (__v2df) _mm_setzero_pd (),\ + (__mmask8) __U,\ + ( __R));\ +}) + +#define _mm_scalef_round_ss( __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefss_round_mask ((__v4sf)( __A),\ + (__v4sf)( __B), (__v4sf) _mm_setzero_ps(),\ + (__mmask8) -1,\ + ( __R));\ +}) + +static __inline__ __m128 __DEFAULT_FN_ATTRS +_mm_scalef_ss (__m128 __A, __m128 __B) +{ + return (__m128) __builtin_ia32_scalefss_round_mask ((__v4sf) __A, + (__v4sf)( __B), (__v4sf) _mm_setzero_ps(), + (__mmask8) -1, + _MM_FROUND_CUR_DIRECTION); +} + +static __inline__ __m128 __DEFAULT_FN_ATTRS +_mm_mask_scalef_ss (__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) +{ + return (__m128) __builtin_ia32_scalefss_round_mask ( (__v4sf) __A, + (__v4sf) __B, + (__v4sf) __W, + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm_mask_scalef_round_ss( __W, __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefss_round_mask ((__v4sf)( __A),\ + (__v4sf)( __B), (__v4sf) __W,\ + (__mmask8) __U,\ + ( __R));\ +}) + +static __inline__ __m128 __DEFAULT_FN_ATTRS +_mm_maskz_scalef_ss (__mmask8 __U, __m128 __A, __m128 __B) +{ + return (__m128) __builtin_ia32_scalefss_round_mask ( (__v4sf) __A, + (__v4sf) __B, + (__v4sf) _mm_setzero_ps (), + (__mmask8) __U, + _MM_FROUND_CUR_DIRECTION); +} + +#define _mm_maskz_scalef_round_ss( __U, __A, __B, __R) __extension__ ({ \ +__builtin_ia32_scalefss_round_mask ((__v4sf)( __A),\ + (__v4sf)( __B), (__v4sf) _mm_setzero_ps(),\ + (__mmask8) __U,\ + _MM_FROUND_CUR_DIRECTION);\ +}) #undef __DEFAULT_FN_ATTRS Index: lib/Headers/avx512vlintrin.h =================================================================== --- lib/Headers/avx512vlintrin.h +++ lib/Headers/avx512vlintrin.h @@ -6360,6 +6360,166 @@ _mm256_setzero_ps (), (__mmask8) __U); } +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpackhi_epi32 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckhdq128_mask ((__v4si) __A, + (__v4si) __B, + (__v4si) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpackhi_epi32 (__mmask8 __U, __m128i __A, __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckhdq128_mask ((__v4si) __A, + (__v4si) __B, + (__v4si) + _mm_setzero_si128 (), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpackhi_epi32 (__m256i __W, __mmask8 __U, __m256i __A, + __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckhdq256_mask ((__v8si) __A, + (__v8si) __B, + (__v8si) __W, + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpackhi_epi32 (__mmask8 __U, __m256i __A, __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckhdq256_mask ((__v8si) __A, + (__v8si) __B, + (__v8si) + _mm256_setzero_si256 (), + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpackhi_epi64 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckhqdq128_mask ((__v2di) __A, + (__v2di) __B, + (__v2di) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpackhi_epi64 (__mmask8 __U, __m128i __A, __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckhqdq128_mask ((__v2di) __A, + (__v2di) __B, + (__v2di) + _mm_setzero_di (), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpackhi_epi64 (__m256i __W, __mmask8 __U, __m256i __A, + __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckhqdq256_mask ((__v4di) __A, + (__v4di) __B, + (__v4di) __W, + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpackhi_epi64 (__mmask8 __U, __m256i __A, __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckhqdq256_mask ((__v4di) __A, + (__v4di) __B, + (__v4di) + _mm256_setzero_si256 (), + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpacklo_epi32 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckldq128_mask ((__v4si) __A, + (__v4si) __B, + (__v4si) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpacklo_epi32 (__mmask8 __U, __m128i __A, __m128i __B) +{ + return (__m128i) __builtin_ia32_punpckldq128_mask ((__v4si) __A, + (__v4si) __B, + (__v4si) + _mm_setzero_si128 (), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpacklo_epi32 (__m256i __W, __mmask8 __U, __m256i __A, + __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckldq256_mask ((__v8si) __A, + (__v8si) __B, + (__v8si) __W, + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpacklo_epi32 (__mmask8 __U, __m256i __A, __m256i __B) +{ + return (__m256i) __builtin_ia32_punpckldq256_mask ((__v8si) __A, + (__v8si) __B, + (__v8si) + _mm256_setzero_si256 (), + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpacklo_epi64 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) +{ + return (__m128i) __builtin_ia32_punpcklqdq128_mask ((__v2di) __A, + (__v2di) __B, + (__v2di) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpacklo_epi64 (__mmask8 __U, __m128i __A, __m128i __B) +{ + return (__m128i) __builtin_ia32_punpcklqdq128_mask ((__v2di) __A, + (__v2di) __B, + (__v2di) + _mm_setzero_di (), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpacklo_epi64 (__m256i __W, __mmask8 __U, __m256i __A, + __m256i __B) +{ + return (__m256i) __builtin_ia32_punpcklqdq256_mask ((__v4di) __A, + (__v4di) __B, + (__v4di) __W, + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpacklo_epi64 (__mmask8 __U, __m256i __A, __m256i __B) +{ + return (__m256i) __builtin_ia32_punpcklqdq256_mask ((__v4di) __A, + (__v4di) __B, + (__v4di) + _mm256_setzero_si256 (), + (__mmask8) __U); +} + #undef __DEFAULT_FN_ATTRS #undef __DEFAULT_FN_ATTRS_BOTH Index: test/CodeGen/avx512f-builtins.c =================================================================== --- test/CodeGen/avx512f-builtins.c +++ test/CodeGen/avx512f-builtins.c @@ -2576,5 +2576,280 @@ return _mm512_kmov(__A); } +__m512i test_mm512_unpackhi_epi32(__m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.512 + return _mm512_unpackhi_epi32(__A, __B); +} + +__m512i test_mm512_mask_unpackhi_epi32(__m512i __W, __mmask16 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_mask_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.512 + return _mm512_mask_unpackhi_epi32(__W, __U, __A, __B); +} + +__m512i test_mm512_maskz_unpackhi_epi32(__mmask16 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_maskz_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.512 + return _mm512_maskz_unpackhi_epi32(__U, __A, __B); +} + +__m512i test_mm512_unpackhi_epi64(__m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.512 + return _mm512_unpackhi_epi64(__A, __B); +} + +__m512i test_mm512_mask_unpackhi_epi64(__m512i __W, __mmask8 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_mask_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.512 + return _mm512_mask_unpackhi_epi64(__W, __U, __A, __B); +} + +__m512i test_mm512_maskz_unpackhi_epi64(__mmask8 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_maskz_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.512 + return _mm512_maskz_unpackhi_epi64(__U, __A, __B); +} + +__m512i test_mm512_unpacklo_epi32(__m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.512 + return _mm512_unpacklo_epi32(__A, __B); +} + +__m512i test_mm512_mask_unpacklo_epi32(__m512i __W, __mmask16 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_mask_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.512 + return _mm512_mask_unpacklo_epi32(__W, __U, __A, __B); +} + +__m512i test_mm512_maskz_unpacklo_epi32(__mmask16 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_maskz_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.512 + return _mm512_maskz_unpacklo_epi32(__U, __A, __B); +} + +__m512i test_mm512_unpacklo_epi64(__m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.512 + return _mm512_unpacklo_epi64(__A, __B); +} + +__m512i test_mm512_mask_unpacklo_epi64(__m512i __W, __mmask8 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_mask_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.512 + return _mm512_mask_unpacklo_epi64(__W, __U, __A, __B); +} + +__m512i test_mm512_maskz_unpacklo_epi64(__mmask8 __U, __m512i __A, __m512i __B) { + // CHECK-LABEL: @test_mm512_maskz_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.512 + return _mm512_maskz_unpacklo_epi64(__U, __A, __B); +} +__m128d test_mm_roundscale_round_sd(__m128d __A, __m128d __B) { + // CHECK-LABEL: @test_mm_roundscale_round_sd + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_roundscale_round_sd(__A, __B, 3, _MM_FROUND_CUR_DIRECTION); +} + +__m128d test_mm_roundscale_sd(__m128d __A, __m128d __B) { + // CHECK-LABEL: @test_mm_roundscale_sd + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_roundscale_sd(__A, __B, 3); +} + +__m128d test_mm_mask_roundscale_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_mask_roundscale_sd(__W,__U,__A,__B,3); +} + +__m128d test_mm_mask_roundscale_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_mask_roundscale_round_sd(__W,__U,__A,__B,3,_MM_FROUND_CUR_DIRECTION); +} + +__m128d test_mm_maskz_roundscale_sd(__mmask8 __U, __m128d __A, __m128d __B){ + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_maskz_roundscale_sd(__U,__A,__B,3); +} + +__m128d test_mm_maskz_roundscale_round_sd(__mmask8 __U, __m128d __A, __m128d __B){ + // CHECK: @llvm.x86.avx512.mask.rndscale.sd + return _mm_maskz_roundscale_round_sd(__U,__A,__B,3,_MM_FROUND_CUR_DIRECTION ); +} + +__m128 test_mm_roundscale_round_ss(__m128 __A, __m128 __B) { + // CHECK-LABEL: @test_mm_roundscale_round_ss + // CHECK: @llvm.x86.avx512.mask.rndscale.ss + return _mm_roundscale_round_ss(__A, __B, 3, _MM_FROUND_CUR_DIRECTION); +} + +__m128 test_mm_roundscale_ss(__m128 __A, __m128 __B) { + // CHECK-LABEL: @test_mm_roundscale_ss + // CHECK: @llvm.x86.avx512.mask.rndscale.ss + return _mm_roundscale_ss(__A, __B, 3); +} + +__m128d test_mm_mask_roundscale_ss(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_mask_roundscale_ss + // CHECK: @llvm.x86.avx512.mask.rndscale.ss + return _mm_mask_roundscale_ss(__W,__U,__A,__B,3); +} + +__m128d test_mm_maskz_roundscale_round_ss(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_maskz_roundscale_round_ss + // CHECK: @llvm.x86.avx512.mask.rndscale.ss + return _mm_maskz_roundscale_round_ss(__W,__U,__A,__B,3,_MM_FROUND_CUR_DIRECTION); +} + +__m128d test_mm_maskz_roundscale_ss(__mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_maskz_roundscale_ss + // CHECK: @llvm.x86.avx512.mask.rndscale.ss + return _mm_maskz_roundscale_ss(__U,__A,__B,3); +} + +__m512d test_mm512_scalef_round_pd(__m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_scalef_round_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_scalef_round_pd(__A, __B, _MM_FROUND_CUR_DIRECTION); +} +__m512d test_mm512_mask_scalef_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_mask_scalef_round_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_mask_scalef_round_pd(__W, __U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m512d test_mm512_maskz_scalef_round_pd(__mmask8 __U, __m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_maskz_scalef_round_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_maskz_scalef_round_pd(__U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m512d test_mm512_scalef_pd(__m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_scalef_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_scalef_pd(__A, __B); +} + +__m512d test_mm512_mask_scalef_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_mask_scalef_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_mask_scalef_pd(__W, __U, __A, __B); +} + +__m512d test_mm512_maskz_scalef_pd(__mmask8 __U, __m512d __A, __m512d __B) { + // CHECK-LABEL: @test_mm512_maskz_scalef_pd + // CHECK: @llvm.x86.avx512.mask.scalef.pd.512 + return _mm512_maskz_scalef_pd(__U, __A, __B); +} + +__m512 test_mm512_scalef_round_ps(__m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_scalef_round_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_scalef_round_ps(__A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m512 test_mm512_mask_scalef_round_ps(__m512 __W, __mmask16 __U, __m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_mask_scalef_round_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_mask_scalef_round_ps(__W, __U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m512 test_mm512_maskz_scalef_round_ps(__mmask16 __U, __m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_maskz_scalef_round_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_maskz_scalef_round_ps(__U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m512 test_mm512_scalef_ps(__m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_scalef_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_scalef_ps(__A, __B); +} + +__m512 test_mm512_mask_scalef_ps(__m512 __W, __mmask16 __U, __m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_mask_scalef_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_mask_scalef_ps(__W, __U, __A, __B); +} + +__m512 test_mm512_maskz_scalef_ps(__mmask16 __U, __m512 __A, __m512 __B) { + // CHECK-LABEL: @test_mm512_maskz_scalef_ps + // CHECK: @llvm.x86.avx512.mask.scalef.ps.512 + return _mm512_maskz_scalef_ps(__U, __A, __B); +} + +__m128d test_mm_scalef_round_sd(__m128d __A, __m128d __B) { + // CHECK-LABEL: @test_mm_scalef_round_sd + // CHECK: @llvm.x86.avx512.mask.scalef + return _mm_scalef_round_sd(__A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m128d test_mm_scalef_sd(__m128d __A, __m128d __B) { + // CHECK-LABEL: @test_mm_scalef_sd + // CHECK: @llvm.x86.avx512.mask.scalef + return _mm_scalef_sd(__A, __B); +} + +__m128d test_mm_mask_scalef_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_mask_scalef_sd + // CHECK: @llvm.x86.avx512.mask.scalef.sd + return _mm_mask_scalef_sd(__W, __U, __A, __B); +} + +__m128d test_mm_mask_scalef_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_mask_scalef_round_sd + // CHECK: @llvm.x86.avx512.mask.scalef.sd + return _mm_mask_scalef_round_sd(__W, __U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m128d test_mm_maskz_scalef_sd(__mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_maskz_scalef_sd + // CHECK: @llvm.x86.avx512.mask.scalef.sd + return _mm_maskz_scalef_sd(__U, __A, __B); +} + +__m128d test_mm_maskz_scalef_round_sd(__mmask8 __U, __m128d __A, __m128d __B){ + // CHECK-LABEL: @test_mm_maskz_scalef_round_sd + // CHECK: @llvm.x86.avx512.mask.scalef.sd + return _mm_maskz_scalef_round_sd(__U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m128 test_mm_scalef_round_ss(__m128 __A, __m128 __B) { + // CHECK-LABEL: @test_mm_scalef_round_ss + // CHECK: @llvm.x86.avx512.mask.scalef_ss + return _mm_scalef_round_ss(__A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m128 test_mm_scalef_ss(__m128 __A, __m128 __B) { + // CHECK-LABEL: @test_mm_scalef_ss + // CHECK: @llvm.x86.avx512.mask.scalef_ss + return _mm_scalef_ss(__A, __B); +} + +__m128 test_mm_mask_scalef_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B){ + // CHECK-LABEL: @test_mm_mask_scalef_ss + // CHECK: @llvm.x86.avx512.mask.scalef.ss + return _mm_mask_scalef_ss(__W, __U, __A, __B); +} + +__m128 test_mm_mask_scalef_round_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B){ + // CHECK-LABEL: @test_mm_mask_scalef_round_ss + // CHECK: @llvm.x86.avx512.mask.scalef.ss + return _mm_mask_scalef_round_ss(__W, __U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} + +__m128 test_mm_maskz_scalef_ss(__mmask8 __U, __m128 __A, __m128 __B){ + // CHECK-LABEL: @test_mm_maskz_scalef_ss + // CHECK: @llvm.x86.avx512.mask.scalef.ss + return _mm_maskz_scalef_ss(__U, __A, __B); +} + +__m128 test_mm_maskz_scalef_round_ss(__mmask8 __U, __m128 __A, __m128 __B){ + // CHECK-LABEL: @test_mm_maskz_scalef_round_ss + // CHECK: @llvm.x86.avx512.mask.scalef.ss + return _mm_maskz_scalef_round_ss(__U, __A, __B, _MM_FROUND_CUR_DIRECTION); +} Index: test/CodeGen/avx512vl-builtins.c =================================================================== --- test/CodeGen/avx512vl-builtins.c +++ test/CodeGen/avx512vl-builtins.c @@ -4296,3 +4296,98 @@ return _mm256_maskz_loadu_ps(__U, __P); } +__m128i test_mm_mask_unpackhi_epi32(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.128 + return _mm_mask_unpackhi_epi32(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpackhi_epi32(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.128 + return _mm_maskz_unpackhi_epi32(__U, __A, __B); +} + +__m256i test_mm256_mask_unpackhi_epi32(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.256 + return _mm256_mask_unpackhi_epi32(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpackhi_epi32(__mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckhd.q.256 + return _mm256_maskz_unpackhi_epi32(__U, __A, __B); +} + +__m128i test_mm_mask_unpackhi_epi64(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.128 + return _mm_mask_unpackhi_epi64(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpackhi_epi64(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.128 + return _mm_maskz_unpackhi_epi64(__U, __A, __B); +} + +__m256i test_mm256_mask_unpackhi_epi64(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.256 + return _mm256_mask_unpackhi_epi64(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpackhi_epi64(__mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi64 + // CHECK: @llvm.x86.avx512.mask.punpckhqd.q.256 + return _mm256_maskz_unpackhi_epi64(__U, __A, __B); +} + +__m128i test_mm_mask_unpacklo_epi32(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.128 + return _mm_mask_unpacklo_epi32(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpacklo_epi32(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.128 + return _mm_maskz_unpacklo_epi32(__U, __A, __B); +} + +__m256i test_mm256_mask_unpacklo_epi32(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.256 + return _mm256_mask_unpacklo_epi32(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpacklo_epi32(__mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi32 + // CHECK: @llvm.x86.avx512.mask.punpckld.q.256 + return _mm256_maskz_unpacklo_epi32(__U, __A, __B); +} + +__m128i test_mm_mask_unpacklo_epi64(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.128 + return _mm_mask_unpacklo_epi64(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpacklo_epi64(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.128 + return _mm_maskz_unpacklo_epi64(__U, __A, __B); +} + +__m256i test_mm256_mask_unpacklo_epi64(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.256 + return _mm256_mask_unpacklo_epi64(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpacklo_epi64(__mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi64 + // CHECK: @llvm.x86.avx512.mask.punpcklqd.q.256 + return _mm256_maskz_unpacklo_epi64(__U, __A, __B); +}