Index: cfe/trunk/include/clang/Basic/BuiltinsX86.def =================================================================== --- cfe/trunk/include/clang/Basic/BuiltinsX86.def +++ cfe/trunk/include/clang/Basic/BuiltinsX86.def @@ -1449,6 +1449,28 @@ BUILTIN(__builtin_ia32_reducepd256_mask, "V4dV4dIiV4dUc", "") BUILTIN(__builtin_ia32_reduceps128_mask, "V4fV4fIiV4fUc", "") BUILTIN(__builtin_ia32_reduceps256_mask, "V8fV8fIiV8fUc", "") - - +BUILTIN(__builtin_ia32_pmaddubsw128_mask, "V8sV16cV16cV8sUc", "") +BUILTIN(__builtin_ia32_pmaddubsw256_mask, "V16sV32cV32cV16sUs", "") +BUILTIN(__builtin_ia32_pmaddwd128_mask, "V4iV8sV8sV4iUc", "") +BUILTIN(__builtin_ia32_pmaddwd256_mask, "V8iV16sV16sV8iUc", "") +BUILTIN(__builtin_ia32_pmovswb128_mask, "V16cV8sV16cUc", "") +BUILTIN(__builtin_ia32_pmovswb256_mask, "V16cV16sV16cUs", "") +BUILTIN(__builtin_ia32_pmovuswb128_mask, "V16cV8sV16cUc", "") +BUILTIN(__builtin_ia32_pmovuswb256_mask, "V16cV16sV16cUs", "") +BUILTIN(__builtin_ia32_pmovwb128_mask, "V16cV8sV16cUc", "") +BUILTIN(__builtin_ia32_pmovwb256_mask, "V16cV16sV16cUs", "") +BUILTIN(__builtin_ia32_pmulhrsw128_mask, "V8sV8sV8sV8sUc", "") +BUILTIN(__builtin_ia32_pmulhrsw256_mask, "V16sV16sV16sV16sUs", "") +BUILTIN(__builtin_ia32_pmulhuw128_mask, "V8sV8sV8sV8sUc", "") +BUILTIN(__builtin_ia32_pmulhuw256_mask, "V16sV16sV16sV16sUs", "") +BUILTIN(__builtin_ia32_pmulhw128_mask, "V8sV8sV8sV8sUc", "") +BUILTIN(__builtin_ia32_pmulhw256_mask, "V16sV16sV16sV16sUs", "") +BUILTIN(__builtin_ia32_punpckhbw128_mask, "V16cV16cV16cV16cUs", "") +BUILTIN(__builtin_ia32_punpckhbw256_mask, "V32cV32cV32cV32cUi", "") +BUILTIN(__builtin_ia32_punpckhwd128_mask, "V8sV8sV8sV8sUc", "") +BUILTIN(__builtin_ia32_punpckhwd256_mask, "V16sV16sV16sV16sUs", "") +BUILTIN(__builtin_ia32_punpcklbw128_mask, "V16cV16cV16cV16cUs", "") +BUILTIN(__builtin_ia32_punpcklbw256_mask, "V32cV32cV32cV32cUi", "") +BUILTIN(__builtin_ia32_punpcklwd128_mask, "V8sV8sV8sV8sUc", "") +BUILTIN(__builtin_ia32_punpcklwd256_mask, "V16sV16sV16sV16sUs", "") #undef BUILTIN Index: cfe/trunk/lib/Headers/avx512vlbwintrin.h =================================================================== --- cfe/trunk/lib/Headers/avx512vlbwintrin.h +++ cfe/trunk/lib/Headers/avx512vlbwintrin.h @@ -1822,6 +1822,435 @@ (__mmask16) __U); } +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_maddubs_epi16 (__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) { + return (__m128i) __builtin_ia32_pmaddubsw128_mask ((__v16qi) __X, + (__v16qi) __Y, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_maddubs_epi16 (__mmask8 __U, __m128i __X, __m128i __Y) { + return (__m128i) __builtin_ia32_pmaddubsw128_mask ((__v16qi) __X, + (__v16qi) __Y, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_maddubs_epi16 (__m256i __W, __mmask16 __U, __m256i __X, + __m256i __Y) { + return (__m256i) __builtin_ia32_pmaddubsw256_mask ((__v32qi) __X, + (__v32qi) __Y, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_maddubs_epi16 (__mmask16 __U, __m256i __X, __m256i __Y) { + return (__m256i) __builtin_ia32_pmaddubsw256_mask ((__v32qi) __X, + (__v32qi) __Y, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_madd_epi16 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_pmaddwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v4si) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_madd_epi16 (__mmask8 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_pmaddwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v4si) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_madd_epi16 (__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_pmaddwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v8si) __W, + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_madd_epi16 (__mmask8 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_pmaddwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v8si) _mm256_setzero_si256(), + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_cvtsepi16_epi8 (__m128i __A) { + return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask8) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_cvtsepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_cvtsepi16_epi8 (__mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovswb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_cvtsepi16_epi8 (__m256i __A) { + return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask16) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_mask_cvtsepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_maskz_cvtsepi16_epi8 (__mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovswb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_cvtusepi16_epi8 (__m128i __A) { + return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask8) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_cvtusepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_cvtusepi16_epi8 (__mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovuswb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_cvtusepi16_epi8 (__m256i __A) { + return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask16) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_mask_cvtusepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_maskz_cvtusepi16_epi8 (__mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovuswb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_cvtepi16_epi8 (__m128i __A) { + + return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask8) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_cvtepi16_epi8 (__m128i __O, __mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_cvtepi16_epi8 (__mmask8 __M, __m128i __A) { + return (__m128i) __builtin_ia32_pmovwb128_mask ((__v8hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_cvtepi16_epi8 (__m256i __A) { + return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + (__mmask16) -1); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_mask_cvtepi16_epi8 (__m128i __O, __mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A, + (__v16qi) __O, + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm256_maskz_cvtepi16_epi8 (__mmask16 __M, __m256i __A) { + return (__m128i) __builtin_ia32_pmovwb256_mask ((__v16hi) __A, + (__v16qi) _mm_setzero_si128(), + __M); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_mulhrs_epi16 (__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) { + return (__m128i) __builtin_ia32_pmulhrsw128_mask ((__v8hi) __X, + (__v8hi) __Y, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_mulhrs_epi16 (__mmask8 __U, __m128i __X, __m128i __Y) { + return (__m128i) __builtin_ia32_pmulhrsw128_mask ((__v8hi) __X, + (__v8hi) __Y, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_mulhrs_epi16 (__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) { + return (__m256i) __builtin_ia32_pmulhrsw256_mask ((__v16hi) __X, + (__v16hi) __Y, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_mulhrs_epi16 (__mmask16 __U, __m256i __X, __m256i __Y) { + return (__m256i) __builtin_ia32_pmulhrsw256_mask ((__v16hi) __X, + (__v16hi) __Y, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_mulhi_epu16 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_pmulhuw128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_mulhi_epu16 (__mmask8 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_pmulhuw128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_mulhi_epu16 (__m256i __W, __mmask16 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_pmulhuw256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_mulhi_epu16 (__mmask16 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_pmulhuw256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_mulhi_epi16 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_pmulhw128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_mulhi_epi16 (__mmask8 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_pmulhw128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_mulhi_epi16 (__m256i __W, __mmask16 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_pmulhw256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_mulhi_epi16 (__mmask16 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_pmulhw256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpackhi_epi8 (__m128i __W, __mmask16 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_punpckhbw128_mask ((__v16qi) __A, + (__v16qi) __B, + (__v16qi) __W, + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpackhi_epi8 (__mmask16 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_punpckhbw128_mask ((__v16qi) __A, + (__v16qi) __B, + (__v16qi) _mm_setzero_si128(), + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpackhi_epi8 (__m256i __W, __mmask32 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_punpckhbw256_mask ((__v32qi) __A, + (__v32qi) __B, + (__v32qi) __W, + (__mmask32) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpackhi_epi8 (__mmask32 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_punpckhbw256_mask ((__v32qi) __A, + (__v32qi) __B, + (__v32qi) _mm256_setzero_si256(), + (__mmask32) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpackhi_epi16 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_punpckhwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpackhi_epi16 (__mmask8 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_punpckhwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpackhi_epi16 (__m256i __W, __mmask16 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_punpckhwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpackhi_epi16 (__mmask16 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_punpckhwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpacklo_epi8 (__m128i __W, __mmask16 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_punpcklbw128_mask ((__v16qi) __A, + (__v16qi) __B, + (__v16qi) __W, + (__mmask16) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpacklo_epi8 (__mmask16 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_punpcklbw128_mask ((__v16qi) __A, + (__v16qi) __B, + (__v16qi) _mm_setzero_si128(), + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpacklo_epi8 (__m256i __W, __mmask32 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_punpcklbw256_mask ((__v32qi) __A, + (__v32qi) __B, + (__v32qi) __W, + (__mmask32) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpacklo_epi8 (__mmask32 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_punpcklbw256_mask ((__v32qi) __A, + (__v32qi) __B, + (__v32qi) _mm256_setzero_si256(), + (__mmask32) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_mask_unpacklo_epi16 (__m128i __W, __mmask8 __U, __m128i __A, + __m128i __B) { + return (__m128i) __builtin_ia32_punpcklwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) __W, + (__mmask8) __U); +} + +static __inline__ __m128i __DEFAULT_FN_ATTRS +_mm_maskz_unpacklo_epi16 (__mmask8 __U, __m128i __A, __m128i __B) { + return (__m128i) __builtin_ia32_punpcklwd128_mask ((__v8hi) __A, + (__v8hi) __B, + (__v8hi) _mm_setzero_si128(), + (__mmask8) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_mask_unpacklo_epi16 (__m256i __W, __mmask16 __U, __m256i __A, + __m256i __B) { + return (__m256i) __builtin_ia32_punpcklwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) __W, + (__mmask16) __U); +} + +static __inline__ __m256i __DEFAULT_FN_ATTRS +_mm256_maskz_unpacklo_epi16 (__mmask16 __U, __m256i __A, __m256i __B) { + return (__m256i) __builtin_ia32_punpcklwd256_mask ((__v16hi) __A, + (__v16hi) __B, + (__v16hi) _mm256_setzero_si256(), + (__mmask16) __U); +} + #define _mm_cmp_epi8_mask(a, b, p) __extension__ ({ \ (__mmask16)__builtin_ia32_cmpb128_mask((__v16qi)(__m128i)(a), \ (__v16qi)(__m128i)(b), \ Index: cfe/trunk/test/CodeGen/avx512vlbw-builtins.c =================================================================== --- cfe/trunk/test/CodeGen/avx512vlbw-builtins.c +++ cfe/trunk/test/CodeGen/avx512vlbw-builtins.c @@ -1377,3 +1377,327 @@ // CHECK: @llvm.x86.avx512.maskz.vpermt2var.hi.256 return _mm256_maskz_permutex2var_epi16(__U,__A,__I,__B); } +__m128i test_mm_mask_maddubs_epi16(__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) { + // CHECK-LABEL: @test_mm_mask_maddubs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.128 + return _mm_mask_maddubs_epi16(__W, __U, __X, __Y); +} + +__m128i test_mm_maskz_maddubs_epi16(__mmask8 __U, __m128i __X, __m128i __Y) { + // CHECK-LABEL: @test_mm_maskz_maddubs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.128 + return _mm_maskz_maddubs_epi16(__U, __X, __Y); +} + +__m256i test_mm256_mask_maddubs_epi16(__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) { + // CHECK-LABEL: @test_mm256_mask_maddubs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.256 + return _mm256_mask_maddubs_epi16(__W, __U, __X, __Y); +} + +__m256i test_mm256_maskz_maddubs_epi16(__mmask16 __U, __m256i __X, __m256i __Y) { + // CHECK-LABEL: @test_mm256_maskz_maddubs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddubs.w.256 + return _mm256_maskz_maddubs_epi16(__U, __X, __Y); +} + +__m128i test_mm_mask_madd_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_madd_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddw.d.128 + return _mm_mask_madd_epi16(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_madd_epi16(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_madd_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddw.d.128 + return _mm_maskz_madd_epi16(__U, __A, __B); +} + +__m256i test_mm256_mask_madd_epi16(__m256i __W, __mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_madd_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddw.d.256 + return _mm256_mask_madd_epi16(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_madd_epi16(__mmask8 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_madd_epi16 + // CHECK: @llvm.x86.avx512.mask.pmaddw.d.256 + return _mm256_maskz_madd_epi16(__U, __A, __B); +} + +__m128i test_mm_cvtsepi16_epi8(__m128i __A) { + // CHECK-LABEL: @test_mm_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128 + return _mm_cvtsepi16_epi8(__A); +} + +__m128i test_mm_mask_cvtsepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_mask_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128 + return _mm_mask_cvtsepi16_epi8(__O, __M, __A); +} + +__m128i test_mm_maskz_cvtsepi16_epi8(__mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_maskz_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.128 + return _mm_maskz_cvtsepi16_epi8(__M, __A); +} + +__m128i test_mm256_cvtsepi16_epi8(__m256i __A) { + // CHECK-LABEL: @test_mm256_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256 + return _mm256_cvtsepi16_epi8(__A); +} + +__m128i test_mm256_mask_cvtsepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_mask_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256 + return _mm256_mask_cvtsepi16_epi8(__O, __M, __A); +} + +__m128i test_mm256_maskz_cvtsepi16_epi8(__mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_maskz_cvtsepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovs.wb.256 + return _mm256_maskz_cvtsepi16_epi8(__M, __A); +} + +__m128i test_mm_cvtusepi16_epi8(__m128i __A) { + // CHECK-LABEL: @test_mm_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128 + return _mm_cvtusepi16_epi8(__A); +} + +__m128i test_mm_mask_cvtusepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_mask_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128 + return _mm_mask_cvtusepi16_epi8(__O, __M, __A); +} + +__m128i test_mm_maskz_cvtusepi16_epi8(__mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_maskz_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.128 + return _mm_maskz_cvtusepi16_epi8(__M, __A); +} + +__m128i test_mm256_cvtusepi16_epi8(__m256i __A) { + // CHECK-LABEL: @test_mm256_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256 + return _mm256_cvtusepi16_epi8(__A); +} + +__m128i test_mm256_mask_cvtusepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_mask_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256 + return _mm256_mask_cvtusepi16_epi8(__O, __M, __A); +} + +__m128i test_mm256_maskz_cvtusepi16_epi8(__mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_maskz_cvtusepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmovus.wb.256 + return _mm256_maskz_cvtusepi16_epi8(__M, __A); +} + +__m128i test_mm_cvtepi16_epi8(__m128i __A) { + // CHECK-LABEL: @test_mm_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.128 + return _mm_cvtepi16_epi8(__A); +} + +__m128i test_mm_mask_cvtepi16_epi8(__m128i __O, __mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_mask_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.128 + return _mm_mask_cvtepi16_epi8(__O, __M, __A); +} + +__m128i test_mm_maskz_cvtepi16_epi8(__mmask8 __M, __m128i __A) { + // CHECK-LABEL: @test_mm_maskz_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.128 + return _mm_maskz_cvtepi16_epi8(__M, __A); +} + +__m128i test_mm256_cvtepi16_epi8(__m256i __A) { + // CHECK-LABEL: @test_mm256_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.256 + return _mm256_cvtepi16_epi8(__A); +} + +__m128i test_mm256_mask_cvtepi16_epi8(__m128i __O, __mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_mask_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.256 + return _mm256_mask_cvtepi16_epi8(__O, __M, __A); +} + +__m128i test_mm256_maskz_cvtepi16_epi8(__mmask16 __M, __m256i __A) { + // CHECK-LABEL: @test_mm256_maskz_cvtepi16_epi8 + // CHECK: @llvm.x86.avx512.mask.pmov.wb.256 + return _mm256_maskz_cvtepi16_epi8(__M, __A); +} + +__m128i test_mm_mask_mulhrs_epi16(__m128i __W, __mmask8 __U, __m128i __X, __m128i __Y) { + // CHECK-LABEL: @test_mm_mask_mulhrs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.128 + return _mm_mask_mulhrs_epi16(__W, __U, __X, __Y); +} + +__m128i test_mm_maskz_mulhrs_epi16(__mmask8 __U, __m128i __X, __m128i __Y) { + // CHECK-LABEL: @test_mm_maskz_mulhrs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.128 + return _mm_maskz_mulhrs_epi16(__U, __X, __Y); +} + +__m256i test_mm256_mask_mulhrs_epi16(__m256i __W, __mmask16 __U, __m256i __X, __m256i __Y) { + // CHECK-LABEL: @test_mm256_mask_mulhrs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.256 + return _mm256_mask_mulhrs_epi16(__W, __U, __X, __Y); +} + +__m256i test_mm256_maskz_mulhrs_epi16(__mmask16 __U, __m256i __X, __m256i __Y) { + // CHECK-LABEL: @test_mm256_maskz_mulhrs_epi16 + // CHECK: @llvm.x86.avx512.mask.pmul.hr.sw.256 + return _mm256_maskz_mulhrs_epi16(__U, __X, __Y); +} + +__m128i test_mm_mask_mulhi_epu16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_mulhi_epu16 + // CHECK: @llvm.x86.avx512.mask.pmulhu.w.128 + return _mm_mask_mulhi_epu16(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_mulhi_epu16(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_mulhi_epu16 + // CHECK: @llvm.x86.avx512.mask.pmulhu.w.128 + return _mm_maskz_mulhi_epu16(__U, __A, __B); +} + +__m256i test_mm256_mask_mulhi_epu16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_mulhi_epu16 + // CHECK: @llvm.x86.avx512.mask.pmulhu.w.256 + return _mm256_mask_mulhi_epu16(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_mulhi_epu16(__mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_mulhi_epu16 + // CHECK: @llvm.x86.avx512.mask.pmulhu.w.256 + return _mm256_maskz_mulhi_epu16(__U, __A, __B); +} + +__m128i test_mm_mask_mulhi_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_mulhi_epi16 + // CHECK: @llvm.x86.avx512.mask.pmulh.w.128 + return _mm_mask_mulhi_epi16(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_mulhi_epi16(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_mulhi_epi16 + // CHECK: @llvm.x86.avx512.mask.pmulh.w.128 + return _mm_maskz_mulhi_epi16(__U, __A, __B); +} + +__m256i test_mm256_mask_mulhi_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_mulhi_epi16 + // CHECK: @llvm.x86.avx512.mask.pmulh.w.256 + return _mm256_mask_mulhi_epi16(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_mulhi_epi16(__mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_mulhi_epi16 + // CHECK: @llvm.x86.avx512.mask.pmulh.w.256 + return _mm256_maskz_mulhi_epi16(__U, __A, __B); +} + +__m128i test_mm_mask_unpackhi_epi8(__m128i __W, __mmask16 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpackhi_epi8 + // CHECK: @llvm.x86.avx512.mask.punpckhb.w.128 + return _mm_mask_unpackhi_epi8(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpackhi_epi8(__mmask16 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpackhi_epi8 + // CHECK: @llvm.x86.avx512.mask.punpckhb.w.128 + return _mm_maskz_unpackhi_epi8(__U, __A, __B); +} + +__m256i test_mm256_mask_unpackhi_epi8(__m256i __W, __mmask32 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpackhi_epi8 + // CHECK: @llvm.x86.avx512.mask.punpckhb.w.256 + return _mm256_mask_unpackhi_epi8(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpackhi_epi8(__mmask32 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi8 + // CHECK: @llvm.x86.avx512.mask.punpckhb.w.256 + return _mm256_maskz_unpackhi_epi8(__U, __A, __B); +} + +__m128i test_mm_mask_unpackhi_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpackhi_epi16 + // CHECK: @llvm.x86.avx512.mask.punpckhw.d.128 + return _mm_mask_unpackhi_epi16(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpackhi_epi16(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpackhi_epi16 + // CHECK: @llvm.x86.avx512.mask.punpckhw.d.128 + return _mm_maskz_unpackhi_epi16(__U, __A, __B); +} + +__m256i test_mm256_mask_unpackhi_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpackhi_epi16 + // CHECK: @llvm.x86.avx512.mask.punpckhw.d.256 + return _mm256_mask_unpackhi_epi16(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpackhi_epi16(__mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpackhi_epi16 + // CHECK: @llvm.x86.avx512.mask.punpckhw.d.256 + return _mm256_maskz_unpackhi_epi16(__U, __A, __B); +} + +__m128i test_mm_mask_unpacklo_epi8(__m128i __W, __mmask16 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpacklo_epi8 + // CHECK: @llvm.x86.avx512.mask.punpcklb.w.128 + return _mm_mask_unpacklo_epi8(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpacklo_epi8(__mmask16 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpacklo_epi8 + // CHECK: @llvm.x86.avx512.mask.punpcklb.w.128 + return _mm_maskz_unpacklo_epi8(__U, __A, __B); +} + +__m256i test_mm256_mask_unpacklo_epi8(__m256i __W, __mmask32 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpacklo_epi8 + // CHECK: @llvm.x86.avx512.mask.punpcklb.w.256 + return _mm256_mask_unpacklo_epi8(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpacklo_epi8(__mmask32 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi8 + // CHECK: @llvm.x86.avx512.mask.punpcklb.w.256 + return _mm256_maskz_unpacklo_epi8(__U, __A, __B); +} + +__m128i test_mm_mask_unpacklo_epi16(__m128i __W, __mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_mask_unpacklo_epi16 + // CHECK: @llvm.x86.avx512.mask.punpcklw.d.128 + return _mm_mask_unpacklo_epi16(__W, __U, __A, __B); +} + +__m128i test_mm_maskz_unpacklo_epi16(__mmask8 __U, __m128i __A, __m128i __B) { + // CHECK-LABEL: @test_mm_maskz_unpacklo_epi16 + // CHECK: @llvm.x86.avx512.mask.punpcklw.d.128 + return _mm_maskz_unpacklo_epi16(__U, __A, __B); +} + +__m256i test_mm256_mask_unpacklo_epi16(__m256i __W, __mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_mask_unpacklo_epi16 + // CHECK: @llvm.x86.avx512.mask.punpcklw.d.256 + return _mm256_mask_unpacklo_epi16(__W, __U, __A, __B); +} + +__m256i test_mm256_maskz_unpacklo_epi16(__mmask16 __U, __m256i __A, __m256i __B) { + // CHECK-LABEL: @test_mm256_maskz_unpacklo_epi16 + // CHECK: @llvm.x86.avx512.mask.punpcklw.d.256 + return _mm256_maskz_unpacklo_epi16(__U, __A, __B); +} +