This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lowering Mask Scalar add/sub/mul/div intrinsics to native IR (Clang part)
ClosedPublic

Authored by tkrupa on Jun 9 2018, 3:20 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
spatel
sroland

Commits

rG82aa42af4971: [X86] Lowering Mask Scalar intrinsics to native IR (Clang part)
rL334741: [X86] Lowering Mask Scalar intrinsics to native IR (Clang part)
rC334741: [X86] Lowering Mask Scalar intrinsics to native IR (Clang part)

Summary

I did the div differently because it got split to three basic blocks with
a branch condition (due to div being an expensive operation)
and couldn't be combined back.

Corresponding LLVM revision: D47978

Diff Detail

Repository

rC Clang

Build Status

Buildable 19134
Build 19134: arc lint + arc unit

Event Timeline

tkrupa created this revision.Jun 9 2018, 3:20 AM

Herald added a subscriber: cfe-commits. · View Herald TranscriptJun 9 2018, 3:20 AM

tkrupa mentioned this in D47978: [X86] Lowering Mask Scalar add/sub/mul/div intrinsics to native IR (LLVM part).Jun 9 2018, 3:21 AM

craig.topper added inline comments.Jun 9 2018, 9:23 PM

lib/CodeGen/CGBuiltin.cpp
9926	Can we just emit the and+icmp that the other operations end up with?

tkrupa added inline comments.Jun 10 2018, 7:37 AM

lib/CodeGen/CGBuiltin.cpp
9926	We can't - if select condition is a CmpInst, CodeGenPrepare::optimizeSelectInst replaces it with a branch condition in case of expensive operations such as div. That's the reason I'm handling it in CGBuiltin in the first place.

LGTM

This revision is now accepted and ready to land.Jun 10 2018, 9:51 AM

Closed by commit rC334741: [X86] Lowering Mask Scalar intrinsics to native IR (Clang part) (authored by tkrupa). · Explain WhyJun 14 2018, 10:41 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

CodeGen/

CGBuiltin.cpp

29 lines

Headers/

avx512fintrin.h

96 lines

test/

CodeGen/

avx512f-builtins.c

164 lines

Diff 150617

lib/CodeGen/CGBuiltin.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,896 Lines • ▼ Show 20 Lines	#undef INTRINSIC_X86_XSAVE_ID
case X86::BI__builtin_ia32_pternlogd512_maskz:		case X86::BI__builtin_ia32_pternlogd512_maskz:
case X86::BI__builtin_ia32_pternlogq512_maskz:		case X86::BI__builtin_ia32_pternlogq512_maskz:
case X86::BI__builtin_ia32_pternlogd128_maskz:		case X86::BI__builtin_ia32_pternlogd128_maskz:
case X86::BI__builtin_ia32_pternlogd256_maskz:		case X86::BI__builtin_ia32_pternlogd256_maskz:
case X86::BI__builtin_ia32_pternlogq128_maskz:		case X86::BI__builtin_ia32_pternlogq128_maskz:
case X86::BI__builtin_ia32_pternlogq256_maskz:		case X86::BI__builtin_ia32_pternlogq256_maskz:
return EmitX86Ternlog(this, /ZeroMask*/true, Ops);		return EmitX86Ternlog(this, /ZeroMask*/true, Ops);

		case X86::BI__builtin_ia32_divss_round_mask:
		case X86::BI__builtin_ia32_divsd_round_mask: {
		Intrinsic::ID ID;
		switch (BuiltinID) {
		default: llvm_unreachable("Unsupported intrinsic!");
		case X86::BI__builtin_ia32_divss_round_mask:
		ID = Intrinsic::x86_avx512_mask_div_ss_round; break;
		case X86::BI__builtin_ia32_divsd_round_mask:
		ID = Intrinsic::x86_avx512_mask_div_sd_round; break;
		}
		Function *Intr = CGM.getIntrinsic(ID);

		// If round parameter is not _MM_FROUND_CUR_DIRECTION, don't lower.
		if (cast<llvm::ConstantInt>(Ops[4])->getZExtValue() != (uint64_t)4)
		return Builder.CreateCall(Intr, Ops);

		Value *A = Builder.CreateExtractElement(Ops[0], (uint64_t)0);
		Value *B = Builder.CreateExtractElement(Ops[1], (uint64_t)0);
		Value *C = Builder.CreateExtractElement(Ops[2], (uint64_t)0);
		Value *Mask = Ops[3];
		Value *Div = Builder.CreateFDiv(A, B);
		llvm::VectorType *MaskTy = llvm::VectorType::get(Builder.getInt1Ty(),
		craig.topperUnsubmitted Not Done Reply Inline Actions Can we just emit the and+icmp that the other operations end up with? craig.topper: Can we just emit the and+icmp that the other operations end up with?
		tkrupaAuthorUnsubmitted Not Done Reply Inline Actions We can't - if select condition is a CmpInst, CodeGenPrepare::optimizeSelectInst replaces it with a branch condition in case of expensive operations such as div. That's the reason I'm handling it in CGBuiltin in the first place. tkrupa: We can't - if select condition is a CmpInst, CodeGenPrepare::optimizeSelectInst replaces it…
		cast<IntegerType>(Mask->getType())->getBitWidth());
		Mask = Builder.CreateBitCast(Mask, MaskTy);
		Mask = Builder.CreateExtractElement(Mask, (uint64_t)0);
		Value *Select = Builder.CreateSelect(Mask, Div, C);
		return Builder.CreateInsertElement(Ops[0], Select, (uint64_t)0);
		}

// 3DNow!		// 3DNow!
case X86::BI__builtin_ia32_pswapdsf:		case X86::BI__builtin_ia32_pswapdsf:
case X86::BI__builtin_ia32_pswapdsi: {		case X86::BI__builtin_ia32_pswapdsi: {
llvm::Type *MMXTy = llvm::Type::getX86_MMXTy(getLLVMContext());		llvm::Type *MMXTy = llvm::Type::getX86_MMXTy(getLLVMContext());
Ops[0] = Builder.CreateBitCast(Ops[0], MMXTy, "cast");		Ops[0] = Builder.CreateBitCast(Ops[0], MMXTy, "cast");
llvm::Function *F = CGM.getIntrinsic(Intrinsic::x86_3dnowa_pswapd);		llvm::Function *F = CGM.getIntrinsic(Intrinsic::x86_3dnowa_pswapd);
return Builder.CreateCall(F, Ops, "pswapd");		return Builder.CreateCall(F, Ops, "pswapd");
}		}
▲ Show 20 Lines • Show All 2,168 Lines • Show Last 20 Lines

lib/Headers/avx512fintrin.h

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,956 Lines • ▼ Show 20 Lines
	{			{
	return (__m512i)__builtin_ia32_selectd_512(__U,			return (__m512i)__builtin_ia32_selectd_512(__U,
	(__v16si)_mm512_abs_epi32(__A),			(__v16si)_mm512_abs_epi32(__A),
	(__v16si)_mm512_setzero_si512());			(__v16si)_mm512_setzero_si512());
	}			}

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_mask_add_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {			_mm_mask_add_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_addss_round_mask ((__v4sf) __A,			__A = _mm_add_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v4sf) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_maskz_add_ss(__mmask8 __U,__m128 __A, __m128 __B) {			_mm_maskz_add_ss(__mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_addss_round_mask ((__v4sf) __A,			__A = _mm_add_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v4sf) _mm_setzero_ps (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm_add_round_ss(A, B, R) \			#define _mm_add_round_ss(A, B, R) \
	(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	#define _mm_mask_add_round_ss(W, U, A, B, R) \			#define _mm_mask_add_round_ss(W, U, A, B, R) \
	(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)(__m128)(W), (__mmask8)(U), \			(__v4sf)(__m128)(W), (__mmask8)(U), \
	(int)(R))			(int)(R))

	#define _mm_maskz_add_round_ss(U, A, B, R) \			#define _mm_maskz_add_round_ss(U, A, B, R) \
	(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_addss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)(U), (int)(R))			(__mmask8)(U), (int)(R))

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_mask_add_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {			_mm_mask_add_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_addsd_round_mask ((__v2df) __A,			__A = _mm_add_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v2df) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_maskz_add_sd(__mmask8 __U,__m128d __A, __m128d __B) {			_mm_maskz_add_sd(__mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_addsd_round_mask ((__v2df) __A,			__A = _mm_add_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v2df) _mm_setzero_pd (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}
	#define _mm_add_round_sd(A, B, R) \			#define _mm_add_round_sd(A, B, R) \
	(__m128d)__builtin_ia32_addsd_round_mask((__v2df)(__m128d)(A), \			(__m128d)__builtin_ia32_addsd_round_mask((__v2df)(__m128d)(A), \
	(__v2df)(__m128d)(B), \			(__v2df)(__m128d)(B), \
	(__v2df)_mm_setzero_pd(), \			(__v2df)_mm_setzero_pd(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	#define _mm_mask_add_round_sd(W, U, A, B, R) \			#define _mm_mask_add_round_sd(W, U, A, B, R) \
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	#define _mm512_maskz_add_round_ps(U, A, B, R) \			#define _mm512_maskz_add_round_ps(U, A, B, R) \
	(__m512)__builtin_ia32_addps512_mask((__v16sf)(__m512)(A), \			(__m512)__builtin_ia32_addps512_mask((__v16sf)(__m512)(A), \
	(__v16sf)(__m512)(B), \			(__v16sf)(__m512)(B), \
	(__v16sf)_mm512_setzero_ps(), \			(__v16sf)_mm512_setzero_ps(), \
	(__mmask16)(U), (int)(R))			(__mmask16)(U), (int)(R))

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_mask_sub_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {			_mm_mask_sub_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_subss_round_mask ((__v4sf) __A,			__A = _mm_sub_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v4sf) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_maskz_sub_ss(__mmask8 __U,__m128 __A, __m128 __B) {			_mm_maskz_sub_ss(__mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_subss_round_mask ((__v4sf) __A,			__A = _mm_sub_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v4sf) _mm_setzero_ps (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}
	#define _mm_sub_round_ss(A, B, R) \			#define _mm_sub_round_ss(A, B, R) \
	(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	#define _mm_mask_sub_round_ss(W, U, A, B, R) \			#define _mm_mask_sub_round_ss(W, U, A, B, R) \
	(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)(__m128)(W), (__mmask8)(U), \			(__v4sf)(__m128)(W), (__mmask8)(U), \
	(int)(R))			(int)(R))

	#define _mm_maskz_sub_round_ss(U, A, B, R) \			#define _mm_maskz_sub_round_ss(U, A, B, R) \
	(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_subss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)(U), (int)(R))			(__mmask8)(U), (int)(R))

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_mask_sub_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {			_mm_mask_sub_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_subsd_round_mask ((__v2df) __A,			__A = _mm_sub_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v2df) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_maskz_sub_sd(__mmask8 __U,__m128d __A, __m128d __B) {			_mm_maskz_sub_sd(__mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_subsd_round_mask ((__v2df) __A,			__A = _mm_sub_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v2df) _mm_setzero_pd (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm_sub_round_sd(A, B, R) \			#define _mm_sub_round_sd(A, B, R) \
	(__m128d)__builtin_ia32_subsd_round_mask((__v2df)(__m128d)(A), \			(__m128d)__builtin_ia32_subsd_round_mask((__v2df)(__m128d)(A), \
	(__v2df)(__m128d)(B), \			(__v2df)(__m128d)(B), \
	(__v2df)_mm_setzero_pd(), \			(__v2df)_mm_setzero_pd(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	#define _mm512_maskz_sub_round_ps(U, A, B, R) \			#define _mm512_maskz_sub_round_ps(U, A, B, R) \
	(__m512)__builtin_ia32_subps512_mask((__v16sf)(__m512)(A), \			(__m512)__builtin_ia32_subps512_mask((__v16sf)(__m512)(A), \
	(__v16sf)(__m512)(B), \			(__v16sf)(__m512)(B), \
	(__v16sf)_mm512_setzero_ps(), \			(__v16sf)_mm512_setzero_ps(), \
	(__mmask16)(U), (int)(R))			(__mmask16)(U), (int)(R))

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_mask_mul_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {			_mm_mask_mul_ss(__m128 __W, __mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_mulss_round_mask ((__v4sf) __A,			__A = _mm_mul_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v4sf) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128 __DEFAULT_FN_ATTRS			static __inline__ __m128 __DEFAULT_FN_ATTRS
	_mm_maskz_mul_ss(__mmask8 __U,__m128 __A, __m128 __B) {			_mm_maskz_mul_ss(__mmask8 __U,__m128 __A, __m128 __B) {
	return (__m128) __builtin_ia32_mulss_round_mask ((__v4sf) __A,			__A = _mm_mul_ss(__A, __B);
	(__v4sf) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v4sf) _mm_setzero_ps (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}
	#define _mm_mul_round_ss(A, B, R) \			#define _mm_mul_round_ss(A, B, R) \
	(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	#define _mm_mask_mul_round_ss(W, U, A, B, R) \			#define _mm_mask_mul_round_ss(W, U, A, B, R) \
	(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)(__m128)(W), (__mmask8)(U), \			(__v4sf)(__m128)(W), (__mmask8)(U), \
	(int)(R))			(int)(R))

	#define _mm_maskz_mul_round_ss(U, A, B, R) \			#define _mm_maskz_mul_round_ss(U, A, B, R) \
	(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \			(__m128)__builtin_ia32_mulss_round_mask((__v4sf)(__m128)(A), \
	(__v4sf)(__m128)(B), \			(__v4sf)(__m128)(B), \
	(__v4sf)_mm_setzero_ps(), \			(__v4sf)_mm_setzero_ps(), \
	(__mmask8)(U), (int)(R))			(__mmask8)(U), (int)(R))

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_mask_mul_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {			_mm_mask_mul_sd(__m128d __W, __mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_mulsd_round_mask ((__v2df) __A,			__A = _mm_mul_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : __W[0];
	(__v2df) __W,			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128d __DEFAULT_FN_ATTRS			static __inline__ __m128d __DEFAULT_FN_ATTRS
	_mm_maskz_mul_sd(__mmask8 __U,__m128d __A, __m128d __B) {			_mm_maskz_mul_sd(__mmask8 __U,__m128d __A, __m128d __B) {
	return (__m128d) __builtin_ia32_mulsd_round_mask ((__v2df) __A,			__A = _mm_mul_sd(__A, __B);
	(__v2df) __B,			__A[0] = (__U & 1) ? __A[0] : 0;
	(__v2df) _mm_setzero_pd (),			return __A;
	(__mmask8) __U,
	_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm_mul_round_sd(A, B, R) \			#define _mm_mul_round_sd(A, B, R) \
	(__m128d)__builtin_ia32_mulsd_round_mask((__v2df)(__m128d)(A), \			(__m128d)__builtin_ia32_mulsd_round_mask((__v2df)(__m128d)(A), \
	(__v2df)(__m128d)(B), \			(__v2df)(__m128d)(B), \
	(__v2df)_mm_setzero_pd(), \			(__v2df)_mm_setzero_pd(), \
	(__mmask8)-1, (int)(R))			(__mmask8)-1, (int)(R))

	▲ Show 20 Lines • Show All 7,637 Lines • Show Last 20 Lines

test/CodeGen/avx512f-builtins.c

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 2,292 Lines • ▼ Show 20 Lines
	}			}
	__m128 test_mm_maskz_add_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_add_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_add_round_ss			// CHECK-LABEL: @test_mm_maskz_add_round_ss
	// CHECK: @llvm.x86.avx512.mask.add.ss.round			// CHECK: @llvm.x86.avx512.mask.add.ss.round
	return _mm_maskz_add_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_add_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128 test_mm_mask_add_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_mask_add_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_mask_add_ss			// CHECK-LABEL: @test_mm_mask_add_ss
	// CHECK: @llvm.x86.avx512.mask.add.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.add.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fadd float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> %{{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_mask_add_ss(__W,__U,__A,__B);			return _mm_mask_add_ss(__W,__U,__A,__B);
	}			}
	__m128 test_mm_maskz_add_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_add_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_add_ss			// CHECK-LABEL: @test_mm_maskz_add_ss
	// CHECK: @llvm.x86.avx512.mask.add.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.add.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fadd float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> %{{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_maskz_add_ss(__U,__A,__B);			return _mm_maskz_add_ss(__U,__A,__B);
	}			}
	__m128d test_mm_add_round_sd(__m128d __A, __m128d __B) {			__m128d test_mm_add_round_sd(__m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_add_round_sd			// CHECK-LABEL: @test_mm_add_round_sd
	// CHECK: @llvm.x86.avx512.mask.add.sd.round			// CHECK: @llvm.x86.avx512.mask.add.sd.round
	return _mm_add_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_add_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_add_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_add_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_add_round_sd			// CHECK-LABEL: @test_mm_mask_add_round_sd
	// CHECK: @llvm.x86.avx512.mask.add.sd.round			// CHECK: @llvm.x86.avx512.mask.add.sd.round
	return _mm_mask_add_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_mask_add_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_maskz_add_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_add_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_add_round_sd			// CHECK-LABEL: @test_mm_maskz_add_round_sd
	// CHECK: @llvm.x86.avx512.mask.add.sd.round			// CHECK: @llvm.x86.avx512.mask.add.sd.round
	return _mm_maskz_add_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_add_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_add_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_add_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_add_sd			// CHECK-LABEL: @test_mm_mask_add_sd
	// CHECK: @llvm.x86.avx512.mask.add.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.add.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fadd double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_mask_add_sd(__W,__U,__A,__B);			return _mm_mask_add_sd(__W,__U,__A,__B);
	}			}
	__m128d test_mm_maskz_add_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_add_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_add_sd			// CHECK-LABEL: @test_mm_maskz_add_sd
	// CHECK: @llvm.x86.avx512.mask.add.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.add.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fadd double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_maskz_add_sd(__U,__A,__B);			return _mm_maskz_add_sd(__U,__A,__B);
	}			}
	__m512d test_mm512_sub_round_pd(__m512d __A, __m512d __B) {			__m512d test_mm512_sub_round_pd(__m512d __A, __m512d __B) {
	// CHECK-LABEL: @test_mm512_sub_round_pd			// CHECK-LABEL: @test_mm512_sub_round_pd
	// CHECK: @llvm.x86.avx512.mask.sub.pd.512			// CHECK: @llvm.x86.avx512.mask.sub.pd.512
	return _mm512_sub_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm512_sub_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m512d test_mm512_mask_sub_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {			__m512d test_mm512_mask_sub_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	}			}
	__m128 test_mm_maskz_sub_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_sub_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_sub_round_ss			// CHECK-LABEL: @test_mm_maskz_sub_round_ss
	// CHECK: @llvm.x86.avx512.mask.sub.ss.round			// CHECK: @llvm.x86.avx512.mask.sub.ss.round
	return _mm_maskz_sub_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_sub_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128 test_mm_mask_sub_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_mask_sub_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_mask_sub_ss			// CHECK-LABEL: @test_mm_mask_sub_ss
	// CHECK: @llvm.x86.avx512.mask.sub.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.sub.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fsub float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_mask_sub_ss(__W,__U,__A,__B);			return _mm_mask_sub_ss(__W,__U,__A,__B);
	}			}
	__m128 test_mm_maskz_sub_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_sub_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_sub_ss			// CHECK-LABEL: @test_mm_maskz_sub_ss
	// CHECK: @llvm.x86.avx512.mask.sub.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.sub.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fsub float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_maskz_sub_ss(__U,__A,__B);			return _mm_maskz_sub_ss(__U,__A,__B);
	}			}
	__m128d test_mm_sub_round_sd(__m128d __A, __m128d __B) {			__m128d test_mm_sub_round_sd(__m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_sub_round_sd			// CHECK-LABEL: @test_mm_sub_round_sd
	// CHECK: @llvm.x86.avx512.mask.sub.sd.round			// CHECK: @llvm.x86.avx512.mask.sub.sd.round
	return _mm_sub_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_sub_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_sub_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_sub_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_sub_round_sd			// CHECK-LABEL: @test_mm_mask_sub_round_sd
	// CHECK: @llvm.x86.avx512.mask.sub.sd.round			// CHECK: @llvm.x86.avx512.mask.sub.sd.round
	return _mm_mask_sub_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_mask_sub_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_maskz_sub_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_sub_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_sub_round_sd			// CHECK-LABEL: @test_mm_maskz_sub_round_sd
	// CHECK: @llvm.x86.avx512.mask.sub.sd.round			// CHECK: @llvm.x86.avx512.mask.sub.sd.round
	return _mm_maskz_sub_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_sub_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_sub_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_sub_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_sub_sd			// CHECK-LABEL: @test_mm_mask_sub_sd
	// CHECK: @llvm.x86.avx512.mask.sub.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.sub.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fsub double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_mask_sub_sd(__W,__U,__A,__B);			return _mm_mask_sub_sd(__W,__U,__A,__B);
	}			}
	__m128d test_mm_maskz_sub_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_sub_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_sub_sd			// CHECK-LABEL: @test_mm_maskz_sub_sd
	// CHECK: @llvm.x86.avx512.mask.sub.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.sub.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fsub double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_maskz_sub_sd(__U,__A,__B);			return _mm_maskz_sub_sd(__U,__A,__B);
	}			}
	__m512d test_mm512_mul_round_pd(__m512d __A, __m512d __B) {			__m512d test_mm512_mul_round_pd(__m512d __A, __m512d __B) {
	// CHECK-LABEL: @test_mm512_mul_round_pd			// CHECK-LABEL: @test_mm512_mul_round_pd
	// CHECK: @llvm.x86.avx512.mask.mul.pd.512			// CHECK: @llvm.x86.avx512.mask.mul.pd.512
	return _mm512_mul_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm512_mul_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m512d test_mm512_mask_mul_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {			__m512d test_mm512_mask_mul_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	}			}
	__m128 test_mm_maskz_mul_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_mul_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_mul_round_ss			// CHECK-LABEL: @test_mm_maskz_mul_round_ss
	// CHECK: @llvm.x86.avx512.mask.mul.ss.round			// CHECK: @llvm.x86.avx512.mask.mul.ss.round
	return _mm_maskz_mul_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_mul_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128 test_mm_mask_mul_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_mask_mul_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_mask_mul_ss			// CHECK-LABEL: @test_mm_mask_mul_ss
	// CHECK: @llvm.x86.avx512.mask.mul.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.mul.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fmul float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_mask_mul_ss(__W,__U,__A,__B);			return _mm_mask_mul_ss(__W,__U,__A,__B);
	}			}
	__m128 test_mm_maskz_mul_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_mul_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_mul_ss			// CHECK-LABEL: @test_mm_maskz_mul_ss
	// CHECK: @llvm.x86.avx512.mask.mul.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.mul.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: extractelement <4 x float> %{{.*}}, i32 0
				// CHECK: fmul float %{{.}}, %{{.}}
				// CHECK: insertelement <4 x float> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i32 0
	return _mm_maskz_mul_ss(__U,__A,__B);			return _mm_maskz_mul_ss(__U,__A,__B);
	}			}
	__m128d test_mm_mul_round_sd(__m128d __A, __m128d __B) {			__m128d test_mm_mul_round_sd(__m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mul_round_sd			// CHECK-LABEL: @test_mm_mul_round_sd
	// CHECK: @llvm.x86.avx512.mask.mul.sd.round			// CHECK: @llvm.x86.avx512.mask.mul.sd.round
	return _mm_mul_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_mul_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_mul_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_mul_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_mul_round_sd			// CHECK-LABEL: @test_mm_mask_mul_round_sd
	// CHECK: @llvm.x86.avx512.mask.mul.sd.round			// CHECK: @llvm.x86.avx512.mask.mul.sd.round
	return _mm_mask_mul_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_mask_mul_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_maskz_mul_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_mul_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_mul_round_sd			// CHECK-LABEL: @test_mm_maskz_mul_round_sd
	// CHECK: @llvm.x86.avx512.mask.mul.sd.round			// CHECK: @llvm.x86.avx512.mask.mul.sd.round
	return _mm_maskz_mul_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_mul_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_mul_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_mul_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_mul_sd			// CHECK-LABEL: @test_mm_mask_mul_sd
	// CHECK: @llvm.x86.avx512.mask.mul.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.mul.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fmul double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_mask_mul_sd(__W,__U,__A,__B);			return _mm_mask_mul_sd(__W,__U,__A,__B);
	}			}
	__m128d test_mm_maskz_mul_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_mul_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_mul_sd			// CHECK-LABEL: @test_mm_maskz_mul_sd
	// CHECK: @llvm.x86.avx512.mask.mul.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.mul.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: extractelement <2 x double> %{{.*}}, i32 0
				// CHECK: fmul double %{{.}}, %{{.}}
				// CHECK: insertelement <2 x double> {{.*}}, i32 0
				// CHECK: and i32 {{.*}}, 1
				// CHECK: icmp ne i32 %{{.*}}, 0
				// CHECK: br {{.}}, {{.}}, {{.*}}
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 0
	return _mm_maskz_mul_sd(__U,__A,__B);			return _mm_maskz_mul_sd(__U,__A,__B);
	}			}
	__m512d test_mm512_div_round_pd(__m512d __A, __m512d __B) {			__m512d test_mm512_div_round_pd(__m512d __A, __m512d __B) {
	// CHECK-LABEL: @test_mm512_div_round_pd			// CHECK-LABEL: @test_mm512_div_round_pd
	// CHECK: @llvm.x86.avx512.mask.div.pd.512			// CHECK: @llvm.x86.avx512.mask.div.pd.512
	return _mm512_div_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm512_div_round_pd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m512d test_mm512_mask_div_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {			__m512d test_mm512_mask_div_round_pd(__m512d __W, __mmask8 __U, __m512d __A, __m512d __B) {
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	}			}
	__m128 test_mm_maskz_div_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_div_round_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_div_round_ss			// CHECK-LABEL: @test_mm_maskz_div_round_ss
	// CHECK: @llvm.x86.avx512.mask.div.ss.round			// CHECK: @llvm.x86.avx512.mask.div.ss.round
	return _mm_maskz_div_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_div_round_ss(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128 test_mm_mask_div_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_mask_div_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_mask_div_ss			// CHECK-LABEL: @test_mm_mask_div_ss
	// CHECK: @llvm.x86.avx512.mask.div.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.div.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i64 0
				// CHECK: extractelement <4 x float> %{{.*}}, i64 0
				// CHECK: extractelement <4 x float> %{{.*}}, i64 0
				// CHECK: fdiv float %{{.}}, %{{.}}
				// CHECK: bitcast i8 %{{.*}} to <8 x i1>
				// CHECK: extractelement <8 x i1> %{{.*}}, i64 0
				// CHECK: select i1 %{{.}}, float %{{.}}, float %{{.*}}
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i64 0
	return _mm_mask_div_ss(__W,__U,__A,__B);			return _mm_mask_div_ss(__W,__U,__A,__B);
	}			}
	__m128 test_mm_maskz_div_ss(__mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_maskz_div_ss(__mmask8 __U, __m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_maskz_div_ss			// CHECK-LABEL: @test_mm_maskz_div_ss
	// CHECK: @llvm.x86.avx512.mask.div.ss.round			// CHECK-NOT: @llvm.x86.avx512.mask.div.ss.round
				// CHECK: extractelement <4 x float> %{{.*}}, i64 0
				// CHECK: extractelement <4 x float> %{{.*}}, i64 0
				// CHECK: fdiv float %{{.}}, %{{.}}
				// CHECK: bitcast i8 %{{.*}} to <8 x i1>
				// CHECK: extractelement <8 x i1> %{{.*}}, i64 0
				// CHECK: select i1 %{{.}}, float %{{.}}, float %{{.*}}
				// CHECK: insertelement <4 x float> %{{.}}, float %{{.}}, i64 0
	return _mm_maskz_div_ss(__U,__A,__B);			return _mm_maskz_div_ss(__U,__A,__B);
	}			}
	__m128d test_mm_div_round_sd(__m128d __A, __m128d __B) {			__m128d test_mm_div_round_sd(__m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_div_round_sd			// CHECK-LABEL: @test_mm_div_round_sd
	// CHECK: @llvm.x86.avx512.mask.div.sd.round			// CHECK: @llvm.x86.avx512.mask.div.sd.round
	return _mm_div_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_div_round_sd(__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_div_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_div_round_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_div_round_sd			// CHECK-LABEL: @test_mm_mask_div_round_sd
	// CHECK: @llvm.x86.avx512.mask.div.sd.round			// CHECK: @llvm.x86.avx512.mask.div.sd.round
	return _mm_mask_div_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_mask_div_round_sd(__W,__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_maskz_div_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_div_round_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_div_round_sd			// CHECK-LABEL: @test_mm_maskz_div_round_sd
	// CHECK: @llvm.x86.avx512.mask.div.sd.round			// CHECK: @llvm.x86.avx512.mask.div.sd.round
	return _mm_maskz_div_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);			return _mm_maskz_div_round_sd(__U,__A,__B,_MM_FROUND_TO_NEAREST_INT \| _MM_FROUND_NO_EXC);
	}			}
	__m128d test_mm_mask_div_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_mask_div_sd(__m128d __W, __mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_mask_div_sd			// CHECK-LABEL: @test_mm_mask_div_sd
	// CHECK: @llvm.x86.avx512.mask.div.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.div.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i64 0
				// CHECK: extractelement <2 x double> %{{.*}}, i64 0
				// CHECK: extractelement <2 x double> %{{.*}}, i64 0
				// CHECK: fdiv double %{{.}}, %{{.}}
				// CHECK: bitcast i8 %{{.*}} to <8 x i1>
				// CHECK: extractelement <8 x i1> %{{.*}}, i64 0
				// CHECK: select i1 %{{.}}, double %{{.}}, double %{{.*}}
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i64 0
	return _mm_mask_div_sd(__W,__U,__A,__B);			return _mm_mask_div_sd(__W,__U,__A,__B);
	}			}
	__m128d test_mm_maskz_div_sd(__mmask8 __U, __m128d __A, __m128d __B) {			__m128d test_mm_maskz_div_sd(__mmask8 __U, __m128d __A, __m128d __B) {
	// CHECK-LABEL: @test_mm_maskz_div_sd			// CHECK-LABEL: @test_mm_maskz_div_sd
	// CHECK: @llvm.x86.avx512.mask.div.sd.round			// CHECK-NOT: @llvm.x86.avx512.mask.div.sd.round
				// CHECK: extractelement <2 x double> %{{.*}}, i64 0
				// CHECK: extractelement <2 x double> %{{.*}}, i64 0
				// CHECK: fdiv double %{{.}}, %{{.}}
				// CHECK: bitcast i8 %{{.*}} to <8 x i1>
				// CHECK: extractelement <8 x i1> %{{.*}}, i64 0
				// CHECK: select i1 %{{.}}, double %{{.}}, double %{{.*}}
				// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i64 0
	return _mm_maskz_div_sd(__U,__A,__B);			return _mm_maskz_div_sd(__U,__A,__B);
	}			}
	__m128 test_mm_max_round_ss(__m128 __A, __m128 __B) {			__m128 test_mm_max_round_ss(__m128 __A, __m128 __B) {
	// CHECK-LABEL: @test_mm_max_round_ss			// CHECK-LABEL: @test_mm_max_round_ss
	// CHECK: @llvm.x86.avx512.mask.max.ss.round			// CHECK: @llvm.x86.avx512.mask.max.ss.round
	return _mm_max_round_ss(__A,__B,0x08);			return _mm_max_round_ss(__A,__B,0x08);
	}			}
	__m128 test_mm_mask_max_round_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {			__m128 test_mm_mask_max_round_ss(__m128 __W, __mmask8 __U, __m128 __A, __m128 __B) {
	▲ Show 20 Lines • Show All 6,640 Lines • Show Last 20 Lines