Diff 468933

clang/docs/ReleaseNotes.rst

	Show First 20 Lines • Show All 577 Lines • ▼ Show 20 Lines
	-----------------------			-----------------------
	- ``sifive-7-rv32`` and ``sifive-7-rv64`` are no longer supported for ``-mcpu``.			- ``sifive-7-rv32`` and ``sifive-7-rv64`` are no longer supported for ``-mcpu``.
	Use ``sifive-e76``, ``sifive-s76``, or ``sifive-u74`` instead.			Use ``sifive-e76``, ``sifive-s76``, or ``sifive-u74`` instead.

	X86 Support in Clang			X86 Support in Clang
	--------------------			--------------------
	- Support ``-mindirect-branch-cs-prefix`` for call and jmp to indirect thunk.			- Support ``-mindirect-branch-cs-prefix`` for call and jmp to indirect thunk.
	- Fix 32-bit ``__fastcall`` and ``__vectorcall`` ABI mismatch with MSVC.			- Fix 32-bit ``__fastcall`` and ``__vectorcall`` ABI mismatch with MSVC.
				- Switch ``AVX512-BF16`` intrinsics types from ``short`` to ``__bf16``.

	DWARF Support in Clang			DWARF Support in Clang
	----------------------			----------------------

	Arm and AArch64 Support in Clang			Arm and AArch64 Support in Clang
	--------------------------------			--------------------------------

	- The target(..) function attributes for AArch64 now accept:			- The target(..) function attributes for AArch64 now accept:
	▲ Show 20 Lines • Show All 97 Lines • Show Last 20 Lines

clang/include/clang/Basic/BuiltinsX86.def

	Show First 20 Lines • Show All 1,743 Lines • ▼ Show 20 Lines
	TARGET_BUILTIN(__builtin_ia32_cvtsi2ss32, "V4fV4fiIi", "ncV:128:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_cvtsi2ss32, "V4fV4fiIi", "ncV:128:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_cvtss2sd_round_mask, "V2dV2dV4fV2dUcIi", "ncV:128:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_cvtss2sd_round_mask, "V2dV2dV4fV2dUcIi", "ncV:128:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_cvtusi2ss32, "V4fV4fUiIi", "ncV:128:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_cvtusi2ss32, "V4fV4fUiIi", "ncV:128:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb512, "V64cV64cV64c", "ncV:512:", "avx512vbmi")			TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb512, "V64cV64cV64c", "ncV:512:", "avx512vbmi")
	TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb128, "V16cV16cV16c", "ncV:128:", "avx512vbmi,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb128, "V16cV16cV16c", "ncV:128:", "avx512vbmi,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb256, "V32cV32cV32c", "ncV:256:", "avx512vbmi,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vpmultishiftqb256, "V32cV32cV32c", "ncV:256:", "avx512vbmi,avx512vl")

	// bf16 intrinsics			// bf16 intrinsics
	TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_128, "V8sV4fV4f", "ncV:128:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_128, "V8yV4fV4f", "ncV:128:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_256, "V16sV8fV8f", "ncV:256:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_256, "V16yV8fV8f", "ncV:256:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_512, "V32sV16fV16f", "ncV:512:", "avx512bf16")			TARGET_BUILTIN(__builtin_ia32_cvtne2ps2bf16_512, "V32yV16fV16f", "ncV:512:", "avx512bf16")
	TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_128_mask, "V8sV4fV8sUc", "ncV:128:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_128_mask, "V8yV4fV8yUc", "ncV:128:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_256_mask, "V8sV8fV8sUc", "ncV:256:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_256_mask, "V8yV8fV8yUc", "ncV:256:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_512_mask, "V16sV16fV16sUs", "ncV:512:", "avx512bf16")			TARGET_BUILTIN(__builtin_ia32_cvtneps2bf16_512_mask, "V16yV16fV16yUs", "ncV:512:", "avx512bf16")
	TARGET_BUILTIN(__builtin_ia32_dpbf16ps_128, "V4fV4fV4iV4i", "ncV:128:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_dpbf16ps_128, "V4fV4fV8yV8y", "ncV:128:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_dpbf16ps_256, "V8fV8fV8iV8i", "ncV:256:", "avx512bf16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_dpbf16ps_256, "V8fV8fV16yV16y", "ncV:256:", "avx512bf16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_dpbf16ps_512, "V16fV16fV16iV16i", "ncV:512:", "avx512bf16")			TARGET_BUILTIN(__builtin_ia32_dpbf16ps_512, "V16fV16fV32yV32y", "ncV:512:", "avx512bf16")
	TARGET_BUILTIN(__builtin_ia32_cvtsbf162ss_32, "fUs", "nc", "avx512bf16")			TARGET_BUILTIN(__builtin_ia32_cvtsbf162ss_32, "fy", "nc", "avx512bf16")

	TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_512, "vV8OiV8OiUcUc", "nV:512:", "avx512vp2intersect")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_512, "vV8OiV8OiUcUc", "nV:512:", "avx512vp2intersect")
	TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_256, "vV4OiV4OiUcUc", "nV:256:", "avx512vp2intersect,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_256, "vV4OiV4OiUcUc", "nV:256:", "avx512vp2intersect,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_128, "vV2OiV2OiUcUc", "nV:128:", "avx512vp2intersect,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_q_128, "vV2OiV2OiUcUc", "nV:128:", "avx512vp2intersect,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_512, "vV16iV16iUsUs", "nV:512:", "avx512vp2intersect")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_512, "vV16iV16iUsUs", "nV:512:", "avx512vp2intersect")
	TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_256, "vV8iV8iUcUc", "nV:256:", "avx512vp2intersect,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_256, "vV8iV8iUcUc", "nV:256:", "avx512vp2intersect,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_128, "vV4iV4iUcUc", "nV:128:", "avx512vp2intersect,avx512vl")			TARGET_BUILTIN(__builtin_ia32_vp2intersect_d_128, "vV4iV4iUcUc", "nV:128:", "avx512vp2intersect,avx512vl")

	▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
	TARGET_BUILTIN(__builtin_ia32_selectw_256, "V16sUsV16sV16s", "ncV:256:", "avx512bw,avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectw_256, "V16sUsV16sV16s", "ncV:256:", "avx512bw,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectw_512, "V32sUiV32sV32s", "ncV:512:", "avx512bw")			TARGET_BUILTIN(__builtin_ia32_selectw_512, "V32sUiV32sV32s", "ncV:512:", "avx512bw")
	TARGET_BUILTIN(__builtin_ia32_selectd_128, "V4iUcV4iV4i", "ncV:128:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectd_128, "V4iUcV4iV4i", "ncV:128:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectd_256, "V8iUcV8iV8i", "ncV:256:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectd_256, "V8iUcV8iV8i", "ncV:256:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectd_512, "V16iUsV16iV16i", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectd_512, "V16iUsV16iV16i", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_selectph_128, "V8xUcV8xV8x", "ncV:128:", "avx512fp16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectph_128, "V8xUcV8xV8x", "ncV:128:", "avx512fp16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectph_256, "V16xUsV16xV16x", "ncV:256:", "avx512fp16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectph_256, "V16xUsV16xV16x", "ncV:256:", "avx512fp16,avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectph_512, "V32xUiV32xV32x", "ncV:512:", "avx512fp16")			TARGET_BUILTIN(__builtin_ia32_selectph_512, "V32xUiV32xV32x", "ncV:512:", "avx512fp16")
				TARGET_BUILTIN(__builtin_ia32_selectpbf_128, "V8yUcV8yV8y", "ncV:128:", "avx512bf16,avx512vl")
				TARGET_BUILTIN(__builtin_ia32_selectpbf_256, "V16yUsV16yV16y", "ncV:256:", "avx512bf16,avx512vl")
				TARGET_BUILTIN(__builtin_ia32_selectpbf_512, "V32yUiV32yV32y", "ncV:512:", "avx512bf16")
	TARGET_BUILTIN(__builtin_ia32_selectq_128, "V2OiUcV2OiV2Oi", "ncV:128:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectq_128, "V2OiUcV2OiV2Oi", "ncV:128:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectq_256, "V4OiUcV4OiV4Oi", "ncV:256:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectq_256, "V4OiUcV4OiV4Oi", "ncV:256:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectq_512, "V8OiUcV8OiV8Oi", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectq_512, "V8OiUcV8OiV8Oi", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_selectps_128, "V4fUcV4fV4f", "ncV:128:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectps_128, "V4fUcV4fV4f", "ncV:128:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectps_256, "V8fUcV8fV8f", "ncV:256:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectps_256, "V8fUcV8fV8f", "ncV:256:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectps_512, "V16fUsV16fV16f", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectps_512, "V16fUsV16fV16f", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_selectpd_128, "V2dUcV2dV2d", "ncV:128:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectpd_128, "V2dUcV2dV2d", "ncV:128:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectpd_256, "V4dUcV4dV4d", "ncV:256:", "avx512vl")			TARGET_BUILTIN(__builtin_ia32_selectpd_256, "V4dUcV4dV4d", "ncV:256:", "avx512vl")
	TARGET_BUILTIN(__builtin_ia32_selectpd_512, "V8dUcV8dV8d", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectpd_512, "V8dUcV8dV8d", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_selectsh_128, "V8xUcV8xV8x", "ncV:128:", "avx512fp16")			TARGET_BUILTIN(__builtin_ia32_selectsh_128, "V8xUcV8xV8x", "ncV:128:", "avx512fp16")
				TARGET_BUILTIN(__builtin_ia32_selectsbf_128, "V8yUcV8yV8y", "ncV:128:", "avx512bf16")
	TARGET_BUILTIN(__builtin_ia32_selectss_128, "V4fUcV4fV4f", "ncV:128:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectss_128, "V4fUcV4fV4f", "ncV:128:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_selectsd_128, "V2dUcV2dV2d", "ncV:128:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_selectsd_128, "V2dUcV2dV2d", "ncV:128:", "avx512f")

	// generic reduction intrinsics			// generic reduction intrinsics
	TARGET_BUILTIN(__builtin_ia32_reduce_fadd_pd512, "ddV8d", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_reduce_fadd_pd512, "ddV8d", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ps512, "ffV16f", "ncV:512:", "avx512f")			TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ps512, "ffV16f", "ncV:512:", "avx512f")
	TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ph512, "xxV32x", "ncV:512:", "avx512fp16")			TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ph512, "xxV32x", "ncV:512:", "avx512fp16")
	TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ph256, "xxV16x", "ncV:256:", "avx512fp16,avx512vl")			TARGET_BUILTIN(__builtin_ia32_reduce_fadd_ph256, "xxV16x", "ncV:256:", "avx512fp16,avx512vl")
	▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

clang/lib/CodeGen/CGBuiltin.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,867 Lines • ▼ Show 20 Lines	static Value *EmitX86CvtF16ToFloatExpr(CodeGenFunction &CGF,
// Perform the fp-extension.		// Perform the fp-extension.
Value *Res = CGF.Builder.CreateFPExt(Src, DstTy, "cvtph2ps");		Value *Res = CGF.Builder.CreateFPExt(Src, DstTy, "cvtph2ps");

if (Ops.size() >= 3)		if (Ops.size() >= 3)
Res = EmitX86Select(CGF, Ops[2], Res, Ops[1]);		Res = EmitX86Select(CGF, Ops[2], Res, Ops[1]);
return Res;		return Res;
}		}

// Convert a BF16 to a float.
static Value *EmitX86CvtBF16ToFloatExpr(CodeGenFunction &CGF,
const CallExpr *E,
ArrayRef<Value *> Ops) {
llvm::Type *Int32Ty = CGF.Builder.getInt32Ty();
Value *ZeroExt = CGF.Builder.CreateZExt(Ops[0], Int32Ty);
Value *Shl = CGF.Builder.CreateShl(ZeroExt, 16);
llvm::Type *ResultType = CGF.ConvertType(E->getType());
Value *BitCast = CGF.Builder.CreateBitCast(Shl, ResultType);
return BitCast;
}

Value *CodeGenFunction::EmitX86CpuIs(StringRef CPUStr) {		Value *CodeGenFunction::EmitX86CpuIs(StringRef CPUStr) {

llvm::Type *Int32Ty = Builder.getInt32Ty();		llvm::Type *Int32Ty = Builder.getInt32Ty();

// Matching the struct layout from the compiler-rt/libgcc structure that is		// Matching the struct layout from the compiler-rt/libgcc structure that is
// filled in:		// filled in:
// unsigned int __cpu_vendor;		// unsigned int __cpu_vendor;
// unsigned int __cpu_type;		// unsigned int __cpu_type;
▲ Show 20 Lines • Show All 1,390 Lines • ▼ Show 20 Lines
case X86::BI__builtin_ia32_selectd_256:		case X86::BI__builtin_ia32_selectd_256:
case X86::BI__builtin_ia32_selectd_512:		case X86::BI__builtin_ia32_selectd_512:
case X86::BI__builtin_ia32_selectq_128:		case X86::BI__builtin_ia32_selectq_128:
case X86::BI__builtin_ia32_selectq_256:		case X86::BI__builtin_ia32_selectq_256:
case X86::BI__builtin_ia32_selectq_512:		case X86::BI__builtin_ia32_selectq_512:
case X86::BI__builtin_ia32_selectph_128:		case X86::BI__builtin_ia32_selectph_128:
case X86::BI__builtin_ia32_selectph_256:		case X86::BI__builtin_ia32_selectph_256:
case X86::BI__builtin_ia32_selectph_512:		case X86::BI__builtin_ia32_selectph_512:
		case X86::BI__builtin_ia32_selectpbf_128:
		case X86::BI__builtin_ia32_selectpbf_256:
		case X86::BI__builtin_ia32_selectpbf_512:
case X86::BI__builtin_ia32_selectps_128:		case X86::BI__builtin_ia32_selectps_128:
case X86::BI__builtin_ia32_selectps_256:		case X86::BI__builtin_ia32_selectps_256:
case X86::BI__builtin_ia32_selectps_512:		case X86::BI__builtin_ia32_selectps_512:
case X86::BI__builtin_ia32_selectpd_128:		case X86::BI__builtin_ia32_selectpd_128:
case X86::BI__builtin_ia32_selectpd_256:		case X86::BI__builtin_ia32_selectpd_256:
case X86::BI__builtin_ia32_selectpd_512:		case X86::BI__builtin_ia32_selectpd_512:
return EmitX86Select(*this, Ops[0], Ops[1], Ops[2]);		return EmitX86Select(*this, Ops[0], Ops[1], Ops[2]);
case X86::BI__builtin_ia32_selectsh_128:		case X86::BI__builtin_ia32_selectsh_128:
		case X86::BI__builtin_ia32_selectsbf_128:
case X86::BI__builtin_ia32_selectss_128:		case X86::BI__builtin_ia32_selectss_128:
case X86::BI__builtin_ia32_selectsd_128: {		case X86::BI__builtin_ia32_selectsd_128: {
Value *A = Builder.CreateExtractElement(Ops[1], (uint64_t)0);		Value *A = Builder.CreateExtractElement(Ops[1], (uint64_t)0);
Value *B = Builder.CreateExtractElement(Ops[2], (uint64_t)0);		Value *B = Builder.CreateExtractElement(Ops[2], (uint64_t)0);
A = EmitX86ScalarSelect(*this, Ops[0], A, B);		A = EmitX86ScalarSelect(*this, Ops[0], A, B);
return Builder.CreateInsertElement(Ops[1], A, (uint64_t)0);		return Builder.CreateInsertElement(Ops[1], A, (uint64_t)0);
}		}
case X86::BI__builtin_ia32_cmpb128_mask:		case X86::BI__builtin_ia32_cmpb128_mask:
▲ Show 20 Lines • Show All 820 Lines • ▼ Show 20 Lines
case X86::BI__builtin_ia32_vcvtph2ps256:		case X86::BI__builtin_ia32_vcvtph2ps256:
case X86::BI__builtin_ia32_vcvtph2ps_mask:		case X86::BI__builtin_ia32_vcvtph2ps_mask:
case X86::BI__builtin_ia32_vcvtph2ps256_mask:		case X86::BI__builtin_ia32_vcvtph2ps256_mask:
case X86::BI__builtin_ia32_vcvtph2ps512_mask: {		case X86::BI__builtin_ia32_vcvtph2ps512_mask: {
CodeGenFunction::CGFPOptionsRAII FPOptsRAII(*this, E);		CodeGenFunction::CGFPOptionsRAII FPOptsRAII(*this, E);
return EmitX86CvtF16ToFloatExpr(*this, Ops, ConvertType(E->getType()));		return EmitX86CvtF16ToFloatExpr(*this, Ops, ConvertType(E->getType()));
}		}

// AVX512 bf16 intrinsics		// AVX512 bf16 intrinsics
case X86::BI__builtin_ia32_cvtneps2bf16_128_mask: {		case X86::BI__builtin_ia32_cvtneps2bf16_128_mask: {
Ops[2] = getMaskVecValue(		Ops[2] = getMaskVecValue(
*this, Ops[2],		*this, Ops[2],
cast<llvm::FixedVectorType>(Ops[0]->getType())->getNumElements());		cast<llvm::FixedVectorType>(Ops[0]->getType())->getNumElements());
Intrinsic::ID IID = Intrinsic::x86_avx512bf16_mask_cvtneps2bf16_128;		Intrinsic::ID IID = Intrinsic::x86_avx512bf16_mask_cvtneps2bf16_128;
return Builder.CreateCall(CGM.getIntrinsic(IID), Ops);		return Builder.CreateCall(CGM.getIntrinsic(IID), Ops);
}		}
case X86::BI__builtin_ia32_cvtsbf162ss_32:		case X86::BI__builtin_ia32_cvtsbf162ss_32:
return EmitX86CvtBF16ToFloatExpr(*this, E, Ops);		return Builder.CreateFPExt(Ops[0], Builder.getFloatTy());

case X86::BI__builtin_ia32_cvtneps2bf16_256_mask:		case X86::BI__builtin_ia32_cvtneps2bf16_256_mask:
case X86::BI__builtin_ia32_cvtneps2bf16_512_mask: {		case X86::BI__builtin_ia32_cvtneps2bf16_512_mask: {
Intrinsic::ID IID;		Intrinsic::ID IID;
switch (BuiltinID) {		switch (BuiltinID) {
default: llvm_unreachable("Unsupported intrinsic!");		default: llvm_unreachable("Unsupported intrinsic!");
case X86::BI__builtin_ia32_cvtneps2bf16_256_mask:		case X86::BI__builtin_ia32_cvtneps2bf16_256_mask:
IID = Intrinsic::x86_avx512bf16_cvtneps2bf16_256;		IID = Intrinsic::x86_avx512bf16_cvtneps2bf16_256;
▲ Show 20 Lines • Show All 4,413 Lines • Show Last 20 Lines

clang/lib/Headers/avx512bf16intrin.h

/*===------------ avx512bf16intrin.h - AVX512_BF16 intrinsics --------------===		/*===------------ avx512bf16intrin.h - AVX512_BF16 intrinsics --------------===
*		*
* Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		* Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
* See https://llvm.org/LICENSE.txt for license information.		* See https://llvm.org/LICENSE.txt for license information.
* SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		* SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*		*
*===-----------------------------------------------------------------------===		*===-----------------------------------------------------------------------===
*/		*/
#ifndef __IMMINTRIN_H		#ifndef __IMMINTRIN_H
#error "Never use <avx512bf16intrin.h> directly; include <immintrin.h> instead."		#error "Never use <avx512bf16intrin.h> directly; include <immintrin.h> instead."
#endif		#endif

		#ifdef __SSE2__
		LuoYuankeUnsubmitted Not Done Reply Inline Actions What is this macro check used for? LuoYuanke: What is this macro check used for?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions `__bf16` is not available without SSE2. This is to make sure no error generated if user include <immintrin.h> pengfei: `__bf16` is not available without SSE2. This is to make sure no error generated if user include…

#ifndef __AVX512BF16INTRIN_H		#ifndef __AVX512BF16INTRIN_H
#define __AVX512BF16INTRIN_H		#define __AVX512BF16INTRIN_H

typedef short __m512bh __attribute__((__vector_size__(64), __aligned__(64)));		typedef __bf16 __v32bf __attribute__((__vector_size__(64), __aligned__(64)));
typedef short __m256bh __attribute__((__vector_size__(32), __aligned__(32)));		typedef __bf16 __m512bh __attribute__((__vector_size__(64), __aligned__(64)));
typedef unsigned short __bfloat16;		typedef __bf16 __v16bf __attribute__((__vector_size__(32), __aligned__(32)));
		typedef __bf16 __m256bh __attribute__((__vector_size__(32), __aligned__(32)));
		typedef __bf16 __bfloat16 __attribute__((deprecated("use __bf16 instead")));

#define __DEFAULT_FN_ATTRS512 \		#define __DEFAULT_FN_ATTRS512 \
__attribute__((__always_inline__, __nodebug__, __target__("avx512bf16"), \		__attribute__((__always_inline__, __nodebug__, __target__("avx512bf16"), \
__min_vector_width__(512)))		__min_vector_width__(512)))
#define __DEFAULT_FN_ATTRS \		#define __DEFAULT_FN_ATTRS \
__attribute__((__always_inline__, __nodebug__, __target__("avx512bf16")))		__attribute__((__always_inline__, __nodebug__, __target__("avx512bf16")))

/// Convert One BF16 Data to One Single Float Data.		/// Convert One BF16 Data to One Single Float Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic does not correspond to a specific instruction.		/// This intrinsic does not correspond to a specific instruction.
///		///
/// \param __A		/// \param __A
/// A bfloat data.		/// A bfloat data.
/// \returns A float data whose sign field and exponent field keep unchanged,		/// \returns A float data whose sign field and exponent field keep unchanged,
/// and fraction field is extended to 23 bits.		/// and fraction field is extended to 23 bits.
static __inline__ float __DEFAULT_FN_ATTRS _mm_cvtsbh_ss(__bfloat16 __A) {		static __inline__ float __DEFAULT_FN_ATTRS _mm_cvtsbh_ss(__bf16 __A) {
return __builtin_ia32_cvtsbf162ss_32(__A);		return __builtin_ia32_cvtsbf162ss_32(__A);
}		}

/// Convert Two Packed Single Data to One Packed BF16 Data.		/// Convert Two Packed Single Data to One Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.
Show All 24 Lines
/// A 512-bit vector of [32 x bfloat].		/// A 512-bit vector of [32 x bfloat].
/// \param __U		/// \param __U
/// A 32-bit mask value specifying what is chosen for each element.		/// A 32-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element from __W.		/// A 1 means conversion of __A or __B. A 0 means element from __W.
/// \returns A 512-bit vector of [32 x bfloat] whose lower 256 bits come from		/// \returns A 512-bit vector of [32 x bfloat] whose lower 256 bits come from
/// conversion of __B, and higher 256 bits come from conversion of __A.		/// conversion of __B, and higher 256 bits come from conversion of __A.
static __inline__ __m512bh __DEFAULT_FN_ATTRS512		static __inline__ __m512bh __DEFAULT_FN_ATTRS512
_mm512_mask_cvtne2ps_pbh(__m512bh __W, __mmask32 __U, __m512 __A, __m512 __B) {		_mm512_mask_cvtne2ps_pbh(__m512bh __W, __mmask32 __U, __m512 __A, __m512 __B) {
return (__m512bh)__builtin_ia32_selectw_512((__mmask32)__U,		return (__m512bh)__builtin_ia32_selectpbf_512((__mmask32)__U,
(__v32hi)_mm512_cvtne2ps_pbh(__A, __B),		(__v32bf)_mm512_cvtne2ps_pbh(__A, __B),
(__v32hi)__W);		(__v32bf)__W);
}		}

/// Convert Two Packed Single Data to One Packed BF16 Data.		/// Convert Two Packed Single Data to One Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \param __B		/// \param __B
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \param __U		/// \param __U
/// A 32-bit mask value specifying what is chosen for each element.		/// A 32-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element is zero.		/// A 1 means conversion of __A or __B. A 0 means element is zero.
/// \returns A 512-bit vector of [32 x bfloat] whose lower 256 bits come from		/// \returns A 512-bit vector of [32 x bfloat] whose lower 256 bits come from
/// conversion of __B, and higher 256 bits come from conversion of __A.		/// conversion of __B, and higher 256 bits come from conversion of __A.
static __inline__ __m512bh __DEFAULT_FN_ATTRS512		static __inline__ __m512bh __DEFAULT_FN_ATTRS512
_mm512_maskz_cvtne2ps_pbh(__mmask32 __U, __m512 __A, __m512 __B) {		_mm512_maskz_cvtne2ps_pbh(__mmask32 __U, __m512 __A, __m512 __B) {
return (__m512bh)__builtin_ia32_selectw_512((__mmask32)__U,		return (__m512bh)__builtin_ia32_selectpbf_512((__mmask32)__U,
(__v32hi)_mm512_cvtne2ps_pbh(__A, __B),		(__v32bf)_mm512_cvtne2ps_pbh(__A, __B),
(__v32hi)_mm512_setzero_si512());		(__v32bf)_mm512_setzero_si512());
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.		/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.
static __inline__ __m256bh __DEFAULT_FN_ATTRS512		static __inline__ __m256bh __DEFAULT_FN_ATTRS512
_mm512_cvtneps_pbh(__m512 __A) {		_mm512_cvtneps_pbh(__m512 __A) {
return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,		return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,
(__v16hi)_mm256_undefined_si256(),		(__v16bf)_mm256_undefined_si256(),
(__mmask16)-1);		(__mmask16)-1);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \param __W		/// \param __W
/// A 256-bit vector of [16 x bfloat].		/// A 256-bit vector of [16 x bfloat].
/// \param __U		/// \param __U
/// A 16-bit mask value specifying what is chosen for each element.		/// A 16-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element from __W.		/// A 1 means conversion of __A. A 0 means element from __W.
/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.		/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.
static __inline__ __m256bh __DEFAULT_FN_ATTRS512		static __inline__ __m256bh __DEFAULT_FN_ATTRS512
_mm512_mask_cvtneps_pbh(__m256bh __W, __mmask16 __U, __m512 __A) {		_mm512_mask_cvtneps_pbh(__m256bh __W, __mmask16 __U, __m512 __A) {
return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,		return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,
(__v16hi)__W,		(__v16bf)__W,
(__mmask16)__U);		(__mmask16)__U);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \param __U		/// \param __U
/// A 16-bit mask value specifying what is chosen for each element.		/// A 16-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element is zero.		/// A 1 means conversion of __A. A 0 means element is zero.
/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.		/// \returns A 256-bit vector of [16 x bfloat] come from conversion of __A.
static __inline__ __m256bh __DEFAULT_FN_ATTRS512		static __inline__ __m256bh __DEFAULT_FN_ATTRS512
_mm512_maskz_cvtneps_pbh(__mmask16 __U, __m512 __A) {		_mm512_maskz_cvtneps_pbh(__mmask16 __U, __m512 __A) {
return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,		return (__m256bh)__builtin_ia32_cvtneps2bf16_512_mask((__v16sf)__A,
(__v16hi)_mm256_setzero_si256(),		(__v16bf)_mm256_setzero_si256(),
(__mmask16)__U);		(__mmask16)__U);
}		}

/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.		/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.		/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 512-bit vector of [32 x bfloat].		/// A 512-bit vector of [32 x bfloat].
/// \param __B		/// \param __B
/// A 512-bit vector of [32 x bfloat].		/// A 512-bit vector of [32 x bfloat].
/// \param __D		/// \param __D
/// A 512-bit vector of [16 x float].		/// A 512-bit vector of [16 x float].
/// \returns A 512-bit vector of [16 x float] comes from Dot Product of		/// \returns A 512-bit vector of [16 x float] comes from Dot Product of
/// __A, __B and __D		/// __A, __B and __D
static __inline__ __m512 __DEFAULT_FN_ATTRS512		static __inline__ __m512 __DEFAULT_FN_ATTRS512
_mm512_dpbf16_ps(__m512 __D, __m512bh __A, __m512bh __B) {		_mm512_dpbf16_ps(__m512 __D, __m512bh __A, __m512bh __B) {
return (__m512)__builtin_ia32_dpbf16ps_512((__v16sf) __D,		return (__m512)__builtin_ia32_dpbf16ps_512((__v16sf) __D,
(__v16si) __A,		(__v32bf) __A,
(__v16si) __B);		(__v32bf) __B);
}		}

/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.		/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.		/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.
///		///
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines	return _mm512_castsi512_ps((__m512i)_mm512_mask_slli_epi32(
(__m512i)__S, (__mmask16)__U,		(__m512i)__S, (__mmask16)__U,
(__m512i)_mm512_cvtepi16_epi32((__m256i)__A), 16));		(__m512i)_mm512_cvtepi16_epi32((__m256i)__A), 16));
}		}

#undef __DEFAULT_FN_ATTRS		#undef __DEFAULT_FN_ATTRS
#undef __DEFAULT_FN_ATTRS512		#undef __DEFAULT_FN_ATTRS512

#endif		#endif
		#endif

clang/lib/Headers/avx512vlbf16intrin.h

/*===--------- avx512vlbf16intrin.h - AVX512_BF16 intrinsics ---------------===		/*===--------- avx512vlbf16intrin.h - AVX512_BF16 intrinsics ---------------===
*		*
* Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		* Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
* See https://llvm.org/LICENSE.txt for license information.		* See https://llvm.org/LICENSE.txt for license information.
* SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		* SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*		*
*===-----------------------------------------------------------------------===		*===-----------------------------------------------------------------------===
*/		*/
#ifndef __IMMINTRIN_H		#ifndef __IMMINTRIN_H
#error "Never use <avx512vlbf16intrin.h> directly; include <immintrin.h> instead."		#error "Never use <avx512vlbf16intrin.h> directly; include <immintrin.h> instead."
#endif		#endif

		#ifdef __SSE2__

#ifndef __AVX512VLBF16INTRIN_H		#ifndef __AVX512VLBF16INTRIN_H
#define __AVX512VLBF16INTRIN_H		#define __AVX512VLBF16INTRIN_H

typedef short __m128bh __attribute__((__vector_size__(16), __aligned__(16)));		typedef __bf16 __v8bf __attribute__((__vector_size__(16), __aligned__(16)));
		typedef __bf16 __m128bh __attribute__((__vector_size__(16), __aligned__(16)));

#define __DEFAULT_FN_ATTRS128 \		#define __DEFAULT_FN_ATTRS128 \
__attribute__((__always_inline__, __nodebug__, \		__attribute__((__always_inline__, __nodebug__, \
__target__("avx512vl, avx512bf16"), __min_vector_width__(128)))		__target__("avx512vl, avx512bf16"), __min_vector_width__(128)))
#define __DEFAULT_FN_ATTRS256 \		#define __DEFAULT_FN_ATTRS256 \
__attribute__((__always_inline__, __nodebug__, \		__attribute__((__always_inline__, __nodebug__, \
__target__("avx512vl, avx512bf16"), __min_vector_width__(256)))		__target__("avx512vl, avx512bf16"), __min_vector_width__(256)))

Show All 29 Lines
/// A 128-bit vector of [8 x bfloat].		/// A 128-bit vector of [8 x bfloat].
/// \param __U		/// \param __U
/// A 8-bit mask value specifying what is chosen for each element.		/// A 8-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element from __W.		/// A 1 means conversion of __A or __B. A 0 means element from __W.
/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from		/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from
/// conversion of __B, and higher 64 bits come from conversion of __A.		/// conversion of __B, and higher 64 bits come from conversion of __A.
static __inline__ __m128bh __DEFAULT_FN_ATTRS128		static __inline__ __m128bh __DEFAULT_FN_ATTRS128
_mm_mask_cvtne2ps_pbh(__m128bh __W, __mmask8 __U, __m128 __A, __m128 __B) {		_mm_mask_cvtne2ps_pbh(__m128bh __W, __mmask8 __U, __m128 __A, __m128 __B) {
return (__m128bh)__builtin_ia32_selectw_128((__mmask8)__U,		return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
(__v8hi)_mm_cvtne2ps_pbh(__A, __B),		(__v8bf)_mm_cvtne2ps_pbh(__A, __B),
(__v8hi)__W);		(__v8bf)__W);
}		}

/// Convert Two Packed Single Data to One Packed BF16 Data.		/// Convert Two Packed Single Data to One Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \param __B		/// \param __B
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \param __U		/// \param __U
/// A 8-bit mask value specifying what is chosen for each element.		/// A 8-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element is zero.		/// A 1 means conversion of __A or __B. A 0 means element is zero.
/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from		/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from
/// conversion of __B, and higher 64 bits come from conversion of __A.		/// conversion of __B, and higher 64 bits come from conversion of __A.
static __inline__ __m128bh __DEFAULT_FN_ATTRS128		static __inline__ __m128bh __DEFAULT_FN_ATTRS128
_mm_maskz_cvtne2ps_pbh(__mmask8 __U, __m128 __A, __m128 __B) {		_mm_maskz_cvtne2ps_pbh(__mmask8 __U, __m128 __A, __m128 __B) {
return (__m128bh)__builtin_ia32_selectw_128((__mmask8)__U,		return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
(__v8hi)_mm_cvtne2ps_pbh(__A, __B),		(__v8bf)_mm_cvtne2ps_pbh(__A, __B),
(__v8hi)_mm_setzero_si128());		(__v8bf)_mm_setzero_si128());
}		}

/// Convert Two Packed Single Data to One Packed BF16 Data.		/// Convert Two Packed Single Data to One Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.
///		///
Show All 23 Lines
/// A 256-bit vector of [16 x bfloat].		/// A 256-bit vector of [16 x bfloat].
/// \param __U		/// \param __U
/// A 16-bit mask value specifying what is chosen for each element.		/// A 16-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element from __W.		/// A 1 means conversion of __A or __B. A 0 means element from __W.
/// \returns A 256-bit vector of [16 x bfloat] whose lower 128 bits come from		/// \returns A 256-bit vector of [16 x bfloat] whose lower 128 bits come from
/// conversion of __B, and higher 128 bits come from conversion of __A.		/// conversion of __B, and higher 128 bits come from conversion of __A.
static __inline__ __m256bh __DEFAULT_FN_ATTRS256		static __inline__ __m256bh __DEFAULT_FN_ATTRS256
_mm256_mask_cvtne2ps_pbh(__m256bh __W, __mmask16 __U, __m256 __A, __m256 __B) {		_mm256_mask_cvtne2ps_pbh(__m256bh __W, __mmask16 __U, __m256 __A, __m256 __B) {
return (__m256bh)__builtin_ia32_selectw_256((__mmask16)__U,		return (__m256bh)__builtin_ia32_selectpbf_256((__mmask16)__U,
(__v16hi)_mm256_cvtne2ps_pbh(__A, __B),		(__v16bf)_mm256_cvtne2ps_pbh(__A, __B),
(__v16hi)__W);		(__v16bf)__W);
}		}

/// Convert Two Packed Single Data to One Packed BF16 Data.		/// Convert Two Packed Single Data to One Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNE2PS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \param __B		/// \param __B
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \param __U		/// \param __U
/// A 16-bit mask value specifying what is chosen for each element.		/// A 16-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A or __B. A 0 means element is zero.		/// A 1 means conversion of __A or __B. A 0 means element is zero.
/// \returns A 256-bit vector of [16 x bfloat] whose lower 128 bits come from		/// \returns A 256-bit vector of [16 x bfloat] whose lower 128 bits come from
/// conversion of __B, and higher 128 bits come from conversion of __A.		/// conversion of __B, and higher 128 bits come from conversion of __A.
static __inline__ __m256bh __DEFAULT_FN_ATTRS256		static __inline__ __m256bh __DEFAULT_FN_ATTRS256
_mm256_maskz_cvtne2ps_pbh(__mmask16 __U, __m256 __A, __m256 __B) {		_mm256_maskz_cvtne2ps_pbh(__mmask16 __U, __m256 __A, __m256 __B) {
return (__m256bh)__builtin_ia32_selectw_256((__mmask16)__U,		return (__m256bh)__builtin_ia32_selectpbf_256((__mmask16)__U,
(__v16hi)_mm256_cvtne2ps_pbh(__A, __B),		(__v16bf)_mm256_cvtne2ps_pbh(__A, __B),
(__v16hi)_mm256_setzero_si256());		(__v16bf)_mm256_setzero_si256());
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from		/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from
/// conversion of __A, and higher 64 bits are 0.		/// conversion of __A, and higher 64 bits are 0.
static __inline__ __m128bh __DEFAULT_FN_ATTRS128		static __inline__ __m128bh __DEFAULT_FN_ATTRS128
_mm_cvtneps_pbh(__m128 __A) {		_mm_cvtneps_pbh(__m128 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,
(__v8hi)_mm_undefined_si128(),		(__v8bf)_mm_undefined_si128(),
(__mmask8)-1);		(__mmask8)-1);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \param __W		/// \param __W
/// A 128-bit vector of [8 x bfloat].		/// A 128-bit vector of [8 x bfloat].
/// \param __U		/// \param __U
/// A 4-bit mask value specifying what is chosen for each element.		/// A 4-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element from __W.		/// A 1 means conversion of __A. A 0 means element from __W.
/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from		/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from
/// conversion of __A, and higher 64 bits are 0.		/// conversion of __A, and higher 64 bits are 0.
static __inline__ __m128bh __DEFAULT_FN_ATTRS128		static __inline__ __m128bh __DEFAULT_FN_ATTRS128
_mm_mask_cvtneps_pbh(__m128bh __W, __mmask8 __U, __m128 __A) {		_mm_mask_cvtneps_pbh(__m128bh __W, __mmask8 __U, __m128 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,
(__v8hi)__W,		(__v8bf)__W,
(__mmask8)__U);		(__mmask8)__U);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \param __U		/// \param __U
/// A 4-bit mask value specifying what is chosen for each element.		/// A 4-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element is zero.		/// A 1 means conversion of __A. A 0 means element is zero.
/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from		/// \returns A 128-bit vector of [8 x bfloat] whose lower 64 bits come from
/// conversion of __A, and higher 64 bits are 0.		/// conversion of __A, and higher 64 bits are 0.
static __inline__ __m128bh __DEFAULT_FN_ATTRS128		static __inline__ __m128bh __DEFAULT_FN_ATTRS128
_mm_maskz_cvtneps_pbh(__mmask8 __U, __m128 __A) {		_mm_maskz_cvtneps_pbh(__mmask8 __U, __m128 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_128_mask((__v4sf) __A,
(__v8hi)_mm_setzero_si128(),		(__v8bf)_mm_setzero_si128(),
(__mmask8)__U);		(__mmask8)__U);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.		/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.
static __inline__ __m128bh __DEFAULT_FN_ATTRS256		static __inline__ __m128bh __DEFAULT_FN_ATTRS256
_mm256_cvtneps_pbh(__m256 __A) {		_mm256_cvtneps_pbh(__m256 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,
(__v8hi)_mm_undefined_si128(),		(__v8bf)_mm_undefined_si128(),
(__mmask8)-1);		(__mmask8)-1);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \param __W		/// \param __W
/// A 256-bit vector of [8 x bfloat].		/// A 256-bit vector of [8 x bfloat].
/// \param __U		/// \param __U
/// A 8-bit mask value specifying what is chosen for each element.		/// A 8-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element from __W.		/// A 1 means conversion of __A. A 0 means element from __W.
/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.		/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.
static __inline__ __m128bh __DEFAULT_FN_ATTRS256		static __inline__ __m128bh __DEFAULT_FN_ATTRS256
_mm256_mask_cvtneps_pbh(__m128bh __W, __mmask8 __U, __m256 __A) {		_mm256_mask_cvtneps_pbh(__m128bh __W, __mmask8 __U, __m256 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,
(__v8hi)__W,		(__v8bf)__W,
(__mmask8)__U);		(__mmask8)__U);
}		}

/// Convert Packed Single Data to Packed BF16 Data.		/// Convert Packed Single Data to Packed BF16 Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \param __U		/// \param __U
/// A 8-bit mask value specifying what is chosen for each element.		/// A 8-bit mask value specifying what is chosen for each element.
/// A 1 means conversion of __A. A 0 means element is zero.		/// A 1 means conversion of __A. A 0 means element is zero.
/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.		/// \returns A 128-bit vector of [8 x bfloat] comes from conversion of __A.
static __inline__ __m128bh __DEFAULT_FN_ATTRS256		static __inline__ __m128bh __DEFAULT_FN_ATTRS256
_mm256_maskz_cvtneps_pbh(__mmask8 __U, __m256 __A) {		_mm256_maskz_cvtneps_pbh(__mmask8 __U, __m256 __A) {
return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,		return (__m128bh)__builtin_ia32_cvtneps2bf16_256_mask((__v8sf)__A,
(__v8hi)_mm_setzero_si128(),		(__v8bf)_mm_setzero_si128(),
(__mmask8)__U);		(__mmask8)__U);
}		}

/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.		/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.		/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [8 x bfloat].		/// A 128-bit vector of [8 x bfloat].
/// \param __B		/// \param __B
/// A 128-bit vector of [8 x bfloat].		/// A 128-bit vector of [8 x bfloat].
/// \param __D		/// \param __D
/// A 128-bit vector of [4 x float].		/// A 128-bit vector of [4 x float].
/// \returns A 128-bit vector of [4 x float] comes from Dot Product of		/// \returns A 128-bit vector of [4 x float] comes from Dot Product of
/// __A, __B and __D		/// __A, __B and __D
static __inline__ __m128 __DEFAULT_FN_ATTRS128		static __inline__ __m128 __DEFAULT_FN_ATTRS128
_mm_dpbf16_ps(__m128 __D, __m128bh __A, __m128bh __B) {		_mm_dpbf16_ps(__m128 __D, __m128bh __A, __m128bh __B) {
return (__m128)__builtin_ia32_dpbf16ps_128((__v4sf)__D,		return (__m128)__builtin_ia32_dpbf16ps_128((__v4sf)__D,
(__v4si)__A,		(__v8bf)__A,
(__v4si)__B);		(__v8bf)__B);
}		}

/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.		/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.		/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.
///		///
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
/// A 256-bit vector of [16 x bfloat].		/// A 256-bit vector of [16 x bfloat].
/// \param __D		/// \param __D
/// A 256-bit vector of [8 x float].		/// A 256-bit vector of [8 x float].
/// \returns A 256-bit vector of [8 x float] comes from Dot Product of		/// \returns A 256-bit vector of [8 x float] comes from Dot Product of
/// __A, __B and __D		/// __A, __B and __D
static __inline__ __m256 __DEFAULT_FN_ATTRS256		static __inline__ __m256 __DEFAULT_FN_ATTRS256
_mm256_dpbf16_ps(__m256 __D, __m256bh __A, __m256bh __B) {		_mm256_dpbf16_ps(__m256 __D, __m256bh __A, __m256bh __B) {
return (__m256)__builtin_ia32_dpbf16ps_256((__v8sf)__D,		return (__m256)__builtin_ia32_dpbf16ps_256((__v8sf)__D,
(__v8si)__A,		(__v16bf)__A,
(__v8si)__B);		(__v16bf)__B);
}		}

/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.		/// Dot Product of BF16 Pairs Accumulated into Packed Single Precision.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.		/// This intrinsic corresponds to the <c> VDPBF16PS </c> instructions.
///		///
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.		/// This intrinsic corresponds to the <c> VCVTNEPS2BF16 </c> instructions.
///		///
/// \param __A		/// \param __A
/// A float data.		/// A float data.
/// \returns A bf16 data whose sign field and exponent field keep unchanged,		/// \returns A bf16 data whose sign field and exponent field keep unchanged,
/// and fraction field is truncated to 7 bits.		/// and fraction field is truncated to 7 bits.
static __inline__ __bfloat16 __DEFAULT_FN_ATTRS128 _mm_cvtness_sbh(float __A) {		static __inline__ __bf16 __DEFAULT_FN_ATTRS128 _mm_cvtness_sbh(float __A) {
__v4sf __V = {__A, 0, 0, 0};		__v4sf __V = {__A, 0, 0, 0};
__v8hi __R = __builtin_ia32_cvtneps2bf16_128_mask(		__v8bf __R = __builtin_ia32_cvtneps2bf16_128_mask(
(__v4sf)__V, (__v8hi)_mm_undefined_si128(), (__mmask8)-1);		(__v4sf)__V, (__v8bf)_mm_undefined_si128(), (__mmask8)-1);
return (__bfloat16)__R[0];		return (__bf16)__R[0];
}		}

/// Convert Packed BF16 Data to Packed float Data.		/// Convert Packed BF16 Data to Packed float Data.
///		///
/// \headerfile <x86intrin.h>		/// \headerfile <x86intrin.h>
///		///
/// \param __A		/// \param __A
/// A 128-bit vector of [4 x bfloat].		/// A 128-bit vector of [4 x bfloat].
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	return _mm256_castsi256_ps((__m256i)_mm256_mask_slli_epi32(
(__m256i)__S, (__mmask8)__U, (__m256i)_mm256_cvtepi16_epi32((__m128i)__A),		(__m256i)__S, (__mmask8)__U, (__m256i)_mm256_cvtepi16_epi32((__m128i)__A),
16));		16));
}		}

#undef __DEFAULT_FN_ATTRS128		#undef __DEFAULT_FN_ATTRS128
#undef __DEFAULT_FN_ATTRS256		#undef __DEFAULT_FN_ATTRS256

#endif		#endif
		#endif

clang/test/CodeGen/X86/avx512bf16-builtins.c

	// RUN: %clang_cc1 -flax-vector-conversions=none -ffreestanding %s -triple=x86_64-apple-darwin \			// RUN: %clang_cc1 -flax-vector-conversions=none -ffreestanding %s -triple=x86_64-apple-darwin \
	// RUN: -target-feature +avx512bf16 -emit-llvm -o - -Wall -Werror \			// RUN: -target-feature +avx512bf16 -emit-llvm -o - -Wall -Werror \
	// RUN: \| FileCheck %s			// RUN: \| FileCheck %s

	#include <immintrin.h>			#include <immintrin.h>

	float test_mm_cvtsbh_ss(__bfloat16 A) {			float test_mm_cvtsbh_ss(__bf16 A) {
	// CHECK-LABEL: @test_mm_cvtsbh_ss			// CHECK-LABEL: @test_mm_cvtsbh_ss
	// CHECK: zext i16 %{{.*}} to i32			// CHECK: fpext bfloat %{{.*}} to float
	// CHECK: shl i32 %{{.*}}, 16
	// CHECK: ret float %{{.*}}			// CHECK: ret float %{{.*}}
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Add a test case for `__bfloat16` to test compatibility? LuoYuanke: Add a test case for `__bfloat16` to test compatibility?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions GCC folks prefer to not providing `__bfloat16`, but I'd like to deprecate it first. So we don't need test for it. pengfei: GCC folks prefer to not providing `__bfloat16`, but I'd like to deprecate it first. So we don't…
	return _mm_cvtsbh_ss(A);			return _mm_cvtsbh_ss(A);
	}			}

	__m512bh test_mm512_cvtne2ps_pbh(__m512 A, __m512 B) {			__m512bh test_mm512_cvtne2ps_pbh(__m512 A, __m512 B) {
	// CHECK-LABEL: @test_mm512_cvtne2ps_pbh			// CHECK-LABEL: @test_mm512_cvtne2ps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_cvtne2ps_pbh(A, B);			return _mm512_cvtne2ps_pbh(A, B);
	}			}

	__m512bh test_mm512_maskz_cvtne2ps_pbh(__m512 A, __m512 B, __mmask32 U) {			__m512bh test_mm512_maskz_cvtne2ps_pbh(__m512 A, __m512 B, __mmask32 U) {
	// CHECK-LABEL: @test_mm512_maskz_cvtne2ps_pbh			// CHECK-LABEL: @test_mm512_maskz_cvtne2ps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: select <32 x i1> %{{.}}, <32 x i16> %{{.}}, <32 x i16> %{{.*}}			// CHECK: select <32 x i1> %{{.}}, <32 x bfloat> %{{.}}, <32 x bfloat> %{{.*}}
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_maskz_cvtne2ps_pbh(U, A, B);			return _mm512_maskz_cvtne2ps_pbh(U, A, B);
	}			}

	__m512bh test_mm512_mask_cvtne2ps_pbh(__m512bh C, __mmask32 U, __m512 A, __m512 B) {			__m512bh test_mm512_mask_cvtne2ps_pbh(__m512bh C, __mmask32 U, __m512 A, __m512 B) {
	// CHECK-LABEL: @test_mm512_mask_cvtne2ps_pbh			// CHECK-LABEL: @test_mm512_mask_cvtne2ps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: select <32 x i1> %{{.}}, <32 x i16> %{{.}}, <32 x i16> %{{.*}}			// CHECK: select <32 x i1> %{{.}}, <32 x bfloat> %{{.}}, <32 x bfloat> %{{.*}}
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_mask_cvtne2ps_pbh(C, U, A, B);			return _mm512_mask_cvtne2ps_pbh(C, U, A, B);
	}			}

	__m256bh test_mm512_cvtneps_pbh(__m512 A) {			__m256bh test_mm512_cvtneps_pbh(__m512 A) {
	// CHECK-LABEL: @test_mm512_cvtneps_pbh			// CHECK-LABEL: @test_mm512_cvtneps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm512_cvtneps_pbh(A);			return _mm512_cvtneps_pbh(A);
	}			}

	__m256bh test_mm512_mask_cvtneps_pbh(__m256bh C, __mmask16 U, __m512 A) {			__m256bh test_mm512_mask_cvtneps_pbh(__m256bh C, __mmask16 U, __m512 A) {
	// CHECK-LABEL: @test_mm512_mask_cvtneps_pbh			// CHECK-LABEL: @test_mm512_mask_cvtneps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512
	// CHECK: select <16 x i1> %{{.}}, <16 x i16> %{{.}}, <16 x i16> %{{.*}}			// CHECK: select <16 x i1> %{{.}}, <16 x bfloat> %{{.}}, <16 x bfloat> %{{.*}}
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm512_mask_cvtneps_pbh(C, U, A);			return _mm512_mask_cvtneps_pbh(C, U, A);
	}			}

	__m256bh test_mm512_maskz_cvtneps_pbh(__m512 A, __mmask16 U) {			__m256bh test_mm512_maskz_cvtneps_pbh(__m512 A, __mmask16 U) {
	// CHECK-LABEL: @test_mm512_maskz_cvtneps_pbh			// CHECK-LABEL: @test_mm512_maskz_cvtneps_pbh
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.512
	// CHECK: select <16 x i1> %{{.}}, <16 x i16> %{{.}}, <16 x i16> %{{.*}}			// CHECK: select <16 x i1> %{{.}}, <16 x bfloat> %{{.}}, <16 x bfloat> %{{.*}}
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm512_maskz_cvtneps_pbh(U, A);			return _mm512_maskz_cvtneps_pbh(U, A);
	}			}

	__m512 test_mm512_dpbf16_ps(__m512 D, __m512bh A, __m512bh B) {			__m512 test_mm512_dpbf16_ps(__m512 D, __m512bh A, __m512bh B) {
	// CHECK-LABEL: @test_mm512_dpbf16_ps			// CHECK-LABEL: @test_mm512_dpbf16_ps
	// CHECK: @llvm.x86.avx512bf16.dpbf16ps.512			// CHECK: @llvm.x86.avx512bf16.dpbf16ps.512
	// CHECK: ret <16 x float> %{{.*}}			// CHECK: ret <16 x float> %{{.*}}
	return _mm512_dpbf16_ps(D, A, B);			return _mm512_dpbf16_ps(D, A, B);
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

clang/test/CodeGen/X86/avx512bf16-error.c

This file was added.

				// RUN: %clang_cc1 -fsyntax-only -verify -ffreestanding -triple x86_64-linux-pc %s

				// expected-error@+1 3 {{unknown type name '__bfloat16'}}
				__bfloat16 foo(__bfloat16 a, __bfloat16 b) {
				return a + b;
				}

				#include <immintrin.h>

				// expected-error@+4 {{invalid operands to binary expression ('__bfloat16' (aka '__bf16') and '__bfloat16')}}
				// expected-warning@+2 3 {{'__bfloat16' is deprecated: use __bf16 instead}}
				// expected-note@* 3 {{'__bfloat16' has been explicitly marked deprecated here}}
				__bfloat16 bar(__bfloat16 a, __bfloat16 b) {
				return a + b;
				}
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Need test for other operations (-, , /) as well? LuoYuanke:* Need test for other operations (-, *, /) as well?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions I don't think so. This is to check `__bfloat16` is deprecated. We should check them when enabling `__bf16` on SSE2. pengfei: I don't think so. This is to check `__bfloat16` is deprecated. We should check them when…

clang/test/CodeGen/X86/avx512vlbf16-builtins.c

	// RUN: %clang_cc1 -flax-vector-conversions=none -ffreestanding %s -triple=x86_64-apple-darwin \			// RUN: %clang_cc1 -flax-vector-conversions=none -ffreestanding %s -triple=x86_64-apple-darwin \
	// RUN: -target-feature +avx512bf16 -target-feature \			// RUN: -target-feature +avx512bf16 -target-feature \
	// RUN: +avx512vl -emit-llvm -o - -Wall -Werror \| FileCheck %s			// RUN: +avx512vl -emit-llvm -o - -Wall -Werror \| FileCheck %s

	#include <immintrin.h>			#include <immintrin.h>

	__m128bh test_mm_cvtne2ps2bf16(__m128 A, __m128 B) {			__m128bh test_mm_cvtne2ps2bf16(__m128 A, __m128 B) {
	// CHECK-LABEL: @test_mm_cvtne2ps2bf16			// CHECK-LABEL: @test_mm_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_cvtne2ps_pbh(A, B);			return _mm_cvtne2ps_pbh(A, B);
	}			}

	__m128bh test_mm_maskz_cvtne2ps2bf16(__m128 A, __m128 B, __mmask8 U) {			__m128bh test_mm_maskz_cvtne2ps2bf16(__m128 A, __m128 B, __mmask8 U) {
	// CHECK-LABEL: @test_mm_maskz_cvtne2ps2bf16			// CHECK-LABEL: @test_mm_maskz_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128
	// CHECK: select <8 x i1> %{{.}}, <8 x i16> %{{.}}, <8 x i16> %{{.*}}			// CHECK: select <8 x i1> %{{.}}, <8 x bfloat> %{{.}}, <8 x bfloat> %{{.*}}
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_maskz_cvtne2ps_pbh(U, A, B);			return _mm_maskz_cvtne2ps_pbh(U, A, B);
	}			}

	__m128bh test_mm_mask_cvtne2ps2bf16(__m128bh C, __mmask8 U, __m128 A, __m128 B) {			__m128bh test_mm_mask_cvtne2ps2bf16(__m128bh C, __mmask8 U, __m128 A, __m128 B) {
	// CHECK-LABEL: @test_mm_mask_cvtne2ps2bf16			// CHECK-LABEL: @test_mm_mask_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.128
	// CHECK: select <8 x i1> %{{.}}, <8 x i16> %{{.}}, <8 x i16> %{{.*}}			// CHECK: select <8 x i1> %{{.}}, <8 x bfloat> %{{.}}, <8 x bfloat> %{{.*}}
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_mask_cvtne2ps_pbh(C, U, A, B);			return _mm_mask_cvtne2ps_pbh(C, U, A, B);
	}			}

	__m256bh test_mm256_cvtne2ps2bf16(__m256 A, __m256 B) {			__m256bh test_mm256_cvtne2ps2bf16(__m256 A, __m256 B) {
	// CHECK-LABEL: @test_mm256_cvtne2ps2bf16			// CHECK-LABEL: @test_mm256_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm256_cvtne2ps_pbh(A, B);			return _mm256_cvtne2ps_pbh(A, B);
	}			}

	__m256bh test_mm256_maskz_cvtne2ps2bf16(__m256 A, __m256 B, __mmask16 U) {			__m256bh test_mm256_maskz_cvtne2ps2bf16(__m256 A, __m256 B, __mmask16 U) {
	// CHECK-LABEL: @test_mm256_maskz_cvtne2ps2bf16			// CHECK-LABEL: @test_mm256_maskz_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256
	// CHECK: select <16 x i1> %{{.}}, <16 x i16> %{{.}}, <16 x i16> %{{.*}}			// CHECK: select <16 x i1> %{{.}}, <16 x bfloat> %{{.}}, <16 x bfloat> %{{.*}}
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm256_maskz_cvtne2ps_pbh(U, A, B);			return _mm256_maskz_cvtne2ps_pbh(U, A, B);
	}			}

	__m256bh test_mm256_mask_cvtne2ps2bf16(__m256bh C, __mmask16 U, __m256 A, __m256 B) {			__m256bh test_mm256_mask_cvtne2ps2bf16(__m256bh C, __mmask16 U, __m256 A, __m256 B) {
	// CHECK-LABEL: @test_mm256_mask_cvtne2ps2bf16			// CHECK-LABEL: @test_mm256_mask_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.256
	// CHECK: select <16 x i1> %{{.}}, <16 x i16> %{{.}}, <16 x i16> %{{.*}}			// CHECK: select <16 x i1> %{{.}}, <16 x bfloat> %{{.}}, <16 x bfloat> %{{.*}}
	// CHECK: ret <16 x i16> %{{.*}}			// CHECK: ret <16 x bfloat> %{{.*}}
	return _mm256_mask_cvtne2ps_pbh(C, U, A, B);			return _mm256_mask_cvtne2ps_pbh(C, U, A, B);
	}			}

	__m512bh test_mm512_cvtne2ps2bf16(__m512 A, __m512 B) {			__m512bh test_mm512_cvtne2ps2bf16(__m512 A, __m512 B) {
	// CHECK-LABEL: @test_mm512_cvtne2ps2bf16			// CHECK-LABEL: @test_mm512_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_cvtne2ps_pbh(A, B);			return _mm512_cvtne2ps_pbh(A, B);
	}			}

	__m512bh test_mm512_maskz_cvtne2ps2bf16(__m512 A, __m512 B, __mmask32 U) {			__m512bh test_mm512_maskz_cvtne2ps2bf16(__m512 A, __m512 B, __mmask32 U) {
	// CHECK-LABEL: @test_mm512_maskz_cvtne2ps2bf16			// CHECK-LABEL: @test_mm512_maskz_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: select <32 x i1> %{{.}}, <32 x i16> %{{.}}, <32 x i16> %{{.*}}			// CHECK: select <32 x i1> %{{.}}, <32 x bfloat> %{{.}}, <32 x bfloat> %{{.*}}
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_maskz_cvtne2ps_pbh(U, A, B);			return _mm512_maskz_cvtne2ps_pbh(U, A, B);
	}			}

	__m512bh test_mm512_mask_cvtne2ps2bf16(__m512bh C, __mmask32 U, __m512 A, __m512 B) {			__m512bh test_mm512_mask_cvtne2ps2bf16(__m512bh C, __mmask32 U, __m512 A, __m512 B) {
	// CHECK-LABEL: @test_mm512_mask_cvtne2ps2bf16			// CHECK-LABEL: @test_mm512_mask_cvtne2ps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512			// CHECK: @llvm.x86.avx512bf16.cvtne2ps2bf16.512
	// CHECK: select <32 x i1> %{{.}}, <32 x i16> %{{.}}, <32 x i16> %{{.*}}			// CHECK: select <32 x i1> %{{.}}, <32 x bfloat> %{{.}}, <32 x bfloat> %{{.*}}
	// CHECK: ret <32 x i16> %{{.*}}			// CHECK: ret <32 x bfloat> %{{.*}}
	return _mm512_mask_cvtne2ps_pbh(C, U, A, B);			return _mm512_mask_cvtne2ps_pbh(C, U, A, B);
	}			}

	__m128bh test_mm_cvtneps2bf16(__m128 A) {			__m128bh test_mm_cvtneps2bf16(__m128 A) {
	// CHECK-LABEL: @test_mm_cvtneps2bf16			// CHECK-LABEL: @test_mm_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128			// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_cvtneps_pbh(A);			return _mm_cvtneps_pbh(A);
	}			}

	__m128bh test_mm_mask_cvtneps2bf16(__m128bh C, __mmask8 U, __m128 A) {			__m128bh test_mm_mask_cvtneps2bf16(__m128bh C, __mmask8 U, __m128 A) {
	// CHECK-LABEL: @test_mm_mask_cvtneps2bf16			// CHECK-LABEL: @test_mm_mask_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.			// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_mask_cvtneps_pbh(C, U, A);			return _mm_mask_cvtneps_pbh(C, U, A);
	}			}

	__m128bh test_mm_maskz_cvtneps2bf16(__m128 A, __mmask8 U) {			__m128bh test_mm_maskz_cvtneps2bf16(__m128 A, __mmask8 U) {
	// CHECK-LABEL: @test_mm_maskz_cvtneps2bf16			// CHECK-LABEL: @test_mm_maskz_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128			// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm_maskz_cvtneps_pbh(U, A);			return _mm_maskz_cvtneps_pbh(U, A);
	}			}

	__m128bh test_mm256_cvtneps2bf16(__m256 A) {			__m128bh test_mm256_cvtneps2bf16(__m256 A) {
	// CHECK-LABEL: @test_mm256_cvtneps2bf16			// CHECK-LABEL: @test_mm256_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm256_cvtneps_pbh(A);			return _mm256_cvtneps_pbh(A);
	}			}

	__m128bh test_mm256_mask_cvtneps2bf16(__m128bh C, __mmask8 U, __m256 A) {			__m128bh test_mm256_mask_cvtneps2bf16(__m128bh C, __mmask8 U, __m256 A) {
	// CHECK-LABEL: @test_mm256_mask_cvtneps2bf16			// CHECK-LABEL: @test_mm256_mask_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256
	// CHECK: select <8 x i1> %{{.}}, <8 x i16> %{{.}}, <8 x i16> %{{.*}}			// CHECK: select <8 x i1> %{{.}}, <8 x bfloat> %{{.}}, <8 x bfloat> %{{.*}}
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm256_mask_cvtneps_pbh(C, U, A);			return _mm256_mask_cvtneps_pbh(C, U, A);
	}			}

	__m128bh test_mm256_maskz_cvtneps2bf16(__m256 A, __mmask8 U) {			__m128bh test_mm256_maskz_cvtneps2bf16(__m256 A, __mmask8 U) {
	// CHECK-LABEL: @test_mm256_maskz_cvtneps2bf16			// CHECK-LABEL: @test_mm256_maskz_cvtneps2bf16
	// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256			// CHECK: @llvm.x86.avx512bf16.cvtneps2bf16.256
	// CHECK: select <8 x i1> %{{.}}, <8 x i16> %{{.}}, <8 x i16> %{{.*}}			// CHECK: select <8 x i1> %{{.}}, <8 x bfloat> %{{.}}, <8 x bfloat> %{{.*}}
	// CHECK: ret <8 x i16> %{{.*}}			// CHECK: ret <8 x bfloat> %{{.*}}
	return _mm256_maskz_cvtneps_pbh(U, A);			return _mm256_maskz_cvtneps_pbh(U, A);
	}			}

	__m128 test_mm_dpbf16_ps(__m128 D, __m128bh A, __m128bh B) {			__m128 test_mm_dpbf16_ps(__m128 D, __m128bh A, __m128bh B) {
	// CHECK-LABEL: @test_mm_dpbf16_ps			// CHECK-LABEL: @test_mm_dpbf16_ps
	// CHECK: @llvm.x86.avx512bf16.dpbf16ps.128			// CHECK: @llvm.x86.avx512bf16.dpbf16ps.128
	// CHECK: ret <4 x float> %{{.*}}			// CHECK: ret <4 x float> %{{.*}}
	return _mm_dpbf16_ps(D, A, B);			return _mm_dpbf16_ps(D, A, B);
	Show All 32 Lines
	__m256 test_mm256_mask_dpbf16_ps(__m256 D, __m256bh A, __m256bh B, __mmask8 U) {			__m256 test_mm256_mask_dpbf16_ps(__m256 D, __m256bh A, __m256bh B, __mmask8 U) {
	// CHECK-LABEL: @test_mm256_mask_dpbf16_ps			// CHECK-LABEL: @test_mm256_mask_dpbf16_ps
	// CHECK: @llvm.x86.avx512bf16.dpbf16ps.256			// CHECK: @llvm.x86.avx512bf16.dpbf16ps.256
	// CHECK: select <8 x i1> %{{.}}, <8 x float> %{{.}}, <8 x float> %{{.*}}			// CHECK: select <8 x i1> %{{.}}, <8 x float> %{{.}}, <8 x float> %{{.*}}
	// CHECK: ret <8 x float> %{{.*}}			// CHECK: ret <8 x float> %{{.*}}
	return _mm256_mask_dpbf16_ps(D, U, A, B);			return _mm256_mask_dpbf16_ps(D, U, A, B);
	}			}

	__bfloat16 test_mm_cvtness_sbh(float A) {			__bf16 test_mm_cvtness_sbh(float A) {
	// CHECK-LABEL: @test_mm_cvtness_sbh			// CHECK-LABEL: @test_mm_cvtness_sbh
	// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128			// CHECK: @llvm.x86.avx512bf16.mask.cvtneps2bf16.128
	// CHECK: ret i16 %{{.*}}			// CHECK: ret bfloat %{{.*}}
	return _mm_cvtness_sbh(A);			return _mm_cvtness_sbh(A);
	}			}

	__m128 test_mm_cvtpbh_ps(__m128bh A) {			__m128 test_mm_cvtpbh_ps(__m128bh A) {
	// CHECK-LABEL: @test_mm_cvtpbh_ps			// CHECK-LABEL: @test_mm_cvtpbh_ps
	// CHECK: sext <4 x i16> %{{.*}} to <4 x i32>			// CHECK: sext <4 x i16> %{{.*}} to <4 x i32>
	// CHECK: @llvm.x86.sse2.pslli.d			// CHECK: @llvm.x86.sse2.pslli.d
	// CHECK: ret <4 x float> %{{.*}}			// CHECK: ret <4 x float> %{{.*}}
	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/include/llvm/IR/Intrinsics.td

	Show First 20 Lines • Show All 321 Lines • ▼ Show 20 Lines
	def llvm_v2f16_ty : LLVMType<v2f16>; // 2 x half (__fp16)			def llvm_v2f16_ty : LLVMType<v2f16>; // 2 x half (__fp16)
	def llvm_v4f16_ty : LLVMType<v4f16>; // 4 x half (__fp16)			def llvm_v4f16_ty : LLVMType<v4f16>; // 4 x half (__fp16)
	def llvm_v8f16_ty : LLVMType<v8f16>; // 8 x half (__fp16)			def llvm_v8f16_ty : LLVMType<v8f16>; // 8 x half (__fp16)
	def llvm_v16f16_ty : LLVMType<v16f16>; // 16 x half (__fp16)			def llvm_v16f16_ty : LLVMType<v16f16>; // 16 x half (__fp16)
	def llvm_v32f16_ty : LLVMType<v32f16>; // 32 x half (__fp16)			def llvm_v32f16_ty : LLVMType<v32f16>; // 32 x half (__fp16)
	def llvm_v2bf16_ty : LLVMType<v2bf16>; // 2 x bfloat (__bf16)			def llvm_v2bf16_ty : LLVMType<v2bf16>; // 2 x bfloat (__bf16)
	def llvm_v4bf16_ty : LLVMType<v4bf16>; // 4 x bfloat (__bf16)			def llvm_v4bf16_ty : LLVMType<v4bf16>; // 4 x bfloat (__bf16)
	def llvm_v8bf16_ty : LLVMType<v8bf16>; // 8 x bfloat (__bf16)			def llvm_v8bf16_ty : LLVMType<v8bf16>; // 8 x bfloat (__bf16)
				def llvm_v16bf16_ty : LLVMType<v16bf16>; // 16 x bfloat (__bf16)
				def llvm_v32bf16_ty : LLVMType<v32bf16>; // 32 x bfloat (__bf16)
	def llvm_v1f32_ty : LLVMType<v1f32>; // 1 x float			def llvm_v1f32_ty : LLVMType<v1f32>; // 1 x float
	def llvm_v2f32_ty : LLVMType<v2f32>; // 2 x float			def llvm_v2f32_ty : LLVMType<v2f32>; // 2 x float
	def llvm_v3f32_ty : LLVMType<v3f32>; // 3 x float			def llvm_v3f32_ty : LLVMType<v3f32>; // 3 x float
	def llvm_v4f32_ty : LLVMType<v4f32>; // 4 x float			def llvm_v4f32_ty : LLVMType<v4f32>; // 4 x float
	def llvm_v8f32_ty : LLVMType<v8f32>; // 8 x float			def llvm_v8f32_ty : LLVMType<v8f32>; // 8 x float
	def llvm_v16f32_ty : LLVMType<v16f32>; // 16 x float			def llvm_v16f32_ty : LLVMType<v16f32>; // 16 x float
	def llvm_v32f32_ty : LLVMType<v32f32>; // 32 x float			def llvm_v32f32_ty : LLVMType<v32f32>; // 32 x float
	def llvm_v1f64_ty : LLVMType<v1f64>; // 1 x double			def llvm_v1f64_ty : LLVMType<v1f64>; // 1 x double
	▲ Show 20 Lines • Show All 1,799 Lines • Show Last 20 Lines

llvm/include/llvm/IR/IntrinsicsX86.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,895 Lines • ▼ Show 20 Lines
	let TargetPrefix = "x86" in {			let TargetPrefix = "x86" in {
	def int_x86_invpcid : ClangBuiltin<"__builtin_ia32_invpcid">,			def int_x86_invpcid : ClangBuiltin<"__builtin_ia32_invpcid">,
	Intrinsic<[], [llvm_i32_ty, llvm_ptr_ty], []>;			Intrinsic<[], [llvm_i32_ty, llvm_ptr_ty], []>;
	}			}

	let TargetPrefix = "x86" in {			let TargetPrefix = "x86" in {
	def int_x86_avx512bf16_cvtne2ps2bf16_128:			def int_x86_avx512bf16_cvtne2ps2bf16_128:
	ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_128">,			ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_128">,
	Intrinsic<[llvm_v8i16_ty], [llvm_v4f32_ty, llvm_v4f32_ty],			Intrinsic<[llvm_v8bf16_ty], [llvm_v4f32_ty, llvm_v4f32_ty],
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Probably need to upgrade the old intrinsics to new version for IR compatibility or we can keep IR unchanged and just generate bitcast from bfloat16 to i16. LuoYuanke: Probably need to upgrade the old intrinsics to new version for IR compatibility or we can keep…
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Good suggestion! pengfei: Good suggestion!
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_x86_avx512bf16_cvtne2ps2bf16_256:			def int_x86_avx512bf16_cvtne2ps2bf16_256:
	ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_256">,			ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_256">,
	Intrinsic<[llvm_v16i16_ty], [llvm_v8f32_ty, llvm_v8f32_ty],			Intrinsic<[llvm_v16bf16_ty], [llvm_v8f32_ty, llvm_v8f32_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_x86_avx512bf16_cvtne2ps2bf16_512:			def int_x86_avx512bf16_cvtne2ps2bf16_512:
	ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_512">,			ClangBuiltin<"__builtin_ia32_cvtne2ps2bf16_512">,
	Intrinsic<[llvm_v32i16_ty], [llvm_v16f32_ty, llvm_v16f32_ty],			Intrinsic<[llvm_v32bf16_ty], [llvm_v16f32_ty, llvm_v16f32_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	// Intrinsic must be masked due to it producing less than 128 bits of results.			// Intrinsic must be masked due to it producing less than 128 bits of results.
	def int_x86_avx512bf16_mask_cvtneps2bf16_128:			def int_x86_avx512bf16_mask_cvtneps2bf16_128:
	Intrinsic<[llvm_v8i16_ty],			Intrinsic<[llvm_v8bf16_ty],
	[llvm_v4f32_ty, llvm_v8i16_ty, llvm_v4i1_ty],			[llvm_v4f32_ty, llvm_v8bf16_ty, llvm_v4i1_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_x86_avx512bf16_cvtneps2bf16_256:			def int_x86_avx512bf16_cvtneps2bf16_256:
	ClangBuiltin<"__builtin_ia32_cvtneps2bf16_256">,			ClangBuiltin<"__builtin_ia32_cvtneps2bf16_256">,
	Intrinsic<[llvm_v8i16_ty], [llvm_v8f32_ty], [IntrNoMem]>;			Intrinsic<[llvm_v8bf16_ty], [llvm_v8f32_ty], [IntrNoMem]>;
	def int_x86_avx512bf16_cvtneps2bf16_512:			def int_x86_avx512bf16_cvtneps2bf16_512:
	ClangBuiltin<"__builtin_ia32_cvtneps2bf16_512">,			ClangBuiltin<"__builtin_ia32_cvtneps2bf16_512">,
	Intrinsic<[llvm_v16i16_ty], [llvm_v16f32_ty], [IntrNoMem]>;			Intrinsic<[llvm_v16bf16_ty], [llvm_v16f32_ty], [IntrNoMem]>;
	def int_x86_avx512bf16_dpbf16ps_128:			def int_x86_avx512bf16_dpbf16ps_128:
	ClangBuiltin<"__builtin_ia32_dpbf16ps_128">,			ClangBuiltin<"__builtin_ia32_dpbf16ps_128">,
	Intrinsic<[llvm_v4f32_ty],			Intrinsic<[llvm_v4f32_ty],
	[llvm_v4f32_ty, llvm_v4i32_ty, llvm_v4i32_ty], [IntrNoMem]>;			[llvm_v4f32_ty, llvm_v8bf16_ty, llvm_v8bf16_ty], [IntrNoMem]>;
				LuoYuankeUnsubmitted Not Done Reply Inline Actions It seems we still use i32 to represent <2 x bf16>, but we don't have a better way since 1 bit mask cover a pair of bf16 elements. LuoYuanke: It seems we still use i32 to represent <2 x bf16>, but we don't have a better way since 1 bit…
				pengfeiAuthorUnsubmitted Done Reply Inline Actions I think mask is not an issue because both the passthru and dst are <4 x float>. pengfei: I think mask is not an issue because both the passthru and dst are <4 x float>.
	def int_x86_avx512bf16_dpbf16ps_256:			def int_x86_avx512bf16_dpbf16ps_256:
	ClangBuiltin<"__builtin_ia32_dpbf16ps_256">,			ClangBuiltin<"__builtin_ia32_dpbf16ps_256">,
	Intrinsic<[llvm_v8f32_ty],			Intrinsic<[llvm_v8f32_ty],
	[llvm_v8f32_ty, llvm_v8i32_ty, llvm_v8i32_ty], [IntrNoMem]>;			[llvm_v8f32_ty, llvm_v16bf16_ty, llvm_v16bf16_ty], [IntrNoMem]>;
	def int_x86_avx512bf16_dpbf16ps_512:			def int_x86_avx512bf16_dpbf16ps_512:
	ClangBuiltin<"__builtin_ia32_dpbf16ps_512">,			ClangBuiltin<"__builtin_ia32_dpbf16ps_512">,
	Intrinsic<[llvm_v16f32_ty],			Intrinsic<[llvm_v16f32_ty],
	[llvm_v16f32_ty, llvm_v16i32_ty, llvm_v16i32_ty], [IntrNoMem]>;			[llvm_v16f32_ty, llvm_v32bf16_ty, llvm_v32bf16_ty], [IntrNoMem]>;
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// ENQCMD - Enqueue Stores Instructions			// ENQCMD - Enqueue Stores Instructions

	let TargetPrefix = "x86" in {			let TargetPrefix = "x86" in {
	def int_x86_enqcmd : ClangBuiltin<"__builtin_ia32_enqcmd">,			def int_x86_enqcmd : ClangBuiltin<"__builtin_ia32_enqcmd">,
	Intrinsic<[llvm_i8_ty], [llvm_ptr_ty, llvm_ptr_ty], []>;			Intrinsic<[llvm_i8_ty], [llvm_ptr_ty, llvm_ptr_ty], []>;
	▲ Show 20 Lines • Show All 940 Lines • Show Last 20 Lines

llvm/lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	static bool UpgradeX86MaskedFPCompare(Function *F, Intrinsic::ID IID,
if (F->getReturnType()->isVectorTy())		if (F->getReturnType()->isVectorTy())
return false;		return false;

rename(F);		rename(F);
NewFn = Intrinsic::getDeclaration(F->getParent(), IID);		NewFn = Intrinsic::getDeclaration(F->getParent(), IID);
return true;		return true;
}		}

		static bool UpgradeX86BF16Intrinsic(Function *F, Intrinsic::ID IID,
		Function *&NewFn) {
		if (F->getReturnType()->getScalarType()->isBFloatTy())
		return false;

		rename(F);
		NewFn = Intrinsic::getDeclaration(F->getParent(), IID);
		return true;
		}

		static bool UpgradeX86BF16DPIntrinsic(Function *F, Intrinsic::ID IID,
		Function *&NewFn) {
		if (F->getFunctionType()->getParamType(1)->getScalarType()->isBFloatTy())
		return false;

		rename(F);
		NewFn = Intrinsic::getDeclaration(F->getParent(), IID);
		return true;
		}

static bool ShouldUpgradeX86Intrinsic(Function *F, StringRef Name) {		static bool ShouldUpgradeX86Intrinsic(Function *F, StringRef Name) {
// All of the intrinsics matches below should be marked with which llvm		// All of the intrinsics matches below should be marked with which llvm
// version started autoupgrading them. At some point in the future we would		// version started autoupgrading them. At some point in the future we would
// like to use this information to remove upgrade code for some older		// like to use this information to remove upgrade code for some older
// intrinsics. It is currently undecided how we will determine that future		// intrinsics. It is currently undecided how we will determine that future
// point.		// point.
if (Name == "addcarryx.u32" \|\| // Added in 8.0		if (Name == "addcarryx.u32" \|\| // Added in 8.0
Name == "addcarryx.u64" \|\| // Added in 8.0		Name == "addcarryx.u64" \|\| // Added in 8.0
▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines	if (Name == "avx512.mask.cmp.ps.128") // Added in 7.0
return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_128,		return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_128,
NewFn);		NewFn);
if (Name == "avx512.mask.cmp.ps.256") // Added in 7.0		if (Name == "avx512.mask.cmp.ps.256") // Added in 7.0
return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_256,		return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_256,
NewFn);		NewFn);
if (Name == "avx512.mask.cmp.ps.512") // Added in 7.0		if (Name == "avx512.mask.cmp.ps.512") // Added in 7.0
return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_512,		return UpgradeX86MaskedFPCompare(F, Intrinsic::x86_avx512_mask_cmp_ps_512,
NewFn);		NewFn);
		if (Name == "avx512bf16.cvtne2ps2bf16.128") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_cvtne2ps2bf16_128, NewFn);
		if (Name == "avx512bf16.cvtne2ps2bf16.256") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_cvtne2ps2bf16_256, NewFn);
		if (Name == "avx512bf16.cvtne2ps2bf16.512") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_cvtne2ps2bf16_512, NewFn);
		if (Name == "avx512bf16.mask.cvtneps2bf16.128") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_mask_cvtneps2bf16_128, NewFn);
		if (Name == "avx512bf16.cvtneps2bf16.256") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_cvtneps2bf16_256, NewFn);
		if (Name == "avx512bf16.cvtneps2bf16.512") // Added in 9.0
		return UpgradeX86BF16Intrinsic(
		F, Intrinsic::x86_avx512bf16_cvtneps2bf16_512, NewFn);
		if (Name == "avx512bf16.dpbf16ps.128") // Added in 9.0
		return UpgradeX86BF16DPIntrinsic(
		F, Intrinsic::x86_avx512bf16_dpbf16ps_128, NewFn);
		if (Name == "avx512bf16.dpbf16ps.256") // Added in 9.0
		return UpgradeX86BF16DPIntrinsic(
		F, Intrinsic::x86_avx512bf16_dpbf16ps_256, NewFn);
		if (Name == "avx512bf16.dpbf16ps.512") // Added in 9.0
		return UpgradeX86BF16DPIntrinsic(
		F, Intrinsic::x86_avx512bf16_dpbf16ps_512, NewFn);

// frcz.ss/sd may need to have an argument dropped. Added in 3.2		// frcz.ss/sd may need to have an argument dropped. Added in 3.2
if (Name.startswith("xop.vfrcz.ss") && F->arg_size() == 2) {		if (Name.startswith("xop.vfrcz.ss") && F->arg_size() == 2) {
rename(F);		rename(F);
NewFn = Intrinsic::getDeclaration(F->getParent(),		NewFn = Intrinsic::getDeclaration(F->getParent(),
Intrinsic::x86_xop_vfrcz_ss);		Intrinsic::x86_xop_vfrcz_ss);
return true;		return true;
}		}
▲ Show 20 Lines • Show All 3,666 Lines • ▼ Show 20 Lines	case Intrinsic::x86_avx512_mask_cmp_ps_512: {
Value *Res = ApplyX86MaskOn1BitsVec(Builder, NewCall, nullptr);		Value *Res = ApplyX86MaskOn1BitsVec(Builder, NewCall, nullptr);

NewCall->takeName(CI);		NewCall->takeName(CI);
CI->replaceAllUsesWith(Res);		CI->replaceAllUsesWith(Res);
CI->eraseFromParent();		CI->eraseFromParent();
return;		return;
}		}

		case Intrinsic::x86_avx512bf16_cvtne2ps2bf16_128:
		case Intrinsic::x86_avx512bf16_cvtne2ps2bf16_256:
		case Intrinsic::x86_avx512bf16_cvtne2ps2bf16_512:
		case Intrinsic::x86_avx512bf16_mask_cvtneps2bf16_128:
		case Intrinsic::x86_avx512bf16_cvtneps2bf16_256:
		case Intrinsic::x86_avx512bf16_cvtneps2bf16_512: {
		SmallVector<Value *, 4> Args(CI->args());
		unsigned NumElts = cast<FixedVectorType>(CI->getType())->getNumElements();
		if (NewFn->getIntrinsicID() ==
		Intrinsic::x86_avx512bf16_mask_cvtneps2bf16_128)
		Args[1] = Builder.CreateBitCast(
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why there is no bitcast for the input for the other intrinsics? I expect to see the bitcast from vXi16 to vXbf16. LuoYuanke: Why there is no bitcast for the input for the other intrinsics? I expect to see the bitcast…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Others don't have vXbf16 in inputs. pengfei: Others don't have vXbf16 in inputs.
		Args[1], FixedVectorType::get(Builder.getBFloatTy(), NumElts));

		NewCall = Builder.CreateCall(NewFn, Args);
		Value *Res = Builder.CreateBitCast(
		NewCall, FixedVectorType::get(Builder.getInt16Ty(), NumElts));

		NewCall->takeName(CI);
		CI->replaceAllUsesWith(Res);
		CI->eraseFromParent();
		return;
		}
		case Intrinsic::x86_avx512bf16_dpbf16ps_128:
		case Intrinsic::x86_avx512bf16_dpbf16ps_256:
		case Intrinsic::x86_avx512bf16_dpbf16ps_512:{
		SmallVector<Value *, 4> Args(CI->args());
		unsigned NumElts =
		cast<FixedVectorType>(CI->getType())->getNumElements() * 2;
		Args[1] = Builder.CreateBitCast(
		Args[1], FixedVectorType::get(Builder.getBFloatTy(), NumElts));
		Args[2] = Builder.CreateBitCast(
		Args[2], FixedVectorType::get(Builder.getBFloatTy(), NumElts));

		NewCall = Builder.CreateCall(NewFn, Args);
		break;
		}

case Intrinsic::thread_pointer: {		case Intrinsic::thread_pointer: {
NewCall = Builder.CreateCall(NewFn, {});		NewCall = Builder.CreateCall(NewFn, {});
break;		break;
}		}

case Intrinsic::invariant_start:		case Intrinsic::invariant_start:
case Intrinsic::invariant_end: {		case Intrinsic::invariant_end: {
SmallVector<Value *, 4> Args(CI->args());		SmallVector<Value *, 4> Args(CI->args());
▲ Show 20 Lines • Show All 650 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,172 Lines • ▼ Show 20 Lines	if (Subtarget.hasVLX()) {
setLoadExtAction(ISD::EXTLOAD, MVT::v4f32, MVT::v4f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v4f32, MVT::v4f16, Legal);

// Need to custom widen these to prevent scalarization.		// Need to custom widen these to prevent scalarization.
setOperationAction(ISD::LOAD, MVT::v4f16, Custom);		setOperationAction(ISD::LOAD, MVT::v4f16, Custom);
setOperationAction(ISD::STORE, MVT::v4f16, Custom);		setOperationAction(ISD::STORE, MVT::v4f16, Custom);
}		}
}		}

		if (!Subtarget.useSoftFloat() && Subtarget.hasBF16()) {
		addRegisterClass(MVT::v8bf16, &X86::VR128XRegClass);
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Not sure about this. Does it make bf16 legal type? LuoYuanke: Not sure about this. Does it make bf16 legal type?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Good catch! I made it legal to lower `BUILD_VECTOR`. But yes, it results in the scalar lowering failing with AVX512BF16. I fixed the problem by adding customized code. It works for both scalar lowering and AVX512BF16 intrinsics lowering now. pengfei: Good catch! I made it legal to lower `BUILD_VECTOR`. But yes, it results in the scalar lowering…
		addRegisterClass(MVT::v16bf16, &X86::VR256XRegClass);
		addRegisterClass(MVT::v32bf16, &X86::VR512RegClass);
		// We set the type action of bf16 to TypeSoftPromoteHalf, but we don't
		RKSimonUnsubmitted Not Done Reply Inline Actions Isn't MVT::bf16 scalar? RKSimon: Isn't MVT::bf16 scalar?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Yes, when legalize the source operand, the legalizer gets action as the type action, i.e., `TypeSoftPromoteHalf`. However, we don't provide methods to handle any vector actions in soft promote. So we need to set it `Custom` here to do the customization. pengfei: Yes, when legalize the source operand, the legalizer gets action as the type action, i.e.
		RKSimonUnsubmitted Done Reply Inline Actions OK - please can you add a short comment explaining that RKSimon: OK - please can you add a short comment explaining that
		// provide the method to promote BUILD_VECTOR. Set the operation action
		// Custom to do the customization later.
		setOperationAction(ISD::BUILD_VECTOR, MVT::bf16, Custom);
		for (auto VT : { MVT::v8bf16, MVT::v16bf16, MVT::v32bf16 }) {
		setF16Action(VT, Expand);
		setOperationAction(ISD::FADD, VT, Expand);
		setOperationAction(ISD::FSUB, VT, Expand);
		setOperationAction(ISD::FMUL, VT, Expand);
		setOperationAction(ISD::FDIV, VT, Expand);
		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
		}
		addLegalFPImmediate(APFloat::getZero(APFloat::BFloat()));
		}

if (!Subtarget.useSoftFloat() && Subtarget.hasVLX()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasVLX()) {
setTruncStoreAction(MVT::v4i64, MVT::v4i8, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i8, Legal);
setTruncStoreAction(MVT::v4i64, MVT::v4i16, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i16, Legal);
setTruncStoreAction(MVT::v4i64, MVT::v4i32, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i32, Legal);
setTruncStoreAction(MVT::v8i32, MVT::v8i8, Legal);		setTruncStoreAction(MVT::v8i32, MVT::v8i8, Legal);
setTruncStoreAction(MVT::v8i32, MVT::v8i16, Legal);		setTruncStoreAction(MVT::v8i32, MVT::v8i16, Legal);

setTruncStoreAction(MVT::v2i64, MVT::v2i8, Legal);		setTruncStoreAction(MVT::v2i64, MVT::v2i8, Legal);
▲ Show 20 Lines • Show All 7,727 Lines • ▼ Show 20 Lines	static SDValue buildFromShuffleMostly(SDValue Op, SelectionDAG &DAG) {

for (unsigned Idx : InsertIndices)		for (unsigned Idx : InsertIndices)
NV = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, VT, NV, Op.getOperand(Idx),		NV = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, VT, NV, Op.getOperand(Idx),
DAG.getIntPtrConstant(Idx, DL));		DAG.getIntPtrConstant(Idx, DL));

return NV;		return NV;
}		}

		// Lower BUILD_VECTOR operation for v8bf16, v16bf16 and v32bf16 types.
		static SDValue LowerBUILD_VECTORvXbf16(SDValue Op, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		MVT VT = Op.getSimpleValueType();
		MVT IVT = VT.changeVectorElementTypeToInteger();
		SmallVector<SDValue, 16> NewOps;
		for (unsigned I = 0, E = Op.getNumOperands(); I != E; ++I)
		NewOps.push_back(DAG.getBitcast(MVT::i16, Op.getOperand(I)));
		SDValue Res = DAG.getNode(ISD::BUILD_VECTOR, SDLoc(), IVT, NewOps);
		return DAG.getBitcast(VT, Res);
		}

// Lower BUILD_VECTOR operation for v8i1 and v16i1 types.		// Lower BUILD_VECTOR operation for v8i1 and v16i1 types.
static SDValue LowerBUILD_VECTORvXi1(SDValue Op, SelectionDAG &DAG,		static SDValue LowerBUILD_VECTORvXi1(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {

MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
assert((VT.getVectorElementType() == MVT::i1) &&		assert((VT.getVectorElementType() == MVT::i1) &&
"Unexpected type in LowerBUILD_VECTORvXi1!");		"Unexpected type in LowerBUILD_VECTORvXi1!");

▲ Show 20 Lines • Show All 1,138 Lines • ▼ Show 20 Lines	X86TargetLowering::LowerBUILD_VECTOR(SDValue Op, SelectionDAG &DAG) const {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
MVT EltVT = VT.getVectorElementType();		MVT EltVT = VT.getVectorElementType();
unsigned NumElems = Op.getNumOperands();		unsigned NumElems = Op.getNumOperands();

// Generate vectors for predicate vectors.		// Generate vectors for predicate vectors.
if (VT.getVectorElementType() == MVT::i1 && Subtarget.hasAVX512())		if (VT.getVectorElementType() == MVT::i1 && Subtarget.hasAVX512())
return LowerBUILD_VECTORvXi1(Op, DAG, Subtarget);		return LowerBUILD_VECTORvXi1(Op, DAG, Subtarget);

		if (VT.getVectorElementType() == MVT::bf16 && Subtarget.hasBF16())
		return LowerBUILD_VECTORvXbf16(Op, DAG, Subtarget);

if (SDValue VectorConstant = materializeVectorConstant(Op, DAG, Subtarget))		if (SDValue VectorConstant = materializeVectorConstant(Op, DAG, Subtarget))
return VectorConstant;		return VectorConstant;

unsigned EVTBits = EltVT.getSizeInBits();		unsigned EVTBits = EltVT.getSizeInBits();
APInt UndefMask = APInt::getZero(NumElems);		APInt UndefMask = APInt::getZero(NumElems);
APInt ZeroMask = APInt::getZero(NumElems);		APInt ZeroMask = APInt::getZero(NumElems);
APInt NonZeroMask = APInt::getZero(NumElems);		APInt NonZeroMask = APInt::getZero(NumElems);
bool IsAllConstants = true;		bool IsAllConstants = true;
▲ Show 20 Lines • Show All 45,809 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	string VTName = "v" # !if (!eq (NumElts, 1),
!if (!eq (EltVT.Size, 32), 4,		!if (!eq (EltVT.Size, 32), 4,
!if (!eq (EltVT.Size, 64), 2, NumElts))), NumElts) # EltVT;		!if (!eq (EltVT.Size, 64), 2, NumElts))), NumElts) # EltVT;

// The vector VT.		// The vector VT.
ValueType VT = !cast<ValueType>(VTName);		ValueType VT = !cast<ValueType>(VTName);

string EltTypeName = !cast<string>(EltVT);		string EltTypeName = !cast<string>(EltVT);
// Size of the element type in bits, e.g. 32 for v16i32.		// Size of the element type in bits, e.g. 32 for v16i32.
string EltSizeName = !subst("i", "", !subst("f", "", EltTypeName));		string EltSizeName = !subst("i", "", !subst("f", "", !subst("b", "", EltTypeName)));
int EltSize = EltVT.Size;		int EltSize = EltVT.Size;

// "i" for integer types and "f" for floating-point types		// "i" for integer types and "f" for floating-point types
string TypeVariantName = !subst(EltSizeName, "", EltTypeName);		string TypeVariantName = !subst("b", "", !subst(EltSizeName, "", EltTypeName));

// Size of RC in bits, e.g. 512 for VR512.		// Size of RC in bits, e.g. 512 for VR512.
int Size = VT.Size;		int Size = VT.Size;

// The corresponding memory operand, e.g. i512mem for VR512.		// The corresponding memory operand, e.g. i512mem for VR512.
X86MemOperand MemOp = !cast<X86MemOperand>(TypeVariantName # Size # "mem");		X86MemOperand MemOp = !cast<X86MemOperand>(TypeVariantName # Size # "mem");
X86MemOperand ScalarMemOp = !cast<X86MemOperand>(EltVT # "mem");		X86MemOperand ScalarMemOp = !cast<X86MemOperand>(!subst("b", "", EltTypeName) # "mem");
// FP scalar memory operand for intrinsics - ssmem/sdmem.		// FP scalar memory operand for intrinsics - ssmem/sdmem.
Operand IntScalarMemOp = !if (!eq (EltTypeName, "f16"), !cast<Operand>("shmem"),		Operand IntScalarMemOp = !if (!eq (EltTypeName, "f16"), !cast<Operand>("shmem"),
		!if (!eq (EltTypeName, "bf16"), !cast<Operand>("shmem"),
!if (!eq (EltTypeName, "f32"), !cast<Operand>("ssmem"),		!if (!eq (EltTypeName, "f32"), !cast<Operand>("ssmem"),
!if (!eq (EltTypeName, "f64"), !cast<Operand>("sdmem"), ?)));		!if (!eq (EltTypeName, "f64"), !cast<Operand>("sdmem"), ?))));

// Load patterns		// Load patterns
PatFrag LdFrag = !cast<PatFrag>("load" # VTName);		PatFrag LdFrag = !cast<PatFrag>("load" # VTName);

PatFrag AlignedLdFrag = !cast<PatFrag>("alignedload" # VTName);		PatFrag AlignedLdFrag = !cast<PatFrag>("alignedload" # VTName);

PatFrag ScalarLdFrag = !cast<PatFrag>("load" # EltVT);		PatFrag ScalarLdFrag = !cast<PatFrag>("load" # !subst("b", "", EltTypeName));
PatFrag BroadcastLdFrag = !cast<PatFrag>("X86VBroadcastld" # EltSizeName);		PatFrag BroadcastLdFrag = !cast<PatFrag>("X86VBroadcastld" # EltSizeName);

PatFrags ScalarIntMemFrags = !if (!eq (EltTypeName, "f16"), !cast<PatFrags>("sse_load_f16"),		PatFrags ScalarIntMemFrags = !if (!eq (EltTypeName, "f16"), !cast<PatFrags>("sse_load_f16"),
		!if (!eq (EltTypeName, "bf16"), !cast<PatFrags>("sse_load_f16"),
!if (!eq (EltTypeName, "f32"), !cast<PatFrags>("sse_load_f32"),		!if (!eq (EltTypeName, "f32"), !cast<PatFrags>("sse_load_f32"),
!if (!eq (EltTypeName, "f64"), !cast<PatFrags>("sse_load_f64"), ?)));		!if (!eq (EltTypeName, "f64"), !cast<PatFrags>("sse_load_f64"), ?))));

// The string to specify embedded broadcast in assembly.		// The string to specify embedded broadcast in assembly.
string BroadcastStr = "{1to" # NumElts # "}";		string BroadcastStr = "{1to" # NumElts # "}";

// 8-bit compressed displacement tuple/subvector format. This is only		// 8-bit compressed displacement tuple/subvector format. This is only
// defined for NumElts <= 8.		// defined for NumElts <= 8.
CD8VForm CD8TupleForm = !if (!eq (!srl(NumElts, 4), 0),		CD8VForm CD8TupleForm = !if (!eq (!srl(NumElts, 4), 0),
!cast<CD8VForm>("CD8VT" # NumElts), ?);		!cast<CD8VForm>("CD8VT" # NumElts), ?);

SubRegIndex SubRegIdx = !if (!eq (Size, 128), sub_xmm,		SubRegIndex SubRegIdx = !if (!eq (Size, 128), sub_xmm,
!if (!eq (Size, 256), sub_ymm, ?));		!if (!eq (Size, 256), sub_ymm, ?));

Domain ExeDomain = !if (!eq (EltTypeName, "f32"), SSEPackedSingle,		Domain ExeDomain = !if (!eq (EltTypeName, "f32"), SSEPackedSingle,
!if (!eq (EltTypeName, "f64"), SSEPackedDouble,		!if (!eq (EltTypeName, "f64"), SSEPackedDouble,
!if (!eq (EltTypeName, "f16"), SSEPackedSingle, // FIXME?		!if (!eq (EltTypeName, "f16"), SSEPackedSingle, // FIXME?
SSEPackedInt)));		!if (!eq (EltTypeName, "bf16"), SSEPackedSingle, // FIXME?
		SSEPackedInt))));

RegisterClass FRC = !if (!eq (EltTypeName, "f32"), FR32X,		RegisterClass FRC = !if (!eq (EltTypeName, "f32"), FR32X,
!if (!eq (EltTypeName, "f16"), FR16X,		!if (!eq (EltTypeName, "f16"), FR16X,
FR64X));		!if (!eq (EltTypeName, "bf16"), FR16X,
		FR64X)));

dag ImmAllZerosV = (VT immAllZerosV);		dag ImmAllZerosV = (VT immAllZerosV);

string ZSuffix = !if (!eq (Size, 128), "Z128",		string ZSuffix = !if (!eq (Size, 128), "Z128",
!if (!eq (Size, 256), "Z256", "Z"));		!if (!eq (Size, 256), "Z256", "Z"));
}		}

def v64i8_info : X86VectorVTInfo<64, i8, VR512, "b">;		def v64i8_info : X86VectorVTInfo<64, i8, VR512, "b">;
def v32i16_info : X86VectorVTInfo<32, i16, VR512, "w">;		def v32i16_info : X86VectorVTInfo<32, i16, VR512, "w">;
def v16i32_info : X86VectorVTInfo<16, i32, VR512, "d">;		def v16i32_info : X86VectorVTInfo<16, i32, VR512, "d">;
def v8i64_info : X86VectorVTInfo<8, i64, VR512, "q">;		def v8i64_info : X86VectorVTInfo<8, i64, VR512, "q">;
def v32f16_info : X86VectorVTInfo<32, f16, VR512, "ph">;		def v32f16_info : X86VectorVTInfo<32, f16, VR512, "ph">;
		def v32bf16_info: X86VectorVTInfo<32, bf16, VR512, "pbf">;
def v16f32_info : X86VectorVTInfo<16, f32, VR512, "ps">;		def v16f32_info : X86VectorVTInfo<16, f32, VR512, "ps">;
def v8f64_info : X86VectorVTInfo<8, f64, VR512, "pd">;		def v8f64_info : X86VectorVTInfo<8, f64, VR512, "pd">;

// "x" in v32i8x_info means RC = VR256X		// "x" in v32i8x_info means RC = VR256X
def v32i8x_info : X86VectorVTInfo<32, i8, VR256X, "b">;		def v32i8x_info : X86VectorVTInfo<32, i8, VR256X, "b">;
def v16i16x_info : X86VectorVTInfo<16, i16, VR256X, "w">;		def v16i16x_info : X86VectorVTInfo<16, i16, VR256X, "w">;
def v8i32x_info : X86VectorVTInfo<8, i32, VR256X, "d">;		def v8i32x_info : X86VectorVTInfo<8, i32, VR256X, "d">;
def v4i64x_info : X86VectorVTInfo<4, i64, VR256X, "q">;		def v4i64x_info : X86VectorVTInfo<4, i64, VR256X, "q">;
def v16f16x_info : X86VectorVTInfo<16, f16, VR256X, "ph">;		def v16f16x_info : X86VectorVTInfo<16, f16, VR256X, "ph">;
		def v16bf16x_info: X86VectorVTInfo<16, bf16, VR256X, "pbf">;
def v8f32x_info : X86VectorVTInfo<8, f32, VR256X, "ps">;		def v8f32x_info : X86VectorVTInfo<8, f32, VR256X, "ps">;
def v4f64x_info : X86VectorVTInfo<4, f64, VR256X, "pd">;		def v4f64x_info : X86VectorVTInfo<4, f64, VR256X, "pd">;

def v16i8x_info : X86VectorVTInfo<16, i8, VR128X, "b">;		def v16i8x_info : X86VectorVTInfo<16, i8, VR128X, "b">;
def v8i16x_info : X86VectorVTInfo<8, i16, VR128X, "w">;		def v8i16x_info : X86VectorVTInfo<8, i16, VR128X, "w">;
def v4i32x_info : X86VectorVTInfo<4, i32, VR128X, "d">;		def v4i32x_info : X86VectorVTInfo<4, i32, VR128X, "d">;
def v2i64x_info : X86VectorVTInfo<2, i64, VR128X, "q">;		def v2i64x_info : X86VectorVTInfo<2, i64, VR128X, "q">;
def v8f16x_info : X86VectorVTInfo<8, f16, VR128X, "ph">;		def v8f16x_info : X86VectorVTInfo<8, f16, VR128X, "ph">;
		def v8bf16x_info : X86VectorVTInfo<8, bf16, VR128X, "pbf">;
def v4f32x_info : X86VectorVTInfo<4, f32, VR128X, "ps">;		def v4f32x_info : X86VectorVTInfo<4, f32, VR128X, "ps">;
def v2f64x_info : X86VectorVTInfo<2, f64, VR128X, "pd">;		def v2f64x_info : X86VectorVTInfo<2, f64, VR128X, "pd">;

// We map scalar types to the smallest (128-bit) vector type		// We map scalar types to the smallest (128-bit) vector type
// with the appropriate element type. This allows to use the same masking logic.		// with the appropriate element type. This allows to use the same masking logic.
def i32x_info : X86VectorVTInfo<1, i32, GR32, "si">;		def i32x_info : X86VectorVTInfo<1, i32, GR32, "si">;
def i64x_info : X86VectorVTInfo<1, i64, GR64, "sq">;		def i64x_info : X86VectorVTInfo<1, i64, GR64, "sq">;
def f16x_info : X86VectorVTInfo<1, f16, VR128X, "sh">;		def f16x_info : X86VectorVTInfo<1, f16, VR128X, "sh">;
		def bf16x_info : X86VectorVTInfo<1, bf16, VR128X, "sbf">;
def f32x_info : X86VectorVTInfo<1, f32, VR128X, "ss">;		def f32x_info : X86VectorVTInfo<1, f32, VR128X, "ss">;
def f64x_info : X86VectorVTInfo<1, f64, VR128X, "sd">;		def f64x_info : X86VectorVTInfo<1, f64, VR128X, "sd">;

class AVX512VLVectorVTInfo<X86VectorVTInfo i512, X86VectorVTInfo i256,		class AVX512VLVectorVTInfo<X86VectorVTInfo i512, X86VectorVTInfo i256,
X86VectorVTInfo i128> {		X86VectorVTInfo i128> {
X86VectorVTInfo info512 = i512;		X86VectorVTInfo info512 = i512;
X86VectorVTInfo info256 = i256;		X86VectorVTInfo info256 = i256;
X86VectorVTInfo info128 = i128;		X86VectorVTInfo info128 = i128;
}		}

def avx512vl_i8_info : AVX512VLVectorVTInfo<v64i8_info, v32i8x_info,		def avx512vl_i8_info : AVX512VLVectorVTInfo<v64i8_info, v32i8x_info,
v16i8x_info>;		v16i8x_info>;
def avx512vl_i16_info : AVX512VLVectorVTInfo<v32i16_info, v16i16x_info,		def avx512vl_i16_info : AVX512VLVectorVTInfo<v32i16_info, v16i16x_info,
v8i16x_info>;		v8i16x_info>;
def avx512vl_i32_info : AVX512VLVectorVTInfo<v16i32_info, v8i32x_info,		def avx512vl_i32_info : AVX512VLVectorVTInfo<v16i32_info, v8i32x_info,
v4i32x_info>;		v4i32x_info>;
def avx512vl_i64_info : AVX512VLVectorVTInfo<v8i64_info, v4i64x_info,		def avx512vl_i64_info : AVX512VLVectorVTInfo<v8i64_info, v4i64x_info,
v2i64x_info>;		v2i64x_info>;
def avx512vl_f16_info : AVX512VLVectorVTInfo<v32f16_info, v16f16x_info,		def avx512vl_f16_info : AVX512VLVectorVTInfo<v32f16_info, v16f16x_info,
v8f16x_info>;		v8f16x_info>;
		def avx512vl_bf16_info : AVX512VLVectorVTInfo<v32bf16_info, v16bf16x_info,
		v8bf16x_info>;
def avx512vl_f32_info : AVX512VLVectorVTInfo<v16f32_info, v8f32x_info,		def avx512vl_f32_info : AVX512VLVectorVTInfo<v16f32_info, v8f32x_info,
v4f32x_info>;		v4f32x_info>;
def avx512vl_f64_info : AVX512VLVectorVTInfo<v8f64_info, v4f64x_info,		def avx512vl_f64_info : AVX512VLVectorVTInfo<v8f64_info, v4f64x_info,
v2f64x_info>;		v2f64x_info>;

class X86KVectorVTInfo<RegisterClass _krc, RegisterClass _krcwm,		class X86KVectorVTInfo<RegisterClass _krc, RegisterClass _krcwm,
ValueType _vt> {		ValueType _vt> {
RegisterClass KRC = _krc;		RegisterClass KRC = _krc;
▲ Show 20 Lines • Show All 3,587 Lines • ▼ Show 20 Lines	let Predicates = [HasBWI, NoVLX] in {
defm : mask_move_lowering<"VMOVDQU8Z", v16i8x_info, v64i8_info>;		defm : mask_move_lowering<"VMOVDQU8Z", v16i8x_info, v64i8_info>;
defm : mask_move_lowering<"VMOVDQU8Z", v32i8x_info, v64i8_info>;		defm : mask_move_lowering<"VMOVDQU8Z", v32i8x_info, v64i8_info>;

defm : mask_move_lowering<"VMOVDQU16Z", v8i16x_info, v32i16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v8i16x_info, v32i16_info>;
defm : mask_move_lowering<"VMOVDQU16Z", v16i16x_info, v32i16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v16i16x_info, v32i16_info>;

defm : mask_move_lowering<"VMOVDQU16Z", v8f16x_info, v32f16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v8f16x_info, v32f16_info>;
defm : mask_move_lowering<"VMOVDQU16Z", v16f16x_info, v32f16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v16f16x_info, v32f16_info>;

		defm : mask_move_lowering<"VMOVDQU16Z", v8bf16x_info, v32bf16_info>;
		defm : mask_move_lowering<"VMOVDQU16Z", v16bf16x_info, v32bf16_info>;
}		}

let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
// 512-bit load.		// 512-bit load.
def : Pat<(alignedloadv16i32 addr:$src),		def : Pat<(alignedloadv16i32 addr:$src),
(VMOVDQA64Zrm addr:$src)>;		(VMOVDQA64Zrm addr:$src)>;
def : Pat<(alignedloadv32i16 addr:$src),		def : Pat<(alignedloadv32i16 addr:$src),
(VMOVDQA64Zrm addr:$src)>;		(VMOVDQA64Zrm addr:$src)>;
def : Pat<(alignedloadv32f16 addr:$src),		def : Pat<(alignedloadv32f16 addr:$src),
(VMOVAPSZrm addr:$src)>;		(VMOVAPSZrm addr:$src)>;
		def : Pat<(alignedloadv32bf16 addr:$src),
		(VMOVAPSZrm addr:$src)>;
def : Pat<(alignedloadv64i8 addr:$src),		def : Pat<(alignedloadv64i8 addr:$src),
(VMOVDQA64Zrm addr:$src)>;		(VMOVDQA64Zrm addr:$src)>;
def : Pat<(loadv16i32 addr:$src),		def : Pat<(loadv16i32 addr:$src),
(VMOVDQU64Zrm addr:$src)>;		(VMOVDQU64Zrm addr:$src)>;
def : Pat<(loadv32i16 addr:$src),		def : Pat<(loadv32i16 addr:$src),
(VMOVDQU64Zrm addr:$src)>;		(VMOVDQU64Zrm addr:$src)>;
def : Pat<(loadv32f16 addr:$src),		def : Pat<(loadv32f16 addr:$src),
(VMOVUPSZrm addr:$src)>;		(VMOVUPSZrm addr:$src)>;
		def : Pat<(loadv32bf16 addr:$src),
		(VMOVUPSZrm addr:$src)>;
def : Pat<(loadv64i8 addr:$src),		def : Pat<(loadv64i8 addr:$src),
(VMOVDQU64Zrm addr:$src)>;		(VMOVDQU64Zrm addr:$src)>;

// 512-bit store.		// 512-bit store.
def : Pat<(alignedstore (v16i32 VR512:$src), addr:$dst),		def : Pat<(alignedstore (v16i32 VR512:$src), addr:$dst),
(VMOVDQA64Zmr addr:$dst, VR512:$src)>;		(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
def : Pat<(alignedstore (v32i16 VR512:$src), addr:$dst),		def : Pat<(alignedstore (v32i16 VR512:$src), addr:$dst),
(VMOVDQA64Zmr addr:$dst, VR512:$src)>;		(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),		def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),
(VMOVAPSZmr addr:$dst, VR512:$src)>;		(VMOVAPSZmr addr:$dst, VR512:$src)>;
		def : Pat<(alignedstore (v32bf16 VR512:$src), addr:$dst),
		(VMOVAPSZmr addr:$dst, VR512:$src)>;
def : Pat<(alignedstore (v64i8 VR512:$src), addr:$dst),		def : Pat<(alignedstore (v64i8 VR512:$src), addr:$dst),
(VMOVDQA64Zmr addr:$dst, VR512:$src)>;		(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
def : Pat<(store (v16i32 VR512:$src), addr:$dst),		def : Pat<(store (v16i32 VR512:$src), addr:$dst),
(VMOVDQU64Zmr addr:$dst, VR512:$src)>;		(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
def : Pat<(store (v32i16 VR512:$src), addr:$dst),		def : Pat<(store (v32i16 VR512:$src), addr:$dst),
(VMOVDQU64Zmr addr:$dst, VR512:$src)>;		(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
def : Pat<(store (v32f16 VR512:$src), addr:$dst),		def : Pat<(store (v32f16 VR512:$src), addr:$dst),
(VMOVUPSZmr addr:$dst, VR512:$src)>;		(VMOVUPSZmr addr:$dst, VR512:$src)>;
		def : Pat<(store (v32bf16 VR512:$src), addr:$dst),
		(VMOVUPSZmr addr:$dst, VR512:$src)>;
def : Pat<(store (v64i8 VR512:$src), addr:$dst),		def : Pat<(store (v64i8 VR512:$src), addr:$dst),
(VMOVDQU64Zmr addr:$dst, VR512:$src)>;		(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
}		}

let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
// 128-bit load.		// 128-bit load.
def : Pat<(alignedloadv4i32 addr:$src),		def : Pat<(alignedloadv4i32 addr:$src),
(VMOVDQA64Z128rm addr:$src)>;		(VMOVDQA64Z128rm addr:$src)>;
def : Pat<(alignedloadv8i16 addr:$src),		def : Pat<(alignedloadv8i16 addr:$src),
(VMOVDQA64Z128rm addr:$src)>;		(VMOVDQA64Z128rm addr:$src)>;
def : Pat<(alignedloadv8f16 addr:$src),		def : Pat<(alignedloadv8f16 addr:$src),
(VMOVAPSZ128rm addr:$src)>;		(VMOVAPSZ128rm addr:$src)>;
		def : Pat<(alignedloadv8bf16 addr:$src),
		(VMOVAPSZ128rm addr:$src)>;
def : Pat<(alignedloadv16i8 addr:$src),		def : Pat<(alignedloadv16i8 addr:$src),
(VMOVDQA64Z128rm addr:$src)>;		(VMOVDQA64Z128rm addr:$src)>;
def : Pat<(loadv4i32 addr:$src),		def : Pat<(loadv4i32 addr:$src),
(VMOVDQU64Z128rm addr:$src)>;		(VMOVDQU64Z128rm addr:$src)>;
def : Pat<(loadv8i16 addr:$src),		def : Pat<(loadv8i16 addr:$src),
(VMOVDQU64Z128rm addr:$src)>;		(VMOVDQU64Z128rm addr:$src)>;
def : Pat<(loadv8f16 addr:$src),		def : Pat<(loadv8f16 addr:$src),
(VMOVUPSZ128rm addr:$src)>;		(VMOVUPSZ128rm addr:$src)>;
		def : Pat<(loadv8bf16 addr:$src),
		(VMOVUPSZ128rm addr:$src)>;
def : Pat<(loadv16i8 addr:$src),		def : Pat<(loadv16i8 addr:$src),
(VMOVDQU64Z128rm addr:$src)>;		(VMOVDQU64Z128rm addr:$src)>;

// 128-bit store.		// 128-bit store.
def : Pat<(alignedstore (v4i32 VR128X:$src), addr:$dst),		def : Pat<(alignedstore (v4i32 VR128X:$src), addr:$dst),
(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
def : Pat<(alignedstore (v8i16 VR128X:$src), addr:$dst),		def : Pat<(alignedstore (v8i16 VR128X:$src), addr:$dst),
(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
def : Pat<(alignedstore (v8f16 VR128X:$src), addr:$dst),		def : Pat<(alignedstore (v8f16 VR128X:$src), addr:$dst),
(VMOVAPSZ128mr addr:$dst, VR128X:$src)>;		(VMOVAPSZ128mr addr:$dst, VR128X:$src)>;
		def : Pat<(alignedstore (v8bf16 VR128X:$src), addr:$dst),
		(VMOVAPSZ128mr addr:$dst, VR128X:$src)>;
def : Pat<(alignedstore (v16i8 VR128X:$src), addr:$dst),		def : Pat<(alignedstore (v16i8 VR128X:$src), addr:$dst),
(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
def : Pat<(store (v4i32 VR128X:$src), addr:$dst),		def : Pat<(store (v4i32 VR128X:$src), addr:$dst),
(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;
def : Pat<(store (v8i16 VR128X:$src), addr:$dst),		def : Pat<(store (v8i16 VR128X:$src), addr:$dst),
(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;
def : Pat<(store (v8f16 VR128X:$src), addr:$dst),		def : Pat<(store (v8f16 VR128X:$src), addr:$dst),
(VMOVUPSZ128mr addr:$dst, VR128X:$src)>;		(VMOVUPSZ128mr addr:$dst, VR128X:$src)>;
		def : Pat<(store (v8bf16 VR128X:$src), addr:$dst),
		(VMOVUPSZ128mr addr:$dst, VR128X:$src)>;
def : Pat<(store (v16i8 VR128X:$src), addr:$dst),		def : Pat<(store (v16i8 VR128X:$src), addr:$dst),
(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;		(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;

// 256-bit load.		// 256-bit load.
def : Pat<(alignedloadv8i32 addr:$src),		def : Pat<(alignedloadv8i32 addr:$src),
(VMOVDQA64Z256rm addr:$src)>;		(VMOVDQA64Z256rm addr:$src)>;
def : Pat<(alignedloadv16i16 addr:$src),		def : Pat<(alignedloadv16i16 addr:$src),
(VMOVDQA64Z256rm addr:$src)>;		(VMOVDQA64Z256rm addr:$src)>;
def : Pat<(alignedloadv16f16 addr:$src),		def : Pat<(alignedloadv16f16 addr:$src),
(VMOVAPSZ256rm addr:$src)>;		(VMOVAPSZ256rm addr:$src)>;
		def : Pat<(alignedloadv16bf16 addr:$src),
		(VMOVAPSZ256rm addr:$src)>;
def : Pat<(alignedloadv32i8 addr:$src),		def : Pat<(alignedloadv32i8 addr:$src),
(VMOVDQA64Z256rm addr:$src)>;		(VMOVDQA64Z256rm addr:$src)>;
def : Pat<(loadv8i32 addr:$src),		def : Pat<(loadv8i32 addr:$src),
(VMOVDQU64Z256rm addr:$src)>;		(VMOVDQU64Z256rm addr:$src)>;
def : Pat<(loadv16i16 addr:$src),		def : Pat<(loadv16i16 addr:$src),
(VMOVDQU64Z256rm addr:$src)>;		(VMOVDQU64Z256rm addr:$src)>;
def : Pat<(loadv16f16 addr:$src),		def : Pat<(loadv16f16 addr:$src),
(VMOVUPSZ256rm addr:$src)>;		(VMOVUPSZ256rm addr:$src)>;
		def : Pat<(loadv16bf16 addr:$src),
		(VMOVUPSZ256rm addr:$src)>;
def : Pat<(loadv32i8 addr:$src),		def : Pat<(loadv32i8 addr:$src),
(VMOVDQU64Z256rm addr:$src)>;		(VMOVDQU64Z256rm addr:$src)>;

// 256-bit store.		// 256-bit store.
def : Pat<(alignedstore (v8i32 VR256X:$src), addr:$dst),		def : Pat<(alignedstore (v8i32 VR256X:$src), addr:$dst),
(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(alignedstore (v16i16 VR256X:$src), addr:$dst),		def : Pat<(alignedstore (v16i16 VR256X:$src), addr:$dst),
(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(alignedstore (v16f16 VR256X:$src), addr:$dst),		def : Pat<(alignedstore (v16f16 VR256X:$src), addr:$dst),
(VMOVAPSZ256mr addr:$dst, VR256X:$src)>;		(VMOVAPSZ256mr addr:$dst, VR256X:$src)>;
		def : Pat<(alignedstore (v16bf16 VR256X:$src), addr:$dst),
		(VMOVAPSZ256mr addr:$dst, VR256X:$src)>;
def : Pat<(alignedstore (v32i8 VR256X:$src), addr:$dst),		def : Pat<(alignedstore (v32i8 VR256X:$src), addr:$dst),
(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v8i32 VR256X:$src), addr:$dst),		def : Pat<(store (v8i32 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v16i16 VR256X:$src), addr:$dst),		def : Pat<(store (v16i16 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v16f16 VR256X:$src), addr:$dst),		def : Pat<(store (v16f16 VR256X:$src), addr:$dst),
(VMOVUPSZ256mr addr:$dst, VR256X:$src)>;		(VMOVUPSZ256mr addr:$dst, VR256X:$src)>;
		def : Pat<(store (v16bf16 VR256X:$src), addr:$dst),
		(VMOVUPSZ256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v32i8 VR256X:$src), addr:$dst),		def : Pat<(store (v32i8 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
}		}

		multiclass mask_move_lowering_f16_bf16<AVX512VLVectorVTInfo _> {
let Predicates = [HasBWI] in {		let Predicates = [HasBWI] in {
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Not sure the indent is correct or not. LuoYuanke: Not sure the indent is correct or not.
		pengfeiAuthorUnsubmitted Done Reply Inline Actions The format is chaos in td files, at least we have code using in this way :) pengfei: The format is chaos in td files, at least we have code using in this way :)
def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), (v32f16 VR512:$src0))),		def : Pat<(_.info512.VT (vselect VK32WM:$mask, (_.info512.VT VR512:$src1), (_.info512.VT VR512:$src0))),
(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;		(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;
def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), v32f16_info.ImmAllZerosV)),		def : Pat<(_.info512.VT (vselect VK32WM:$mask, (_.info512.VT VR512:$src1), _.info512.ImmAllZerosV)),
(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;		(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;
def : Pat<(v32f16 (vselect VK32WM:$mask,		def : Pat<(_.info512.VT (vselect VK32WM:$mask,
(v32f16 (alignedloadv32f16 addr:$src)), (v32f16 VR512:$src0))),		(_.info512.VT (_.info512.AlignedLdFrag addr:$src)), (_.info512.VT VR512:$src0))),
(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (vselect VK32WM:$mask,		def : Pat<(_.info512.VT (vselect VK32WM:$mask,
(v32f16 (alignedloadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),		(_.info512.VT (_.info512.AlignedLdFrag addr:$src)), _.info512.ImmAllZerosV)),
(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (vselect VK32WM:$mask,		def : Pat<(_.info512.VT (vselect VK32WM:$mask,
(v32f16 (loadv32f16 addr:$src)), (v32f16 VR512:$src0))),		(_.info512.VT (_.info512.LdFrag addr:$src)), (_.info512.VT VR512:$src0))),
(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (vselect VK32WM:$mask,		def : Pat<(_.info512.VT (vselect VK32WM:$mask,
(v32f16 (loadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),		(_.info512.VT (_.info512.LdFrag addr:$src)), _.info512.ImmAllZerosV)),
(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, (v32f16 VR512:$src0))),		def : Pat<(_.info512.VT (masked_load addr:$src, VK32WM:$mask, (_.info512.VT VR512:$src0))),
(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, undef)),		def : Pat<(_.info512.VT (masked_load addr:$src, VK32WM:$mask, undef)),
(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, v32f16_info.ImmAllZerosV)),		def : Pat<(_.info512.VT (masked_load addr:$src, VK32WM:$mask, _.info512.ImmAllZerosV)),
(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;		(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;

def : Pat<(masked_store (v32f16 VR512:$src), addr:$dst, VK32WM:$mask),		def : Pat<(masked_store (_.info512.VT VR512:$src), addr:$dst, VK32WM:$mask),
(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;		(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;
}		}
let Predicates = [HasBWI, HasVLX] in {		let Predicates = [HasBWI, HasVLX] in {
def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), (v16f16 VR256X:$src0))),		def : Pat<(_.info256.VT (vselect VK16WM:$mask, (_.info256.VT VR256X:$src1), (_.info256.VT VR256X:$src0))),
(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;		(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;
def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), v16f16x_info.ImmAllZerosV)),		def : Pat<(_.info256.VT (vselect VK16WM:$mask, (_.info256.VT VR256X:$src1), _.info256.ImmAllZerosV)),
(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;		(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;
def : Pat<(v16f16 (vselect VK16WM:$mask,		def : Pat<(_.info256.VT (vselect VK16WM:$mask,
(v16f16 (alignedloadv16f16 addr:$src)), (v16f16 VR256X:$src0))),		(_.info256.VT (_.info256.AlignedLdFrag addr:$src)), (_.info256.VT VR256X:$src0))),
(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (vselect VK16WM:$mask,		def : Pat<(_.info256.VT (vselect VK16WM:$mask,
(v16f16 (alignedloadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),		(_.info256.VT (_.info256.AlignedLdFrag addr:$src)), _.info256.ImmAllZerosV)),
(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (vselect VK16WM:$mask,		def : Pat<(_.info256.VT (vselect VK16WM:$mask,
(v16f16 (loadv16f16 addr:$src)), (v16f16 VR256X:$src0))),		(_.info256.VT (_.info256.LdFrag addr:$src)), (_.info256.VT VR256X:$src0))),
(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (vselect VK16WM:$mask,		def : Pat<(_.info256.VT (vselect VK16WM:$mask,
(v16f16 (loadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),		(_.info256.VT (_.info256.LdFrag addr:$src)), _.info256.ImmAllZerosV)),
(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, (v16f16 VR256X:$src0))),		def : Pat<(_.info256.VT (masked_load addr:$src, VK16WM:$mask, (_.info256.VT VR256X:$src0))),
(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, undef)),		def : Pat<(_.info256.VT (masked_load addr:$src, VK16WM:$mask, undef)),
(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, v16f16x_info.ImmAllZerosV)),		def : Pat<(_.info256.VT (masked_load addr:$src, VK16WM:$mask, _.info256.ImmAllZerosV)),
(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;		(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;

def : Pat<(masked_store (v16f16 VR256X:$src), addr:$dst, VK16WM:$mask),		def : Pat<(masked_store (_.info256.VT VR256X:$src), addr:$dst, VK16WM:$mask),
(VMOVDQU16Z256mrk addr:$dst, VK16WM:$mask, VR256X:$src)>;		(VMOVDQU16Z256mrk addr:$dst, VK16WM:$mask, VR256X:$src)>;

def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), (v8f16 VR128X:$src0))),		def : Pat<(_.info128.VT (vselect VK8WM:$mask, (_.info128.VT VR128X:$src1), (_.info128.VT VR128X:$src0))),
(VMOVDQU16Z128rrk VR128X:$src0, VK8WM:$mask, VR128X:$src1)>;		(VMOVDQU16Z128rrk VR128X:$src0, VK8WM:$mask, VR128X:$src1)>;
def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), v8f16x_info.ImmAllZerosV)),		def : Pat<(_.info128.VT (vselect VK8WM:$mask, (_.info128.VT VR128X:$src1), _.info128.ImmAllZerosV)),
(VMOVDQU16Z128rrkz VK8WM:$mask, VR128X:$src1)>;		(VMOVDQU16Z128rrkz VK8WM:$mask, VR128X:$src1)>;
def : Pat<(v8f16 (vselect VK8WM:$mask,		def : Pat<(_.info128.VT (vselect VK8WM:$mask,
(v8f16 (alignedloadv8f16 addr:$src)), (v8f16 VR128X:$src0))),		(_.info128.VT (_.info128.AlignedLdFrag addr:$src)), (_.info128.VT VR128X:$src0))),
(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (vselect VK8WM:$mask,		def : Pat<(_.info128.VT (vselect VK8WM:$mask,
(v8f16 (alignedloadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),		(_.info128.VT (_.info128.AlignedLdFrag addr:$src)), _.info128.ImmAllZerosV)),
(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (vselect VK8WM:$mask,		def : Pat<(_.info128.VT (vselect VK8WM:$mask,
(v8f16 (loadv8f16 addr:$src)), (v8f16 VR128X:$src0))),		(_.info128.VT (_.info128.LdFrag addr:$src)), (_.info128.VT VR128X:$src0))),
(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (vselect VK8WM:$mask,		def : Pat<(_.info128.VT (vselect VK8WM:$mask,
(v8f16 (loadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),		(_.info128.VT (_.info128.LdFrag addr:$src)), _.info128.ImmAllZerosV)),
(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, (v8f16 VR128X:$src0))),		def : Pat<(_.info128.VT (masked_load addr:$src, VK8WM:$mask, (_.info128.VT VR128X:$src0))),
(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, undef)),		def : Pat<(_.info128.VT (masked_load addr:$src, VK8WM:$mask, undef)),
(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, v8f16x_info.ImmAllZerosV)),		def : Pat<(_.info128.VT (masked_load addr:$src, VK8WM:$mask, _.info128.ImmAllZerosV)),
(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;		(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;

def : Pat<(masked_store (v8f16 VR128X:$src), addr:$dst, VK8WM:$mask),		def : Pat<(masked_store (_.info128.VT VR128X:$src), addr:$dst, VK8WM:$mask),
(VMOVDQU16Z128mrk addr:$dst, VK8WM:$mask, VR128X:$src)>;		(VMOVDQU16Z128mrk addr:$dst, VK8WM:$mask, VR128X:$src)>;
}		}
		}

		defm : mask_move_lowering_f16_bf16<avx512vl_f16_info>;
		defm : mask_move_lowering_f16_bf16<avx512vl_bf16_info>;

// Move Int Doubleword to Packed Double Int		// Move Int Doubleword to Packed Double Int
//		//
let ExeDomain = SSEPackedInt in {		let ExeDomain = SSEPackedInt in {
def VMOVDI2PDIZrr : AVX512BI<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR32:$src),		def VMOVDI2PDIZrr : AVX512BI<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR32:$src),
"vmovd\t{$src, $dst\|$dst, $src}",		"vmovd\t{$src, $dst\|$dst, $src}",
[(set VR128X:$dst,		[(set VR128X:$dst,
(v4i32 (scalar_to_vector GR32:$src)))]>,		(v4i32 (scalar_to_vector GR32:$src)))]>,
▲ Show 20 Lines • Show All 8,841 Lines • ▼ Show 20 Lines	defm NAME#Z128 : avx512_binop_rm2<opc, OpcodeStr, sched.XMM, OpNode,
_SrcVTInfo.info128, IsCommutable>,		_SrcVTInfo.info128, IsCommutable>,
EVEX_V128, EVEX_CD8<32, CD8VF>;		EVEX_V128, EVEX_CD8<32, CD8VF>;
}		}
}		}

let ExeDomain = SSEPackedSingle in		let ExeDomain = SSEPackedSingle in
defm VCVTNE2PS2BF16 : avx512_binop_all2<0x72, "vcvtne2ps2bf16",		defm VCVTNE2PS2BF16 : avx512_binop_all2<0x72, "vcvtne2ps2bf16",
SchedWriteCvtPD2PS, //FIXME: Should be SchedWriteCvtPS2BF		SchedWriteCvtPD2PS, //FIXME: Should be SchedWriteCvtPS2BF
avx512vl_f32_info, avx512vl_i16_info,		avx512vl_f32_info, avx512vl_bf16_info,
X86cvtne2ps2bf16, HasBF16, 0>, T8XD;		X86cvtne2ps2bf16, HasBF16, 0>, T8XD;

// Truncate Float to BFloat16		// Truncate Float to BFloat16
multiclass avx512_cvtps2bf16<bits<8> opc, string OpcodeStr,		multiclass avx512_cvtps2bf16<bits<8> opc, string OpcodeStr,
X86SchedWriteWidths sched> {		X86SchedWriteWidths sched> {
let ExeDomain = SSEPackedSingle in {		let ExeDomain = SSEPackedSingle in {
let Predicates = [HasBF16], Uses = []<Register>, mayRaiseFPException = 0 in {		let Predicates = [HasBF16], Uses = []<Register>, mayRaiseFPException = 0 in {
defm Z : avx512_vcvt_fp<opc, OpcodeStr, v16i16x_info, v16f32_info,		defm Z : avx512_vcvt_fp<opc, OpcodeStr, v16bf16x_info, v16f32_info,
X86cvtneps2bf16, X86cvtneps2bf16, sched.ZMM>, EVEX_V512;		X86cvtneps2bf16, X86cvtneps2bf16, sched.ZMM>, EVEX_V512;
}		}
let Predicates = [HasBF16, HasVLX] in {		let Predicates = [HasBF16, HasVLX] in {
let Uses = []<Register>, mayRaiseFPException = 0 in {		let Uses = []<Register>, mayRaiseFPException = 0 in {
defm Z128 : avx512_vcvt_fp<opc, OpcodeStr, v8i16x_info, v4f32x_info,		defm Z128 : avx512_vcvt_fp<opc, OpcodeStr, v8bf16x_info, v4f32x_info,
null_frag, null_frag, sched.XMM, "{1to4}", "{x}", f128mem,		null_frag, null_frag, sched.XMM, "{1to4}", "{x}", f128mem,
VK4WM>, EVEX_V128;		VK4WM>, EVEX_V128;
defm Z256 : avx512_vcvt_fp<opc, OpcodeStr, v8i16x_info, v8f32x_info,		defm Z256 : avx512_vcvt_fp<opc, OpcodeStr, v8bf16x_info, v8f32x_info,
X86cvtneps2bf16, X86cvtneps2bf16,		X86cvtneps2bf16, X86cvtneps2bf16,
sched.YMM, "{1to8}", "{y}">, EVEX_V256;		sched.YMM, "{1to8}", "{y}">, EVEX_V256;
}		}
} // Predicates = [HasBF16, HasVLX]		} // Predicates = [HasBF16, HasVLX]
} // ExeDomain = SSEPackedSingle		} // ExeDomain = SSEPackedSingle

def : InstAlias<OpcodeStr#"x\t{$src, $dst\|$dst, $src}",		def : InstAlias<OpcodeStr#"x\t{$src, $dst\|$dst, $src}",
(!cast<Instruction>(NAME # "Z128rr") VR128X:$dst,		(!cast<Instruction>(NAME # "Z128rr") VR128X:$dst,
Show All 11 Lines

defm VCVTNEPS2BF16 : avx512_cvtps2bf16<0x72, "vcvtneps2bf16",		defm VCVTNEPS2BF16 : avx512_cvtps2bf16<0x72, "vcvtneps2bf16",
SchedWriteCvtPD2PS>, T8XS,		SchedWriteCvtPD2PS>, T8XS,
EVEX_CD8<32, CD8VF>;		EVEX_CD8<32, CD8VF>;

let Predicates = [HasBF16, HasVLX] in {		let Predicates = [HasBF16, HasVLX] in {
// Special patterns to allow use of X86mcvtneps2bf16 for masking. Instruction		// Special patterns to allow use of X86mcvtneps2bf16 for masking. Instruction
// patterns have been disabled with null_frag.		// patterns have been disabled with null_frag.
def : Pat<(v8i16 (X86cvtneps2bf16 (v4f32 VR128X:$src))),		def : Pat<(v8bf16 (X86cvtneps2bf16 (v4f32 VR128X:$src))),
(VCVTNEPS2BF16Z128rr VR128X:$src)>;		(VCVTNEPS2BF16Z128rr VR128X:$src)>;
def : Pat<(X86mcvtneps2bf16 (v4f32 VR128X:$src), (v8i16 VR128X:$src0),		def : Pat<(X86mcvtneps2bf16 (v4f32 VR128X:$src), (v8bf16 VR128X:$src0),
VK4WM:$mask),		VK4WM:$mask),
(VCVTNEPS2BF16Z128rrk VR128X:$src0, VK4WM:$mask, VR128X:$src)>;		(VCVTNEPS2BF16Z128rrk VR128X:$src0, VK4WM:$mask, VR128X:$src)>;
def : Pat<(X86mcvtneps2bf16 (v4f32 VR128X:$src), v8i16x_info.ImmAllZerosV,		def : Pat<(X86mcvtneps2bf16 (v4f32 VR128X:$src), v8bf16x_info.ImmAllZerosV,
VK4WM:$mask),		VK4WM:$mask),
(VCVTNEPS2BF16Z128rrkz VK4WM:$mask, VR128X:$src)>;		(VCVTNEPS2BF16Z128rrkz VK4WM:$mask, VR128X:$src)>;

def : Pat<(v8i16 (X86cvtneps2bf16 (loadv4f32 addr:$src))),		def : Pat<(v8bf16 (X86cvtneps2bf16 (loadv4f32 addr:$src))),
(VCVTNEPS2BF16Z128rm addr:$src)>;		(VCVTNEPS2BF16Z128rm addr:$src)>;
def : Pat<(X86mcvtneps2bf16 (loadv4f32 addr:$src), (v8i16 VR128X:$src0),		def : Pat<(X86mcvtneps2bf16 (loadv4f32 addr:$src), (v8bf16 VR128X:$src0),
VK4WM:$mask),		VK4WM:$mask),
(VCVTNEPS2BF16Z128rmk VR128X:$src0, VK4WM:$mask, addr:$src)>;		(VCVTNEPS2BF16Z128rmk VR128X:$src0, VK4WM:$mask, addr:$src)>;
def : Pat<(X86mcvtneps2bf16 (loadv4f32 addr:$src), v8i16x_info.ImmAllZerosV,		def : Pat<(X86mcvtneps2bf16 (loadv4f32 addr:$src), v8bf16x_info.ImmAllZerosV,
VK4WM:$mask),		VK4WM:$mask),
(VCVTNEPS2BF16Z128rmkz VK4WM:$mask, addr:$src)>;		(VCVTNEPS2BF16Z128rmkz VK4WM:$mask, addr:$src)>;

def : Pat<(v8i16 (X86cvtneps2bf16 (v4f32		def : Pat<(v8bf16 (X86cvtneps2bf16 (v4f32
(X86VBroadcastld32 addr:$src)))),		(X86VBroadcastld32 addr:$src)))),
(VCVTNEPS2BF16Z128rmb addr:$src)>;		(VCVTNEPS2BF16Z128rmb addr:$src)>;
def : Pat<(X86mcvtneps2bf16 (v4f32 (X86VBroadcastld32 addr:$src)),		def : Pat<(X86mcvtneps2bf16 (v4f32 (X86VBroadcastld32 addr:$src)),
(v8i16 VR128X:$src0), VK4WM:$mask),		(v8bf16 VR128X:$src0), VK4WM:$mask),
(VCVTNEPS2BF16Z128rmbk VR128X:$src0, VK4WM:$mask, addr:$src)>;		(VCVTNEPS2BF16Z128rmbk VR128X:$src0, VK4WM:$mask, addr:$src)>;
def : Pat<(X86mcvtneps2bf16 (v4f32 (X86VBroadcastld32 addr:$src)),		def : Pat<(X86mcvtneps2bf16 (v4f32 (X86VBroadcastld32 addr:$src)),
v8i16x_info.ImmAllZerosV, VK4WM:$mask),		v8bf16x_info.ImmAllZerosV, VK4WM:$mask),
(VCVTNEPS2BF16Z128rmbkz VK4WM:$mask, addr:$src)>;		(VCVTNEPS2BF16Z128rmbkz VK4WM:$mask, addr:$src)>;
}		}

let Constraints = "$src1 = $dst" in {		let Constraints = "$src1 = $dst" in {
multiclass avx512_dpbf16ps_rm<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_dpbf16ps_rm<bits<8> opc, string OpcodeStr, SDNode OpNode,
X86FoldableSchedWrite sched,		X86FoldableSchedWrite sched,
X86VectorVTInfo _, X86VectorVTInfo src_v> {		X86VectorVTInfo _, X86VectorVTInfo src_v> {
defm r: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm r: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins src_v.RC:$src2, src_v.RC:$src3),		(ins src_v.RC:$src2, src_v.RC:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (OpNode _.RC:$src1, src_v.RC:$src2, src_v.RC:$src3))>,		(_.VT (OpNode _.RC:$src1, src_v.RC:$src2, src_v.RC:$src3))>,
EVEX_4V, Sched<[sched]>;		EVEX_4V, Sched<[sched]>;

defm m: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm m: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins src_v.RC:$src2, src_v.MemOp:$src3),		(ins src_v.RC:$src2, src_v.MemOp:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (OpNode _.RC:$src1, src_v.RC:$src2,		(_.VT (OpNode _.RC:$src1, src_v.RC:$src2,
(src_v.LdFrag addr:$src3)))>, EVEX_4V,		(src_v.LdFrag addr:$src3)))>, EVEX_4V,
Sched<[sched.Folded, sched.ReadAfterFold]>;		Sched<[sched.Folded, sched.ReadAfterFold]>;

defm mb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm mb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins src_v.RC:$src2, src_v.ScalarMemOp:$src3),		(ins src_v.RC:$src2, f32mem:$src3),
OpcodeStr,		OpcodeStr,
!strconcat("${src3}", _.BroadcastStr,", $src2"),		!strconcat("${src3}", _.BroadcastStr,", $src2"),
!strconcat("$src2, ${src3}", _.BroadcastStr),		!strconcat("$src2, ${src3}", _.BroadcastStr),
(_.VT (OpNode _.RC:$src1, src_v.RC:$src2,		(_.VT (OpNode _.RC:$src1, src_v.RC:$src2,
(src_v.VT (src_v.BroadcastLdFrag addr:$src3))))>,		(src_v.VT (src_v.BroadcastLdFrag addr:$src3))))>,
EVEX_B, EVEX_4V, Sched<[sched.Folded, sched.ReadAfterFold]>;		EVEX_B, EVEX_4V, Sched<[sched.Folded, sched.ReadAfterFold]>;

}		}
Show All 11 Lines	defm Z256 : avx512_dpbf16ps_rm<opc, OpcodeStr, OpNode, sched.YMM, _.info256,
src_v.info256>, EVEX_V256;		src_v.info256>, EVEX_V256;
defm Z128 : avx512_dpbf16ps_rm<opc, OpcodeStr, OpNode, sched.XMM, _.info128,		defm Z128 : avx512_dpbf16ps_rm<opc, OpcodeStr, OpNode, sched.XMM, _.info128,
src_v.info128>, EVEX_V128;		src_v.info128>, EVEX_V128;
}		}
}		}

let ExeDomain = SSEPackedSingle in		let ExeDomain = SSEPackedSingle in
defm VDPBF16PS : avx512_dpbf16ps_sizes<0x52, "vdpbf16ps", X86dpbf16ps, SchedWriteFMA,		defm VDPBF16PS : avx512_dpbf16ps_sizes<0x52, "vdpbf16ps", X86dpbf16ps, SchedWriteFMA,
avx512vl_f32_info, avx512vl_i32_info,		avx512vl_f32_info, avx512vl_bf16_info,
HasBF16>, T8XS, EVEX_CD8<32, CD8VF>;		HasBF16>, T8XS, EVEX_CD8<32, CD8VF>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX512FP16		// AVX512FP16
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

let Predicates = [HasFP16] in {		let Predicates = [HasFP16] in {
// Move word ( r/m16) to Packed word		// Move word ( r/m16) to Packed word
▲ Show 20 Lines • Show All 722 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

Show First 20 Lines • Show All 779 Lines • ▼ Show 20 Lines
def X86vfproundRnd: SDNode<"X86ISD::VFPROUND_RND",		def X86vfproundRnd: SDNode<"X86ISD::VFPROUND_RND",
SDTypeProfile<1, 2, [SDTCisFP<0>, SDTCisVec<0>,		SDTypeProfile<1, 2, [SDTCisFP<0>, SDTCisVec<0>,
SDTCisFP<1>, SDTCisVec<1>,		SDTCisFP<1>, SDTCisVec<1>,
SDTCisOpSmallerThanOp<0, 1>,		SDTCisOpSmallerThanOp<0, 1>,
SDTCisVT<2, i32>]>>;		SDTCisVT<2, i32>]>>;

// cvt fp to bfloat16		// cvt fp to bfloat16
def X86cvtne2ps2bf16 : SDNode<"X86ISD::CVTNE2PS2BF16",		def X86cvtne2ps2bf16 : SDNode<"X86ISD::CVTNE2PS2BF16",
SDTypeProfile<1, 2, [SDTCVecEltisVT<0, i16>,		SDTypeProfile<1, 2, [SDTCVecEltisVT<0, bf16>,
SDTCVecEltisVT<1, f32>,		SDTCVecEltisVT<1, f32>,
SDTCisSameSizeAs<0,1>,		SDTCisSameSizeAs<0,1>,
SDTCisSameAs<1,2>]>>;		SDTCisSameAs<1,2>]>>;
def X86mcvtneps2bf16 : SDNode<"X86ISD::MCVTNEPS2BF16",		def X86mcvtneps2bf16 : SDNode<"X86ISD::MCVTNEPS2BF16",
SDTypeProfile<1, 3, [SDTCVecEltisVT<0, i16>,		SDTypeProfile<1, 3, [SDTCVecEltisVT<0, bf16>,
SDTCVecEltisVT<1, f32>,		SDTCVecEltisVT<1, f32>,
SDTCisSameAs<0, 2>,		SDTCisSameAs<0, 2>,
SDTCVecEltisVT<3, i1>,		SDTCVecEltisVT<3, i1>,
SDTCisSameNumEltsAs<1, 3>]>>;		SDTCisSameNumEltsAs<1, 3>]>>;
def X86cvtneps2bf16 : SDNode<"X86ISD::CVTNEPS2BF16",		def X86cvtneps2bf16 : SDNode<"X86ISD::CVTNEPS2BF16",
SDTypeProfile<1, 1, [SDTCVecEltisVT<0, i16>,		SDTypeProfile<1, 1, [SDTCVecEltisVT<0, bf16>,
SDTCVecEltisVT<1, f32>]>>;		SDTCVecEltisVT<1, f32>]>>;
def X86dpbf16ps : SDNode<"X86ISD::DPBF16PS",		def X86dpbf16ps : SDNode<"X86ISD::DPBF16PS",
SDTypeProfile<1, 3, [SDTCVecEltisVT<0, f32>,		SDTypeProfile<1, 3, [SDTCVecEltisVT<0, f32>,
SDTCisSameAs<0,1>,		SDTCisSameAs<0,1>,
SDTCVecEltisVT<2, i32>,		SDTCVecEltisVT<2, bf16>,
SDTCisSameAs<2,3>]>>;		SDTCisSameAs<2,3>]>>;

// galois field arithmetic		// galois field arithmetic
def X86GF2P8affineinvqb : SDNode<"X86ISD::GF2P8AFFINEINVQB", SDTBlend>;		def X86GF2P8affineinvqb : SDNode<"X86ISD::GF2P8AFFINEINVQB", SDTBlend>;
def X86GF2P8affineqb : SDNode<"X86ISD::GF2P8AFFINEQB", SDTBlend>;		def X86GF2P8affineqb : SDNode<"X86ISD::GF2P8AFFINEQB", SDTBlend>;
def X86GF2P8mulb : SDNode<"X86ISD::GF2P8MULB", SDTIntBinOp>;		def X86GF2P8mulb : SDNode<"X86ISD::GF2P8MULB", SDTIntBinOp>;

def SDTX86MaskedStore: SDTypeProfile<0, 3, [ // masked store		def SDTX86MaskedStore: SDTypeProfile<0, 3, [ // masked store
SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVec<2>, SDTCisSameNumEltsAs<0, 2>		SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVec<2>, SDTCisSameNumEltsAs<0, 2>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SSE pattern fragments		// SSE pattern fragments
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// 128-bit load pattern fragments		// 128-bit load pattern fragments
def loadv8f16 : PatFrag<(ops node:$ptr), (v8f16 (load node:$ptr))>;		def loadv8f16 : PatFrag<(ops node:$ptr), (v8f16 (load node:$ptr))>;
		def loadv8bf16 : PatFrag<(ops node:$ptr), (v8bf16 (load node:$ptr))>;
def loadv4f32 : PatFrag<(ops node:$ptr), (v4f32 (load node:$ptr))>;		def loadv4f32 : PatFrag<(ops node:$ptr), (v4f32 (load node:$ptr))>;
def loadv2f64 : PatFrag<(ops node:$ptr), (v2f64 (load node:$ptr))>;		def loadv2f64 : PatFrag<(ops node:$ptr), (v2f64 (load node:$ptr))>;
def loadv2i64 : PatFrag<(ops node:$ptr), (v2i64 (load node:$ptr))>;		def loadv2i64 : PatFrag<(ops node:$ptr), (v2i64 (load node:$ptr))>;
def loadv4i32 : PatFrag<(ops node:$ptr), (v4i32 (load node:$ptr))>;		def loadv4i32 : PatFrag<(ops node:$ptr), (v4i32 (load node:$ptr))>;
def loadv8i16 : PatFrag<(ops node:$ptr), (v8i16 (load node:$ptr))>;		def loadv8i16 : PatFrag<(ops node:$ptr), (v8i16 (load node:$ptr))>;
def loadv16i8 : PatFrag<(ops node:$ptr), (v16i8 (load node:$ptr))>;		def loadv16i8 : PatFrag<(ops node:$ptr), (v16i8 (load node:$ptr))>;

// 256-bit load pattern fragments		// 256-bit load pattern fragments
def loadv16f16 : PatFrag<(ops node:$ptr), (v16f16 (load node:$ptr))>;		def loadv16f16 : PatFrag<(ops node:$ptr), (v16f16 (load node:$ptr))>;
		def loadv16bf16 : PatFrag<(ops node:$ptr), (v16bf16 (load node:$ptr))>;
def loadv8f32 : PatFrag<(ops node:$ptr), (v8f32 (load node:$ptr))>;		def loadv8f32 : PatFrag<(ops node:$ptr), (v8f32 (load node:$ptr))>;
def loadv4f64 : PatFrag<(ops node:$ptr), (v4f64 (load node:$ptr))>;		def loadv4f64 : PatFrag<(ops node:$ptr), (v4f64 (load node:$ptr))>;
def loadv4i64 : PatFrag<(ops node:$ptr), (v4i64 (load node:$ptr))>;		def loadv4i64 : PatFrag<(ops node:$ptr), (v4i64 (load node:$ptr))>;
def loadv8i32 : PatFrag<(ops node:$ptr), (v8i32 (load node:$ptr))>;		def loadv8i32 : PatFrag<(ops node:$ptr), (v8i32 (load node:$ptr))>;
def loadv16i16 : PatFrag<(ops node:$ptr), (v16i16 (load node:$ptr))>;		def loadv16i16 : PatFrag<(ops node:$ptr), (v16i16 (load node:$ptr))>;
def loadv32i8 : PatFrag<(ops node:$ptr), (v32i8 (load node:$ptr))>;		def loadv32i8 : PatFrag<(ops node:$ptr), (v32i8 (load node:$ptr))>;

// 512-bit load pattern fragments		// 512-bit load pattern fragments
def loadv32f16 : PatFrag<(ops node:$ptr), (v32f16 (load node:$ptr))>;		def loadv32f16 : PatFrag<(ops node:$ptr), (v32f16 (load node:$ptr))>;
		def loadv32bf16 : PatFrag<(ops node:$ptr), (v32bf16 (load node:$ptr))>;
def loadv16f32 : PatFrag<(ops node:$ptr), (v16f32 (load node:$ptr))>;		def loadv16f32 : PatFrag<(ops node:$ptr), (v16f32 (load node:$ptr))>;
def loadv8f64 : PatFrag<(ops node:$ptr), (v8f64 (load node:$ptr))>;		def loadv8f64 : PatFrag<(ops node:$ptr), (v8f64 (load node:$ptr))>;
def loadv8i64 : PatFrag<(ops node:$ptr), (v8i64 (load node:$ptr))>;		def loadv8i64 : PatFrag<(ops node:$ptr), (v8i64 (load node:$ptr))>;
def loadv16i32 : PatFrag<(ops node:$ptr), (v16i32 (load node:$ptr))>;		def loadv16i32 : PatFrag<(ops node:$ptr), (v16i32 (load node:$ptr))>;
def loadv32i16 : PatFrag<(ops node:$ptr), (v32i16 (load node:$ptr))>;		def loadv32i16 : PatFrag<(ops node:$ptr), (v32i16 (load node:$ptr))>;
def loadv64i8 : PatFrag<(ops node:$ptr), (v64i8 (load node:$ptr))>;		def loadv64i8 : PatFrag<(ops node:$ptr), (v64i8 (load node:$ptr))>;

// 128-/256-/512-bit extload pattern fragments		// 128-/256-/512-bit extload pattern fragments
Show All 17 Lines	def alignedload : PatFrag<(ops node:$ptr), (load node:$ptr), [{
auto *Ld = cast<LoadSDNode>(N);		auto *Ld = cast<LoadSDNode>(N);
return Ld->getAlignment() >= Ld->getMemoryVT().getStoreSize();		return Ld->getAlignment() >= Ld->getMemoryVT().getStoreSize();
}]>;		}]>;

// 128-bit aligned load pattern fragments		// 128-bit aligned load pattern fragments
// NOTE: all 128-bit integer vector loads are promoted to v2i64		// NOTE: all 128-bit integer vector loads are promoted to v2i64
def alignedloadv8f16 : PatFrag<(ops node:$ptr),		def alignedloadv8f16 : PatFrag<(ops node:$ptr),
(v8f16 (alignedload node:$ptr))>;		(v8f16 (alignedload node:$ptr))>;
		def alignedloadv8bf16 : PatFrag<(ops node:$ptr),
		(v8bf16 (alignedload node:$ptr))>;
def alignedloadv4f32 : PatFrag<(ops node:$ptr),		def alignedloadv4f32 : PatFrag<(ops node:$ptr),
(v4f32 (alignedload node:$ptr))>;		(v4f32 (alignedload node:$ptr))>;
def alignedloadv2f64 : PatFrag<(ops node:$ptr),		def alignedloadv2f64 : PatFrag<(ops node:$ptr),
(v2f64 (alignedload node:$ptr))>;		(v2f64 (alignedload node:$ptr))>;
def alignedloadv2i64 : PatFrag<(ops node:$ptr),		def alignedloadv2i64 : PatFrag<(ops node:$ptr),
(v2i64 (alignedload node:$ptr))>;		(v2i64 (alignedload node:$ptr))>;
def alignedloadv4i32 : PatFrag<(ops node:$ptr),		def alignedloadv4i32 : PatFrag<(ops node:$ptr),
(v4i32 (alignedload node:$ptr))>;		(v4i32 (alignedload node:$ptr))>;
def alignedloadv8i16 : PatFrag<(ops node:$ptr),		def alignedloadv8i16 : PatFrag<(ops node:$ptr),
(v8i16 (alignedload node:$ptr))>;		(v8i16 (alignedload node:$ptr))>;
def alignedloadv16i8 : PatFrag<(ops node:$ptr),		def alignedloadv16i8 : PatFrag<(ops node:$ptr),
(v16i8 (alignedload node:$ptr))>;		(v16i8 (alignedload node:$ptr))>;

// 256-bit aligned load pattern fragments		// 256-bit aligned load pattern fragments
// NOTE: all 256-bit integer vector loads are promoted to v4i64		// NOTE: all 256-bit integer vector loads are promoted to v4i64
def alignedloadv16f16 : PatFrag<(ops node:$ptr),		def alignedloadv16f16 : PatFrag<(ops node:$ptr),
(v16f16 (alignedload node:$ptr))>;		(v16f16 (alignedload node:$ptr))>;
		def alignedloadv16bf16 : PatFrag<(ops node:$ptr),
		(v16bf16 (alignedload node:$ptr))>;
def alignedloadv8f32 : PatFrag<(ops node:$ptr),		def alignedloadv8f32 : PatFrag<(ops node:$ptr),
(v8f32 (alignedload node:$ptr))>;		(v8f32 (alignedload node:$ptr))>;
def alignedloadv4f64 : PatFrag<(ops node:$ptr),		def alignedloadv4f64 : PatFrag<(ops node:$ptr),
(v4f64 (alignedload node:$ptr))>;		(v4f64 (alignedload node:$ptr))>;
def alignedloadv4i64 : PatFrag<(ops node:$ptr),		def alignedloadv4i64 : PatFrag<(ops node:$ptr),
(v4i64 (alignedload node:$ptr))>;		(v4i64 (alignedload node:$ptr))>;
def alignedloadv8i32 : PatFrag<(ops node:$ptr),		def alignedloadv8i32 : PatFrag<(ops node:$ptr),
(v8i32 (alignedload node:$ptr))>;		(v8i32 (alignedload node:$ptr))>;
def alignedloadv16i16 : PatFrag<(ops node:$ptr),		def alignedloadv16i16 : PatFrag<(ops node:$ptr),
(v16i16 (alignedload node:$ptr))>;		(v16i16 (alignedload node:$ptr))>;
def alignedloadv32i8 : PatFrag<(ops node:$ptr),		def alignedloadv32i8 : PatFrag<(ops node:$ptr),
(v32i8 (alignedload node:$ptr))>;		(v32i8 (alignedload node:$ptr))>;

// 512-bit aligned load pattern fragments		// 512-bit aligned load pattern fragments
def alignedloadv32f16 : PatFrag<(ops node:$ptr),		def alignedloadv32f16 : PatFrag<(ops node:$ptr),
(v32f16 (alignedload node:$ptr))>;		(v32f16 (alignedload node:$ptr))>;
		def alignedloadv32bf16 : PatFrag<(ops node:$ptr),
		(v32bf16 (alignedload node:$ptr))>;
def alignedloadv16f32 : PatFrag<(ops node:$ptr),		def alignedloadv16f32 : PatFrag<(ops node:$ptr),
(v16f32 (alignedload node:$ptr))>;		(v16f32 (alignedload node:$ptr))>;
def alignedloadv8f64 : PatFrag<(ops node:$ptr),		def alignedloadv8f64 : PatFrag<(ops node:$ptr),
(v8f64 (alignedload node:$ptr))>;		(v8f64 (alignedload node:$ptr))>;
def alignedloadv8i64 : PatFrag<(ops node:$ptr),		def alignedloadv8i64 : PatFrag<(ops node:$ptr),
(v8i64 (alignedload node:$ptr))>;		(v8i64 (alignedload node:$ptr))>;
def alignedloadv16i32 : PatFrag<(ops node:$ptr),		def alignedloadv16i32 : PatFrag<(ops node:$ptr),
(v16i32 (alignedload node:$ptr))>;		(v16i32 (alignedload node:$ptr))>;
▲ Show 20 Lines • Show All 336 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86RegisterInfo.td

	Show First 20 Lines • Show All 555 Lines • ▼ Show 20 Lines
	}			}

	// Helper to allow %st to print as %st(0) when its encoded in the instruction.			// Helper to allow %st to print as %st(0) when its encoded in the instruction.
	def RSTi : RegisterOperand<RST, "printSTiRegOperand">;			def RSTi : RegisterOperand<RST, "printSTiRegOperand">;

	// Generic vector registers: VR64 and VR128.			// Generic vector registers: VR64 and VR128.
	// Ensure that float types are declared first - only float is legal on SSE1.			// Ensure that float types are declared first - only float is legal on SSE1.
	def VR64: RegisterClass<"X86", [x86mmx], 64, (sequence "MM%u", 0, 7)>;			def VR64: RegisterClass<"X86", [x86mmx], 64, (sequence "MM%u", 0, 7)>;
	def VR128 : RegisterClass<"X86", [v4f32, v2f64, v8f16, v16i8, v8i16, v4i32, v2i64, f128],			def VR128 : RegisterClass<"X86", [v4f32, v2f64, v8f16, v8bf16, v16i8, v8i16, v4i32, v2i64, f128],
	128, (add FR32)>;			128, (add FR32)>;
	def VR256 : RegisterClass<"X86", [v8f32, v4f64, v16f16, v32i8, v16i16, v8i32, v4i64],			def VR256 : RegisterClass<"X86", [v8f32, v4f64, v16f16, v16bf16, v32i8, v16i16, v8i32, v4i64],
	256, (sequence "YMM%u", 0, 15)>;			256, (sequence "YMM%u", 0, 15)>;

	// Status flags registers.			// Status flags registers.
	def CCR : RegisterClass<"X86", [i32], 32, (add EFLAGS)> {			def CCR : RegisterClass<"X86", [i32], 32, (add EFLAGS)> {
	let CopyCost = -1; // Don't allow copying of status registers.			let CopyCost = -1; // Don't allow copying of status registers.
	let isAllocatable = 0;			let isAllocatable = 0;
	}			}
	def FPCCR : RegisterClass<"X86", [i16], 16, (add FPSW)> {			def FPCCR : RegisterClass<"X86", [i16], 16, (add FPSW)> {
	let CopyCost = -1; // Don't allow copying of status registers.			let CopyCost = -1; // Don't allow copying of status registers.
	let isAllocatable = 0;			let isAllocatable = 0;
	}			}
	def DFCCR : RegisterClass<"X86", [i32], 32, (add DF)> {			def DFCCR : RegisterClass<"X86", [i32], 32, (add DF)> {
	let CopyCost = -1; // Don't allow copying of status registers.			let CopyCost = -1; // Don't allow copying of status registers.
	let isAllocatable = 0;			let isAllocatable = 0;
	}			}

	// AVX-512 vector/mask registers.			// AVX-512 vector/mask registers.
	def VR512 : RegisterClass<"X86", [v16f32, v8f64, v32f16, v64i8, v32i16, v16i32, v8i64],			def VR512 : RegisterClass<"X86", [v16f32, v8f64, v32f16, v32bf16, v64i8, v32i16, v16i32, v8i64],
	512, (sequence "ZMM%u", 0, 31)>;			512, (sequence "ZMM%u", 0, 31)>;

	// Represents the lower 16 registers that have VEX/legacy encodable subregs.			// Represents the lower 16 registers that have VEX/legacy encodable subregs.
	def VR512_0_15 : RegisterClass<"X86", [v16f32, v8f64, v64i8, v32i16, v16i32, v8i64],			def VR512_0_15 : RegisterClass<"X86", [v16f32, v8f64, v64i8, v32i16, v16i32, v8i64],
	512, (sequence "ZMM%u", 0, 15)>;			512, (sequence "ZMM%u", 0, 15)>;

	// Scalar AVX-512 floating point registers.			// Scalar AVX-512 floating point registers.
	def FR32X : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 31)>;			def FR32X : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 31)>;

	def FR64X : RegisterClass<"X86", [f64], 64, (add FR32X)>;			def FR64X : RegisterClass<"X86", [f64], 64, (add FR32X)>;

	def FR16X : RegisterClass<"X86", [f16], 16, (add FR32X)> {let Size = 32;}			def FR16X : RegisterClass<"X86", [f16], 16, (add FR32X)> {let Size = 32;}

	// Extended VR128 and VR256 for AVX-512 instructions			// Extended VR128 and VR256 for AVX-512 instructions
	def VR128X : RegisterClass<"X86", [v4f32, v2f64, v8f16, v16i8, v8i16, v4i32, v2i64, f128],			def VR128X : RegisterClass<"X86", [v4f32, v2f64, v8f16, v8bf16, v16i8, v8i16, v4i32, v2i64, f128],
	128, (add FR32X)>;			128, (add FR32X)>;
	def VR256X : RegisterClass<"X86", [v8f32, v4f64, v16f16, v32i8, v16i16, v8i32, v4i64],			def VR256X : RegisterClass<"X86", [v8f32, v4f64, v16f16, v16bf16, v32i8, v16i16, v8i32, v4i64],
	256, (sequence "YMM%u", 0, 31)>;			256, (sequence "YMM%u", 0, 31)>;

	// Mask registers			// Mask registers
	def VK1 : RegisterClass<"X86", [v1i1], 16, (sequence "K%u", 0, 7)> {let Size = 16;}			def VK1 : RegisterClass<"X86", [v1i1], 16, (sequence "K%u", 0, 7)> {let Size = 16;}
	def VK2 : RegisterClass<"X86", [v2i1], 16, (add VK1)> {let Size = 16;}			def VK2 : RegisterClass<"X86", [v2i1], 16, (add VK1)> {let Size = 16;}
	def VK4 : RegisterClass<"X86", [v4i1], 16, (add VK2)> {let Size = 16;}			def VK4 : RegisterClass<"X86", [v4i1], 16, (add VK2)> {let Size = 16;}
	def VK8 : RegisterClass<"X86", [v8i1], 16, (add VK4)> {let Size = 16;}			def VK8 : RegisterClass<"X86", [v8i1], 16, (add VK4)> {let Size = 16;}
	def VK16 : RegisterClass<"X86", [v16i1], 16, (add VK8)> {let Size = 16;}			def VK16 : RegisterClass<"X86", [v16i1], 16, (add VK8)> {let Size = 16;}
	Show All 36 Lines

llvm/test/CodeGen/X86/avx512bf16-intrinsics-upgrade.ll

This file was copied from llvm/test/CodeGen/X86/avx512bf16-intrinsics.ll.

Show All 12 Lines	entry:
%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4		%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
%1 = bitcast <32 x i16> %0 to <8 x i64>		%1 = bitcast <32 x i16> %0 to <8 x i64>
ret <8 x i64> %1		ret <8 x i64> %1
}		}

define <8 x i64> @test_mm512_maskz_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B, i32 %U) local_unnamed_addr #2 {		define <8 x i64> @test_mm512_maskz_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B, i32 %U) local_unnamed_addr #2 {
; X86-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:		; X86-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x72,0xc1]
; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]		; X86-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xc9,0x6f,0xc0]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:		; X64-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x72,0xc1]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]		; X64-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xc9,0x6f,0xc0]
		RKSimonUnsubmitted Not Done Reply Inline Actions any chance we can recover the predicated instruction? RKSimon: any chance we can recover the predicated instruction?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions It's possible, e.g., iterate all users of the intrinsic, bitcast all the select operands as well; or add patterns for i16; or make vselect peek through bitcast etc. But I think the small performance regression is not a critical requirement as the backward compatibility for the old intrinsics. It may not worth the code complexity. pengfei: It's possible, e.g., iterate all users of the intrinsic, bitcast all the select operands as…
		RKSimonUnsubmitted Not Done Reply Inline Actions OK - how come the mask_move_lowering_f16_bf16 refactoring in X86InstrAVX512.td didn't fix this? RKSimon: OK - how come the mask_move_lowering_f16_bf16 refactoring in X86InstrAVX512.td didn't fix this?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions The `mask_move_lowering_f16_bf16` should do nothing with it. I think the problem is after AutoUpgrade the IR becomes: %0 = tail call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) %1 = bitcast i32 %U to <32 x i1> %2 = bitcast <32 x bfloat> %0 to <32 x i16> %3 = select <32 x i1> %1, <32 x i16> %2, <32 x i16> zeroinitializer %4 = bitcast <32 x i16> %3 to <8 x i64> ret <8 x i64> %4 And after refactoring of X86InstrAVX512.td, we are able to match %0 = tail call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) ... ... %2 = select <32 x i1> %1, <32 x bfloat> %0, <32 x bfloat> zeroinitializer So leaving the upgraded IRs failed to match the predicated instruction. pengfei: The `mask_move_lowering_f16_bf16` should do nothing with it. I think the problem is after…
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4		%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
%1 = bitcast i32 %U to <32 x i1>		%1 = bitcast i32 %U to <32 x i1>
%2 = select <32 x i1> %1, <32 x i16> %0, <32 x i16> zeroinitializer		%2 = select <32 x i1> %1, <32 x i16> %0, <32 x i16> zeroinitializer
%3 = bitcast <32 x i16> %2 to <8 x i64>		%3 = bitcast <32 x i16> %2 to <8 x i64>
ret <8 x i64> %3		ret <8 x i64> %3
}		}

define <8 x i64> @test_mm512_mask_cvtne2ps2bf16_512(<8 x i64> %C, i32 %U, <16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {		define <8 x i64> @test_mm512_mask_cvtne2ps2bf16_512(<8 x i64> %C, i32 %U, <16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {
; X86-LABEL: test_mm512_mask_cvtne2ps2bf16_512:		; X86-LABEL: test_mm512_mask_cvtne2ps2bf16_512:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm1 # encoding: [0x62,0xf2,0x77,0x48,0x72,0xca]
; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]		; X86-NEXT: vmovdqu16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc1]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm512_mask_cvtne2ps2bf16_512:		; X64-LABEL: test_mm512_mask_cvtne2ps2bf16_512:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm1 # encoding: [0x62,0xf2,0x77,0x48,0x72,0xca]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]		; X64-NEXT: vmovdqu16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc1]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4		%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
%1 = bitcast <8 x i64> %C to <32 x i16>		%1 = bitcast <8 x i64> %C to <32 x i16>
%2 = bitcast i32 %U to <32 x i1>		%2 = bitcast i32 %U to <32 x i1>
%3 = select <32 x i1> %2, <32 x i16> %0, <32 x i16> %1		%3 = select <32 x i1> %2, <32 x i16> %0, <32 x i16> %1
%4 = bitcast <32 x i16> %3 to <8 x i64>		%4 = bitcast <32 x i16> %3 to <8 x i64>
ret <8 x i64> %4		ret <8 x i64> %4
Show All 10 Lines	entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
%1 = bitcast <16 x i16> %0 to <4 x i64>		%1 = bitcast <16 x i16> %0 to <4 x i64>
ret <4 x i64> %1		ret <4 x i64> %1
}		}

define <4 x i64> @test_mm512_maskz_cvtneps2bf16_512(<16 x float> %A, i16 %U) local_unnamed_addr #2 {		define <4 x i64> @test_mm512_maskz_cvtneps2bf16_512(<16 x float> %A, i16 %U) local_unnamed_addr #2 {
; X86-LABEL: test_mm512_maskz_cvtneps2bf16_512:		; X86-LABEL: test_mm512_maskz_cvtneps2bf16_512:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtneps2bf16 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc0]
; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]		; X86-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xc9,0x6f,0xc0]
		; X86-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm512_maskz_cvtneps2bf16_512:		; X64-LABEL: test_mm512_maskz_cvtneps2bf16_512:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtneps2bf16 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc0]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]		; X64-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xc9,0x6f,0xc0]
		; X64-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
%1 = bitcast i16 %U to <16 x i1>		%1 = bitcast i16 %U to <16 x i1>
%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer		%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer
%3 = bitcast <16 x i16> %2 to <4 x i64>		%3 = bitcast <16 x i16> %2 to <4 x i64>
ret <4 x i64> %3		ret <4 x i64> %3
}		}

define <4 x i64> @test_mm512_mask_cvtneps2bf16_512(<4 x i64> %C, i16 %U, <16 x float> %A) local_unnamed_addr #2 {		define <4 x i64> @test_mm512_mask_cvtneps2bf16_512(<4 x i64> %C, i16 %U, <16 x float> %A) local_unnamed_addr #2 {
; X86-LABEL: test_mm512_mask_cvtneps2bf16_512:		; X86-LABEL: test_mm512_mask_cvtneps2bf16_512:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
		; X86-NEXT: vcvtneps2bf16 %zmm1, %ymm1 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc9]
; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]		; X86-NEXT: vmovdqu16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc1]
		; X86-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm512_mask_cvtneps2bf16_512:		; X64-LABEL: test_mm512_mask_cvtneps2bf16_512:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
		; X64-NEXT: vcvtneps2bf16 %zmm1, %ymm1 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc9]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]		; X64-NEXT: vmovdqu16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc1]
		; X64-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
%1 = bitcast <4 x i64> %C to <16 x i16>		%1 = bitcast <4 x i64> %C to <16 x i16>
%2 = bitcast i16 %U to <16 x i1>		%2 = bitcast i16 %U to <16 x i1>
%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1		%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1
%4 = bitcast <16 x i16> %3 to <4 x i64>		%4 = bitcast <16 x i16> %3 to <4 x i64>
ret <4 x i64> %4		ret <4 x i64> %4
▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bf16-intrinsics.ll

This file was copied to llvm/test/CodeGen/X86/avx512bf16-intrinsics-upgrade.ll.

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx512bf16 --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx512bf16 --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16 --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16 --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X64

	declare <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float>, <16 x float>) #3			declare <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float>, <16 x float>) #3

	define <8 x i64> @test_mm512_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {			define <8 x i64> @test_mm512_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm512_cvtne2ps2bf16_512:			; CHECK-LABEL: test_mm512_cvtne2ps2bf16_512:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x72,0xc1]			; CHECK-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x72,0xc1]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4			%0 = tail call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
	%1 = bitcast <32 x i16> %0 to <8 x i64>			%1 = bitcast <32 x bfloat> %0 to <8 x i64>
	ret <8 x i64> %1			ret <8 x i64> %1
	}			}

	define <8 x i64> @test_mm512_maskz_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B, i32 %U) local_unnamed_addr #2 {			define <8 x i64> @test_mm512_maskz_cvtne2ps2bf16_512(<16 x float> %A, <16 x float> %B, i32 %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:			; X86-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]			; X86-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:			; X64-LABEL: test_mm512_maskz_cvtne2ps2bf16_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]			; X64-NEXT: vcvtne2ps2bf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x72,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4			%0 = tail call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
	%1 = bitcast i32 %U to <32 x i1>			%1 = bitcast i32 %U to <32 x i1>
	%2 = select <32 x i1> %1, <32 x i16> %0, <32 x i16> zeroinitializer			%2 = select <32 x i1> %1, <32 x bfloat> %0, <32 x bfloat> zeroinitializer
	%3 = bitcast <32 x i16> %2 to <8 x i64>			%3 = bitcast <32 x bfloat> %2 to <8 x i64>
	ret <8 x i64> %3			ret <8 x i64> %3
	}			}

	define <8 x i64> @test_mm512_mask_cvtne2ps2bf16_512(<8 x i64> %C, i32 %U, <16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {			define <8 x i64> @test_mm512_mask_cvtne2ps2bf16_512(<8 x i64> %C, i32 %U, <16 x float> %A, <16 x float> %B) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_mask_cvtne2ps2bf16_512:			; X86-LABEL: test_mm512_mask_cvtne2ps2bf16_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]			; X86-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_mask_cvtne2ps2bf16_512:			; X64-LABEL: test_mm512_mask_cvtne2ps2bf16_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]			; X64-NEXT: vcvtne2ps2bf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x72,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4			%0 = tail call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %A, <16 x float> %B) #4
	%1 = bitcast <8 x i64> %C to <32 x i16>			%1 = bitcast <8 x i64> %C to <32 x bfloat>
	%2 = bitcast i32 %U to <32 x i1>			%2 = bitcast i32 %U to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %0, <32 x i16> %1			%3 = select <32 x i1> %2, <32 x bfloat> %0, <32 x bfloat> %1
	%4 = bitcast <32 x i16> %3 to <8 x i64>			%4 = bitcast <32 x bfloat> %3 to <8 x i64>
	ret <8 x i64> %4			ret <8 x i64> %4
	}			}

	declare <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float>) #3			declare <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float>) #3

	define <4 x i64> @test_mm512_cvtneps2bf16_512(<16 x float> %A) local_unnamed_addr #2 {			define <4 x i64> @test_mm512_cvtneps2bf16_512(<16 x float> %A) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm512_cvtneps2bf16_512:			; CHECK-LABEL: test_mm512_cvtneps2bf16_512:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtneps2bf16 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc0]			; CHECK-NEXT: vcvtneps2bf16 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x72,0xc0]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
	%1 = bitcast <16 x i16> %0 to <4 x i64>			%1 = bitcast <16 x bfloat> %0 to <4 x i64>
	ret <4 x i64> %1			ret <4 x i64> %1
	}			}

	define <4 x i64> @test_mm512_maskz_cvtneps2bf16_512(<16 x float> %A, i16 %U) local_unnamed_addr #2 {			define <4 x i64> @test_mm512_maskz_cvtneps2bf16_512(<16 x float> %A, i16 %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_maskz_cvtneps2bf16_512:			; X86-LABEL: test_mm512_maskz_cvtneps2bf16_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]			; X86-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_maskz_cvtneps2bf16_512:			; X64-LABEL: test_mm512_maskz_cvtneps2bf16_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]			; X64-NEXT: vcvtneps2bf16 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x72,0xc0]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
	%1 = bitcast i16 %U to <16 x i1>			%1 = bitcast i16 %U to <16 x i1>
	%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer			%2 = select <16 x i1> %1, <16 x bfloat> %0, <16 x bfloat> zeroinitializer
	%3 = bitcast <16 x i16> %2 to <4 x i64>			%3 = bitcast <16 x bfloat> %2 to <4 x i64>
	ret <4 x i64> %3			ret <4 x i64> %3
	}			}

	define <4 x i64> @test_mm512_mask_cvtneps2bf16_512(<4 x i64> %C, i16 %U, <16 x float> %A) local_unnamed_addr #2 {			define <4 x i64> @test_mm512_mask_cvtneps2bf16_512(<4 x i64> %C, i16 %U, <16 x float> %A) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_mask_cvtneps2bf16_512:			; X86-LABEL: test_mm512_mask_cvtneps2bf16_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]			; X86-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_mask_cvtneps2bf16_512:			; X64-LABEL: test_mm512_mask_cvtneps2bf16_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]			; X64-NEXT: vcvtneps2bf16 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x72,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %A) #4
	%1 = bitcast <4 x i64> %C to <16 x i16>			%1 = bitcast <4 x i64> %C to <16 x bfloat>
	%2 = bitcast i16 %U to <16 x i1>			%2 = bitcast i16 %U to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1			%3 = select <16 x i1> %2, <16 x bfloat> %0, <16 x bfloat> %1
	%4 = bitcast <16 x i16> %3 to <4 x i64>			%4 = bitcast <16 x bfloat> %3 to <4 x i64>
	ret <4 x i64> %4			ret <4 x i64> %4
	}			}

	declare <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float>, <16 x i32>, <16 x i32>) #3			declare <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float>, <32 x bfloat>, <32 x bfloat>) #3

	define <16 x float> @test_mm512_dpbf16ps_512(<16 x float> %E, <16 x i32> %A, <16 x i32> %B) local_unnamed_addr #2 {			define <16 x float> @test_mm512_dpbf16ps_512(<16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm512_dpbf16ps_512:			; CHECK-LABEL: test_mm512_dpbf16ps_512:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf2,0x76,0x48,0x52,0xc2]			; CHECK-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf2,0x76,0x48,0x52,0xc2]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <16 x i32> %A, <16 x i32> %B) #4			%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B) #4
	ret <16 x float> %0			ret <16 x float> %0
	}			}

	define <16 x float> @test_mm512_maskz_dpbf16ps_512(<16 x float> %E, <16 x i32> %A, <16 x i32> %B, i16 zeroext %U) local_unnamed_addr #2 {			define <16 x float> @test_mm512_maskz_dpbf16ps_512(<16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B, i16 zeroext %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_maskz_dpbf16ps_512:			; X86-LABEL: test_mm512_maskz_dpbf16ps_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xc9,0x52,0xc2]			; X86-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xc9,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_maskz_dpbf16ps_512:			; X64-LABEL: test_mm512_maskz_dpbf16ps_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xc9,0x52,0xc2]			; X64-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xc9,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <16 x i32> %A, <16 x i32> %B) #4			%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B) #4
	%1 = bitcast i16 %U to <16 x i1>			%1 = bitcast i16 %U to <16 x i1>
	%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer			%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer
	ret <16 x float> %2			ret <16 x float> %2
	}			}
	define <16 x float> @test_mm512_mask_dpbf16ps_512(i16 zeroext %U, <16 x float> %E, <16 x i32> %A, <16 x i32> %B) local_unnamed_addr #2 {			define <16 x float> @test_mm512_mask_dpbf16ps_512(i16 zeroext %U, <16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B) local_unnamed_addr #2 {
	; X86-LABEL: test_mm512_mask_dpbf16ps_512:			; X86-LABEL: test_mm512_mask_dpbf16ps_512:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x49,0x52,0xc2]			; X86-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x49,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm512_mask_dpbf16ps_512:			; X64-LABEL: test_mm512_mask_dpbf16ps_512:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x49,0x52,0xc2]			; X64-NEXT: vdpbf16ps %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x49,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <16 x i32> %A, <16 x i32> %B) #4			%0 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %E, <32 x bfloat> %A, <32 x bfloat> %B) #4
	%1 = bitcast i16 %U to <16 x i1>			%1 = bitcast i16 %U to <16 x i1>
	%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> %E			%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> %E
	ret <16 x float> %2			ret <16 x float> %2
	}			}

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics-upgrade.ll

This file was copied from llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics.ll.

Show All 12 Lines	entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
%1 = bitcast <8 x i16> %0 to <2 x i64>		%1 = bitcast <8 x i16> %0 to <2 x i64>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <2 x i64> @test_mm_maskz_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B, i8 zeroext %U) local_unnamed_addr #0 {		define <2 x i64> @test_mm_maskz_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B, i8 zeroext %U) local_unnamed_addr #0 {
; X86-LABEL: test_mm_maskz_cvtne2ps2bf16_128:		; X86-LABEL: test_mm_maskz_cvtne2ps2bf16_128:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x72,0xc1]
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]		; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
; X86-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]		; X86-NEXT: vmovdqu16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0x89,0x6f,0xc0]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm_maskz_cvtne2ps2bf16_128:		; X64-LABEL: test_mm_maskz_cvtne2ps2bf16_128:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x72,0xc1]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]		; X64-NEXT: vmovdqu16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0x89,0x6f,0xc0]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
%1 = bitcast i8 %U to <8 x i1>		%1 = bitcast i8 %U to <8 x i1>
%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer		%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer
%3 = bitcast <8 x i16> %2 to <2 x i64>		%3 = bitcast <8 x i16> %2 to <2 x i64>
ret <2 x i64> %3		ret <2 x i64> %3
}		}

define <2 x i64> @test_mm_mask_cvtne2ps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {		define <2 x i64> @test_mm_mask_cvtne2ps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {
; X86-LABEL: test_mm_mask_cvtne2ps2bf16_128:		; X86-LABEL: test_mm_mask_cvtne2ps2bf16_128:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm1 # encoding: [0x62,0xf2,0x77,0x08,0x72,0xca]
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]		; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
; X86-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]		; X86-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm_mask_cvtne2ps2bf16_128:		; X64-LABEL: test_mm_mask_cvtne2ps2bf16_128:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm1 # encoding: [0x62,0xf2,0x77,0x08,0x72,0xca]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]		; X64-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
%1 = bitcast <2 x i64> %C to <8 x i16>		%1 = bitcast <2 x i64> %C to <8 x i16>
%2 = bitcast i8 %U to <8 x i1>		%2 = bitcast i8 %U to <8 x i1>
%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1		%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1
%4 = bitcast <8 x i16> %3 to <2 x i64>		%4 = bitcast <8 x i16> %3 to <2 x i64>
ret <2 x i64> %4		ret <2 x i64> %4
Show All 10 Lines	entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
%1 = bitcast <16 x i16> %0 to <4 x i64>		%1 = bitcast <16 x i16> %0 to <4 x i64>
ret <4 x i64> %1		ret <4 x i64> %1
}		}

define <4 x i64> @test_mm256_maskz_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B, i16 zeroext %U) local_unnamed_addr #1 {		define <4 x i64> @test_mm256_maskz_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B, i16 zeroext %U) local_unnamed_addr #1 {
; X86-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:		; X86-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x72,0xc1]
; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]		; X86-NEXT: vmovdqu16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xa9,0x6f,0xc0]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:		; X64-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x72,0xc1]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]		; X64-NEXT: vmovdqu16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0xa9,0x6f,0xc0]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
%1 = bitcast i16 %U to <16 x i1>		%1 = bitcast i16 %U to <16 x i1>
%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer		%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer
%3 = bitcast <16 x i16> %2 to <4 x i64>		%3 = bitcast <16 x i16> %2 to <4 x i64>
ret <4 x i64> %3		ret <4 x i64> %3
}		}

define <4 x i64> @test_mm256_mask_cvtne2ps2bf16_256(<4 x i64> %C, i16 zeroext %U, <8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {		define <4 x i64> @test_mm256_mask_cvtne2ps2bf16_256(<4 x i64> %C, i16 zeroext %U, <8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {
; X86-LABEL: test_mm256_mask_cvtne2ps2bf16_256:		; X86-LABEL: test_mm256_mask_cvtne2ps2bf16_256:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm1 # encoding: [0x62,0xf2,0x77,0x28,0x72,0xca]
; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]		; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
; X86-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]		; X86-NEXT: vmovdqu16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf1,0xff,0x29,0x6f,0xc1]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm256_mask_cvtne2ps2bf16_256:		; X64-LABEL: test_mm256_mask_cvtne2ps2bf16_256:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm1 # encoding: [0x62,0xf2,0x77,0x28,0x72,0xca]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]		; X64-NEXT: vmovdqu16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf1,0xff,0x29,0x6f,0xc1]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4		%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
%1 = bitcast <4 x i64> %C to <16 x i16>		%1 = bitcast <4 x i64> %C to <16 x i16>
%2 = bitcast i16 %U to <16 x i1>		%2 = bitcast i16 %U to <16 x i1>
%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1		%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1
%4 = bitcast <16 x i16> %3 to <4 x i64>		%4 = bitcast <16 x i16> %3 to <4 x i64>
ret <4 x i64> %4		ret <4 x i64> %4
Show All 11 Lines	entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
%1 = bitcast <8 x i16> %0 to <2 x i64>		%1 = bitcast <8 x i16> %0 to <2 x i64>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <2 x i64> @test_mm256_maskz_cvtneps2bf16_256(<8 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {		define <2 x i64> @test_mm256_maskz_cvtneps2bf16_256(<8 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {
; X86-LABEL: test_mm256_maskz_cvtneps2bf16_256:		; X86-LABEL: test_mm256_maskz_cvtneps2bf16_256:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtneps2bf16 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc0]
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]		; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
; X86-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]		; X86-NEXT: vmovdqu16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0x89,0x6f,0xc0]
; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]		; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm256_maskz_cvtneps2bf16_256:		; X64-LABEL: test_mm256_maskz_cvtneps2bf16_256:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtneps2bf16 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc0]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]		; X64-NEXT: vmovdqu16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xff,0x89,0x6f,0xc0]
; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]		; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
%1 = bitcast i8 %U to <8 x i1>		%1 = bitcast i8 %U to <8 x i1>
%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer		%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer
%3 = bitcast <8 x i16> %2 to <2 x i64>		%3 = bitcast <8 x i16> %2 to <2 x i64>
ret <2 x i64> %3		ret <2 x i64> %3
}		}

define <2 x i64> @test_mm256_mask_cvtneps2bf16_256(<2 x i64> %C, i8 zeroext %U, <8 x float> %A) local_unnamed_addr #2 {		define <2 x i64> @test_mm256_mask_cvtneps2bf16_256(<2 x i64> %C, i8 zeroext %U, <8 x float> %A) local_unnamed_addr #2 {
; X86-LABEL: test_mm256_mask_cvtneps2bf16_256:		; X86-LABEL: test_mm256_mask_cvtneps2bf16_256:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
		; X86-NEXT: vcvtneps2bf16 %ymm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc9]
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]		; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
; X86-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]		; X86-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]		; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_mm256_mask_cvtneps2bf16_256:		; X64-LABEL: test_mm256_mask_cvtneps2bf16_256:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
		; X64-NEXT: vcvtneps2bf16 %ymm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc9]
; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]		; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
; X64-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]		; X64-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]		; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
entry:		entry:
%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4		%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
%1 = bitcast <2 x i64> %C to <8 x i16>		%1 = bitcast <2 x i64> %C to <8 x i16>
%2 = bitcast i8 %U to <8 x i1>		%2 = bitcast i8 %U to <8 x i1>
%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1		%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1
%4 = bitcast <8 x i16> %3 to <2 x i64>		%4 = bitcast <8 x i16> %3 to <2 x i64>
▲ Show 20 Lines • Show All 186 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics.ll

This file was copied to llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics-upgrade.ll.

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx512bf16 -mattr=+avx512vl --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx512bf16 -mattr=+avx512vl --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16 -mattr=+avx512vl --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16 -mattr=+avx512vl --show-mc-encoding \| FileCheck %s --check-prefixes=CHECK,X64

	declare <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float>, <4 x float>) #1			declare <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float>, <4 x float>) #1

	define <2 x i64> @test_mm_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {			define <2 x i64> @test_mm_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {
	; CHECK-LABEL: test_mm_cvtne2ps2bf16_128:			; CHECK-LABEL: test_mm_cvtne2ps2bf16_128:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x72,0xc1]			; CHECK-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x72,0xc1]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
	%1 = bitcast <8 x i16> %0 to <2 x i64>			%1 = bitcast <8 x bfloat> %0 to <2 x i64>
	ret <2 x i64> %1			ret <2 x i64> %1
	}			}

	define <2 x i64> @test_mm_maskz_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B, i8 zeroext %U) local_unnamed_addr #0 {			define <2 x i64> @test_mm_maskz_cvtne2ps2bf16_128(<4 x float> %A, <4 x float> %B, i8 zeroext %U) local_unnamed_addr #0 {
	; X86-LABEL: test_mm_maskz_cvtne2ps2bf16_128:			; X86-LABEL: test_mm_maskz_cvtne2ps2bf16_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]			; X86-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm_maskz_cvtne2ps2bf16_128:			; X64-LABEL: test_mm_maskz_cvtne2ps2bf16_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]			; X64-NEXT: vcvtne2ps2bf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0x89,0x72,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
	%1 = bitcast i8 %U to <8 x i1>			%1 = bitcast i8 %U to <8 x i1>
	%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer			%2 = select <8 x i1> %1, <8 x bfloat> %0, <8 x bfloat> zeroinitializer
	%3 = bitcast <8 x i16> %2 to <2 x i64>			%3 = bitcast <8 x bfloat> %2 to <2 x i64>
	ret <2 x i64> %3			ret <2 x i64> %3
	}			}

	define <2 x i64> @test_mm_mask_cvtne2ps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {			define <2 x i64> @test_mm_mask_cvtne2ps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A, <4 x float> %B) local_unnamed_addr #0 {
	; X86-LABEL: test_mm_mask_cvtne2ps2bf16_128:			; X86-LABEL: test_mm_mask_cvtne2ps2bf16_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]			; X86-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm_mask_cvtne2ps2bf16_128:			; X64-LABEL: test_mm_mask_cvtne2ps2bf16_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]			; X64-NEXT: vcvtne2ps2bf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x72,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %A, <4 x float> %B) #2
	%1 = bitcast <2 x i64> %C to <8 x i16>			%1 = bitcast <2 x i64> %C to <8 x bfloat>
	%2 = bitcast i8 %U to <8 x i1>			%2 = bitcast i8 %U to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1			%3 = select <8 x i1> %2, <8 x bfloat> %0, <8 x bfloat> %1
	%4 = bitcast <8 x i16> %3 to <2 x i64>			%4 = bitcast <8 x bfloat> %3 to <2 x i64>
	ret <2 x i64> %4			ret <2 x i64> %4
	}			}

	declare <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float>, <8 x float>) #3			declare <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float>, <8 x float>) #3

	define <4 x i64> @test_mm256_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {			define <4 x i64> @test_mm256_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {
	; CHECK-LABEL: test_mm256_cvtne2ps2bf16_256:			; CHECK-LABEL: test_mm256_cvtne2ps2bf16_256:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x72,0xc1]			; CHECK-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x72,0xc1]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
	%1 = bitcast <16 x i16> %0 to <4 x i64>			%1 = bitcast <16 x bfloat> %0 to <4 x i64>
	ret <4 x i64> %1			ret <4 x i64> %1
	}			}

	define <4 x i64> @test_mm256_maskz_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B, i16 zeroext %U) local_unnamed_addr #1 {			define <4 x i64> @test_mm256_maskz_cvtne2ps2bf16_256(<8 x float> %A, <8 x float> %B, i16 zeroext %U) local_unnamed_addr #1 {
	; X86-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:			; X86-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]			; X86-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:			; X64-LABEL: test_mm256_maskz_cvtne2ps2bf16_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]			; X64-NEXT: vcvtne2ps2bf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xa9,0x72,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
	%1 = bitcast i16 %U to <16 x i1>			%1 = bitcast i16 %U to <16 x i1>
	%2 = select <16 x i1> %1, <16 x i16> %0, <16 x i16> zeroinitializer			%2 = select <16 x i1> %1, <16 x bfloat> %0, <16 x bfloat> zeroinitializer
	%3 = bitcast <16 x i16> %2 to <4 x i64>			%3 = bitcast <16 x bfloat> %2 to <4 x i64>
	ret <4 x i64> %3			ret <4 x i64> %3
	}			}

	define <4 x i64> @test_mm256_mask_cvtne2ps2bf16_256(<4 x i64> %C, i16 zeroext %U, <8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {			define <4 x i64> @test_mm256_mask_cvtne2ps2bf16_256(<4 x i64> %C, i16 zeroext %U, <8 x float> %A, <8 x float> %B) local_unnamed_addr #1 {
	; X86-LABEL: test_mm256_mask_cvtne2ps2bf16_256:			; X86-LABEL: test_mm256_mask_cvtne2ps2bf16_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
	; X86-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]			; X86-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_mask_cvtne2ps2bf16_256:			; X64-LABEL: test_mm256_mask_cvtne2ps2bf16_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]			; X64-NEXT: vcvtne2ps2bf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x72,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4			%0 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %A, <8 x float> %B) #4
	%1 = bitcast <4 x i64> %C to <16 x i16>			%1 = bitcast <4 x i64> %C to <16 x bfloat>
	%2 = bitcast i16 %U to <16 x i1>			%2 = bitcast i16 %U to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %0, <16 x i16> %1			%3 = select <16 x i1> %2, <16 x bfloat> %0, <16 x bfloat> %1
	%4 = bitcast <16 x i16> %3 to <4 x i64>			%4 = bitcast <16 x bfloat> %3 to <4 x i64>
	ret <4 x i64> %4			ret <4 x i64> %4
	}			}

	declare <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float>) #3			declare <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float>) #3

	define <2 x i64> @test_mm256_cvtneps2bf16_256(<8 x float> %A) local_unnamed_addr #2 {			define <2 x i64> @test_mm256_cvtneps2bf16_256(<8 x float> %A) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm256_cvtneps2bf16_256:			; CHECK-LABEL: test_mm256_cvtneps2bf16_256:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtneps2bf16 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc0]			; CHECK-NEXT: vcvtneps2bf16 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x72,0xc0]
	; CHECK-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; CHECK-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
	%1 = bitcast <8 x i16> %0 to <2 x i64>			%1 = bitcast <8 x bfloat> %0 to <2 x i64>
	ret <2 x i64> %1			ret <2 x i64> %1
	}			}

	define <2 x i64> @test_mm256_maskz_cvtneps2bf16_256(<8 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {			define <2 x i64> @test_mm256_maskz_cvtneps2bf16_256(<8 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm256_maskz_cvtneps2bf16_256:			; X86-LABEL: test_mm256_maskz_cvtneps2bf16_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]			; X86-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]
	; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_maskz_cvtneps2bf16_256:			; X64-LABEL: test_mm256_maskz_cvtneps2bf16_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]			; X64-NEXT: vcvtneps2bf16 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x72,0xc0]
	; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
	%1 = bitcast i8 %U to <8 x i1>			%1 = bitcast i8 %U to <8 x i1>
	%2 = select <8 x i1> %1, <8 x i16> %0, <8 x i16> zeroinitializer			%2 = select <8 x i1> %1, <8 x bfloat> %0, <8 x bfloat> zeroinitializer
	%3 = bitcast <8 x i16> %2 to <2 x i64>			%3 = bitcast <8 x bfloat> %2 to <2 x i64>
	ret <2 x i64> %3			ret <2 x i64> %3
	}			}

	define <2 x i64> @test_mm256_mask_cvtneps2bf16_256(<2 x i64> %C, i8 zeroext %U, <8 x float> %A) local_unnamed_addr #2 {			define <2 x i64> @test_mm256_mask_cvtneps2bf16_256(<2 x i64> %C, i8 zeroext %U, <8 x float> %A) local_unnamed_addr #2 {
	; X86-LABEL: test_mm256_mask_cvtneps2bf16_256:			; X86-LABEL: test_mm256_mask_cvtneps2bf16_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]			; X86-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]
	; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X86-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_mask_cvtneps2bf16_256:			; X64-LABEL: test_mm256_mask_cvtneps2bf16_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]			; X64-NEXT: vcvtneps2bf16 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x72,0xc1]
	; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X64-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %A) #4
	%1 = bitcast <2 x i64> %C to <8 x i16>			%1 = bitcast <2 x i64> %C to <8 x bfloat>
	%2 = bitcast i8 %U to <8 x i1>			%2 = bitcast i8 %U to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %0, <8 x i16> %1			%3 = select <8 x i1> %2, <8 x bfloat> %0, <8 x bfloat> %1
	%4 = bitcast <8 x i16> %3 to <2 x i64>			%4 = bitcast <8 x bfloat> %3 to <2 x i64>
	ret <2 x i64> %4			ret <2 x i64> %4
	}			}

	declare <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float>, <8 x i16>, <4 x i1>) #3			declare <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float>, <8 x bfloat>, <4 x i1>) #3

	define <2 x i64> @test_mm128_cvtneps2bf16_128(<4 x float> %A) local_unnamed_addr #2 {			define <2 x i64> @test_mm128_cvtneps2bf16_128(<4 x float> %A) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm128_cvtneps2bf16_128:			; CHECK-LABEL: test_mm128_cvtneps2bf16_128:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vcvtneps2bf16 %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc0]			; CHECK-NEXT: vcvtneps2bf16 %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc0]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x i16> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>) #4			%0 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x bfloat> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>) #4
	%1 = bitcast <8 x i16> %0 to <2 x i64>			%1 = bitcast <8 x bfloat> %0 to <2 x i64>
	ret <2 x i64> %1			ret <2 x i64> %1
	}			}

	define <2 x i64> @test_mm128_maskz_cvtneps2bf16_128(<4 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {			define <2 x i64> @test_mm128_maskz_cvtneps2bf16_128(<4 x float> %A, i8 zeroext %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm128_maskz_cvtneps2bf16_128:			; X86-LABEL: test_mm128_maskz_cvtneps2bf16_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtneps2bf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x72,0xc0]			; X86-NEXT: vcvtneps2bf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x72,0xc0]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm128_maskz_cvtneps2bf16_128:			; X64-LABEL: test_mm128_maskz_cvtneps2bf16_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x72,0xc0]			; X64-NEXT: vcvtneps2bf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x72,0xc0]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = bitcast i8 %U to <8 x i1>			%0 = bitcast i8 %U to <8 x i1>
	%1 = shufflevector <8 x i1> %0, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%1 = shufflevector <8 x i1> %0, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x i16> zeroinitializer, <4 x i1> %1) #4			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x bfloat> zeroinitializer, <4 x i1> %1) #4
	%3 = bitcast <8 x i16> %2 to <2 x i64>			%3 = bitcast <8 x bfloat> %2 to <2 x i64>
	ret <2 x i64> %3			ret <2 x i64> %3
	}			}

	define <2 x i64> @test_mm128_mask_cvtneps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A) local_unnamed_addr #2 {			define <2 x i64> @test_mm128_mask_cvtneps2bf16_128(<2 x i64> %C, i8 zeroext %U, <4 x float> %A) local_unnamed_addr #2 {
	; X86-LABEL: test_mm128_mask_cvtneps2bf16_128:			; X86-LABEL: test_mm128_mask_cvtneps2bf16_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtneps2bf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x72,0xc1]			; X86-NEXT: vcvtneps2bf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x72,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm128_mask_cvtneps2bf16_128:			; X64-LABEL: test_mm128_mask_cvtneps2bf16_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x72,0xc1]			; X64-NEXT: vcvtneps2bf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x72,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = bitcast i8 %U to <8 x i1>			%0 = bitcast i8 %U to <8 x i1>
	%1 = shufflevector <8 x i1> %0, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%1 = shufflevector <8 x i1> %0, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%2 = bitcast <2 x i64> %C to <8 x i16>			%2 = bitcast <2 x i64> %C to <8 x bfloat>
	%3 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x i16> %2, <4 x i1> %1) #4			%3 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x bfloat> %2, <4 x i1> %1) #4
	%4 = bitcast <8 x i16> %3 to <2 x i64>			%4 = bitcast <8 x bfloat> %3 to <2 x i64>
	ret <2 x i64> %4			ret <2 x i64> %4
	}			}

	; Make sure we don't fold a select into the 128 bit form of cvtneps2bf16. It			; Make sure we don't fold a select into the 128 bit form of cvtneps2bf16. It
	; always writes zeros to bits 127:64 regardless of mask.			; always writes zeros to bits 127:64 regardless of mask.
	define <2 x i64> @test_mm128_cvtneps2bf16_128_select(<2 x i64> %C, i8 zeroext %U, <4 x float> %A) local_unnamed_addr #2 {			define <2 x i64> @test_mm128_cvtneps2bf16_128_select(<2 x i64> %C, i8 zeroext %U, <4 x float> %A) local_unnamed_addr #2 {
	; X86-LABEL: test_mm128_cvtneps2bf16_128_select:			; X86-LABEL: test_mm128_cvtneps2bf16_128_select:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vcvtneps2bf16 %xmm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc9]			; X86-NEXT: vcvtneps2bf16 %xmm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc9]
	; X86-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]			; X86-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm128_cvtneps2bf16_128_select:			; X64-LABEL: test_mm128_cvtneps2bf16_128_select:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vcvtneps2bf16 %xmm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc9]			; X64-NEXT: vcvtneps2bf16 %xmm1, %xmm1 # encoding: [0x62,0xf2,0x7e,0x08,0x72,0xc9]
	; X64-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]			; X64-NEXT: vmovdqu16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf1,0xff,0x09,0x6f,0xc1]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = bitcast i8 %U to <8 x i1>			%0 = bitcast i8 %U to <8 x i1>
	%1 = bitcast <2 x i64> %C to <8 x i16>			%1 = bitcast <2 x i64> %C to <8 x bfloat>
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x i16> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>) #4			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %A, <8 x bfloat> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>) #4
	%3 = select <8 x i1> %0, <8 x i16> %2, <8 x i16> %1			%3 = select <8 x i1> %0, <8 x bfloat> %2, <8 x bfloat> %1
	%4 = bitcast <8 x i16> %3 to <2 x i64>			%4 = bitcast <8 x bfloat> %3 to <2 x i64>
	ret <2 x i64> %4			ret <2 x i64> %4
	}			}

	declare <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float>, <8 x i32>, <8 x i32>) #3			declare <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float>, <16 x bfloat>, <16 x bfloat>) #3

	define <8 x float> @test_mm256_dpbf16ps_256(<8 x float> %E, <8 x i32> %A, <8 x i32> %B) local_unnamed_addr #2 {			define <8 x float> @test_mm256_dpbf16ps_256(<8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm256_dpbf16ps_256:			; CHECK-LABEL: test_mm256_dpbf16ps_256:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf2,0x76,0x28,0x52,0xc2]			; CHECK-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf2,0x76,0x28,0x52,0xc2]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <8 x i32> %A, <8 x i32> %B) #4			%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B) #4
	ret <8 x float> %0			ret <8 x float> %0
	}			}

	define <8 x float> @test_mm256_maskz_dpbf16ps_256(<8 x float> %E, <8 x i32> %A, <8 x i32> %B, i8 zeroext %U) local_unnamed_addr #2 {			define <8 x float> @test_mm256_maskz_dpbf16ps_256(<8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B, i8 zeroext %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm256_maskz_dpbf16ps_256:			; X86-LABEL: test_mm256_maskz_dpbf16ps_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xa9,0x52,0xc2]			; X86-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xa9,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_maskz_dpbf16ps_256:			; X64-LABEL: test_mm256_maskz_dpbf16ps_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xa9,0x52,0xc2]			; X64-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0xa9,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <8 x i32> %A, <8 x i32> %B) #4			%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B) #4
	%1 = bitcast i8 %U to <8 x i1>			%1 = bitcast i8 %U to <8 x i1>
	%2 = select <8 x i1> %1, <8 x float> %0, <8 x float> zeroinitializer			%2 = select <8 x i1> %1, <8 x float> %0, <8 x float> zeroinitializer
	ret <8 x float> %2			ret <8 x float> %2
	}			}
	define <8 x float> @test_mm256_mask_dpbf16ps_256(i8 zeroext %U, <8 x float> %E, <8 x i32> %A, <8 x i32> %B) local_unnamed_addr #2 {			define <8 x float> @test_mm256_mask_dpbf16ps_256(i8 zeroext %U, <8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B) local_unnamed_addr #2 {
	; X86-LABEL: test_mm256_mask_dpbf16ps_256:			; X86-LABEL: test_mm256_mask_dpbf16ps_256:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x76,0x29,0x52,0xc2]			; X86-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x76,0x29,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm256_mask_dpbf16ps_256:			; X64-LABEL: test_mm256_mask_dpbf16ps_256:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x76,0x29,0x52,0xc2]			; X64-NEXT: vdpbf16ps %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x76,0x29,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <8 x i32> %A, <8 x i32> %B) #4			%0 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %E, <16 x bfloat> %A, <16 x bfloat> %B) #4
	%1 = bitcast i8 %U to <8 x i1>			%1 = bitcast i8 %U to <8 x i1>
	%2 = select <8 x i1> %1, <8 x float> %0, <8 x float> %E			%2 = select <8 x i1> %1, <8 x float> %0, <8 x float> %E
	ret <8 x float> %2			ret <8 x float> %2
	}			}

	declare <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float>, <4 x i32>, <4 x i32>) #3			declare <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float>, <8 x bfloat>, <8 x bfloat>) #3

	define <4 x float> @test_mm128_dpbf16ps_128(<4 x float> %E, <4 x i32> %A, <4 x i32> %B) local_unnamed_addr #2 {			define <4 x float> @test_mm128_dpbf16ps_128(<4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B) local_unnamed_addr #2 {
	; CHECK-LABEL: test_mm128_dpbf16ps_128:			; CHECK-LABEL: test_mm128_dpbf16ps_128:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf2,0x76,0x08,0x52,0xc2]			; CHECK-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf2,0x76,0x08,0x52,0xc2]
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <4 x i32> %A, <4x i32> %B) #4			%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B) #4
	ret <4 x float> %0			ret <4 x float> %0
	}			}

	define <4 x float> @test_mm128_maskz_dpbf16ps_128(<4 x float> %E, <4 x i32> %A, <4 x i32> %B, i4 zeroext %U) local_unnamed_addr #2 {			define <4 x float> @test_mm128_maskz_dpbf16ps_128(<4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B, i4 zeroext %U) local_unnamed_addr #2 {
	; X86-LABEL: test_mm128_maskz_dpbf16ps_128:			; X86-LABEL: test_mm128_maskz_dpbf16ps_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0x89,0x52,0xc2]			; X86-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0x89,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm128_maskz_dpbf16ps_128:			; X64-LABEL: test_mm128_maskz_dpbf16ps_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0x89,0x52,0xc2]			; X64-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x76,0x89,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <4 x i32> %A, <4 x i32> %B) #4			%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B) #4
	%1 = bitcast i4 %U to <4 x i1>			%1 = bitcast i4 %U to <4 x i1>
	%2 = select <4 x i1> %1, <4 x float> %0, <4 x float> zeroinitializer			%2 = select <4 x i1> %1, <4 x float> %0, <4 x float> zeroinitializer
	ret <4 x float> %2			ret <4 x float> %2
	}			}
	define <4 x float> @test_mm128_mask_dpbf16ps_128(i4 zeroext %U, <4 x float> %E, <4 x i32> %A, <4 x i32> %B) local_unnamed_addr #2 {			define <4 x float> @test_mm128_mask_dpbf16ps_128(i4 zeroext %U, <4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B) local_unnamed_addr #2 {
	; X86-LABEL: test_mm128_mask_dpbf16ps_128:			; X86-LABEL: test_mm128_mask_dpbf16ps_128:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
	; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]			; X86-NEXT: kmovd %eax, %k1 # encoding: [0xc5,0xfb,0x92,0xc8]
	; X86-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x09,0x52,0xc2]			; X86-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x09,0x52,0xc2]
	; X86-NEXT: retl # encoding: [0xc3]			; X86-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-LABEL: test_mm128_mask_dpbf16ps_128:			; X64-LABEL: test_mm128_mask_dpbf16ps_128:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]			; X64-NEXT: kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
	; X64-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x09,0x52,0xc2]			; X64-NEXT: vdpbf16ps %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x76,0x09,0x52,0xc2]
	; X64-NEXT: retq # encoding: [0xc3]			; X64-NEXT: retq # encoding: [0xc3]
	entry:			entry:
	%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <4 x i32> %A, <4 x i32> %B) #4			%0 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %E, <8 x bfloat> %A, <8 x bfloat> %B) #4
	%1 = bitcast i4 %U to <4 x i1>			%1 = bitcast i4 %U to <4 x i1>
	%2 = select <4 x i1> %1, <4 x float> %0, <4 x float> %E			%2 = select <4 x i1> %1, <4 x float> %0, <4 x float> %E
	ret <4 x float> %2			ret <4 x float> %2
	}			}

llvm/test/CodeGen/X86/bfloat.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-linux-gnu \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-linux-gnu \| FileCheck %s --check-prefixes=CHECK,SSE2
				; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16 \| FileCheck %s --check-prefixes=CHECK,BF16

	define void @add(ptr %pa, ptr %pb, ptr %pc) nounwind {			define void @add(ptr %pa, ptr %pb, ptr %pc) nounwind {
	; CHECK-LABEL: add:			; SSE2-LABEL: add:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; CHECK-NEXT: movq %rdx, %rbx			; SSE2-NEXT: movq %rdx, %rbx
	; CHECK-NEXT: movzwl (%rsi), %eax			; SSE2-NEXT: movzwl (%rsi), %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movw %ax, (%rbx)			; SSE2-NEXT: movw %ax, (%rbx)
	; CHECK-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rbx
				; BF16-NEXT: movq %rdx, %rbx
				; BF16-NEXT: movzwl (%rsi), %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: movzwl (%rdi), %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				LuoYuankeUnsubmitted Not Done Reply Inline Actions It seems the difference between SSE2 and BF16 is using SSE instruction or AVX instruction. What do we expect to test for BF16? LuoYuanke: It seems the difference between SSE2 and BF16 is using SSE instruction or AVX instruction. What…
				pengfeiAuthorUnsubmitted Done Reply Inline Actions This is to make sure the scalar type works under AVX512-BF16. We may optimize it with `vcvtneps2bf16` in future. pengfei: This is to make sure the scalar type works under AVX512-BF16. We may optimize it with…
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: movw %ax, (%rbx)
				; BF16-NEXT: popq %rbx
				; BF16-NEXT: retq
	%a = load bfloat, ptr %pa			%a = load bfloat, ptr %pa
	%b = load bfloat, ptr %pb			%b = load bfloat, ptr %pb
	%add = fadd bfloat %a, %b			%add = fadd bfloat %a, %b
	store bfloat %add, ptr %pc			store bfloat %add, ptr %pc
	ret void			ret void
	}			}

	define bfloat @add2(bfloat %a, bfloat %b) nounwind {			define bfloat @add2(bfloat %a, bfloat %b) nounwind {
	; CHECK-LABEL: add2:			; SSE2-LABEL: add2:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rax			; SSE2-NEXT: pushq %rax
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movd %xmm1, %ecx			; SSE2-NEXT: movd %xmm1, %ecx
	; CHECK-NEXT: shll $16, %ecx			; SSE2-NEXT: shll $16, %ecx
	; CHECK-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: popq %rax			; SSE2-NEXT: popq %rax
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add2:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rax
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: vmovd %xmm1, %ecx
				; BF16-NEXT: shll $16, %ecx
				; BF16-NEXT: vmovd %ecx, %xmm0
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: popq %rax
				; BF16-NEXT: retq
	%add = fadd bfloat %a, %b			%add = fadd bfloat %a, %b
	ret bfloat %add			ret bfloat %add
	}			}

	define void @add_double(ptr %pa, ptr %pb, ptr %pc) nounwind {			define void @add_double(ptr %pa, ptr %pb, ptr %pc) nounwind {
	; CHECK-LABEL: add_double:			; SSE2-LABEL: add_double:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; SSE2-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r14			; SSE2-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; CHECK-NEXT: movq %rdx, %rbx			; SSE2-NEXT: movq %rdx, %rbx
	; CHECK-NEXT: movq %rsi, %r14			; SSE2-NEXT: movq %rsi, %r14
	; CHECK-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: callq __truncdfbf2@PLT			; SSE2-NEXT: callq __truncdfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %ebp			; SSE2-NEXT: movd %xmm0, %ebp
	; CHECK-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: callq __truncdfbf2@PLT			; SSE2-NEXT: callq __truncdfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: shll $16, %ebp			; SSE2-NEXT: shll $16, %ebp
	; CHECK-NEXT: movd %ebp, %xmm0			; SSE2-NEXT: movd %ebp, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm0			; SSE2-NEXT: cvtss2sd %xmm0, %xmm0
	; CHECK-NEXT: movsd %xmm0, (%rbx)			; SSE2-NEXT: movsd %xmm0, (%rbx)
	; CHECK-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; SSE2-NEXT: popq %r14
	; CHECK-NEXT: popq %rbp			; SSE2-NEXT: popq %rbp
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add_double:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rbp
				; BF16-NEXT: pushq %r14
				; BF16-NEXT: pushq %rbx
				; BF16-NEXT: movq %rdx, %rbx
				; BF16-NEXT: movq %rsi, %r14
				; BF16-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
				; BF16-NEXT: callq __truncdfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %ebp
				; BF16-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
				; BF16-NEXT: callq __truncdfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: shll $16, %ebp
				; BF16-NEXT: vmovd %ebp, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0
				; BF16-NEXT: vmovsd %xmm0, (%rbx)
				; BF16-NEXT: popq %rbx
				; BF16-NEXT: popq %r14
				; BF16-NEXT: popq %rbp
				; BF16-NEXT: retq
	%la = load double, ptr %pa			%la = load double, ptr %pa
	%a = fptrunc double %la to bfloat			%a = fptrunc double %la to bfloat
	%lb = load double, ptr %pb			%lb = load double, ptr %pb
	%b = fptrunc double %lb to bfloat			%b = fptrunc double %lb to bfloat
	%add = fadd bfloat %a, %b			%add = fadd bfloat %a, %b
	%dadd = fpext bfloat %add to double			%dadd = fpext bfloat %add to double
	store double %dadd, ptr %pc			store double %dadd, ptr %pc
	ret void			ret void
	}			}

	define double @add_double2(double %da, double %db) nounwind {			define double @add_double2(double %da, double %db) nounwind {
	; CHECK-LABEL: add_double2:			; SSE2-LABEL: add_double2:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; CHECK-NEXT: subq $16, %rsp			; SSE2-NEXT: subq $16, %rsp
	; CHECK-NEXT: movsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: callq __truncdfbf2@PLT			; SSE2-NEXT: callq __truncdfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %ebx			; SSE2-NEXT: movd %xmm0, %ebx
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero			; SSE2-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: callq __truncdfbf2@PLT			; SSE2-NEXT: callq __truncdfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: shll $16, %ebx			; SSE2-NEXT: shll $16, %ebx
	; CHECK-NEXT: movd %ebx, %xmm0			; SSE2-NEXT: movd %ebx, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm0			; SSE2-NEXT: cvtss2sd %xmm0, %xmm0
	; CHECK-NEXT: addq $16, %rsp			; SSE2-NEXT: addq $16, %rsp
	; CHECK-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add_double2:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rbx
				; BF16-NEXT: subq $16, %rsp
				; BF16-NEXT: vmovsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; BF16-NEXT: callq __truncdfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %ebx
				; BF16-NEXT: vmovq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload
				; BF16-NEXT: # xmm0 = mem[0],zero
				; BF16-NEXT: callq __truncdfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: shll $16, %ebx
				; BF16-NEXT: vmovd %ebx, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0
				; BF16-NEXT: addq $16, %rsp
				; BF16-NEXT: popq %rbx
				; BF16-NEXT: retq
	%a = fptrunc double %da to bfloat			%a = fptrunc double %da to bfloat
	%b = fptrunc double %db to bfloat			%b = fptrunc double %db to bfloat
	%add = fadd bfloat %a, %b			%add = fadd bfloat %a, %b
	%dadd = fpext bfloat %add to double			%dadd = fpext bfloat %add to double
	ret double %dadd			ret double %dadd
	}			}

	define void @add_constant(ptr %pa, ptr %pc) nounwind {			define void @add_constant(ptr %pa, ptr %pc) nounwind {
	; CHECK-LABEL: add_constant:			; SSE2-LABEL: add_constant:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; CHECK-NEXT: movq %rsi, %rbx			; SSE2-NEXT: movq %rsi, %rbx
	; CHECK-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE2-NEXT: addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movw %ax, (%rbx)			; SSE2-NEXT: movw %ax, (%rbx)
	; CHECK-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add_constant:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rbx
				; BF16-NEXT: movq %rsi, %rbx
				; BF16-NEXT: movzwl (%rdi), %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: movw %ax, (%rbx)
				; BF16-NEXT: popq %rbx
				; BF16-NEXT: retq
	%a = load bfloat, ptr %pa			%a = load bfloat, ptr %pa
	%add = fadd bfloat %a, 1.0			%add = fadd bfloat %a, 1.0
	store bfloat %add, ptr %pc			store bfloat %add, ptr %pc
	ret void			ret void
	}			}

	define bfloat @add_constant2(bfloat %a) nounwind {			define bfloat @add_constant2(bfloat %a) nounwind {
	; CHECK-LABEL: add_constant2:			; SSE2-LABEL: add_constant2:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rax			; SSE2-NEXT: pushq %rax
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE2-NEXT: addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: popq %rax			; SSE2-NEXT: popq %rax
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: add_constant2:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rax
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: popq %rax
				; BF16-NEXT: retq
	%add = fadd bfloat %a, 1.0			%add = fadd bfloat %a, 1.0
	ret bfloat %add			ret bfloat %add
	}			}

	define void @store_constant(ptr %pc) nounwind {			define void @store_constant(ptr %pc) nounwind {
	; CHECK-LABEL: store_constant:			; CHECK-LABEL: store_constant:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movw $16256, (%rdi) # imm = 0x3F80			; CHECK-NEXT: movw $16256, (%rdi) # imm = 0x3F80
	Show All 20 Lines
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%ext = fpext bfloat %a to float			%ext = fpext bfloat %a to float
	%trunc = fptrunc float %ext to bfloat			%trunc = fptrunc float %ext to bfloat
	ret bfloat %trunc			ret bfloat %trunc
	}			}

	define <8 x bfloat> @addv(<8 x bfloat> %a, <8 x bfloat> %b) nounwind {			define <8 x bfloat> @addv(<8 x bfloat> %a, <8 x bfloat> %b) nounwind {
	; CHECK-LABEL: addv:			; SSE2-LABEL: addv:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; SSE2-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; SSE2-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; SSE2-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13			; SSE2-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; SSE2-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; CHECK-NEXT: subq $56, %rsp			; SSE2-NEXT: subq $56, %rsp
	; CHECK-NEXT: movq %xmm0, %rcx			; SSE2-NEXT: movq %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rcx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movq %rcx, %rax			; SSE2-NEXT: movq %rcx, %rax
	; CHECK-NEXT: shrq $32, %rax			; SSE2-NEXT: shrq $32, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movq %xmm1, %rdx			; SSE2-NEXT: movq %xmm1, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movq %rdx, %rax			; SSE2-NEXT: movq %rdx, %rax
	; CHECK-NEXT: shrq $32, %rax			; SSE2-NEXT: shrq $32, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movq %rcx, %rax			; SSE2-NEXT: movq %rcx, %rax
	; CHECK-NEXT: shrq $48, %rax			; SSE2-NEXT: shrq $48, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movq %rdx, %rax			; SSE2-NEXT: movq %rdx, %rax
	; CHECK-NEXT: shrq $48, %rax			; SSE2-NEXT: shrq $48, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
	; CHECK-NEXT: movq %xmm0, %r12			; SSE2-NEXT: movq %xmm0, %r12
	; CHECK-NEXT: movq %r12, %rax			; SSE2-NEXT: movq %r12, %rax
	; CHECK-NEXT: shrq $32, %rax			; SSE2-NEXT: shrq $32, %rax
	; CHECK-NEXT: movq %rax, (%rsp) # 8-byte Spill			; SSE2-NEXT: movq %rax, (%rsp) # 8-byte Spill
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,2,3]
	; CHECK-NEXT: movq %xmm0, %r14			; SSE2-NEXT: movq %xmm0, %r14
	; CHECK-NEXT: movq %r14, %rbp			; SSE2-NEXT: movq %r14, %rbp
	; CHECK-NEXT: shrq $32, %rbp			; SSE2-NEXT: shrq $32, %rbp
	; CHECK-NEXT: movq %r12, %r15			; SSE2-NEXT: movq %r12, %r15
	; CHECK-NEXT: shrq $48, %r15			; SSE2-NEXT: shrq $48, %r15
	; CHECK-NEXT: movq %r14, %r13			; SSE2-NEXT: movq %r14, %r13
	; CHECK-NEXT: shrq $48, %r13			; SSE2-NEXT: shrq $48, %r13
	; CHECK-NEXT: movl %r14d, %eax			; SSE2-NEXT: movl %r14d, %eax
	; CHECK-NEXT: andl $-65536, %eax # imm = 0xFFFF0000			; SSE2-NEXT: andl $-65536, %eax # imm = 0xFFFF0000
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movl %r12d, %eax			; SSE2-NEXT: movl %r12d, %eax
	; CHECK-NEXT: andl $-65536, %eax # imm = 0xFFFF0000			; SSE2-NEXT: andl $-65536, %eax # imm = 0xFFFF0000
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %ebx			; SSE2-NEXT: movd %xmm0, %ebx
	; CHECK-NEXT: shll $16, %ebx			; SSE2-NEXT: shll $16, %ebx
	; CHECK-NEXT: shll $16, %r14d			; SSE2-NEXT: shll $16, %r14d
	; CHECK-NEXT: movd %r14d, %xmm1			; SSE2-NEXT: movd %r14d, %xmm1
	; CHECK-NEXT: shll $16, %r12d			; SSE2-NEXT: shll $16, %r12d
	; CHECK-NEXT: movd %r12d, %xmm0			; SSE2-NEXT: movd %r12d, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movzwl %ax, %r12d			; SSE2-NEXT: movzwl %ax, %r12d
	; CHECK-NEXT: orl %ebx, %r12d			; SSE2-NEXT: orl %ebx, %r12d
	; CHECK-NEXT: shll $16, %r13d			; SSE2-NEXT: shll $16, %r13d
	; CHECK-NEXT: movd %r13d, %xmm1			; SSE2-NEXT: movd %r13d, %xmm1
	; CHECK-NEXT: shll $16, %r15d			; SSE2-NEXT: shll $16, %r15d
	; CHECK-NEXT: movd %r15d, %xmm0			; SSE2-NEXT: movd %r15d, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %r14d			; SSE2-NEXT: movd %xmm0, %r14d
	; CHECK-NEXT: shll $16, %r14d			; SSE2-NEXT: shll $16, %r14d
	; CHECK-NEXT: shll $16, %ebp			; SSE2-NEXT: shll $16, %ebp
	; CHECK-NEXT: movd %ebp, %xmm1			; SSE2-NEXT: movd %ebp, %xmm1
	; CHECK-NEXT: movq (%rsp), %rax # 8-byte Reload			; SSE2-NEXT: movq (%rsp), %rax # 8-byte Reload
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movzwl %ax, %ebx			; SSE2-NEXT: movzwl %ax, %ebx
	; CHECK-NEXT: orl %r14d, %ebx			; SSE2-NEXT: orl %r14d, %ebx
	; CHECK-NEXT: shlq $32, %rbx			; SSE2-NEXT: shlq $32, %rbx
	; CHECK-NEXT: orq %r12, %rbx			; SSE2-NEXT: orq %r12, %rbx
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %r15 # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %r15 # 8-byte Reload
	; CHECK-NEXT: movl %r15d, %eax			; SSE2-NEXT: movl %r15d, %eax
	; CHECK-NEXT: andl $-65536, %eax # imm = 0xFFFF0000			; SSE2-NEXT: andl $-65536, %eax # imm = 0xFFFF0000
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %r14 # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %r14 # 8-byte Reload
	; CHECK-NEXT: movl %r14d, %eax			; SSE2-NEXT: movl %r14d, %eax
	; CHECK-NEXT: andl $-65536, %eax # imm = 0xFFFF0000			; SSE2-NEXT: andl $-65536, %eax # imm = 0xFFFF0000
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %ebp			; SSE2-NEXT: movd %xmm0, %ebp
	; CHECK-NEXT: shll $16, %ebp			; SSE2-NEXT: shll $16, %ebp
	; CHECK-NEXT: movq %r15, %rax			; SSE2-NEXT: movq %r15, %rax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movq %r14, %rax			; SSE2-NEXT: movq %r14, %rax
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movzwl %ax, %r14d			; SSE2-NEXT: movzwl %ax, %r14d
	; CHECK-NEXT: orl %ebp, %r14d			; SSE2-NEXT: orl %ebp, %r14d
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %ebp			; SSE2-NEXT: movd %xmm0, %ebp
	; CHECK-NEXT: shll $16, %ebp			; SSE2-NEXT: shll $16, %ebp
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: shll $16, %eax			; SSE2-NEXT: shll $16, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; CHECK-NEXT: callq __truncsfbf2@PLT			; SSE2-NEXT: callq __truncsfbf2@PLT
	; CHECK-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; CHECK-NEXT: movzwl %ax, %eax			; SSE2-NEXT: movzwl %ax, %eax
	; CHECK-NEXT: orl %ebp, %eax			; SSE2-NEXT: orl %ebp, %eax
	; CHECK-NEXT: shlq $32, %rax			; SSE2-NEXT: shlq $32, %rax
	; CHECK-NEXT: orq %r14, %rax			; SSE2-NEXT: orq %r14, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; SSE2-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movq %rbx, %xmm1			; SSE2-NEXT: movq %rbx, %xmm1
	; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: addq $56, %rsp			; SSE2-NEXT: addq $56, %rsp
	; CHECK-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12			; SSE2-NEXT: popq %r12
	; CHECK-NEXT: popq %r13			; SSE2-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; SSE2-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; SSE2-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; SSE2-NEXT: popq %rbp
	; CHECK-NEXT: retq			; SSE2-NEXT: retq
				;
				; BF16-LABEL: addv:
				; BF16: # %bb.0:
				; BF16-NEXT: pushq %rbp
				; BF16-NEXT: pushq %r15
				; BF16-NEXT: pushq %r14
				; BF16-NEXT: pushq %r13
				; BF16-NEXT: pushq %r12
				; BF16-NEXT: pushq %rbx
				; BF16-NEXT: subq $40, %rsp
				; BF16-NEXT: vmovdqa %xmm1, (%rsp) # 16-byte Spill
				; BF16-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; BF16-NEXT: vpextrw $7, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm2
				; BF16-NEXT: vpextrw $7, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm2, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $6, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $6, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %ebp
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $5, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $5, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %r14d
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $4, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $4, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %r15d
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $3, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $3, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %r12d
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $2, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $2, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %r13d
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vpextrw $1, %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vpextrw $1, %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %ebx
				; BF16-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
				; BF16-NEXT: vmovd %xmm1, %eax
				; BF16-NEXT: shll $16, %eax
				; BF16-NEXT: vmovd %eax, %xmm1
				; BF16-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; BF16-NEXT: callq __truncsfbf2@PLT
				; BF16-NEXT: vmovd %xmm0, %eax
				; BF16-NEXT: vmovd %eax, %xmm0
				; BF16-NEXT: vpinsrw $1, %ebx, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $2, %r13d, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $3, %r12d, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $4, %r15d, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $5, %r14d, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $6, %ebp, %xmm0, %xmm0
				; BF16-NEXT: vpinsrw $7, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
				; BF16-NEXT: addq $40, %rsp
				; BF16-NEXT: popq %rbx
				; BF16-NEXT: popq %r12
				; BF16-NEXT: popq %r13
				; BF16-NEXT: popq %r14
				; BF16-NEXT: popq %r15
				; BF16-NEXT: popq %rbp
				; BF16-NEXT: retq
	%add = fadd <8 x bfloat> %a, %b			%add = fadd <8 x bfloat> %a, %b
	ret <8 x bfloat> %add			ret <8 x bfloat> %add
	}			}

llvm/test/CodeGen/X86/stack-folding-avx512bf16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -O3 -disable-peephole -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16,+avx512vl < %s \| FileCheck %s			; RUN: llc -O3 -disable-peephole -mtriple=x86_64-unknown-unknown -mattr=+avx512bf16,+avx512vl < %s \| FileCheck %s

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-unknown-unknown"			target triple = "x86_64-unknown-unknown"

	; Stack reload folding tests.			; Stack reload folding tests.
	;			;
	; By including a nop call with sideeffects we can force a partial register spill of the			; By including a nop call with sideeffects we can force a partial register spill of the
	; relevant registers and check that the reload is correctly folded into the instruction.			; relevant registers and check that the reload is correctly folded into the instruction.

	define <32 x i16> @stack_fold_cvtne2ps2bf16(<16 x float> %a0, <16 x float> %a1) {			define <32 x bfloat> @stack_fold_cvtne2ps2bf16(<16 x float> %a0, <16 x float> %a1) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)			%2 = call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)
	ret <32 x i16> %2			ret <32 x bfloat> %2
	}			}
	declare <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float>, <16 x float>)			declare <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float>, <16 x float>)

	define <32 x i16> @stack_fold_cvtne2ps2bf16_mask(<16 x float> %a0, <16 x float> %a1, ptr %passthru, i32 %U) {			define <32 x bfloat> @stack_fold_cvtne2ps2bf16_mask(<16 x float> %a0, <16 x float> %a1, ptr %passthru, i32 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vmovaps (%rdi), %zmm2			; CHECK-NEXT: vmovaps (%rdi), %zmm2
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
	; CHECK-NEXT: vmovaps %zmm2, %zmm0			; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)			%2 = call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)
	%3 = bitcast i32 %U to <32 x i1>			%3 = bitcast i32 %U to <32 x i1>
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%4 = load <32 x i16>, ptr %passthru			%4 = load <32 x bfloat>, ptr %passthru
	%5 = select <32 x i1> %3, <32 x i16> %2, <32 x i16> %4			%5 = select <32 x i1> %3, <32 x bfloat> %2, <32 x bfloat> %4
	ret <32 x i16> %5			ret <32 x bfloat> %5
	}			}

	define <32 x i16> @stack_fold_cvtne2ps2bf16_maskz(<16 x float> %a0, <16 x float> %a1, i32 %U) {			define <32 x bfloat> @stack_fold_cvtne2ps2bf16_maskz(<16 x float> %a0, <16 x float> %a1, i32 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <32 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)			%2 = call <32 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.512(<16 x float> %a0, <16 x float> %a1)
	%3 = bitcast i32 %U to <32 x i1>			%3 = bitcast i32 %U to <32 x i1>
	%4 = select <32 x i1> %3, <32 x i16> %2, <32 x i16> zeroinitializer			%4 = select <32 x i1> %3, <32 x bfloat> %2, <32 x bfloat> zeroinitializer
	ret <32 x i16> %4			ret <32 x bfloat> %4
	}			}

	define <16 x i16> @stack_fold_cvtneps2bf16(<16 x float> %a0) {			define <16 x bfloat> @stack_fold_cvtneps2bf16(<16 x float> %a0) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16:			; CHECK-LABEL: stack_fold_cvtneps2bf16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 64-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)			%2 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)
	ret <16 x i16> %2			ret <16 x bfloat> %2
	}			}
	declare <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float>)			declare <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float>)

	define <16 x i16> @stack_fold_cvtneps2bf16_mask(<16 x float> %a0, ptr %passthru, i16 %U) {			define <16 x bfloat> @stack_fold_cvtneps2bf16_mask(<16 x float> %a0, ptr %passthru, i16 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_mask:			; CHECK-LABEL: stack_fold_cvtneps2bf16_mask:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vmovaps (%rdi), %ymm1			; CHECK-NEXT: vmovaps (%rdi), %ymm1
	; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 {%k1} # 64-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 {%k1} # 64-byte Folded Reload
	; CHECK-NEXT: vmovaps %ymm1, %ymm0			; CHECK-NEXT: vmovaps %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)			%2 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)
	%3 = bitcast i16 %U to <16 x i1>			%3 = bitcast i16 %U to <16 x i1>
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%4 = load <16 x i16>, ptr %passthru			%4 = load <16 x bfloat>, ptr %passthru
	%5 = select <16 x i1> %3, <16 x i16> %2, <16 x i16> %4			%5 = select <16 x i1> %3, <16 x bfloat> %2, <16 x bfloat> %4
	ret <16 x i16> %5			ret <16 x bfloat> %5
	}			}

	define <16 x i16> @stack_fold_cvtneps2bf16_maskz(<16 x float> %a0, i16 %U) {			define <16 x bfloat> @stack_fold_cvtneps2bf16_maskz(<16 x float> %a0, i16 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz:			; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 {%k1} {z} # 64-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 {%k1} {z} # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <16 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)			%2 = tail call <16 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.512(<16 x float> %a0)
	%3 = bitcast i16 %U to <16 x i1>			%3 = bitcast i16 %U to <16 x i1>
	%4 = select <16 x i1> %3, <16 x i16> %2, <16 x i16> zeroinitializer			%4 = select <16 x i1> %3, <16 x bfloat> %2, <16 x bfloat> zeroinitializer
	ret <16 x i16> %4			ret <16 x bfloat> %4
	}			}

	define <16 x float> @stack_fold_vdpbf16ps(<16 x float> %a0, <16 x i32> %a1, <16 x i32> %a2) {			define <16 x float> @stack_fold_vdpbf16ps(<16 x float> %a0, <32 x bfloat> %a1, <32 x bfloat> %a2) {
	; CHECK-LABEL: stack_fold_vdpbf16ps:			; CHECK-LABEL: stack_fold_vdpbf16ps:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 # 64-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %a0, <16 x i32> %a1, <16 x i32> %a2)			%2 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %a0, <32 x bfloat> %a1, <32 x bfloat> %a2)
	ret <16 x float> %2			ret <16 x float> %2
	}			}
	declare <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float>, <16 x i32>, <16 x i32>)			declare <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float>, <32 x bfloat>, <32 x bfloat>)

	define <16 x float> @stack_fold_vdpbf16ps_mask(ptr %a0, <16 x i32> %a1, <16 x i32> %a2, ptr %passthru, i16 %U) {			define <16 x float> @stack_fold_vdpbf16ps_mask(ptr %a0, <32 x bfloat> %a1, <32 x bfloat> %a2, ptr %passthru, i16 %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_mask:			; CHECK-LABEL: stack_fold_vdpbf16ps_mask:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vmovaps (%rdi), %zmm2			; CHECK-NEXT: vmovaps (%rdi), %zmm2
	; CHECK-NEXT: kmovd %edx, %k1			; CHECK-NEXT: kmovd %edx, %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
	; CHECK-NEXT: vmovaps %zmm2, %zmm0			; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%2 = load <16 x float>, ptr %a0			%2 = load <16 x float>, ptr %a0
	%3 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %2, <16 x i32> %a1, <16 x i32> %a2)			%3 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %2, <32 x bfloat> %a1, <32 x bfloat> %a2)
	%4 = bitcast i16 %U to <16 x i1>			%4 = bitcast i16 %U to <16 x i1>
	%5 = select <16 x i1> %4, <16 x float> %3, <16 x float> %2			%5 = select <16 x i1> %4, <16 x float> %3, <16 x float> %2
	ret <16 x float> %5			ret <16 x float> %5
	}			}

	define <16 x float> @stack_fold_vdpbf16ps_maskz(<16 x float> %a0, <16 x i32> %a1, <16 x i32> %a2, ptr %U) {			define <16 x float> @stack_fold_vdpbf16ps_maskz(<16 x float> %a0, <32 x bfloat> %a1, <32 x bfloat> %a2, ptr %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_maskz:			; CHECK-LABEL: stack_fold_vdpbf16ps_maskz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; CHECK-NEXT: vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovw (%rdi), %k1			; CHECK-NEXT: kmovw (%rdi), %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 {%k1} {z} # 64-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 {%k1} {z} # 64-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %a0, <16 x i32> %a1, <16 x i32> %a2)			%2 = tail call <16 x float> @llvm.x86.avx512bf16.dpbf16ps.512(<16 x float> %a0, <32 x bfloat> %a1, <32 x bfloat> %a2)
	%3 = load i16, ptr %U			%3 = load i16, ptr %U
	%4 = bitcast i16 %3 to <16 x i1>			%4 = bitcast i16 %3 to <16 x i1>
	%5 = select <16 x i1> %4, <16 x float> %2, <16 x float> zeroinitializer			%5 = select <16 x i1> %4, <16 x float> %2, <16 x float> zeroinitializer
	ret <16 x float> %5			ret <16 x float> %5
	}			}



	define <16 x i16> @stack_fold_cvtne2ps2bf16_ymm(<8 x float> %a0, <8 x float> %a1) {			define <16 x bfloat> @stack_fold_cvtne2ps2bf16_ymm(<8 x float> %a0, <8 x float> %a1) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_ymm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)			%2 = call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)
	ret <16 x i16> %2			ret <16 x bfloat> %2
	}			}
	declare <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float>, <8 x float>)			declare <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float>, <8 x float>)

	define <16 x i16> @stack_fold_cvtne2ps2bf16_mask_ymm(<8 x float> %a0, <8 x float> %a1, ptr %passthru, i16 %U) {			define <16 x bfloat> @stack_fold_cvtne2ps2bf16_mask_ymm(<8 x float> %a0, <8 x float> %a1, ptr %passthru, i16 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask_ymm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vmovaps (%rdi), %ymm2			; CHECK-NEXT: vmovaps (%rdi), %ymm2
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 {%k1} # 32-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 {%k1} # 32-byte Folded Reload
	; CHECK-NEXT: vmovaps %ymm2, %ymm0			; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)			%2 = call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)
	%3 = bitcast i16 %U to <16 x i1>			%3 = bitcast i16 %U to <16 x i1>
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%4 = load <16 x i16>, ptr %passthru			%4 = load <16 x bfloat>, ptr %passthru
	%5 = select <16 x i1> %3, <16 x i16> %2, <16 x i16> %4			%5 = select <16 x i1> %3, <16 x bfloat> %2, <16 x bfloat> %4
	ret <16 x i16> %5			ret <16 x bfloat> %5
	}			}

	define <16 x i16> @stack_fold_cvtne2ps2bf16_maskz_ymm(<8 x float> %a0, <8 x float> %a1, i16 %U) {			define <16 x bfloat> @stack_fold_cvtne2ps2bf16_maskz_ymm(<8 x float> %a0, <8 x float> %a1, i16 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz_ymm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 {%k1} {z} # 32-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 {%k1} {z} # 32-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)			%2 = call <16 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.256(<8 x float> %a0, <8 x float> %a1)
	%3 = bitcast i16 %U to <16 x i1>			%3 = bitcast i16 %U to <16 x i1>
	%4 = select <16 x i1> %3, <16 x i16> %2, <16 x i16> zeroinitializer			%4 = select <16 x i1> %3, <16 x bfloat> %2, <16 x bfloat> zeroinitializer
	ret <16 x i16> %4			ret <16 x bfloat> %4
	}			}

	define <8 x i16> @stack_fold_cvtneps2bf16_ymm(<8 x float> %a0) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_ymm(<8 x float> %a0) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_ymm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 32-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 32-byte Folded Reload
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)
	ret <8 x i16> %2			ret <8 x bfloat> %2
	}			}
	declare <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float>)			declare <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float>)

	define <8 x i16> @stack_fold_cvtneps2bf16_mask_ymm(<8 x float> %a0, ptr %passthru, i8 %U) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_mask_ymm(<8 x float> %a0, ptr %passthru, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_mask_ymm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_mask_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vmovaps (%rdi), %xmm1			; CHECK-NEXT: vmovaps (%rdi), %xmm1
	; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 {%k1} # 32-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 {%k1} # 32-byte Folded Reload
	; CHECK-NEXT: vmovaps %xmm1, %xmm0			; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)
	%3 = bitcast i8 %U to <8 x i1>			%3 = bitcast i8 %U to <8 x i1>
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%4 = load <8 x i16>, ptr %passthru			%4 = load <8 x bfloat>, ptr %passthru
	%5 = select <8 x i1> %3, <8 x i16> %2, <8 x i16> %4			%5 = select <8 x i1> %3, <8 x bfloat> %2, <8 x bfloat> %4
	ret <8 x i16> %5			ret <8 x bfloat> %5
	}			}

	define <8 x i16> @stack_fold_cvtneps2bf16_maskz_ymm(<8 x float> %a0, i8 %U) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_maskz_ymm(<8 x float> %a0, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz_ymm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 {%k1} {z} # 32-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16y {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 {%k1} {z} # 32-byte Folded Reload
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.cvtneps2bf16.256(<8 x float> %a0)
	%3 = bitcast i8 %U to <8 x i1>			%3 = bitcast i8 %U to <8 x i1>
	%4 = select <8 x i1> %3, <8 x i16> %2, <8 x i16> zeroinitializer			%4 = select <8 x i1> %3, <8 x bfloat> %2, <8 x bfloat> zeroinitializer
	ret <8 x i16> %4			ret <8 x bfloat> %4
	}			}

	define <8 x float> @stack_fold_vdpbf16ps_ymm(<8 x float> %a0, <8 x i32> %a1, <8 x i32> %a2) {			define <8 x float> @stack_fold_vdpbf16ps_ymm(<8 x float> %a0, <16 x bfloat> %a1, <16 x bfloat> %a2) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_ymm:			; CHECK-LABEL: stack_fold_vdpbf16ps_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm0 # 32-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm0 # 32-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %a0, <8 x i32> %a1, <8 x i32> %a2)			%2 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %a0, <16 x bfloat> %a1, <16 x bfloat> %a2)
	ret <8 x float> %2			ret <8 x float> %2
	}			}
	declare <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float>, <8 x i32>, <8 x i32>)			declare <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float>, <16 x bfloat>, <16 x bfloat>)

	define <8 x float> @stack_fold_vdpbf16ps_mask_ymm(ptr %a0, <8 x i32> %a1, <8 x i32> %a2, ptr %passthru, i8 %U) {			define <8 x float> @stack_fold_vdpbf16ps_mask_ymm(ptr %a0, <16 x bfloat> %a1, <16 x bfloat> %a2, ptr %passthru, i8 %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_mask_ymm:			; CHECK-LABEL: stack_fold_vdpbf16ps_mask_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vmovaps (%rdi), %ymm2			; CHECK-NEXT: vmovaps (%rdi), %ymm2
	; CHECK-NEXT: kmovd %edx, %k1			; CHECK-NEXT: kmovd %edx, %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 {%k1} # 32-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 {%k1} # 32-byte Folded Reload
	; CHECK-NEXT: vmovaps %ymm2, %ymm0			; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%2 = load <8 x float>, ptr %a0			%2 = load <8 x float>, ptr %a0
	%3 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %2, <8 x i32> %a1, <8 x i32> %a2)			%3 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %2, <16 x bfloat> %a1, <16 x bfloat> %a2)
	%4 = bitcast i8 %U to <8 x i1>			%4 = bitcast i8 %U to <8 x i1>
	%5 = select <8 x i1> %4, <8 x float> %3, <8 x float> %2			%5 = select <8 x i1> %4, <8 x float> %3, <8 x float> %2
	ret <8 x float> %5			ret <8 x float> %5
	}			}

	define <8 x float> @stack_fold_vdpbf16ps_maskz_ymm(<8 x float> %a0, <8 x i32> %a1, <8 x i32> %a2, ptr %U) {			define <8 x float> @stack_fold_vdpbf16ps_maskz_ymm(<8 x float> %a0, <16 x bfloat> %a1, <16 x bfloat> %a2, ptr %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_maskz_ymm:			; CHECK-LABEL: stack_fold_vdpbf16ps_maskz_ymm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: movzbl (%rdi), %eax			; CHECK-NEXT: movzbl (%rdi), %eax
	; CHECK-NEXT: kmovd %eax, %k1			; CHECK-NEXT: kmovd %eax, %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm0 {%k1} {z} # 32-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm0 {%k1} {z} # 32-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %a0, <8 x i32> %a1, <8 x i32> %a2)			%2 = tail call <8 x float> @llvm.x86.avx512bf16.dpbf16ps.256(<8 x float> %a0, <16 x bfloat> %a1, <16 x bfloat> %a2)
	%3 = load i8, ptr %U			%3 = load i8, ptr %U
	%4 = bitcast i8 %3 to <8 x i1>			%4 = bitcast i8 %3 to <8 x i1>
	%5 = select <8 x i1> %4, <8 x float> %2, <8 x float> zeroinitializer			%5 = select <8 x i1> %4, <8 x float> %2, <8 x float> zeroinitializer
	ret <8 x float> %5			ret <8 x float> %5
	}			}




	define <8 x i16> @stack_fold_cvtne2ps2bf16_xmm(<4 x float> %a0, <4 x float> %a1) {			define <8 x bfloat> @stack_fold_cvtne2ps2bf16_xmm(<4 x float> %a0, <4 x float> %a1) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_xmm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)			%2 = call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)
	ret <8 x i16> %2			ret <8 x bfloat> %2
	}			}
	declare <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float>, <4 x float>)			declare <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float>, <4 x float>)

	define <8 x i16> @stack_fold_cvtne2ps2bf16_mask_xmm(<4 x float> %a0, <4 x float> %a1, ptr %passthru, i8 %U) {			define <8 x bfloat> @stack_fold_cvtne2ps2bf16_mask_xmm(<4 x float> %a0, <4 x float> %a1, ptr %passthru, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask_xmm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_mask_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vmovaps (%rdi), %xmm2			; CHECK-NEXT: vmovaps (%rdi), %xmm2
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
	; CHECK-NEXT: vmovaps %xmm2, %xmm0			; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)			%2 = call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)
	%3 = bitcast i8 %U to <8 x i1>			%3 = bitcast i8 %U to <8 x i1>
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%4 = load <8 x i16>, ptr %passthru			%4 = load <8 x bfloat>, ptr %passthru
	%5 = select <8 x i1> %3, <8 x i16> %2, <8 x i16> %4			%5 = select <8 x i1> %3, <8 x bfloat> %2, <8 x bfloat> %4
	ret <8 x i16> %5			ret <8 x bfloat> %5
	}			}

	define <8 x i16> @stack_fold_cvtne2ps2bf16_maskz_xmm(<4 x float> %a0, <4 x float> %a1, i8 %U) {			define <8 x bfloat> @stack_fold_cvtne2ps2bf16_maskz_xmm(<4 x float> %a0, <4 x float> %a1, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz_xmm:			; CHECK-LABEL: stack_fold_cvtne2ps2bf16_maskz_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload			; CHECK-NEXT: vcvtne2ps2bf16 {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <8 x i16> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)			%2 = call <8 x bfloat> @llvm.x86.avx512bf16.cvtne2ps2bf16.128(<4 x float> %a0, <4 x float> %a1)
	%3 = bitcast i8 %U to <8 x i1>			%3 = bitcast i8 %U to <8 x i1>
	%4 = select <8 x i1> %3, <8 x i16> %2, <8 x i16> zeroinitializer			%4 = select <8 x i1> %3, <8 x bfloat> %2, <8 x bfloat> zeroinitializer
	ret <8 x i16> %4			ret <8 x bfloat> %4
	}			}

	define <8 x i16> @stack_fold_cvtneps2bf16_xmm(<4 x float> %a0) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_xmm(<4 x float> %a0) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_xmm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x i16> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)			%2 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x bfloat> undef, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
	ret <8 x i16> %2			ret <8 x bfloat> %2
	}			}
	declare <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float>, <8 x i16>, <4 x i1>)			declare <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float>, <8 x bfloat>, <4 x i1>)

	define <8 x i16> @stack_fold_cvtneps2bf16_mask_xmm(<4 x float> %a0, ptr %passthru, i8 %U) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_mask_xmm(<4 x float> %a0, ptr %passthru, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_mask_xmm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_mask_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vmovaps (%rdi), %xmm1			; CHECK-NEXT: vmovaps (%rdi), %xmm1
	; CHECK-NEXT: kmovd %esi, %k1			; CHECK-NEXT: kmovd %esi, %k1
	; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 {%k1} # 16-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 {%k1} # 16-byte Folded Reload
	; CHECK-NEXT: vmovaps %xmm1, %xmm0			; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load <8 x i16>, ptr %passthru			%2 = load <8 x bfloat>, ptr %passthru
	%3 = bitcast i8 %U to <8 x i1>			%3 = bitcast i8 %U to <8 x i1>
	%4 = shufflevector <8 x i1> %3, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%4 = shufflevector <8 x i1> %3, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%5 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x i16> %2, <4 x i1> %4)			%5 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x bfloat> %2, <4 x i1> %4)
	ret <8 x i16> %5			ret <8 x bfloat> %5
	}			}

	define <8 x i16> @stack_fold_cvtneps2bf16_maskz_xmm(<4 x float> %a0, i8 %U) {			define <8 x bfloat> @stack_fold_cvtneps2bf16_maskz_xmm(<4 x float> %a0, i8 %U) {
	; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz_xmm:			; CHECK-LABEL: stack_fold_cvtneps2bf16_maskz_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 {%k1} {z} # 16-byte Folded Reload			; CHECK-NEXT: vcvtneps2bf16x {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 {%k1} {z} # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = bitcast i8 %U to <8 x i1>			%2 = bitcast i8 %U to <8 x i1>
	%3 = shufflevector <8 x i1> %2, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%3 = shufflevector <8 x i1> %2, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%4 = tail call <8 x i16> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x i16> zeroinitializer, <4 x i1> %3)			%4 = tail call <8 x bfloat> @llvm.x86.avx512bf16.mask.cvtneps2bf16.128(<4 x float> %a0, <8 x bfloat> zeroinitializer, <4 x i1> %3)
	ret <8 x i16> %4			ret <8 x bfloat> %4
	}			}

	define <4 x float> @stack_fold_vdpbf16ps_xmm(<4 x float> %a0, <4 x i32> %a1, <4 x i32> %a2) {			define <4 x float> @stack_fold_vdpbf16ps_xmm(<4 x float> %a0, <8 x bfloat> %a1, <8 x bfloat> %a2) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_xmm:			; CHECK-LABEL: stack_fold_vdpbf16ps_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %a0, <4 x i32> %a1, <4 x i32> %a2)			%2 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %a0, <8 x bfloat> %a1, <8 x bfloat> %a2)
	ret <4 x float> %2			ret <4 x float> %2
	}			}
	declare <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float>, <4 x i32>, <4 x i32>)			declare <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float>, <8 x bfloat>, <8 x bfloat>)

	define <4 x float> @stack_fold_vdpbf16ps_mask_xmm(ptr %a0, <4 x i32> %a1, <4 x i32> %a2, ptr %passthru, i8 %U) {			define <4 x float> @stack_fold_vdpbf16ps_mask_xmm(ptr %a0, <8 x bfloat> %a1, <8 x bfloat> %a2, ptr %passthru, i8 %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_mask_xmm:			; CHECK-LABEL: stack_fold_vdpbf16ps_mask_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: vmovaps (%rdi), %xmm2			; CHECK-NEXT: vmovaps (%rdi), %xmm2
	; CHECK-NEXT: kmovd %edx, %k1			; CHECK-NEXT: kmovd %edx, %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
	; CHECK-NEXT: vmovaps %xmm2, %xmm0			; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	; load needed to keep the operation from being scheduled above the asm block			; load needed to keep the operation from being scheduled above the asm block
	%2 = load <4 x float>, ptr %a0			%2 = load <4 x float>, ptr %a0
	%3 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %2, <4 x i32> %a1, <4 x i32> %a2)			%3 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %2, <8 x bfloat> %a1, <8 x bfloat> %a2)
	%4 = bitcast i8 %U to <8 x i1>			%4 = bitcast i8 %U to <8 x i1>
	%5 = shufflevector <8 x i1> %4, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%5 = shufflevector <8 x i1> %4, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%6 = select <4 x i1> %5, <4 x float> %3, <4 x float> %2			%6 = select <4 x i1> %5, <4 x float> %3, <4 x float> %2
	ret <4 x float> %6			ret <4 x float> %6
	}			}

	define <4 x float> @stack_fold_vdpbf16ps_maskz_xmm(<4 x float> %a0, <4 x i32> %a1, <4 x i32> %a2, ptr %U) {			define <4 x float> @stack_fold_vdpbf16ps_maskz_xmm(<4 x float> %a0, <8 x bfloat> %a1, <8 x bfloat> %a2, ptr %U) {
	; CHECK-LABEL: stack_fold_vdpbf16ps_maskz_xmm:			; CHECK-LABEL: stack_fold_vdpbf16ps_maskz_xmm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: #APP			; CHECK-NEXT: #APP
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: #NO_APP			; CHECK-NEXT: #NO_APP
	; CHECK-NEXT: movzbl (%rdi), %eax			; CHECK-NEXT: movzbl (%rdi), %eax
	; CHECK-NEXT: kmovd %eax, %k1			; CHECK-NEXT: kmovd %eax, %k1
	; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 {%k1} {z} # 16-byte Folded Reload			; CHECK-NEXT: vdpbf16ps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 {%k1} {z} # 16-byte Folded Reload
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %a0, <4 x i32> %a1, <4 x i32> %a2)			%2 = tail call <4 x float> @llvm.x86.avx512bf16.dpbf16ps.128(<4 x float> %a0, <8 x bfloat> %a1, <8 x bfloat> %a2)
	%3 = load i8, ptr %U			%3 = load i8, ptr %U
	%4 = bitcast i8 %3 to <8 x i1>			%4 = bitcast i8 %3 to <8 x i1>
	%5 = shufflevector <8 x i1> %4, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%5 = shufflevector <8 x i1> %4, <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%6 = select <4 x i1> %5, <4 x float> %2, <4 x float> zeroinitializer			%6 = select <4 x i1> %5, <4 x float> %2, <4 x float> zeroinitializer
	ret <4 x float> %6			ret <4 x float> %6
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[X86][RFC] Using `__bf16` for AVX512_BF16 intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 468933

clang/docs/ReleaseNotes.rst

clang/include/clang/Basic/BuiltinsX86.def

clang/lib/CodeGen/CGBuiltin.cpp

clang/lib/Headers/avx512bf16intrin.h

clang/lib/Headers/avx512vlbf16intrin.h

clang/test/CodeGen/X86/avx512bf16-builtins.c

clang/test/CodeGen/X86/avx512bf16-error.c

clang/test/CodeGen/X86/avx512vlbf16-builtins.c

llvm/include/llvm/IR/Intrinsics.td

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/IR/AutoUpgrade.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/lib/Target/X86/X86RegisterInfo.td

llvm/test/CodeGen/X86/avx512bf16-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bf16-intrinsics.ll

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics.ll

llvm/test/CodeGen/X86/bfloat.ll

llvm/test/CodeGen/X86/stack-folding-avx512bf16.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86][RFC] Using `__bf16` for AVX512_BF16 intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 468933

clang/docs/ReleaseNotes.rst

clang/include/clang/Basic/BuiltinsX86.def

clang/lib/CodeGen/CGBuiltin.cpp

clang/lib/Headers/avx512bf16intrin.h

clang/lib/Headers/avx512vlbf16intrin.h

clang/test/CodeGen/X86/avx512bf16-builtins.c

clang/test/CodeGen/X86/avx512bf16-error.c

clang/test/CodeGen/X86/avx512vlbf16-builtins.c

llvm/include/llvm/IR/Intrinsics.td

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/IR/AutoUpgrade.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/lib/Target/X86/X86RegisterInfo.td

llvm/test/CodeGen/X86/avx512bf16-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bf16-intrinsics.ll

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bf16-vl-intrinsics.ll

llvm/test/CodeGen/X86/bfloat.ll

llvm/test/CodeGen/X86/stack-folding-avx512bf16.ll

[X86][RFC] Using `__bf16` for AVX512_BF16 intrinsics
ClosedPublic