This is an archive of the discontinued LLVM Phabricator instance.

Does gcc use the same builtin name? Our general policy is to have the same interface as gcc if we have a builtin. So if gcc has these builtins the should work the same way.

For IFMA I think I made them commutable by swapping the operands between the builtin and the internal intrinsic using the handling for the X86IntrinsicTable

In D109658#2996412, @craig.topper wrote:

Does gcc use the same builtin name? Our general policy is to have the same interface as gcc if we have a builtin. So if gcc has these builtins the should work the same way.

No. We don't sync with GCC on the builtin name during the development. We had a disscussion and decided to not keep them aligned due to 1) target specific builtins are compiler private names that no need to keep it compatible with other compilers; and 2) we already differentiate the target builtins with GCC long ago on the naming, masking etc. Currently, regardless the name, GCC uses the same C, A, B order with our existing implementation. https://gitlab.com/x86-gcc/gcc/-/blob/users/intel/liuhongt/independentfp16_wip/gcc/config/i386/avx512fp16intrin.h#L6672

For IFMA I think I made them commutable by swapping the operands between the builtin and the internal intrinsic using the handling for the X86IntrinsicTable

Is this one https://github.com/llvm/llvm-project/commit/80c8b80919e0049da32f018d98e4d75ff562cfa8? Do you mean I should add Commutative in IntrinsicsX86.td too? What's this flag used for? I saw we only add them in a few intrinsics.

In D109658#2996714, @pengfei wrote:

In D109658#2996412, @craig.topper wrote:

Does gcc use the same builtin name? Our general policy is to have the same interface as gcc if we have a builtin. So if gcc has these builtins the should work the same way.

No. We don't sync with GCC on the builtin name during the development. We had a disscussion and decided to not keep them aligned due to 1) target specific builtins are compiler private names that no need to keep it compatible with other compilers; and 2) we already differentiate the target builtins with GCC long ago on the naming, masking etc. Currently, regardless the name, GCC uses the same C, A, B order with our existing implementation. https://gitlab.com/x86-gcc/gcc/-/blob/users/intel/liuhongt/independentfp16_wip/gcc/config/i386/avx512fp16intrin.h#L6672

I thought we were pretty consistent on names with gcc for most of sse and avx and most of avx512. The names aren't completely private occasionally users due try to use them. If we happen to have the same name we should have the same behavior to avoid confusion.

For IFMA I think I made them commutable by swapping the operands between the builtin and the internal intrinsic using the handling for the X86IntrinsicTable

Is this one https://github.com/llvm/llvm-project/commit/80c8b80919e0049da32f018d98e4d75ff562cfa8? Do you mean I should add Commutative in IntrinsicsX86.td too? What's this flag used for? I saw we only add them in a few intrinsics.

I was referring to 47e14ead54d229aa8ac5436594e91bfb8943230e for AVX512IFMA

The flag in IntrinsicsX86.td is used if the int_x86_* is used in the isel pattern, but I don't know if we have any of those any more.

In D109658#2996767, @craig.topper wrote:

In D109658#2996714, @pengfei wrote:

In D109658#2996412, @craig.topper wrote:

Does gcc use the same builtin name? Our general policy is to have the same interface as gcc if we have a builtin. So if gcc has these builtins the should work the same way.

No. We don't sync with GCC on the builtin name during the development. We had a disscussion and decided to not keep them aligned due to 1) target specific builtins are compiler private names that no need to keep it compatible with other compilers; and 2) we already differentiate the target builtins with GCC long ago on the naming, masking etc. Currently, regardless the name, GCC uses the same C, A, B order with our existing implementation. https://gitlab.com/x86-gcc/gcc/-/blob/users/intel/liuhongt/independentfp16_wip/gcc/config/i386/avx512fp16intrin.h#L6672

I thought we were pretty consistent on names with gcc for most of sse and avx and most of avx512. The names aren't completely private occasionally users due try to use them. If we happen to have the same name we should have the same behavior to avoid confusion.

I'm not so optimistic. I had a coarse-grained statistics on the use of x86 builtins in Clang and GCC. It shows Clang only defines 2/3 of GCC's builtins and 1/4 of Clang builtins have different names with GCC's. Command below:

cat gcc/config/i386/*.h | grep -o "\b__builtin_ia32_\w\+" |sort|uniq|tee gcc.txt|wc -l
2788

ls clang/lib/Headers/*.h |grep -v fp16 |xargs cat |grep -o "\b__builtin_ia32_\w\+" |sort|uniq|tee clang.txt|wc -l
1808

comm -12 gcc.txt clang.txt |wc -l
1347

Regarding this case, we already have a different name with GCC, I think it worthwhile to use a different order for the swapping optimization.
With a bit research on AVX512IFMA, I found:

The use of C, A, B order in GCC is not consistent on its AVX512IFMA builtins. It supposes GCC should change to A, B, C order if considering consistency;
We aren't consistent on AVX512IFMA builtins with GCC either due to the use of select.

By the way, GCC folks told me GCC has ability to specify arbitrary operands that can be commutative. But I found both SDNode and MI only have ability on the first 2 operands, which is insufficient for instruction like CFMA. Do you know if we have other mechanism for commutable operands?

Regarding this case, we already have a different name with GCC, I think it worthwhile to use a different order for the swapping optimization.
With a bit research on AVX512IFMA, I found:

The use of C, A, B order in GCC is not consistent on its AVX512IFMA builtins. It supposes GCC should change to A, B, C order if considering consistency;

We aren't consistent on AVX512IFMA builtins with GCC either due to the use of select.

Do we have any builtins with the same name as gcc but different operands/behaviours? Those are the only ones that I'd be worried about.

By the way, GCC folks told me GCC has ability to specify arbitrary operands that can be commutative. But I found both SDNode and MI only have ability on the first 2 operands, which is insufficient for instruction like CFMA. Do you know if we have other mechanism for commutable operands?

Doesn't X86InstrInfo::findCommutedOpIndices handle these cases?

In D109658#2997395, @pengfei wrote:
In D109658#2996767, @craig.topper wrote:

In D109658#2996714, @pengfei wrote:

In D109658#2996412, @craig.topper wrote:

Does gcc use the same builtin name? Our general policy is to have the same interface as gcc if we have a builtin. So if gcc has these builtins the should work the same way.

No. We don't sync with GCC on the builtin name during the development. We had a disscussion and decided to not keep them aligned due to 1) target specific builtins are compiler private names that no need to keep it compatible with other compilers; and 2) we already differentiate the target builtins with GCC long ago on the naming, masking etc. Currently, regardless the name, GCC uses the same C, A, B order with our existing implementation. https://gitlab.com/x86-gcc/gcc/-/blob/users/intel/liuhongt/independentfp16_wip/gcc/config/i386/avx512fp16intrin.h#L6672

I thought we were pretty consistent on names with gcc for most of sse and avx and most of avx512. The names aren't completely private occasionally users due try to use them. If we happen to have the same name we should have the same behavior to avoid confusion.

I'm not so optimistic. I had a coarse-grained statistics on the use of x86 builtins in Clang and GCC. It shows Clang only defines 2/3 of GCC's builtins and 1/4 of Clang builtins have different names with GCC's. Command below:
cat gcc/config/i386/*.h | grep -o "\b__builtin_ia32_\w\+" |sort|uniq|tee gcc.txt|wc -l
2788

ls clang/lib/Headers/*.h |grep -v fp16 |xargs cat |grep -o "\b__builtin_ia32_\w\+" |sort|uniq|tee clang.txt|wc -l
1808

comm -12 gcc.txt clang.txt |wc -l
1347

Not implementing something that gcc does at least gives a compile error if some tries to use the gcc name so I’m fine with that.

Using a different name in clang for something gcc also has is kinda silly. But I guess we’re worse at this then I thought.

Using the same name and having different behavior should be avoided if the it won’t give a compile error.

Regarding this case, we already have a different name with GCC, I think it worthwhile to use a different order for the swapping optimization.
With a bit research on AVX512IFMA, I found:

The use of C, A, B order in GCC is not consistent on its AVX512IFMA builtins. It supposes GCC should change to A, B, C order if considering consistency;

We aren't consistent on AVX512IFMA builtins with GCC either due to the use of select.

By the way, GCC folks told me GCC has ability to specify arbitrary operands that can be commutative. But I found both SDNode and MI only have ability on the first 2 operands, which is insufficient for instruction like CFMA. Do you know if we have other mechanism for commutable operands?

That’s true for SDNode, but you can always manually add more isel patterns. We do this for FMA3.

MI uses two target specific hooks in X86InstrInfo.cpp. findCommutedOpIndices and commuteInstructionImpl are the names if I remember right.

It seems in this patch the builtins interface is aligned to intrinsics interface. Since AVX512FP16 is pretty new, I assume nobody is using the GCC builtin. Can we ask GCC guys change their builtin interface?

Allow MI operands of complex FMA to be commutable.

Harbormaster completed remote builds in B123790: Diff 372400.Sep 13 2021, 10:46 PM

Do we have any builtins with the same name as gcc but different operands/behaviours? Those are the only ones that I'd be worried about.

I think it's rare in existing intrinsics. 1) The builtins are always straightforward passed the arguments in intrinsics in the same order; 2) We do have a few that the the order between builtins and arguments is different, I checked several manually and didn't find any problem.
I think it's a good question for new enabled ISAs, I will check FP16 when GCC patches landed.

Using a different name in clang for something gcc also has is kinda silly. But I guess we’re worse at this then I thought.

Using the same name and having different behavior should be avoided if the it won’t give a compile error.

We may diversify a few on the names with GCC in FP16, I think we can fix them once GCC landed as a nice to have.

For IFMA I think I made them commutable by swapping the operands between the builtin and the internal intrinsic using the handling for the X86IntrinsicTable

I think this is a simply approach if we want to keep the builtin in a special C, A, B order. But I don't prefer this way because we need to swapped the order 3 times, intrinsic to builtin, builtin to SDNode, SDNode to MI. Which may result confusion for future developer.

It seems in this patch the builtins interface is aligned to intrinsics interface. Since AVX512FP16 is pretty new, I assume nobody is using the GCC builtin. Can we ask GCC guys change their builtin interface?

I think we should make an agreement with them. Just found we are using different order on cfmul builtins already.

Forgot to say thanks @craig.topper and @RKSimon for the information.

FreddyYe added a subscriber: FreddyYe.Sep 21 2021, 10:20 PM

craig.topper added inline comments.Sep 22 2021, 10:34 AM

clang/lib/Headers/avx512fp16intrin.h
2972	Why is this intrinsic written like this? We can't evaluate macro arguments like A and U twice. It can cause surprising results.

pengfei added inline comments.Sep 22 2021, 6:03 PM

clang/lib/Headers/avx512fp16intrin.h
2972	Thanks Craig! You are right, we can't evaluate them twice. But we have to use them twice, because we want to provide user the same functionality as former FMA intrinsics. Maybe we need to define and use temp variables.

craig.topper added inline comments.Sep 22 2021, 6:09 PM

clang/lib/Headers/avx512fp16intrin.h
2972	Is it possible to just have single builtin call and create all the IR from CGBuiltin?

pengfei added inline comments.Sep 22 2021, 6:10 PM

clang/lib/Headers/avx512fp16intrin.h
2972	Yeah, that's a good idea. Thanks!

By the way, we synced with GCC and we are using the same order in the builtins now. https://gcc.gnu.org/git/?p=gcc.git;a=commitdiff;h=db3b96df03fdbe2fb770729501e2e9b65e66c2da;hp=ed643e9f171e99b0aa1453b3f29ed1103e9b5c80
We still have some different builtin names due to historical reasons, e.g. __builtin_ia32_vfmulcsh_mask_round (gcc), __builtin_ia32_vfcmulcsh_mask (llvm). I think it's OK for now.
Can we let this patch in? I will solve the multi evaluation problem in another patch.

LGTM

This revision is now accepted and ready to land.Sep 22 2021, 7:04 PM

Thanks Craig!

This revision was landed with ongoing or failed builds.Sep 22 2021, 8:03 PM

Closed by commit rGebec077e07f5: [X86][FP16] Change the order of the operands in complex FMA intrinsics to allow… (authored by Wang, Pengfei <pengfei.wang@intel.com>). · Explain Why

This revision was automatically updated to reflect the committed changes.

pengfei added a commit: rGebec077e07f5: [X86][FP16] Change the order of the operands in complex FMA intrinsics to allow….

pengfei mentioned this in D127409: Fix GCC intrinsics "round_mask" names.Jun 9 2022, 11:37 PM

Revision Contents

Path

Size

clang/

lib/

Headers/

avx512fp16intrin.h

76 lines

avx512vlfp16intrin.h

54 lines

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

8 lines

X86InstrAVX512.td

74 lines

X86InstrFragmentsSIMD.td

16 lines

X86InstrInfo.cpp

14 lines

X86IntrinsicsInfo.h

34 lines

test/

CodeGen/

X86/

avx512cfma-intrinsics.ll

102 lines

avx512cfmul-intrinsics.ll

35 lines

avx512cfmulsh-instrinsics.ll

36 lines

avx512fp16-combine-vfmulc-fadd.ll

12 lines

avx512fp16-combine-xor-vfmulc-fadd.ll

27 lines

stack-folding-fp-avx512fp16.ll

92 lines

stack-folding-fp-avx512fp16vl.ll

24 lines

Diff 374428

clang/lib/Headers/avx512fp16intrin.h

	Show First 20 Lines • Show All 2,928 Lines • ▼ Show 20 Lines
	#define _mm_mask3_fnmsub_round_sh(W, X, Y, U, R) \			#define _mm_mask3_fnmsub_round_sh(W, X, Y, U, R) \
	((__m128h)__builtin_ia32_vfmsubsh3_mask3( \			((__m128h)__builtin_ia32_vfmsubsh3_mask3( \
	(__v8hf)(__m128h)(W), -(__v8hf)(__m128h)(X), (__v8hf)(__m128h)(Y), \			(__v8hf)(__m128h)(W), -(__v8hf)(__m128h)(X), (__v8hf)(__m128h)(Y), \
	(__mmask8)(U), (int)(R)))			(__mmask8)(U), (int)(R)))

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmadd_sch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmadd_sch(__m128h __A,
	__m128h __B,			__m128h __B,
	__m128h __C) {			__m128h __C) {
	return (__m128h)__builtin_ia32_vfcmaddcsh_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfcmaddcsh_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)-1,			(__v4sf)__C, (__mmask8)-1,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask_fcmadd_sch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {			_mm_mask_fcmadd_sch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_selectps_128(			return (__m128h)__builtin_ia32_selectps_128(
	__U,			__U,
	__builtin_ia32_vfcmaddcsh_mask((__v4sf)__C, (__v4sf)__A, (__v4sf)__B,			__builtin_ia32_vfcmaddcsh_mask((__v4sf)__A, (__v4sf)__B, (__v4sf)__C,
	(__mmask8)__U, _MM_FROUND_CUR_DIRECTION),			(__mmask8)__U, _MM_FROUND_CUR_DIRECTION),
	(__v4sf)__A);			(__v4sf)__A);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_maskz_fcmadd_sch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {			_mm_maskz_fcmadd_sch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_vfcmaddcsh_maskz((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfcmaddcsh_maskz((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)__U,			(__v4sf)__C, (__mmask8)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask3_fcmadd_sch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {			_mm_mask3_fcmadd_sch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {
	return (__m128h)_mm_move_ss((__m128)__C,			return (__m128h)_mm_move_ss((__m128)__C,
	(__m128)__builtin_ia32_vfcmaddcsh_mask(			(__m128)__builtin_ia32_vfcmaddcsh_mask(
	(__v4sf)__C, (__v4sf)__A, (__v4sf)__B, __U,			(__v4sf)__A, (__v4sf)__B, (__v4sf)__C, __U,
	_MM_FROUND_CUR_DIRECTION));			_MM_FROUND_CUR_DIRECTION));
	}			}

	#define _mm_fcmadd_round_sch(A, B, C, R) \			#define _mm_fcmadd_round_sch(A, B, C, R) \
	((__m128h)__builtin_ia32_vfcmaddcsh_mask( \			((__m128h)__builtin_ia32_vfcmaddcsh_mask( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)-1, (int)(R)))			(__mmask8)-1, (int)(R)))

	#define _mm_mask_fcmadd_round_sch(A, U, B, C, R) \			#define _mm_mask_fcmadd_round_sch(A, U, B, C, R) \
	((__m128h)__builtin_ia32_selectps_128( \			((__m128h)__builtin_ia32_selectps_128( \
				craig.topperUnsubmitted Not Done Reply Inline Actions Why is this intrinsic written like this? We can't evaluate macro arguments like A and U twice. It can cause surprising results. craig.topper: Why is this intrinsic written like this? We can't evaluate macro arguments like A and U twice.
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Thanks Craig! You are right, we can't evaluate them twice. But we have to use them twice, because we want to provide user the same functionality as former FMA intrinsics. Maybe we need to define and use temp variables. pengfei: Thanks Craig! You are right, we can't evaluate them twice. But we have to use them twice…
				craig.topperUnsubmitted Not Done Reply Inline Actions Is it possible to just have single builtin call and create all the IR from CGBuiltin? craig.topper: Is it possible to just have single builtin call and create all the IR from CGBuiltin?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Yeah, that's a good idea. Thanks! pengfei: Yeah, that's a good idea. Thanks!
	(__mmask8)(U & 1), \			(__mmask8)(U & 1), \
	__builtin_ia32_vfcmaddcsh_mask( \			__builtin_ia32_vfcmaddcsh_mask( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)(U), (int)(R)), \			(__mmask8)(U), (int)(R)), \
	(__v4sf)(__m128h)(A)))			(__v4sf)(__m128h)(A)))

	#define _mm_maskz_fcmadd_round_sch(U, A, B, C, R) \			#define _mm_maskz_fcmadd_round_sch(U, A, B, C, R) \
	((__m128h)__builtin_ia32_vfcmaddcsh_maskz( \			((__m128h)__builtin_ia32_vfcmaddcsh_maskz( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)(U), (int)(R)))			(__mmask8)(U), (int)(R)))

	#define _mm_mask3_fcmadd_round_sch(A, B, C, U, R) \			#define _mm_mask3_fcmadd_round_sch(A, B, C, U, R) \
	((__m128h)_mm_move_ss((__m128)(C), \			((__m128h)_mm_move_ss((__m128)(C), \
	(__m128)__builtin_ia32_vfcmaddcsh_mask( \			(__m128)__builtin_ia32_vfcmaddcsh_mask( \
	(__v4sf)(C), (__v4sf)(A), (__v4sf)(B), (U), (R))))			(__v4sf)(A), (__v4sf)(B), (__v4sf)(C), (U), (R))))

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmadd_sch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmadd_sch(__m128h __A,
	__m128h __B,			__m128h __B,
	__m128h __C) {			__m128h __C) {
	return (__m128h)__builtin_ia32_vfmaddcsh_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfmaddcsh_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)-1,			(__v4sf)__C, (__mmask8)-1,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask_fmadd_sch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {			_mm_mask_fmadd_sch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_selectps_128(			return (__m128h)__builtin_ia32_selectps_128(
	__U,			__U,
	__builtin_ia32_vfmaddcsh_mask((__v4sf)__C, (__v4sf)__A, (__v4sf)__B,			__builtin_ia32_vfmaddcsh_mask((__v4sf)__A, (__v4sf)__B, (__v4sf)__C,
	(__mmask8)__U, _MM_FROUND_CUR_DIRECTION),			(__mmask8)__U, _MM_FROUND_CUR_DIRECTION),
	(__v4sf)__A);			(__v4sf)__A);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_maskz_fmadd_sch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {			_mm_maskz_fmadd_sch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_vfmaddcsh_maskz((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfmaddcsh_maskz((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)__U,			(__v4sf)__C, (__mmask8)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm_fmadd_round_sch(A, B, C, R) \			#define _mm_fmadd_round_sch(A, B, C, R) \
	((__m128h)__builtin_ia32_vfmaddcsh_mask( \			((__m128h)__builtin_ia32_vfmaddcsh_mask( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)-1, (int)(R)))			(__mmask8)-1, (int)(R)))

	#define _mm_mask_fmadd_round_sch(A, U, B, C, R) \			#define _mm_mask_fmadd_round_sch(A, U, B, C, R) \
	((__m128h)__builtin_ia32_selectps_128( \			((__m128h)__builtin_ia32_selectps_128( \
	(__mmask8)(U & 1), \			(__mmask8)(U & 1), \
	__builtin_ia32_vfmaddcsh_mask( \			__builtin_ia32_vfmaddcsh_mask( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)(U), (int)(R)), \			(__mmask8)(U), (int)(R)), \
	(__v4sf)(__m128h)(A)))			(__v4sf)(__m128h)(A)))

	#define _mm_maskz_fmadd_round_sch(U, A, B, C, R) \			#define _mm_maskz_fmadd_round_sch(U, A, B, C, R) \
	((__m128h)__builtin_ia32_vfmaddcsh_maskz( \			((__m128h)__builtin_ia32_vfmaddcsh_maskz( \
	(__v4sf)(__m128h)(C), (__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), \			(__v4sf)(__m128h)(A), (__v4sf)(__m128h)(B), (__v4sf)(__m128h)(C), \
	(__mmask8)(U), (int)(R)))			(__mmask8)(U), (int)(R)))

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmul_sch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmul_sch(__m128h __A,
	__m128h __B) {			__m128h __B) {
	return (__m128h)__builtin_ia32_vfcmulcsh_mask(			return (__m128h)__builtin_ia32_vfcmulcsh_mask(
	(__v4sf)__A, (__v4sf)__B, (__v4sf)_mm_undefined_ph(), (__mmask8)-1,			(__v4sf)__A, (__v4sf)__B, (__v4sf)_mm_undefined_ph(), (__mmask8)-1,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	#define _mm512_maskz_fmul_round_pch(U, A, B, R) \			#define _mm512_maskz_fmul_round_pch(U, A, B, R) \
	((__m512h)__builtin_ia32_vfmulcph512_mask( \			((__m512h)__builtin_ia32_vfmulcph512_mask( \
	(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \
	(__v16sf)(__m512h)_mm512_setzero_ph(), (__mmask16)(U), (int)(R)))			(__v16sf)(__m512h)_mm512_setzero_ph(), (__mmask16)(U), (int)(R)))

	static __inline__ __m512h __DEFAULT_FN_ATTRS512 _mm512_fcmadd_pch(__m512h __A,			static __inline__ __m512h __DEFAULT_FN_ATTRS512 _mm512_fcmadd_pch(__m512h __A,
	__m512h __B,			__m512h __B,
	__m512h __C) {			__m512h __C) {
	return (__m512h)__builtin_ia32_vfcmaddcph512_mask((__v16sf)__C, (__v16sf)__A,			return (__m512h)__builtin_ia32_vfcmaddcph512_mask((__v16sf)__A, (__v16sf)__B,
	(__v16sf)__B, (__mmask16)-1,			(__v16sf)__C, (__mmask16)-1,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_mask_fcmadd_pch(__m512h __A, __mmask16 __U, __m512h __B, __m512h __C) {			_mm512_mask_fcmadd_pch(__m512h __A, __mmask16 __U, __m512h __B, __m512h __C) {
	return (__m512h)__builtin_ia32_selectps_512(			return (__m512h)__builtin_ia32_selectps_512(
	__U,			__U,
	__builtin_ia32_vfcmaddcph512_mask((__v16sf)__C, (__v16sf)__A,			__builtin_ia32_vfcmaddcph512_mask((__v16sf)__A, (__v16sf)__B,
	(__v16sf)__B, (__mmask16)__U,			(__v16sf)__C, (__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION),			_MM_FROUND_CUR_DIRECTION),
	(__v16sf)__A);			(__v16sf)__A);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_mask3_fcmadd_pch(__m512h __A, __m512h __B, __m512h __C, __mmask16 __U) {			_mm512_mask3_fcmadd_pch(__m512h __A, __m512h __B, __m512h __C, __mmask16 __U) {
	return (__m512h)__builtin_ia32_vfcmaddcph512_mask(			return (__m512h)__builtin_ia32_vfcmaddcph512_mask(
	(__v16sf)__C, (__v16sf)__A, (__v16sf)__B, (__mmask16)__U,			(__v16sf)__A, (__v16sf)__B, (__v16sf)__C, (__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_maskz_fcmadd_pch(__mmask16 __U, __m512h __A, __m512h __B, __m512h __C) {			_mm512_maskz_fcmadd_pch(__mmask16 __U, __m512h __A, __m512h __B, __m512h __C) {
	return (__m512h)__builtin_ia32_vfcmaddcph512_maskz(			return (__m512h)__builtin_ia32_vfcmaddcph512_maskz(
	(__v16sf)__C, (__v16sf)__A, (__v16sf)__B, (__mmask16)__U,			(__v16sf)__A, (__v16sf)__B, (__v16sf)__C, (__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm512_fcmadd_round_pch(A, B, C, R) \			#define _mm512_fcmadd_round_pch(A, B, C, R) \
	((__m512h)__builtin_ia32_vfcmaddcph512_mask( \			((__m512h)__builtin_ia32_vfcmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)-1, (int)(R)))			(__mmask16)-1, (int)(R)))

	#define _mm512_mask_fcmadd_round_pch(A, U, B, C, R) \			#define _mm512_mask_fcmadd_round_pch(A, U, B, C, R) \
	((__m512h)__builtin_ia32_selectps_512( \			((__m512h)__builtin_ia32_selectps_512( \
	(__mmask16)(U), \			(__mmask16)(U), \
	__builtin_ia32_vfcmaddcph512_mask( \			__builtin_ia32_vfcmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)), \			(__mmask16)(U), (int)(R)), \
	(__v16sf)(__m512h)(A)))			(__v16sf)(__m512h)(A)))

	#define _mm512_mask3_fcmadd_round_pch(A, B, C, U, R) \			#define _mm512_mask3_fcmadd_round_pch(A, B, C, U, R) \
	((__m512h)__builtin_ia32_vfcmaddcph512_mask( \			((__m512h)__builtin_ia32_vfcmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)))			(__mmask16)(U), (int)(R)))

	#define _mm512_maskz_fcmadd_round_pch(U, A, B, C, R) \			#define _mm512_maskz_fcmadd_round_pch(U, A, B, C, R) \
	((__m512h)__builtin_ia32_vfcmaddcph512_maskz( \			((__m512h)__builtin_ia32_vfcmaddcph512_maskz( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)))			(__mmask16)(U), (int)(R)))

	static __inline__ __m512h __DEFAULT_FN_ATTRS512 _mm512_fmadd_pch(__m512h __A,			static __inline__ __m512h __DEFAULT_FN_ATTRS512 _mm512_fmadd_pch(__m512h __A,
	__m512h __B,			__m512h __B,
	__m512h __C) {			__m512h __C) {
	return (__m512h)__builtin_ia32_vfmaddcph512_mask((__v16sf)__C, (__v16sf)__A,			return (__m512h)__builtin_ia32_vfmaddcph512_mask((__v16sf)__A, (__v16sf)__B,
	(__v16sf)__B, (__mmask16)-1,			(__v16sf)__C, (__mmask16)-1,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_mask_fmadd_pch(__m512h __A, __mmask16 __U, __m512h __B, __m512h __C) {			_mm512_mask_fmadd_pch(__m512h __A, __mmask16 __U, __m512h __B, __m512h __C) {
	return (__m512h)__builtin_ia32_selectps_512(			return (__m512h)__builtin_ia32_selectps_512(
	__U,			__U,
	__builtin_ia32_vfmaddcph512_mask((__v16sf)__C, (__v16sf)__A, (__v16sf)__B,			__builtin_ia32_vfmaddcph512_mask((__v16sf)__A, (__v16sf)__B, (__v16sf)__C,
	(__mmask16)__U,			(__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION),			_MM_FROUND_CUR_DIRECTION),
	(__v16sf)__A);			(__v16sf)__A);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_mask3_fmadd_pch(__m512h __A, __m512h __B, __m512h __C, __mmask16 __U) {			_mm512_mask3_fmadd_pch(__m512h __A, __m512h __B, __m512h __C, __mmask16 __U) {
	return (__m512h)__builtin_ia32_vfmaddcph512_mask((__v16sf)__C, (__v16sf)__A,			return (__m512h)__builtin_ia32_vfmaddcph512_mask((__v16sf)__A, (__v16sf)__B,
	(__v16sf)__B, (__mmask16)__U,			(__v16sf)__C, (__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	static __inline__ __m512h __DEFAULT_FN_ATTRS512			static __inline__ __m512h __DEFAULT_FN_ATTRS512
	_mm512_maskz_fmadd_pch(__mmask16 __U, __m512h __A, __m512h __B, __m512h __C) {			_mm512_maskz_fmadd_pch(__mmask16 __U, __m512h __A, __m512h __B, __m512h __C) {
	return (__m512h)__builtin_ia32_vfmaddcph512_maskz(			return (__m512h)__builtin_ia32_vfmaddcph512_maskz(
	(__v16sf)__C, (__v16sf)__A, (__v16sf)__B, (__mmask16)__U,			(__v16sf)__A, (__v16sf)__B, (__v16sf)__C, (__mmask16)__U,
	_MM_FROUND_CUR_DIRECTION);			_MM_FROUND_CUR_DIRECTION);
	}			}

	#define _mm512_fmadd_round_pch(A, B, C, R) \			#define _mm512_fmadd_round_pch(A, B, C, R) \
	((__m512h)__builtin_ia32_vfmaddcph512_mask( \			((__m512h)__builtin_ia32_vfmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)-1, (int)(R)))			(__mmask16)-1, (int)(R)))

	#define _mm512_mask_fmadd_round_pch(A, U, B, C, R) \			#define _mm512_mask_fmadd_round_pch(A, U, B, C, R) \
	((__m512h)__builtin_ia32_selectps_512( \			((__m512h)__builtin_ia32_selectps_512( \
	(__mmask16)(U), \			(__mmask16)(U), \
	__builtin_ia32_vfmaddcph512_mask( \			__builtin_ia32_vfmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)), \			(__mmask16)(U), (int)(R)), \
	(__v16sf)(__m512h)(A)))			(__v16sf)(__m512h)(A)))

	#define _mm512_mask3_fmadd_round_pch(A, B, C, U, R) \			#define _mm512_mask3_fmadd_round_pch(A, B, C, U, R) \
	((__m512h)__builtin_ia32_vfmaddcph512_mask( \			((__m512h)__builtin_ia32_vfmaddcph512_mask( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)))			(__mmask16)(U), (int)(R)))

	#define _mm512_maskz_fmadd_round_pch(U, A, B, C, R) \			#define _mm512_maskz_fmadd_round_pch(U, A, B, C, R) \
	((__m512h)__builtin_ia32_vfmaddcph512_maskz( \			((__m512h)__builtin_ia32_vfmaddcph512_maskz( \
	(__v16sf)(__m512h)(C), (__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), \			(__v16sf)(__m512h)(A), (__v16sf)(__m512h)(B), (__v16sf)(__m512h)(C), \
	(__mmask16)(U), (int)(R)))			(__mmask16)(U), (int)(R)))

	static __inline__ _Float16 __DEFAULT_FN_ATTRS512			static __inline__ _Float16 __DEFAULT_FN_ATTRS512
	_mm512_reduce_add_ph(__m512h __W) {			_mm512_reduce_add_ph(__m512h __W) {
	return __builtin_ia32_reduce_fadd_ph512(-0.0f16, __W);			return __builtin_ia32_reduce_fadd_ph512(-0.0f16, __W);
	}			}

	static __inline__ _Float16 __DEFAULT_FN_ATTRS512			static __inline__ _Float16 __DEFAULT_FN_ATTRS512
	Show All 36 Lines

clang/lib/Headers/avx512vlfp16intrin.h

	Show First 20 Lines • Show All 1,819 Lines • ▼ Show 20 Lines
	_mm256_maskz_fcmul_pch(__mmask8 __U, __m256h __A, __m256h __B) {			_mm256_maskz_fcmul_pch(__mmask8 __U, __m256h __A, __m256h __B) {
	return (__m256h)__builtin_ia32_vfcmulcph256_mask(			return (__m256h)__builtin_ia32_vfcmulcph256_mask(
	(__v8sf)__A, (__v8sf)__B, (__v8sf)_mm256_setzero_ph(), (__mmask8)__U);			(__v8sf)__A, (__v8sf)__B, (__v8sf)_mm256_setzero_ph(), (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmadd_pch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fcmadd_pch(__m128h __A,
	__m128h __B,			__m128h __B,
	__m128h __C) {			__m128h __C) {
	return (__m128h)__builtin_ia32_vfcmaddcph128_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfcmaddcph128_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)-1);			(__v4sf)__C, (__mmask8)-1);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask_fcmadd_pch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {			_mm_mask_fcmadd_pch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_selectps_128(			return (__m128h)__builtin_ia32_selectps_128(
	__U,			__U,
	__builtin_ia32_vfcmaddcph128_mask((__v4sf)__C, (__v4sf)(__m128h)__A,			__builtin_ia32_vfcmaddcph128_mask((__v4sf)__A, (__v4sf)(__m128h)__B,
	(__v4sf)__B, (__mmask8)__U),			(__v4sf)__C, (__mmask8)__U),
	(__v4sf)__A);			(__v4sf)__A);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask3_fcmadd_pch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {			_mm_mask3_fcmadd_pch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {
	return (__m128h)__builtin_ia32_vfcmaddcph128_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfcmaddcph128_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)__U);			(__v4sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_maskz_fcmadd_pch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {			_mm_maskz_fcmadd_pch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_vfcmaddcph128_maskz(			return (__m128h)__builtin_ia32_vfcmaddcph128_maskz(
	(__v4sf)__C, (__v4sf)__A, (__v4sf)__B, (__mmask8)__U);			(__v4sf)__A, (__v4sf)__B, (__v4sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_fcmadd_pch(__m256h __A,			static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_fcmadd_pch(__m256h __A,
	__m256h __B,			__m256h __B,
	__m256h __C) {			__m256h __C) {
	return (__m256h)__builtin_ia32_vfcmaddcph256_mask((__v8sf)__C, (__v8sf)__A,			return (__m256h)__builtin_ia32_vfcmaddcph256_mask((__v8sf)__A, (__v8sf)__B,
	(__v8sf)__B, (__mmask8)-1);			(__v8sf)__C, (__mmask8)-1);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_mask_fcmadd_pch(__m256h __A, __mmask8 __U, __m256h __B, __m256h __C) {			_mm256_mask_fcmadd_pch(__m256h __A, __mmask8 __U, __m256h __B, __m256h __C) {
	return (__m256h)__builtin_ia32_selectps_256(			return (__m256h)__builtin_ia32_selectps_256(
	__U,			__U,
	__builtin_ia32_vfcmaddcph256_mask((__v8sf)__C, (__v8sf)__A, (__v8sf)__B,			__builtin_ia32_vfcmaddcph256_mask((__v8sf)__A, (__v8sf)__B, (__v8sf)__C,
	(__mmask8)__U),			(__mmask8)__U),
	(__v8sf)__A);			(__v8sf)__A);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_mask3_fcmadd_pch(__m256h __A, __m256h __B, __m256h __C, __mmask8 __U) {			_mm256_mask3_fcmadd_pch(__m256h __A, __m256h __B, __m256h __C, __mmask8 __U) {
	return (__m256h)__builtin_ia32_vfcmaddcph256_mask((__v8sf)__C, (__v8sf)__A,			return (__m256h)__builtin_ia32_vfcmaddcph256_mask((__v8sf)__A, (__v8sf)__B,
	(__v8sf)__B, (__mmask8)__U);			(__v8sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_maskz_fcmadd_pch(__mmask8 __U, __m256h __A, __m256h __B, __m256h __C) {			_mm256_maskz_fcmadd_pch(__mmask8 __U, __m256h __A, __m256h __B, __m256h __C) {
	return (__m256h)__builtin_ia32_vfcmaddcph256_maskz(			return (__m256h)__builtin_ia32_vfcmaddcph256_maskz(
	(__v8sf)__C, (__v8sf)__A, (__v8sf)__B, (__mmask8)__U);			(__v8sf)__A, (__v8sf)__B, (__v8sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmul_pch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmul_pch(__m128h __A,
	__m128h __B) {			__m128h __B) {
	return (__m128h)__builtin_ia32_vfmulcph128_mask(			return (__m128h)__builtin_ia32_vfmulcph128_mask(
	(__v4sf)__A, (__v4sf)__B, (__v4sf)_mm_undefined_ph(), (__mmask8)-1);			(__v4sf)__A, (__v4sf)__B, (__v4sf)_mm_undefined_ph(), (__mmask8)-1);
	}			}

	Show All 27 Lines
	_mm256_maskz_fmul_pch(__mmask8 __U, __m256h __A, __m256h __B) {			_mm256_maskz_fmul_pch(__mmask8 __U, __m256h __A, __m256h __B) {
	return (__m256h)__builtin_ia32_vfmulcph256_mask(			return (__m256h)__builtin_ia32_vfmulcph256_mask(
	(__v8sf)__A, (__v8sf)__B, (__v8sf)_mm256_setzero_ph(), (__mmask8)__U);			(__v8sf)__A, (__v8sf)__B, (__v8sf)_mm256_setzero_ph(), (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmadd_pch(__m128h __A,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_fmadd_pch(__m128h __A,
	__m128h __B,			__m128h __B,
	__m128h __C) {			__m128h __C) {
	return (__m128h)__builtin_ia32_vfmaddcph128_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfmaddcph128_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)-1);			(__v4sf)__C, (__mmask8)-1);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask_fmadd_pch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {			_mm_mask_fmadd_pch(__m128h __A, __mmask8 __U, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_selectps_128(			return (__m128h)__builtin_ia32_selectps_128(
	__U,			__U,
	__builtin_ia32_vfmaddcph128_mask((__v4sf)__C, (__v4sf)__A, (__v4sf)__B,			__builtin_ia32_vfmaddcph128_mask((__v4sf)__A, (__v4sf)__B, (__v4sf)__C,
	(__mmask8)__U),			(__mmask8)__U),
	(__v4sf)__A);			(__v4sf)__A);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_mask3_fmadd_pch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {			_mm_mask3_fmadd_pch(__m128h __A, __m128h __B, __m128h __C, __mmask8 __U) {
	return (__m128h)__builtin_ia32_vfmaddcph128_mask((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfmaddcph128_mask((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)__U);			(__v4sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128			static __inline__ __m128h __DEFAULT_FN_ATTRS128
	_mm_maskz_fmadd_pch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {			_mm_maskz_fmadd_pch(__mmask8 __U, __m128h __A, __m128h __B, __m128h __C) {
	return (__m128h)__builtin_ia32_vfmaddcph128_maskz((__v4sf)__C, (__v4sf)__A,			return (__m128h)__builtin_ia32_vfmaddcph128_maskz((__v4sf)__A, (__v4sf)__B,
	(__v4sf)__B, (__mmask8)__U);			(__v4sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_fmadd_pch(__m256h __A,			static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_fmadd_pch(__m256h __A,
	__m256h __B,			__m256h __B,
	__m256h __C) {			__m256h __C) {
	return (__m256h)__builtin_ia32_vfmaddcph256_mask((__v8sf)__C, (__v8sf)__A,			return (__m256h)__builtin_ia32_vfmaddcph256_mask((__v8sf)__A, (__v8sf)__B,
	(__v8sf)__B, (__mmask8)-1);			(__v8sf)__C, (__mmask8)-1);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_mask_fmadd_pch(__m256h __A, __mmask8 __U, __m256h __B, __m256h __C) {			_mm256_mask_fmadd_pch(__m256h __A, __mmask8 __U, __m256h __B, __m256h __C) {
	return (__m256h)__builtin_ia32_selectps_256(			return (__m256h)__builtin_ia32_selectps_256(
	__U,			__U,
	__builtin_ia32_vfmaddcph256_mask((__v8sf)__C, (__v8sf)__A, (__v8sf)__B,			__builtin_ia32_vfmaddcph256_mask((__v8sf)__A, (__v8sf)__B, (__v8sf)__C,
	(__mmask8)__U),			(__mmask8)__U),
	(__v8sf)__A);			(__v8sf)__A);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_mask3_fmadd_pch(__m256h __A, __m256h __B, __m256h __C, __mmask8 __U) {			_mm256_mask3_fmadd_pch(__m256h __A, __m256h __B, __m256h __C, __mmask8 __U) {
	return (__m256h)__builtin_ia32_vfmaddcph256_mask((__v8sf)__C, (__v8sf)__A,			return (__m256h)__builtin_ia32_vfmaddcph256_mask((__v8sf)__A, (__v8sf)__B,
	(__v8sf)__B, (__mmask8)__U);			(__v8sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m256h __DEFAULT_FN_ATTRS256			static __inline__ __m256h __DEFAULT_FN_ATTRS256
	_mm256_maskz_fmadd_pch(__mmask8 __U, __m256h __A, __m256h __B, __m256h __C) {			_mm256_maskz_fmadd_pch(__mmask8 __U, __m256h __A, __m256h __B, __m256h __C) {
	return (__m256h)__builtin_ia32_vfmaddcph256_maskz((__v8sf)__C, (__v8sf)__A,			return (__m256h)__builtin_ia32_vfmaddcph256_maskz((__v8sf)__A, (__v8sf)__B,
	(__v8sf)__B, (__mmask8)__U);			(__v8sf)__C, (__mmask8)__U);
	}			}

	static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_mask_blend_ph(__mmask8 __U,			static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_mask_blend_ph(__mmask8 __U,
	__m128h __A,			__m128h __A,
	__m128h __W) {			__m128h __W) {
	return (__m128h)__builtin_ia32_selectph_128((__mmask8)__U, (__v8hf)__W,			return (__m128h)__builtin_ia32_selectph_128((__mmask8)__U, (__v8hf)__W,
	(__v8hf)__A);			(__v8hf)__A);
	}			}
	▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 26,061 Lines • ▼ Show 20 Lines	if (IntrData) {
}		}
case VPERM_2OP : {		case VPERM_2OP : {
SDValue Src1 = Op.getOperand(1);		SDValue Src1 = Op.getOperand(1);
SDValue Src2 = Op.getOperand(2);		SDValue Src2 = Op.getOperand(2);

// Swap Src1 and Src2 in the node creation		// Swap Src1 and Src2 in the node creation
return DAG.getNode(IntrData->Opc0, dl, VT,Src2, Src1);		return DAG.getNode(IntrData->Opc0, dl, VT,Src2, Src1);
}		}
case FMA_OP_MASKZ:		case CFMA_OP_MASKZ:
case FMA_OP_MASK: {		case CFMA_OP_MASK: {
SDValue Src1 = Op.getOperand(1);		SDValue Src1 = Op.getOperand(1);
SDValue Src2 = Op.getOperand(2);		SDValue Src2 = Op.getOperand(2);
SDValue Src3 = Op.getOperand(3);		SDValue Src3 = Op.getOperand(3);
SDValue Mask = Op.getOperand(4);		SDValue Mask = Op.getOperand(4);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();

SDValue PassThru = Src1;		SDValue PassThru = Src3;
if (IntrData->Type == FMA_OP_MASKZ)		if (IntrData->Type == CFMA_OP_MASKZ)
PassThru = getZeroVector(VT, Subtarget, DAG, dl);		PassThru = getZeroVector(VT, Subtarget, DAG, dl);

// We add rounding mode to the Node when		// We add rounding mode to the Node when
// - RC Opcode is specified and		// - RC Opcode is specified and
// - RC is not "current direction".		// - RC is not "current direction".
SDValue NewOp;		SDValue NewOp;
if (IntrData->Opc1 != 0) {		if (IntrData->Opc1 != 0) {
SDValue Rnd = Op.getOperand(5);		SDValue Rnd = Op.getOperand(5);
▲ Show 20 Lines • Show All 27,694 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 13,495 Lines • ▼ Show 20 Lines	def : Pat<(X86VMUintToFP (v2i64 (X86VBroadcastld64 addr:$src)),
(v8f16 VR128X:$src0), VK2WM:$mask),		(v8f16 VR128X:$src0), VK2WM:$mask),
(VCVTUQQ2PHZ128rmbk VR128X:$src0, VK2WM:$mask, addr:$src)>;		(VCVTUQQ2PHZ128rmbk VR128X:$src0, VK2WM:$mask, addr:$src)>;
def : Pat<(X86VMUintToFP (v2i64 (X86VBroadcastld64 addr:$src)),		def : Pat<(X86VMUintToFP (v2i64 (X86VBroadcastld64 addr:$src)),
v8f16x_info.ImmAllZerosV, VK2WM:$mask),		v8f16x_info.ImmAllZerosV, VK2WM:$mask),
(VCVTUQQ2PHZ128rmbkz VK2WM:$mask, addr:$src)>;		(VCVTUQQ2PHZ128rmbkz VK2WM:$mask, addr:$src)>;
}		}

let Constraints = "@earlyclobber $dst, $src1 = $dst" in {		let Constraints = "@earlyclobber $dst, $src1 = $dst" in {
multiclass avx512_cfmop_rm<bits<8> opc, string OpcodeStr, SDNode OpNode, X86VectorVTInfo _> {		multiclass avx512_cfmaop_rm<bits<8> opc, string OpcodeStr, SDNode OpNode, X86VectorVTInfo _, bit IsCommutable> {
defm r: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm r: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.RC:$src3),		(ins _.RC:$src2, _.RC:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (OpNode _.RC:$src1, _.RC:$src2, _.RC:$src3))>, EVEX_4V;		(_.VT (OpNode _.RC:$src2, _.RC:$src3, _.RC:$src1)), IsCommutable>, EVEX_4V;

defm m: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm m: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.MemOp:$src3),		(ins _.RC:$src2, _.MemOp:$src3),
OpcodeStr, "$src3, $src2", "$src2, $src3",		OpcodeStr, "$src3, $src2", "$src2, $src3",
(_.VT (OpNode _.RC:$src1, _.RC:$src2, (_.LdFrag addr:$src3)))>, EVEX_4V;		(_.VT (OpNode _.RC:$src2, (_.LdFrag addr:$src3), _.RC:$src1))>, EVEX_4V;

defm mb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm mb: AVX512_maskable_3src<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.ScalarMemOp:$src3),		(ins _.RC:$src2, _.ScalarMemOp:$src3),
OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"), !strconcat("$src2, ${src3}", _.BroadcastStr),		OpcodeStr, !strconcat("${src3}", _.BroadcastStr,", $src2"), !strconcat("$src2, ${src3}", _.BroadcastStr),
(_.VT (OpNode _.RC:$src1, _.RC:$src2, (_.VT (_.BroadcastLdFrag addr:$src3))))>, EVEX_B, EVEX_4V;		(_.VT (OpNode _.RC:$src2, (_.VT (_.BroadcastLdFrag addr:$src3)), _.RC:$src1))>, EVEX_B, EVEX_4V;
}		}
} // Constraints = "@earlyclobber $dst, $src1 = $dst"		} // Constraints = "@earlyclobber $dst, $src1 = $dst"

multiclass avx512_cfmop_round<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_cfmaop_round<bits<8> opc, string OpcodeStr, SDNode OpNode,
X86VectorVTInfo _> {		X86VectorVTInfo _> {
let Constraints = "@earlyclobber $dst, $src1 = $dst" in		let Constraints = "@earlyclobber $dst, $src1 = $dst" in
defm rb: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm rb: AVX512_maskable_3src<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins _.RC:$src2, _.RC:$src3, AVX512RC:$rc),		(ins _.RC:$src2, _.RC:$src3, AVX512RC:$rc),
OpcodeStr, "$rc, $src3, $src2", "$src2, $src3, $rc",		OpcodeStr, "$rc, $src3, $src2", "$src2, $src3, $rc",
(_.VT (OpNode _.RC:$src1, _.RC:$src2, _.RC:$src3, (i32 timm:$rc)))>,		(_.VT (OpNode _.RC:$src2, _.RC:$src3, _.RC:$src1, (i32 timm:$rc)))>,
EVEX_4V, EVEX_B, EVEX_RC;		EVEX_4V, EVEX_B, EVEX_RC;
}		}


multiclass avx512_cfmaop_common<bits<8> opc, string OpcodeStr, SDNode OpNode, SDNode OpNodeRnd> {		multiclass avx512_cfmaop_common<bits<8> opc, string OpcodeStr, SDNode OpNode, SDNode OpNodeRnd, bit IsCommutable> {
let Predicates = [HasFP16] in {		let Predicates = [HasFP16] in {
defm Z : avx512_cfmop_rm<opc, OpcodeStr, OpNode, v16f32_info>,		defm Z : avx512_cfmaop_rm<opc, OpcodeStr, OpNode, v16f32_info, IsCommutable>,
avx512_cfmop_round<opc, OpcodeStr, OpNodeRnd, v16f32_info>,		avx512_cfmaop_round<opc, OpcodeStr, OpNodeRnd, v16f32_info>,
EVEX_V512, Sched<[WriteFMAZ]>;		EVEX_V512, Sched<[WriteFMAZ]>;
}		}
let Predicates = [HasVLX, HasFP16] in {		let Predicates = [HasVLX, HasFP16] in {
defm Z256 : avx512_cfmop_rm<opc, OpcodeStr, OpNode, v8f32x_info>, EVEX_V256, Sched<[WriteFMAY]>;		defm Z256 : avx512_cfmaop_rm<opc, OpcodeStr, OpNode, v8f32x_info, IsCommutable>, EVEX_V256, Sched<[WriteFMAY]>;
defm Z128 : avx512_cfmop_rm<opc, OpcodeStr, OpNode, v4f32x_info>, EVEX_V128, Sched<[WriteFMAX]>;		defm Z128 : avx512_cfmaop_rm<opc, OpcodeStr, OpNode, v4f32x_info, IsCommutable>, EVEX_V128, Sched<[WriteFMAX]>;
}		}
}		}

multiclass avx512_cfmulop_common<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_cfmulop_common<bits<8> opc, string OpcodeStr, SDNode OpNode,
SDNode MaskOpNode, SDNode OpNodeRnd,		SDNode MaskOpNode, SDNode OpNodeRnd, bit IsCommutable> {
X86SchedWriteWidths sched = SchedWriteFMA> {
let Predicates = [HasFP16] in {		let Predicates = [HasFP16] in {
defm Z : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v16f32_info,		defm Z : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v16f32_info,
sched.ZMM, 0, 0, "", "@earlyclobber $dst", 0>,		WriteFMAZ, IsCommutable, IsCommutable, "", "@earlyclobber $dst", 0>,
avx512_fp_round_packed<opc, OpcodeStr, OpNodeRnd, sched.ZMM, v16f32_info,		avx512_fp_round_packed<opc, OpcodeStr, OpNodeRnd, WriteFMAZ, v16f32_info,
"", "@earlyclobber $dst">, EVEX_V512;		"", "@earlyclobber $dst">, EVEX_V512;
}		}
let Predicates = [HasVLX, HasFP16] in {		let Predicates = [HasVLX, HasFP16] in {
defm Z256 : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v8f32x_info,		defm Z256 : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v8f32x_info,
sched.YMM, 0, 0, "", "@earlyclobber $dst", 0>, EVEX_V256;		WriteFMAY, IsCommutable, IsCommutable, "", "@earlyclobber $dst", 0>, EVEX_V256;
defm Z128 : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v4f32x_info,		defm Z128 : avx512_fp_packed<opc, OpcodeStr, OpNode, MaskOpNode, v4f32x_info,
sched.XMM, 0, 0, "", "@earlyclobber $dst", 0>, EVEX_V128;		WriteFMAX, IsCommutable, IsCommutable, "", "@earlyclobber $dst", 0>, EVEX_V128;
}		}
}		}


let Uses = [MXCSR] in {		let Uses = [MXCSR] in {
defm VFMADDCPH : avx512_cfmaop_common<0x56, "vfmaddcph", x86vfmaddc, x86vfmaddcRnd>,		defm VFMADDCPH : avx512_cfmaop_common<0x56, "vfmaddcph", x86vfmaddc, x86vfmaddcRnd, 1>,
T_MAP6XS, EVEX_CD8<32, CD8VF>;		T_MAP6XS, EVEX_CD8<32, CD8VF>;
defm VFCMADDCPH : avx512_cfmaop_common<0x56, "vfcmaddcph", x86vfcmaddc, x86vfcmaddcRnd>,		defm VFCMADDCPH : avx512_cfmaop_common<0x56, "vfcmaddcph", x86vfcmaddc, x86vfcmaddcRnd, 0>,
T_MAP6XD, EVEX_CD8<32, CD8VF>;		T_MAP6XD, EVEX_CD8<32, CD8VF>;

defm VFMULCPH : avx512_cfmulop_common<0xD6, "vfmulcph", x86vfmulc, x86vfmulc,		defm VFMULCPH : avx512_cfmulop_common<0xD6, "vfmulcph", x86vfmulc, x86vfmulc,
x86vfmulcRnd>, T_MAP6XS, EVEX_CD8<32, CD8VF>;		x86vfmulcRnd, 1>, T_MAP6XS, EVEX_CD8<32, CD8VF>;
defm VFCMULCPH : avx512_cfmulop_common<0xD6, "vfcmulcph", x86vfcmulc,		defm VFCMULCPH : avx512_cfmulop_common<0xD6, "vfcmulcph", x86vfcmulc,
x86vfcmulc, x86vfcmulcRnd>, T_MAP6XD, EVEX_CD8<32, CD8VF>;		x86vfcmulc, x86vfcmulcRnd, 0>, T_MAP6XD, EVEX_CD8<32, CD8VF>;
}		}


multiclass avx512_cfmop_sh_common<bits<8> opc, string OpcodeStr, SDNode OpNode, SDNode OpNodeRnd,		multiclass avx512_cfmaop_sh_common<bits<8> opc, string OpcodeStr, SDNode OpNode, SDNode OpNodeRnd,
X86SchedWriteWidths sched = SchedWriteFMA> {		bit IsCommutable> {
let Predicates = [HasFP16], Constraints = "@earlyclobber $dst, $src1 = $dst" in {		let Predicates = [HasFP16], Constraints = "@earlyclobber $dst, $src1 = $dst" in {
defm r : AVX512_maskable_3src<opc, MRMSrcReg, v4f32x_info, (outs VR128X:$dst),		defm r : AVX512_maskable_3src<opc, MRMSrcReg, v4f32x_info, (outs VR128X:$dst),
(ins VR128X:$src2, VR128X:$src3), OpcodeStr,		(ins VR128X:$src2, VR128X:$src3), OpcodeStr,
"$src3, $src2", "$src2, $src3",		"$src3, $src2", "$src2, $src3",
(v4f32 (OpNode VR128X:$src1, VR128X:$src2, VR128X:$src3))>,		(v4f32 (OpNode VR128X:$src2, VR128X:$src3, VR128X:$src1)), IsCommutable>,
Sched<[sched.XMM]>;		Sched<[WriteFMAX]>;
defm m : AVX512_maskable_3src<opc, MRMSrcMem, v4f32x_info, (outs VR128X:$dst),		defm m : AVX512_maskable_3src<opc, MRMSrcMem, v4f32x_info, (outs VR128X:$dst),
(ins VR128X:$src2, ssmem:$src3), OpcodeStr,		(ins VR128X:$src2, ssmem:$src3), OpcodeStr,
"$src3, $src2", "$src2, $src3",		"$src3, $src2", "$src2, $src3",
(v4f32 (OpNode VR128X:$src1, VR128X:$src2, (sse_load_f32 addr:$src3)))>,		(v4f32 (OpNode VR128X:$src2, (sse_load_f32 addr:$src3), VR128X:$src1))>,
Sched<[sched.XMM.Folded, sched.XMM.ReadAfterFold]>;		Sched<[WriteFMAX.Folded, WriteFMAX.ReadAfterFold]>;
defm rb : AVX512_maskable_3src<opc, MRMSrcReg, v4f32x_info, (outs VR128X:$dst),		defm rb : AVX512_maskable_3src<opc, MRMSrcReg, v4f32x_info, (outs VR128X:$dst),
(ins VR128X:$src2, VR128X:$src3, AVX512RC:$rc), OpcodeStr,		(ins VR128X:$src2, VR128X:$src3, AVX512RC:$rc), OpcodeStr,
"$rc, $src3, $src2", "$src2, $src3, $rc",		"$rc, $src3, $src2", "$src2, $src3, $rc",
(v4f32 (OpNodeRnd VR128X:$src1, VR128X:$src2, VR128X:$src3, (i32 timm:$rc)))>,		(v4f32 (OpNodeRnd VR128X:$src2, VR128X:$src3, VR128X:$src1, (i32 timm:$rc)))>,
EVEX_B, EVEX_RC, Sched<[sched.XMM]>;		EVEX_B, EVEX_RC, Sched<[WriteFMAX]>;
}		}
}		}

multiclass avx512_cfmbinop_sh_common<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_cfmbinop_sh_common<bits<8> opc, string OpcodeStr, SDNode OpNode,
SDNode OpNodeRnd, X86SchedWriteWidths sched = SchedWriteFMA> {		SDNode OpNodeRnd, bit IsCommutable> {
let Predicates = [HasFP16] in {		let Predicates = [HasFP16] in {
defm rr : AVX512_maskable<opc, MRMSrcReg, f32x_info, (outs VR128X:$dst),		defm rr : AVX512_maskable<opc, MRMSrcReg, f32x_info, (outs VR128X:$dst),
(ins VR128X:$src1, VR128X:$src2), OpcodeStr,		(ins VR128X:$src1, VR128X:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
(v4f32 (OpNode VR128X:$src1, VR128X:$src2)),		(v4f32 (OpNode VR128X:$src1, VR128X:$src2)),
0, 0, 0, X86selects, "@earlyclobber $dst">, Sched<[sched.XMM]>;		IsCommutable, IsCommutable, IsCommutable,
		X86selects, "@earlyclobber $dst">, Sched<[WriteFMAX]>;
defm rm : AVX512_maskable<opc, MRMSrcMem, f32x_info, (outs VR128X:$dst),		defm rm : AVX512_maskable<opc, MRMSrcMem, f32x_info, (outs VR128X:$dst),
(ins VR128X:$src1, ssmem:$src2), OpcodeStr,		(ins VR128X:$src1, ssmem:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
(v4f32 (OpNode VR128X:$src1, (sse_load_f32 addr:$src2))),		(v4f32 (OpNode VR128X:$src1, (sse_load_f32 addr:$src2))),
0, 0, 0, X86selects, "@earlyclobber $dst">,		0, 0, 0, X86selects, "@earlyclobber $dst">,
Sched<[sched.XMM.Folded, sched.XMM.ReadAfterFold]>;		Sched<[WriteFMAX.Folded, WriteFMAX.ReadAfterFold]>;
defm rrb : AVX512_maskable<opc, MRMSrcReg, f32x_info, (outs VR128X:$dst),		defm rrb : AVX512_maskable<opc, MRMSrcReg, f32x_info, (outs VR128X:$dst),
(ins VR128X:$src1, VR128X:$src2, AVX512RC:$rc), OpcodeStr,		(ins VR128X:$src1, VR128X:$src2, AVX512RC:$rc), OpcodeStr,
"$rc, $src2, $src1", "$src1, $src2, $rc",		"$rc, $src2, $src1", "$src1, $src2, $rc",
(OpNodeRnd (v4f32 VR128X:$src1), (v4f32 VR128X:$src2), (i32 timm:$rc)),		(OpNodeRnd (v4f32 VR128X:$src1), (v4f32 VR128X:$src2), (i32 timm:$rc)),
0, 0, 0, X86selects, "@earlyclobber $dst">,		0, 0, 0, X86selects, "@earlyclobber $dst">,
EVEX_B, EVEX_RC, Sched<[sched.XMM]>;		EVEX_B, EVEX_RC, Sched<[WriteFMAX]>;
}		}
}		}

let Uses = [MXCSR] in {		let Uses = [MXCSR] in {
defm VFMADDCSHZ : avx512_cfmop_sh_common<0x57, "vfmaddcsh", x86vfmaddcSh, x86vfmaddcShRnd>,		defm VFMADDCSHZ : avx512_cfmaop_sh_common<0x57, "vfmaddcsh", x86vfmaddcSh, x86vfmaddcShRnd, 1>,
T_MAP6XS, EVEX_CD8<32, CD8VT1>, EVEX_V128, EVEX_4V;		T_MAP6XS, EVEX_CD8<32, CD8VT1>, EVEX_V128, EVEX_4V;
defm VFCMADDCSHZ : avx512_cfmop_sh_common<0x57, "vfcmaddcsh", x86vfcmaddcSh, x86vfcmaddcShRnd>,		defm VFCMADDCSHZ : avx512_cfmaop_sh_common<0x57, "vfcmaddcsh", x86vfcmaddcSh, x86vfcmaddcShRnd, 0>,
T_MAP6XD, EVEX_CD8<32, CD8VT1>, EVEX_V128, EVEX_4V;		T_MAP6XD, EVEX_CD8<32, CD8VT1>, EVEX_V128, EVEX_4V;

defm VFMULCSHZ : avx512_cfmbinop_sh_common<0xD7, "vfmulcsh", x86vfmulcSh, x86vfmulcShRnd>,		defm VFMULCSHZ : avx512_cfmbinop_sh_common<0xD7, "vfmulcsh", x86vfmulcSh, x86vfmulcShRnd, 1>,
T_MAP6XS, EVEX_CD8<32, CD8VT1>, EVEX_V128, VEX_LIG, EVEX_4V;		T_MAP6XS, EVEX_CD8<32, CD8VT1>, EVEX_V128, VEX_LIG, EVEX_4V;
defm VFCMULCSHZ : avx512_cfmbinop_sh_common<0xD7, "vfcmulcsh", x86vfcmulcSh, x86vfcmulcShRnd>,		defm VFCMULCSHZ : avx512_cfmbinop_sh_common<0xD7, "vfcmulcsh", x86vfcmulcSh, x86vfcmulcShRnd, 0>,
T_MAP6XD, EVEX_CD8<32, CD8VT1>, EVEX_V128, VEX_LIG, EVEX_4V;		T_MAP6XD, EVEX_CD8<32, CD8VT1>, EVEX_V128, VEX_LIG, EVEX_4V;
}		}

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

Show First 20 Lines • Show All 566 Lines • ▼ Show 20 Lines	def X86vp2intersect : SDNode<"X86ISD::VP2INTERSECT",
SDTypeProfile<1, 2, [SDTCisVT<0, untyped>,		SDTypeProfile<1, 2, [SDTCisVT<0, untyped>,
SDTCisVec<1>, SDTCisSameAs<1, 2>]>>;		SDTCisVec<1>, SDTCisSameAs<1, 2>]>>;

def SDTIFma : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0,1>,		def SDTIFma : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0,1>,
SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;		SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;
def x86vpmadd52l : SDNode<"X86ISD::VPMADD52L", SDTIFma, [SDNPCommutative]>;		def x86vpmadd52l : SDNode<"X86ISD::VPMADD52L", SDTIFma, [SDNPCommutative]>;
def x86vpmadd52h : SDNode<"X86ISD::VPMADD52H", SDTIFma, [SDNPCommutative]>;		def x86vpmadd52h : SDNode<"X86ISD::VPMADD52H", SDTIFma, [SDNPCommutative]>;

def x86vfmaddc : SDNode<"X86ISD::VFMADDC", SDTFPTernaryOp>;		def x86vfmaddc : SDNode<"X86ISD::VFMADDC", SDTFPTernaryOp, [SDNPCommutative]>;
def x86vfmaddcRnd : SDNode<"X86ISD::VFMADDC_RND", SDTFmaRound>;		def x86vfmaddcRnd : SDNode<"X86ISD::VFMADDC_RND", SDTFmaRound, [SDNPCommutative]>;
def x86vfcmaddc : SDNode<"X86ISD::VFCMADDC", SDTFPTernaryOp>;		def x86vfcmaddc : SDNode<"X86ISD::VFCMADDC", SDTFPTernaryOp>;
def x86vfcmaddcRnd : SDNode<"X86ISD::VFCMADDC_RND", SDTFmaRound>;		def x86vfcmaddcRnd : SDNode<"X86ISD::VFCMADDC_RND", SDTFmaRound>;
def x86vfmulc : SDNode<"X86ISD::VFMULC", SDTFPBinOp>;		def x86vfmulc : SDNode<"X86ISD::VFMULC", SDTFPBinOp, [SDNPCommutative]>;
def x86vfmulcRnd : SDNode<"X86ISD::VFMULC_RND", SDTFPBinOpRound>;		def x86vfmulcRnd : SDNode<"X86ISD::VFMULC_RND", SDTFPBinOpRound, [SDNPCommutative]>;
def x86vfcmulc : SDNode<"X86ISD::VFCMULC", SDTFPBinOp>;		def x86vfcmulc : SDNode<"X86ISD::VFCMULC", SDTFPBinOp>;
def x86vfcmulcRnd : SDNode<"X86ISD::VFCMULC_RND", SDTFPBinOpRound>;		def x86vfcmulcRnd : SDNode<"X86ISD::VFCMULC_RND", SDTFPBinOpRound>;

def x86vfmaddcSh : SDNode<"X86ISD::VFMADDCSH", SDTFPTernaryOp>;		def x86vfmaddcSh : SDNode<"X86ISD::VFMADDCSH", SDTFPTernaryOp, [SDNPCommutative]>;
def x86vfcmaddcSh : SDNode<"X86ISD::VFCMADDCSH", SDTFPTernaryOp>;		def x86vfcmaddcSh : SDNode<"X86ISD::VFCMADDCSH", SDTFPTernaryOp>;
def x86vfmulcSh : SDNode<"X86ISD::VFMULCSH", SDTFPBinOp>;		def x86vfmulcSh : SDNode<"X86ISD::VFMULCSH", SDTFPBinOp, [SDNPCommutative]>;
def x86vfcmulcSh : SDNode<"X86ISD::VFCMULCSH", SDTFPBinOp>;		def x86vfcmulcSh : SDNode<"X86ISD::VFCMULCSH", SDTFPBinOp>;
def x86vfmaddcShRnd : SDNode<"X86ISD::VFMADDCSH_RND", SDTFmaRound>;		def x86vfmaddcShRnd : SDNode<"X86ISD::VFMADDCSH_RND", SDTFmaRound, [SDNPCommutative]>;
def x86vfcmaddcShRnd : SDNode<"X86ISD::VFCMADDCSH_RND",SDTFmaRound>;		def x86vfcmaddcShRnd : SDNode<"X86ISD::VFCMADDCSH_RND",SDTFmaRound>;
def x86vfmulcShRnd : SDNode<"X86ISD::VFMULCSH_RND", SDTFPBinOpRound>;		def x86vfmulcShRnd : SDNode<"X86ISD::VFMULCSH_RND", SDTFPBinOpRound, [SDNPCommutative]>;
def x86vfcmulcShRnd : SDNode<"X86ISD::VFCMULCSH_RND", SDTFPBinOpRound>;		def x86vfcmulcShRnd : SDNode<"X86ISD::VFCMULCSH_RND", SDTFPBinOpRound>;

def X86rsqrt14 : SDNode<"X86ISD::RSQRT14", SDTFPUnaryOp>;		def X86rsqrt14 : SDNode<"X86ISD::RSQRT14", SDTFPUnaryOp>;
def X86rcp14 : SDNode<"X86ISD::RCP14", SDTFPUnaryOp>;		def X86rcp14 : SDNode<"X86ISD::RCP14", SDTFPUnaryOp>;

// VNNI		// VNNI
def SDTVnni : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0,1>,		def SDTVnni : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0,1>,
SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;		SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;
▲ Show 20 Lines • Show All 642 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,614 Lines • ▼ Show 20 Lines	bool X86InstrInfo::findCommutedOpIndices(const MachineInstr &MI,
case X86::VPMADD52LUQZ128r:		case X86::VPMADD52LUQZ128r:
case X86::VPMADD52LUQZ128rk:		case X86::VPMADD52LUQZ128rk:
case X86::VPMADD52LUQZ128rkz:		case X86::VPMADD52LUQZ128rkz:
case X86::VPMADD52LUQZ256r:		case X86::VPMADD52LUQZ256r:
case X86::VPMADD52LUQZ256rk:		case X86::VPMADD52LUQZ256rk:
case X86::VPMADD52LUQZ256rkz:		case X86::VPMADD52LUQZ256rkz:
case X86::VPMADD52LUQZr:		case X86::VPMADD52LUQZr:
case X86::VPMADD52LUQZrk:		case X86::VPMADD52LUQZrk:
case X86::VPMADD52LUQZrkz: {		case X86::VPMADD52LUQZrkz:
		case X86::VFMADDCPHZr:
		case X86::VFMADDCPHZrk:
		case X86::VFMADDCPHZrkz:
		case X86::VFMADDCPHZ128r:
		case X86::VFMADDCPHZ128rk:
		case X86::VFMADDCPHZ128rkz:
		case X86::VFMADDCPHZ256r:
		case X86::VFMADDCPHZ256rk:
		case X86::VFMADDCPHZ256rkz:
		case X86::VFMADDCSHZr:
		case X86::VFMADDCSHZrk:
		case X86::VFMADDCSHZrkz: {
unsigned CommutableOpIdx1 = 2;		unsigned CommutableOpIdx1 = 2;
unsigned CommutableOpIdx2 = 3;		unsigned CommutableOpIdx2 = 3;
if (X86II::isKMasked(Desc.TSFlags)) {		if (X86II::isKMasked(Desc.TSFlags)) {
// Skip the mask register.		// Skip the mask register.
++CommutableOpIdx1;		++CommutableOpIdx1;
++CommutableOpIdx2;		++CommutableOpIdx2;
}		}
if (!fixCommutedOpIndices(SrcOpIdx1, SrcOpIdx2,		if (!fixCommutedOpIndices(SrcOpIdx1, SrcOpIdx2,
▲ Show 20 Lines • Show All 6,647 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86IntrinsicsInfo.h

Show All 18 Lines

namespace llvm {		namespace llvm {

enum IntrinsicType : uint16_t {		enum IntrinsicType : uint16_t {
CVTNEPS2BF16_MASK,		CVTNEPS2BF16_MASK,
GATHER, SCATTER, PREFETCH, RDSEED, RDRAND, RDPMC, RDTSC, XTEST, XGETBV, ADX, FPCLASSS,		GATHER, SCATTER, PREFETCH, RDSEED, RDRAND, RDPMC, RDTSC, XTEST, XGETBV, ADX, FPCLASSS,
INTR_TYPE_1OP, INTR_TYPE_2OP, INTR_TYPE_3OP, INTR_TYPE_4OP_IMM8,		INTR_TYPE_1OP, INTR_TYPE_2OP, INTR_TYPE_3OP, INTR_TYPE_4OP_IMM8,
INTR_TYPE_3OP_IMM8,		INTR_TYPE_3OP_IMM8,
FMA_OP_MASK, FMA_OP_MASKZ,		CFMA_OP_MASK, CFMA_OP_MASKZ,
CMP_MASK_CC,CMP_MASK_SCALAR_CC, VSHIFT, COMI, COMI_RM, BLENDV, BEXTRI,		CMP_MASK_CC,CMP_MASK_SCALAR_CC, VSHIFT, COMI, COMI_RM, BLENDV, BEXTRI,
CVTPD2PS_MASK,		CVTPD2PS_MASK,
INTR_TYPE_1OP_SAE, INTR_TYPE_2OP_SAE,		INTR_TYPE_1OP_SAE, INTR_TYPE_2OP_SAE,
INTR_TYPE_1OP_MASK_SAE, INTR_TYPE_2OP_MASK_SAE, INTR_TYPE_3OP_MASK_SAE,		INTR_TYPE_1OP_MASK_SAE, INTR_TYPE_2OP_MASK_SAE, INTR_TYPE_3OP_MASK_SAE,
INTR_TYPE_1OP_MASK, INTR_TYPE_2OP_MASK,		INTR_TYPE_1OP_MASK, INTR_TYPE_2OP_MASK,
IFMA_OP, VPERM_2OP, INTR_TYPE_SCALAR_MASK, INTR_TYPE_SCALAR_MASK_SAE,		IFMA_OP, VPERM_2OP, INTR_TYPE_SCALAR_MASK, INTR_TYPE_SCALAR_MASK_SAE,
INTR_TYPE_SCALAR_MASK_RND,		INTR_TYPE_SCALAR_MASK_RND,
INTR_TYPE_3OP_SCALAR_MASK_SAE,		INTR_TYPE_3OP_SCALAR_MASK_SAE,
▲ Show 20 Lines • Show All 1,120 Lines • ▼ Show 20 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx512fp16_mask_vcvttph2w_512, INTR_TYPE_1OP_MASK_SAE,		X86_INTRINSIC_DATA(avx512fp16_mask_vcvttph2w_512, INTR_TYPE_1OP_MASK_SAE,
X86ISD::CVTTP2SI, X86ISD::CVTTP2SI_SAE),		X86ISD::CVTTP2SI, X86ISD::CVTTP2SI_SAE),
X86_INTRINSIC_DATA(avx512fp16_mask_vcvtudq2ph_128, TRUNCATE_TO_REG,		X86_INTRINSIC_DATA(avx512fp16_mask_vcvtudq2ph_128, TRUNCATE_TO_REG,
X86ISD::CVTUI2P, X86ISD::MCVTUI2P),		X86ISD::CVTUI2P, X86ISD::MCVTUI2P),
X86_INTRINSIC_DATA(avx512fp16_mask_vcvtuqq2ph_128, TRUNCATE_TO_REG,		X86_INTRINSIC_DATA(avx512fp16_mask_vcvtuqq2ph_128, TRUNCATE_TO_REG,
X86ISD::CVTUI2P, X86ISD::MCVTUI2P),		X86ISD::CVTUI2P, X86ISD::MCVTUI2P),
X86_INTRINSIC_DATA(avx512fp16_mask_vcvtuqq2ph_256, TRUNCATE_TO_REG,		X86_INTRINSIC_DATA(avx512fp16_mask_vcvtuqq2ph_256, TRUNCATE_TO_REG,
X86ISD::CVTUI2P, X86ISD::MCVTUI2P),		X86ISD::CVTUI2P, X86ISD::MCVTUI2P),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_128, FMA_OP_MASK, X86ISD::VFCMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_128, CFMA_OP_MASK, X86ISD::VFCMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_256, FMA_OP_MASK, X86ISD::VFCMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_256, CFMA_OP_MASK, X86ISD::VFCMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_512, FMA_OP_MASK, X86ISD::VFCMADDC, X86ISD::VFCMADDC_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_cph_512, CFMA_OP_MASK, X86ISD::VFCMADDC, X86ISD::VFCMADDC_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_csh, FMA_OP_MASK, X86ISD::VFCMADDCSH, X86ISD::VFCMADDCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmadd_csh, CFMA_OP_MASK, X86ISD::VFCMADDCSH, X86ISD::VFCMADDCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_128, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_128, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_256, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_256, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_512, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, X86ISD::VFCMULC_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_cph_512, INTR_TYPE_2OP_MASK, X86ISD::VFCMULC, X86ISD::VFCMULC_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_csh, INTR_TYPE_SCALAR_MASK, X86ISD::VFCMULCSH, X86ISD::VFCMULCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfcmul_csh, INTR_TYPE_SCALAR_MASK, X86ISD::VFCMULCSH, X86ISD::VFCMULCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_128, FMA_OP_MASK, X86ISD::VFMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_128, CFMA_OP_MASK, X86ISD::VFMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_256, FMA_OP_MASK, X86ISD::VFMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_256, CFMA_OP_MASK, X86ISD::VFMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_512, FMA_OP_MASK, X86ISD::VFMADDC, X86ISD::VFMADDC_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_cph_512, CFMA_OP_MASK, X86ISD::VFMADDC, X86ISD::VFMADDC_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_csh, FMA_OP_MASK, X86ISD::VFMADDCSH, X86ISD::VFMADDCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmadd_csh, CFMA_OP_MASK, X86ISD::VFMADDCSH, X86ISD::VFMADDCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_128, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_128, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_256, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, 0),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_256, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, 0),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_512, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, X86ISD::VFMULC_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_cph_512, INTR_TYPE_2OP_MASK, X86ISD::VFMULC, X86ISD::VFMULC_RND),
X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_csh, INTR_TYPE_SCALAR_MASK, X86ISD::VFMULCSH, X86ISD::VFMULCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_mask_vfmul_csh, INTR_TYPE_SCALAR_MASK, X86ISD::VFMULCSH, X86ISD::VFMULCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_128, FMA_OP_MASKZ, X86ISD::VFCMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_128, CFMA_OP_MASKZ, X86ISD::VFCMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_256, FMA_OP_MASKZ, X86ISD::VFCMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_256, CFMA_OP_MASKZ, X86ISD::VFCMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_512, FMA_OP_MASKZ, X86ISD::VFCMADDC, X86ISD::VFCMADDC_RND),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_cph_512, CFMA_OP_MASKZ, X86ISD::VFCMADDC, X86ISD::VFCMADDC_RND),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_csh, FMA_OP_MASKZ, X86ISD::VFCMADDCSH, X86ISD::VFCMADDCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfcmadd_csh, CFMA_OP_MASKZ, X86ISD::VFCMADDCSH, X86ISD::VFCMADDCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_128, FMA_OP_MASKZ, X86ISD::VFMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_128, CFMA_OP_MASKZ, X86ISD::VFMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_256, FMA_OP_MASKZ, X86ISD::VFMADDC, 0),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_256, CFMA_OP_MASKZ, X86ISD::VFMADDC, 0),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_512, FMA_OP_MASKZ, X86ISD::VFMADDC, X86ISD::VFMADDC_RND),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_cph_512, CFMA_OP_MASKZ, X86ISD::VFMADDC, X86ISD::VFMADDC_RND),
X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_csh, FMA_OP_MASKZ, X86ISD::VFMADDCSH, X86ISD::VFMADDCSH_RND),		X86_INTRINSIC_DATA(avx512fp16_maskz_vfmadd_csh, CFMA_OP_MASKZ, X86ISD::VFMADDCSH, X86ISD::VFMADDCSH_RND),
X86_INTRINSIC_DATA(avx512fp16_max_ph_128, INTR_TYPE_2OP, X86ISD::FMAX, 0),		X86_INTRINSIC_DATA(avx512fp16_max_ph_128, INTR_TYPE_2OP, X86ISD::FMAX, 0),
X86_INTRINSIC_DATA(avx512fp16_max_ph_256, INTR_TYPE_2OP, X86ISD::FMAX, 0),		X86_INTRINSIC_DATA(avx512fp16_max_ph_256, INTR_TYPE_2OP, X86ISD::FMAX, 0),
X86_INTRINSIC_DATA(avx512fp16_max_ph_512, INTR_TYPE_2OP_SAE, X86ISD::FMAX, X86ISD::FMAX_SAE),		X86_INTRINSIC_DATA(avx512fp16_max_ph_512, INTR_TYPE_2OP_SAE, X86ISD::FMAX, X86ISD::FMAX_SAE),
X86_INTRINSIC_DATA(avx512fp16_min_ph_128, INTR_TYPE_2OP, X86ISD::FMIN, 0),		X86_INTRINSIC_DATA(avx512fp16_min_ph_128, INTR_TYPE_2OP, X86ISD::FMIN, 0),
X86_INTRINSIC_DATA(avx512fp16_min_ph_256, INTR_TYPE_2OP, X86ISD::FMIN, 0),		X86_INTRINSIC_DATA(avx512fp16_min_ph_256, INTR_TYPE_2OP, X86ISD::FMIN, 0),
X86_INTRINSIC_DATA(avx512fp16_min_ph_512, INTR_TYPE_2OP_SAE, X86ISD::FMIN, X86ISD::FMIN_SAE),		X86_INTRINSIC_DATA(avx512fp16_min_ph_512, INTR_TYPE_2OP_SAE, X86ISD::FMIN, X86ISD::FMIN_SAE),
X86_INTRINSIC_DATA(avx512fp16_mul_ph_512, INTR_TYPE_2OP, ISD::FMUL, X86ISD::FMUL_RND),		X86_INTRINSIC_DATA(avx512fp16_mul_ph_512, INTR_TYPE_2OP, ISD::FMUL, X86ISD::FMUL_RND),
X86_INTRINSIC_DATA(avx512fp16_sqrt_ph_512, INTR_TYPE_1OP, ISD::FSQRT, X86ISD::FSQRT_RND),		X86_INTRINSIC_DATA(avx512fp16_sqrt_ph_512, INTR_TYPE_1OP, ISD::FSQRT, X86ISD::FSQRT_RND),
▲ Show 20 Lines • Show All 209 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512cfma-intrinsics.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512fp16 -mattr=+avx512vl \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512fp16 -mattr=+avx512vl \| FileCheck %s

	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)
	declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

	define <4 x float> @test_int_x86_avx512fp8_mask_cfmadd_ph_bst(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfmadd_ph_bst(<4 x float> %x0, <4 x float> %x1, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmadd_ph_bst:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmadd_ph_bst:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm1, %xmm0 {%k1}			; CHECK-NEXT: vfmaddcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x0, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x1, i8 %x3)
				ret <4 x float> %res
				}

				define <4 x float> @test_int_x86_avx512fp8_mask_cfmadd_ph_bst2(<4 x float> %x0, <4 x float> %x1, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmadd_ph_bst2:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vfmaddcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x0, <4 x float> %x1, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_int_x86_avx512fp8_mask_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %xmm2, %xmm1, %xmm0 {%k1}			; CHECK-NEXT: vfmaddcph %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_int_x86_avx512fp8_maskz_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_maskz_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_maskz_cfmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_maskz_cfmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %xmm2, %xmm1, %xmm0 {%k1} {z}			; CHECK-NEXT: vfmaddcph %xmm1, %xmm0, %xmm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_int_x86_avx512fp8_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2){			define <4 x float> @test_int_x86_avx512fp8_cfmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2){
	; CHECK-LABEL: test_int_x86_avx512fp8_cfmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_cfmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfmaddcph %xmm0, %xmm1, %xmm2			; CHECK-NEXT: vfmaddcph %xmm1, %xmm2, %xmm0
	; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x2, <4 x float> %x1, <4 x float> %x0, i8 -1)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %x2, <4 x float> %x1, <4 x float> %x0, i8 -1)
	ret <4 x float> %res			ret <4 x float> %res
	}			}


	declare <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)
	declare <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

	define <8 x float> @test_int_x86_avx512fp16_mask_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){			define <8 x float> @test_int_x86_avx512fp16_mask_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %ymm2, %ymm1, %ymm0 {%k1}			; CHECK-NEXT: vfmaddcph %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)			%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_int_x86_avx512fp16_maskz_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){			define <8 x float> @test_int_x86_avx512fp16_maskz_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %ymm2, %ymm1, %ymm0 {%k1} {z}			; CHECK-NEXT: vfmaddcph %ymm1, %ymm0, %ymm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)			%res = call <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_int_x86_avx512fp16_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2){			define <8 x float> @test_int_x86_avx512fp16_cfmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfmaddcph %ymm0, %ymm1, %ymm2			; CHECK-NEXT: vfmaddcph %ymm1, %ymm2, %ymm0
	; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %x2, <8 x float> %x1, <8 x float> %x0, i8 -1)			%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %x2, <8 x float> %x1, <8 x float> %x0, i8 -1)
	ret <8 x float> %res			ret <8 x float> %res
	}			}


	declare <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
	declare <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @test_int_x86_avx512fp16_mask_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_mask_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %zmm2, %zmm1, %zmm0 {%k1}			; CHECK-NEXT: vfmaddcph %zmm1, %zmm0, %zmm2 {%k1}
				; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_maskz_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_maskz_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmaddcph %zmm2, %zmm1, %zmm0 {%k1} {z}			; CHECK-NEXT: vfmaddcph %zmm1, %zmm0, %zmm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_cfmadd_ph_512_rn(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_cfmadd_ph_512_rn(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_512_rn:			; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_512_rn:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfmaddcph {rz-sae}, %zmm0, %zmm1, %zmm2			; CHECK-NEXT: vfmaddcph {rz-sae}, %zmm1, %zmm2, %zmm0
	; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 11)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 11)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_cfmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_cfmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfmaddcph %zmm0, %zmm1, %zmm2			; CHECK-NEXT: vfmaddcph %zmm1, %zmm2, %zmm0
	; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)
	declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

				define <4 x float> @test_int_x86_avx512fp8_mask_cfcmadd_ph_bst(<4 x float> %x0, <4 x float> %x1, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmadd_ph_bst:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vfcmaddcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %x0, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x1, i8 %x3)
				ret <4 x float> %res
				}

				; Check conjugate complex FMA is not commutable.
				define <4 x float> @test_int_x86_avx512fp8_mask_cfcmadd_ph_bst2(<4 x float> %x0, <4 x float> %x1, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmadd_ph_bst2:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vbroadcastss {{.*#+}} xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
				; CHECK-NEXT: vfcmaddcph %xmm0, %xmm2, %xmm1 {%k1}
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x0, <4 x float> %x1, i8 %x3)
				ret <4 x float> %res
				}

	define <4 x float> @test_int_x86_avx512fp8_mask_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %xmm2, %xmm1, %xmm0 {%k1}			; CHECK-NEXT: vfcmaddcph %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_int_x86_avx512fp8_maskz_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_maskz_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_maskz_cfcmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_maskz_cfcmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %xmm2, %xmm1, %xmm0 {%k1} {z}			; CHECK-NEXT: vfcmaddcph %xmm1, %xmm0, %xmm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_int_x86_avx512fp8_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2){			define <4 x float> @test_int_x86_avx512fp8_cfcmadd_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2){
	; CHECK-LABEL: test_int_x86_avx512fp8_cfcmadd_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_cfcmadd_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfcmaddcph %xmm0, %xmm1, %xmm2			; CHECK-NEXT: vfcmaddcph %xmm1, %xmm2, %xmm0
	; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %x2, <4 x float> %x1, <4 x float> %x0, i8 -1)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %x2, <4 x float> %x1, <4 x float> %x0, i8 -1)
	ret <4 x float> %res			ret <4 x float> %res
	}			}


	declare <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)
	declare <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

	define <8 x float> @test_int_x86_avx512fp16_mask_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){			define <8 x float> @test_int_x86_avx512fp16_mask_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %ymm2, %ymm1, %ymm0 {%k1}			; CHECK-NEXT: vfcmaddcph %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)			%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){			define <8 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %ymm2, %ymm1, %ymm0 {%k1} {z}			; CHECK-NEXT: vfcmaddcph %ymm1, %ymm0, %ymm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)			%res = call <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, i8 %x3)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_int_x86_avx512fp16_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2){			define <8 x float> @test_int_x86_avx512fp16_cfcmadd_ph_256(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_256:			; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfcmaddcph %ymm0, %ymm1, %ymm2			; CHECK-NEXT: vfcmaddcph %ymm1, %ymm2, %ymm0
	; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %x2, <8 x float> %x1, <8 x float> %x0, i8 -1)			%res = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %x2, <8 x float> %x1, <8 x float> %x0, i8 -1)
	ret <8 x float> %res			ret <8 x float> %res
	}			}


	declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
	declare <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @test_int_x86_avx512fp16_mask_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_mask_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %zmm2, %zmm1, %zmm0 {%k1}			; CHECK-NEXT: vfcmaddcph %zmm1, %zmm0, %zmm2 {%k1}
				; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmaddcph %zmm2, %zmm1, %zmm0 {%k1} {z}			; CHECK-NEXT: vfcmaddcph %zmm1, %zmm0, %zmm2 {%k1} {z}
				; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_cfcmadd_ph_512_rn(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_cfcmadd_ph_512_rn(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_512_rn:			; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_512_rn:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfcmaddcph {rz-sae}, %zmm0, %zmm1, %zmm2			; CHECK-NEXT: vfcmaddcph {rz-sae}, %zmm1, %zmm2, %zmm0
	; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 11)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 11)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	define <16 x float> @test_int_x86_avx512fp16_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){			define <16 x float> @test_int_x86_avx512fp16_cfcmadd_ph_512(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, i16 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_512:			; CHECK-LABEL: test_int_x86_avx512fp16_cfcmadd_ph_512:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vfcmaddcph %zmm0, %zmm1, %zmm2			; CHECK-NEXT: vfcmaddcph %zmm1, %zmm2, %zmm0
	; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

llvm/test/CodeGen/X86/avx512cfmul-intrinsics.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512fp16 -mattr=+avx512vl \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512fp16 -mattr=+avx512vl \| FileCheck %s

	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

	define <4 x float> @test_int_x86_avx512fp8_mask_cfmul_ph_bst(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfmul_ph_bst(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmul_ph_bst:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmul_ph_bst:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmulcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm2 {%k1}			; CHECK-NEXT: vfmulcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm2 {%k1}
	; CHECK-NEXT: vmovaps %xmm2, %xmm0			; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %x0, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %x0, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x2, i8 %x3)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

				define <4 x float> @test_int_x86_avx512fp8_mask_cfmul_ph_bst2(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmul_ph_bst2:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vfmulcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x0, <4 x float> %x2, i8 %x3)
				ret <4 x float> %res
				}

	define <4 x float> @test_int_x86_avx512fp8_mask_cfmul_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfmul_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmul_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfmul_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfmulcph %xmm1, %xmm0, %xmm2 {%k1}			; CHECK-NEXT: vfmulcph %xmm1, %xmm0, %xmm2 {%k1}
	; CHECK-NEXT: vmovaps %xmm2, %xmm0			; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vfmulcph %zmm1, %zmm2, %zmm0			; CHECK-NEXT: vfmulcph %zmm1, %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)			%res = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %x2, <16 x float> %x1, <16 x float> %x0, i16 -1, i32 4)
	ret <16 x float> %res			ret <16 x float> %res
	}			}

	declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

				define <4 x float> @test_int_x86_avx512fp8_mask_cfcmul_ph_bst(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmul_ph_bst:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vfcmulcph {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> %x0, <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x2, i8 %x3)
				ret <4 x float> %res
				}

				; Check conjugate complex FMUL is not commutable.
				define <4 x float> @test_int_x86_avx512fp8_mask_cfcmul_ph_bst2(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
				; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmul_ph_bst2:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vbroadcastss {{.*#+}} xmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
				; CHECK-NEXT: vfcmulcph %xmm0, %xmm1, %xmm2 {%k1}
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
				; CHECK-NEXT: retq
				%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, <4 x float> %x0, <4 x float> %x2, i8 %x3)
				ret <4 x float> %res
				}

	define <4 x float> @test_int_x86_avx512fp8_mask_cfcmul_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){			define <4 x float> @test_int_x86_avx512fp8_mask_cfcmul_ph_128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3){
	; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmul_ph_128:			; CHECK-LABEL: test_int_x86_avx512fp8_mask_cfcmul_ph_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vfcmulcph %xmm1, %xmm0, %xmm2 {%k1}			; CHECK-NEXT: vfcmulcph %xmm1, %xmm0, %xmm2 {%k1}
	; CHECK-NEXT: vmovaps %xmm2, %xmm0			; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)			%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3)
	▲ Show 20 Lines • Show All 97 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512cfmulsh-instrinsics.ll

Show All 29 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> undef, i8 -1, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> undef, i8 -1, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_nm_nr_int_x86_avx512fp16_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {		define <4 x float> @test_nm_nr_int_x86_avx512fp16_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {
; CHECK-LABEL: test_nm_nr_int_x86_avx512fp16_cfmadd_sh:		; CHECK-LABEL: test_nm_nr_int_x86_avx512fp16_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vfmaddcsh %xmm2, %xmm1, %xmm0		; CHECK-NEXT: vfmaddcsh %xmm1, %xmm0, %xmm2
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_nm_nr_int_x86_avx512fp16_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {		define <4 x float> @test_nm_nr_int_x86_avx512fp16_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {
; CHECK-LABEL: test_nm_nr_int_x86_avx512fp16_cfcmadd_sh:		; CHECK-LABEL: test_nm_nr_int_x86_avx512fp16_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vfcmaddcsh %xmm2, %xmm1, %xmm0		; CHECK-NEXT: vfcmaddcsh %xmm1, %xmm0, %xmm2
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

;; no mask, rounding		;; no mask, rounding

define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1) {		define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1) {
Show All 14 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> undef, i8 -1, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> undef, i8 -1, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {		define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {
; CHECK-LABEL: test_nm_r_int_x86_avx512fp16_mask_cfmadd_sh:		; CHECK-LABEL: test_nm_r_int_x86_avx512fp16_mask_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0		; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {		define <4 x float> @test_nm_r_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2) {
; CHECK-LABEL: test_nm_r_int_x86_avx512fp16_mask_cfcmadd_sh:		; CHECK-LABEL: test_nm_r_int_x86_avx512fp16_mask_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0		; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 -1, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

;; mask, no rounding		;; mask, no rounding

define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
Show All 17 Lines	; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_mask_cfmadd_sh:		; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_mask_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfmaddcsh %xmm2, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vfmaddcsh %xmm1, %xmm0, %xmm2 {%k1}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_mask_cfcmadd_sh:		; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_mask_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfcmaddcsh %xmm2, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vfcmaddcsh %xmm1, %xmm0, %xmm2 {%k1}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

;; mask, rounding		;; mask, rounding

define <4 x float> @test_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_mask_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
Show All 17 Lines	; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_mask_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_sh:		; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2 {%k1}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_mask_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_sh:		; CHECK-LABEL: test_int_x86_avx512fp16_mask_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2 {%k1}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

;; maskz, no rounding		;; maskz, no rounding

define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
Show All 17 Lines	; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> zeroinitializer, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> zeroinitializer, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_maskz_cfmadd_sh:		; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_maskz_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfmaddcsh %xmm2, %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vfmaddcsh %xmm1, %xmm0, %xmm2 {%k1} {z}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_m_nr_int_x86_avx512fp16_maskz_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_maskz_cfcmadd_sh:		; CHECK-LABEL: test_m_nr_int_x86_avx512fp16_maskz_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfcmaddcsh %xmm2, %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vfcmaddcsh %xmm1, %xmm0, %xmm2 {%k1} {z}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 4)
ret <4 x float> %res		ret <4 x float> %res
}		}

;; maskz, rounding		;; maskz, rounding

define <4 x float> @test_int_x86_avx512fp16_maskz_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_maskz_cfmul_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
Show All 17 Lines	; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> zeroinitializer, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> zeroinitializer, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_int_x86_avx512fp16_maskz_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_maskz_cfmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_sh:		; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vfmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2 {%k1} {z}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {		define <4 x float> @test_int_x86_avx512fp16_maskz_cfcmadd_sh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_sh:		; CHECK-LABEL: test_int_x86_avx512fp16_maskz_cfcmadd_sh:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1		; CHECK-NEXT: kmovd %edi, %k1
; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm2, %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vfcmaddcsh {rd-sae}, %xmm1, %xmm0, %xmm2 {%k1} {z}
		; CHECK-NEXT: vmovaps %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)		%res = call <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, i8 %x3, i32 9)
ret <4 x float> %res		ret <4 x float> %res
}		}

llvm/test/CodeGen/X86/avx512fp16-combine-vfmulc-fadd.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512fp16 --fp-contract=fast --enable-unsafe-fp-math \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512fp16 --fp-contract=fast --enable-unsafe-fp-math \| FileCheck %s

	define dso_local <32 x half> @test1(<32 x half> %acc.coerce, <32 x half> %lhs.coerce, <32 x half> %rhs.coerce) {			define dso_local <32 x half> @test1(<32 x half> %acc.coerce, <32 x half> %lhs.coerce, <32 x half> %rhs.coerce) {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfmaddcph %zmm2, %zmm1, %zmm0			; CHECK-NEXT: vfmaddcph %zmm1, %zmm0, %zmm2
				; CHECK-NEXT: vmovaps %zmm2, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <32 x half> %lhs.coerce to <16 x float>			%0 = bitcast <32 x half> %lhs.coerce to <16 x float>
	%1 = bitcast <32 x half> %rhs.coerce to <16 x float>			%1 = bitcast <32 x half> %rhs.coerce to <16 x float>
	%2 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %0, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4)			%2 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %0, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4)
	%3 = bitcast <16 x float> %2 to <32 x half>			%3 = bitcast <16 x float> %2 to <32 x half>
	%add.i.i = fadd fast <32 x half> %3, %acc.coerce			%add.i.i = fadd fast <32 x half> %3, %acc.coerce
	ret <32 x half> %add.i.i			ret <32 x half> %add.i.i
	}			}

	define dso_local <16 x half> @test2(<16 x half> %acc.coerce, <16 x half> %lhs.coerce, <16 x half> %rhs.coerce) {			define dso_local <16 x half> @test2(<16 x half> %acc.coerce, <16 x half> %lhs.coerce, <16 x half> %rhs.coerce) {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfmaddcph %ymm2, %ymm1, %ymm0			; CHECK-NEXT: vfmaddcph %ymm1, %ymm0, %ymm2
				; CHECK-NEXT: vmovaps %ymm2, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <16 x half> %lhs.coerce to <8 x float>			%0 = bitcast <16 x half> %lhs.coerce to <8 x float>
	%1 = bitcast <16 x half> %rhs.coerce to <8 x float>			%1 = bitcast <16 x half> %rhs.coerce to <8 x float>
	%2 = tail call fast <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float> %0, <8 x float> %1, <8 x float> zeroinitializer, i8 -1)			%2 = tail call fast <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float> %0, <8 x float> %1, <8 x float> zeroinitializer, i8 -1)
	%3 = bitcast <8 x float> %2 to <16 x half>			%3 = bitcast <8 x float> %2 to <16 x half>
	%add.i.i = fadd fast <16 x half> %3, %acc.coerce			%add.i.i = fadd fast <16 x half> %3, %acc.coerce
	ret <16 x half> %add.i.i			ret <16 x half> %add.i.i
	}			}

	define dso_local <8 x half> @test3(<8 x half> %acc.coerce, <8 x half> %lhs.coerce, <8 x half> %rhs.coerce) {			define dso_local <8 x half> @test3(<8 x half> %acc.coerce, <8 x half> %lhs.coerce, <8 x half> %rhs.coerce) {
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfmaddcph %xmm2, %xmm1, %xmm0			; CHECK-NEXT: vfmaddcph %xmm1, %xmm0, %xmm2
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce to <4 x float>			%0 = bitcast <8 x half> %lhs.coerce to <4 x float>
	%1 = bitcast <8 x half> %rhs.coerce to <4 x float>			%1 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%2 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %0, <4 x float> %1, <4 x float> zeroinitializer, i8 -1)			%2 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %0, <4 x float> %1, <4 x float> zeroinitializer, i8 -1)
	%3 = bitcast <4 x float> %2 to <8 x half>			%3 = bitcast <4 x float> %2 to <8 x half>
	%add.i.i = fadd fast <8 x half> %3, %acc.coerce			%add.i.i = fadd fast <8 x half> %3, %acc.coerce
	ret <8 x half> %add.i.i			ret <8 x half> %add.i.i
	}			}


	define dso_local <8 x half> @test4(<8 x half> %acc.coerce, <8 x half> %lhs.coerce, <8 x half> %rhs.coerce) {			define dso_local <8 x half> @test4(<8 x half> %acc.coerce, <8 x half> %lhs.coerce, <8 x half> %rhs.coerce) {
	; CHECK-LABEL: test4:			; CHECK-LABEL: test4:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfmaddcph %xmm2, %xmm1, %xmm0			; CHECK-NEXT: vfmaddcph %xmm1, %xmm0, %xmm2
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce to <4 x float>			%0 = bitcast <8 x half> %lhs.coerce to <4 x float>
	%1 = bitcast <8 x half> %rhs.coerce to <4 x float>			%1 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%2 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %0, <4 x float> %1, <4 x float> zeroinitializer, i8 -1)			%2 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %0, <4 x float> %1, <4 x float> zeroinitializer, i8 -1)
	%3 = bitcast <4 x float> %2 to <8 x half>			%3 = bitcast <4 x float> %2 to <8 x half>
	%add.i.i = fadd fast <8 x half> %acc.coerce, %3			%add.i.i = fadd fast <8 x half> %acc.coerce, %3
	ret <8 x half> %add.i.i			ret <8 x half> %add.i.i
	}			}

	declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32 immarg)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32 immarg)
	declare <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

llvm/test/CodeGen/X86/avx512fp16-combine-xor-vfmulc-fadd.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512fp16 --fp-contract=fast --enable-unsafe-fp-math \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512fp16 --fp-contract=fast --enable-unsafe-fp-math \| FileCheck %s

	define dso_local <32 x half> @test1(<32 x half> %acc.coerce, <32 x half> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <32 x half> @test1(<32 x half> %acc.coerce, <32 x half> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %zmm1, %zmm2, %zmm0			; CHECK-NEXT: vfcmaddcph %zmm2, %zmm0, %zmm1
				; CHECK-NEXT: vmovaps %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <32 x half> %lhs.coerce.conj to <16 x i32>			%0 = bitcast <32 x half> %lhs.coerce.conj to <16 x i32>
	%xor.i.i = xor <16 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>			%xor.i.i = xor <16 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>
	%1 = bitcast <16 x i32> %xor.i.i to <16 x float>			%1 = bitcast <16 x i32> %xor.i.i to <16 x float>
	%2 = bitcast <32 x half> %rhs.coerce to <16 x float>			%2 = bitcast <32 x half> %rhs.coerce to <16 x float>
	%3 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %1, <16 x float> %2, <16 x float> zeroinitializer, i16 -1, i32 4) #2			%3 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %1, <16 x float> %2, <16 x float> zeroinitializer, i16 -1, i32 4) #2
	%4 = bitcast <16 x float> %3 to <32 x half>			%4 = bitcast <16 x float> %3 to <32 x half>
	%add = fadd fast <32 x half> %4, %acc.coerce			%add = fadd fast <32 x half> %4, %acc.coerce
	ret <32 x half> %add			ret <32 x half> %add
	}			}

	define dso_local <32 x half> @test2(<32 x half> %acc.coerce, <32 x half> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <32 x half> @test2(<32 x half> %acc.coerce, <32 x half> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %zmm1, %zmm2, %zmm0			; CHECK-NEXT: vfcmaddcph %zmm2, %zmm0, %zmm1
				; CHECK-NEXT: vmovaps %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <32 x half> %lhs.coerce.conj to <16 x i32>			%0 = bitcast <32 x half> %lhs.coerce.conj to <16 x i32>
	%xor.i.i = xor <16 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>			%xor.i.i = xor <16 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>
	%1 = bitcast <16 x i32> %xor.i.i to <16 x float>			%1 = bitcast <16 x i32> %xor.i.i to <16 x float>
	%2 = bitcast <32 x half> %rhs.coerce to <16 x float>			%2 = bitcast <32 x half> %rhs.coerce to <16 x float>
	%3 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %2, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4) #2			%3 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %2, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4) #2
	%4 = bitcast <16 x float> %3 to <32 x half>			%4 = bitcast <16 x float> %3 to <32 x half>
	%add = fadd fast <32 x half> %4, %acc.coerce			%add = fadd fast <32 x half> %4, %acc.coerce
	ret <32 x half> %add			ret <32 x half> %add
	}			}

	define dso_local <16 x half> @test3(<16 x half> %acc.coerce, <16 x half> %lhs.coerce.conj, <16 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <16 x half> @test3(<16 x half> %acc.coerce, <16 x half> %lhs.coerce.conj, <16 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %ymm1, %ymm2, %ymm0			; CHECK-NEXT: vfcmaddcph %ymm2, %ymm0, %ymm1
				; CHECK-NEXT: vmovaps %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <16 x half> %lhs.coerce.conj to <8 x i32>			%0 = bitcast <16 x half> %lhs.coerce.conj to <8 x i32>
	%xor.i.i = xor <8 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>			%xor.i.i = xor <8 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>
	%1 = bitcast <8 x i32> %xor.i.i to <8 x float>			%1 = bitcast <8 x i32> %xor.i.i to <8 x float>
	%2 = bitcast <16 x half> %rhs.coerce to <8 x float>			%2 = bitcast <16 x half> %rhs.coerce to <8 x float>
	%3 = tail call fast <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float> %1, <8 x float> %2, <8 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float> %1, <8 x float> %2, <8 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <8 x float> %3 to <16 x half>			%4 = bitcast <8 x float> %3 to <16 x half>
	%add = fadd fast <16 x half> %4, %acc.coerce			%add = fadd fast <16 x half> %4, %acc.coerce
	ret <16 x half> %add			ret <16 x half> %add
	}			}

	define dso_local <8 x half> @test4(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <8 x half> @test4(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test4:			; CHECK-LABEL: test4:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %xmm1, %xmm2, %xmm0			; CHECK-NEXT: vfcmaddcph %xmm2, %xmm0, %xmm1
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>			%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>
	%xor.i.i = xor <4 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>			%xor.i.i = xor <4 x i32> %0, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>
	%1 = bitcast <4 x i32> %xor.i.i to <4 x float>			%1 = bitcast <4 x i32> %xor.i.i to <4 x float>
	%2 = bitcast <8 x half> %rhs.coerce to <4 x float>			%2 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <4 x float> %3 to <8 x half>			%4 = bitcast <4 x float> %3 to <8 x half>
	%add = fadd fast <8 x half> %4, %acc.coerce			%add = fadd fast <8 x half> %4, %acc.coerce
	ret <8 x half> %add			ret <8 x half> %add
	}			}

	define dso_local <8 x half> @test5(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <8 x half> @test5(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test5:			; CHECK-LABEL: test5:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %xmm1, %xmm2, %xmm0			; CHECK-NEXT: vfcmaddcph %xmm2, %xmm0, %xmm1
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>			%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>
	%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0			%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0
	%1 = bitcast <4 x i32> %xor.i.i to <4 x float>			%1 = bitcast <4 x i32> %xor.i.i to <4 x float>
	%2 = bitcast <8 x half> %rhs.coerce to <4 x float>			%2 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <4 x float> %3 to <8 x half>			%4 = bitcast <4 x float> %3 to <8 x half>
	%add = fadd fast <8 x half> %4, %acc.coerce			%add = fadd fast <8 x half> %4, %acc.coerce
	ret <8 x half> %add			ret <8 x half> %add
	}			}

	define dso_local <8 x half> @test6(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <8 x half> @test6(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test6:			; CHECK-LABEL: test6:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vxorps {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm1, %xmm1			; CHECK-NEXT: vxorps {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm1, %xmm1
	; CHECK-NEXT: vfmaddcph %xmm2, %xmm1, %xmm0			; CHECK-NEXT: vfmaddcph %xmm1, %xmm0, %xmm2
				; CHECK-NEXT: vmovaps %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>			%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>
	%xor.i.i = xor <4 x i32> <i32 1, i32 1, i32 1, i32 1>, %0			%xor.i.i = xor <4 x i32> <i32 1, i32 1, i32 1, i32 1>, %0
	%1 = bitcast <4 x i32> %xor.i.i to <4 x float>			%1 = bitcast <4 x i32> %xor.i.i to <4 x float>
	%2 = bitcast <8 x half> %rhs.coerce to <4 x float>			%2 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <4 x float> %3 to <8 x half>			%4 = bitcast <4 x float> %3 to <8 x half>
	%add = fadd fast <8 x half> %4, %acc.coerce			%add = fadd fast <8 x half> %4, %acc.coerce
	ret <8 x half> %add			ret <8 x half> %add
	}			}

	define dso_local <8 x half> @test7(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <8 x half> @test7(<8 x half> %acc.coerce, <8 x half> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test7:			; CHECK-LABEL: test7:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %xmm1, %xmm2, %xmm0			; CHECK-NEXT: vfcmaddcph %xmm2, %xmm0, %xmm1
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>			%0 = bitcast <8 x half> %lhs.coerce.conj to <4 x i32>
	%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0			%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0
	%1 = bitcast <4 x i32> %xor.i.i to <4 x float>			%1 = bitcast <4 x i32> %xor.i.i to <4 x float>
	%2 = bitcast <8 x half> %rhs.coerce to <4 x float>			%2 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <4 x float> %3 to <8 x half>			%4 = bitcast <4 x float> %3 to <8 x half>
	%add = fadd fast <8 x half> %acc.coerce, %4			%add = fadd fast <8 x half> %acc.coerce, %4
	ret <8 x half> %add			ret <8 x half> %add
	}			}

	define dso_local <8 x half> @test8(<8 x half> %acc.coerce, <4 x float> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <8 x half> @test8(<8 x half> %acc.coerce, <4 x float> %lhs.coerce.conj, <8 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test8:			; CHECK-LABEL: test8:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %xmm1, %xmm2, %xmm0			; CHECK-NEXT: vfcmaddcph %xmm2, %xmm0, %xmm1
				; CHECK-NEXT: vmovaps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x float> %lhs.coerce.conj to <4 x i32>			%0 = bitcast <4 x float> %lhs.coerce.conj to <4 x i32>
	%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0			%xor.i.i = xor <4 x i32> <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %0
	%1 = bitcast <4 x i32> %xor.i.i to <4 x float>			%1 = bitcast <4 x i32> %xor.i.i to <4 x float>
	%2 = bitcast <8 x half> %rhs.coerce to <4 x float>			%2 = bitcast <8 x half> %rhs.coerce to <4 x float>
	%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2			%3 = tail call fast <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float> %1, <4 x float> %2, <4 x float> zeroinitializer, i8 -1) #2
	%4 = bitcast <4 x float> %3 to <8 x half>			%4 = bitcast <4 x float> %3 to <8 x half>
	%add = fadd fast <8 x half> %acc.coerce, %4			%add = fadd fast <8 x half> %acc.coerce, %4
	ret <8 x half> %add			ret <8 x half> %add
	}			}

	define dso_local <32 x half> @test9(<32 x half> %acc.coerce, <8 x i64> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {			define dso_local <32 x half> @test9(<32 x half> %acc.coerce, <8 x i64> %lhs.coerce.conj, <32 x half> %rhs.coerce) local_unnamed_addr #0 {
	; CHECK-LABEL: test9:			; CHECK-LABEL: test9:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vfcmaddcph %zmm1, %zmm2, %zmm0			; CHECK-NEXT: vfcmaddcph %zmm2, %zmm0, %zmm1
				; CHECK-NEXT: vmovaps %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%xor1.i = xor <8 x i64> %lhs.coerce.conj, <i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160>			%xor1.i = xor <8 x i64> %lhs.coerce.conj, <i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160, i64 -9223372034707292160>
	%0 = bitcast <8 x i64> %xor1.i to <16 x float>			%0 = bitcast <8 x i64> %xor1.i to <16 x float>
	%1 = bitcast <32 x half> %rhs.coerce to <16 x float>			%1 = bitcast <32 x half> %rhs.coerce to <16 x float>
	%2 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %0, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4) #2			%2 = tail call fast <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %0, <16 x float> %1, <16 x float> zeroinitializer, i16 -1, i32 4) #2
	%3 = bitcast <16 x float> %2 to <32 x half>			%3 = bitcast <16 x float> %2 to <32 x half>
	%add = fadd fast <32 x half> %3, %acc.coerce			%add = fadd fast <32 x half> %3, %acc.coerce
	ret <32 x half> %add			ret <32 x half> %add
	}			}

	declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32 immarg)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32 immarg)
	declare <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)			declare <8 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16.ll

	Show First 20 Lines • Show All 990 Lines • ▼ Show 20 Lines

	define <16 x float> @stack_fold_fmulcph(<16 x float> %a0, <16 x float> %a1) {			define <16 x float> @stack_fold_fmulcph(<16 x float> %a0, <16 x float> %a1) {
	;CHECK-LABEL: stack_fold_fmulcph:			;CHECK-LABEL: stack_fold_fmulcph:
	;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload			;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}

				define <16 x float> @stack_fold_fmulcph_commute(<16 x float> %a0, <16 x float> %a1) {
				;CHECK-LABEL: stack_fold_fmulcph_commute:
				;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a1, <16 x float> %a0, <16 x float> undef, i16 -1, i32 4)
				ret <16 x float> %2
				}
	declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @stack_fold_fmulcph_mask(<16 x float> %a0, <16 x float> %a1, <16 x float>* %passthru, i16 %mask) {			define <16 x float> @stack_fold_fmulcph_mask(<16 x float> %a0, <16 x float> %a1, <16 x float>* %passthru, i16 %mask) {
	;CHECK-LABEL: stack_fold_fmulcph_mask:			;CHECK-LABEL: stack_fold_fmulcph_mask:
	;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload			;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load <16 x float>, <16 x float>* %passthru			%2 = load <16 x float>, <16 x float>* %passthru
	%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)			%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)
	Show All 11 Lines

	define <16 x float> @stack_fold_fcmulcph(<16 x float> %a0, <16 x float> %a1) {			define <16 x float> @stack_fold_fcmulcph(<16 x float> %a0, <16 x float> %a1) {
	;CHECK-LABEL: stack_fold_fcmulcph:			;CHECK-LABEL: stack_fold_fcmulcph:
	;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}

				define <16 x float> @stack_fold_fcmulcph_commute(<16 x float> %a0, <16 x float> %a1) {
				;CHECK-LABEL: stack_fold_fcmulcph_commute:
				;CHECK: vmovups {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}} {{.*#+}} 64-byte Reload
				;CHECK: vfcmulcph {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]*}}
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a1, <16 x float> %a0, <16 x float> undef, i16 -1, i32 4)
				ret <16 x float> %2
				}
	declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @stack_fold_fcmulcph_mask(<16 x float> %a0, <16 x float> %a1, <16 x float>* %passthru, i16 %mask) {			define <16 x float> @stack_fold_fcmulcph_mask(<16 x float> %a0, <16 x float> %a1, <16 x float>* %passthru, i16 %mask) {
	;CHECK-LABEL: stack_fold_fcmulcph_mask:			;CHECK-LABEL: stack_fold_fcmulcph_mask:
	;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load <16 x float>, <16 x float>* %passthru			%2 = load <16 x float>, <16 x float>* %passthru
	%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)			%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)
	ret <16 x float> %3			ret <16 x float> %3
	}			}

	define <16 x float> @stack_fold_fcmulcph_maskz(<16 x float> %a0, <16 x float> %a1, i16* %mask) {			define <16 x float> @stack_fold_fcmulcph_maskz(<16 x float> %a0, <16 x float> %a1, i16* %mask) {
	;CHECK-LABEL: stack_fold_fcmulcph_maskz:			;CHECK-LABEL: stack_fold_fcmulcph_maskz:
	;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmulcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i16, i16* %mask			%2 = load i16, i16* %mask
	%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> zeroinitializer, i16 %2, i32 4)			%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> zeroinitializer, i16 %2, i32 4)
	ret <16 x float> %3			ret <16 x float> %3
	}			}

	define <16 x float> @stack_fold_fmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {			define <16 x float> @stack_fold_fmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
	;CHECK-LABEL: stack_fold_fmaddcph:			;CHECK-LABEL: stack_fold_fmaddcph:
	;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload			;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16 -1, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 -1, i32 4)
				ret <16 x float> %2
				}

				define <16 x float> @stack_fold_fmaddcph_commute(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
				;CHECK-LABEL: stack_fold_fmaddcph_commute:
				;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a2, <16 x float> %a1, <16 x float> %a0, i16 -1, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}
	declare <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @stack_fold_fmaddcph_mask(<16 x float>* %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {			define <16 x float> @stack_fold_fmaddcph_mask(<16 x float>* %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {
	;CHECK-LABEL: stack_fold_fmaddcph_mask:			;CHECK-LABEL: stack_fold_fmaddcph_mask:
	;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload			;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%a0 = load <16 x float>, <16 x float>* %p			%a0 = load <16 x float>, <16 x float>* %p
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16 %mask, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 %mask, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}

	define <16 x float> @stack_fold_fmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16* %mask) {			define <16 x float> @stack_fold_fmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16* %mask) {
	;CHECK-LABEL: stack_fold_fmaddcph_maskz:			;CHECK-LABEL: stack_fold_fmaddcph_maskz:
	;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload			;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i16, i16* %mask			%2 = load i16, i16* %mask
	%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> zeroinitializer, <16 x float> %a1, <16 x float> %a2, i16 %2, i32 4)			%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> zeroinitializer, i16 %2, i32 4)
	ret <16 x float> %3			ret <16 x float> %3
	}			}
	declare <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @stack_fold_fcmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {			define <16 x float> @stack_fold_fcmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
	;CHECK-LABEL: stack_fold_fcmaddcph:			;CHECK-LABEL: stack_fold_fcmaddcph:
	;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16 -1, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 -1, i32 4)
				ret <16 x float> %2
				}

				define <16 x float> @stack_fold_fcmaddcph_commute(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
				;CHECK-LABEL: stack_fold_fcmaddcph_commute:
				;CHECK: vmovups {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}} {{.*#+}} 64-byte Reload
				;CHECK: vfcmaddcph {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]*}}
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a2, <16 x float> %a1, <16 x float> %a0, i16 -1, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}
	declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <16 x float> @stack_fold_fcmaddcph_mask(<16 x float>* %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {			define <16 x float> @stack_fold_fcmaddcph_mask(<16 x float>* %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {
	;CHECK-LABEL: stack_fold_fcmaddcph_mask:			;CHECK-LABEL: stack_fold_fcmaddcph_mask:
	;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%a0 = load <16 x float>, <16 x float>* %p			%a0 = load <16 x float>, <16 x float>* %p
	%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16 %mask, i32 4)			%2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 %mask, i32 4)
	ret <16 x float> %2			ret <16 x float> %2
	}			}

	define <16 x float> @stack_fold_fcmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16* %mask) {			define <16 x float> @stack_fold_fcmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, i16* %mask) {
	;CHECK-LABEL: stack_fold_fcmaddcph_maskz:			;CHECK-LABEL: stack_fold_fcmaddcph_maskz:
	;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload			;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 64-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i16, i16* %mask			%2 = load i16, i16* %mask
	%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> zeroinitializer, <16 x float> %a1, <16 x float> %a2, i16 %2, i32 4)			%3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> zeroinitializer, i16 %2, i32 4)
	ret <16 x float> %3			ret <16 x float> %3
	}			}
	declare <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)			declare <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)

	define <4 x float> @stack_fold_fmulcsh(<4 x float> %a0, <4 x float> %a1) {			define <4 x float> @stack_fold_fmulcsh(<4 x float> %a0, <4 x float> %a1) {
	;CHECK-LABEL: stack_fold_fmulcsh:			;CHECK-LABEL: stack_fold_fmulcsh:
	;CHECK: vfmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload			;CHECK: vfmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}

				define <4 x float> @stack_fold_fmulcsh_commute(<4 x float> %a0, <4 x float> %a1) {
				;CHECK-LABEL: stack_fold_fmulcsh_commute:
				;CHECK: vfmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a1, <4 x float> %a0, <4 x float> undef, i8 -1, i32 4)
				ret <4 x float> %2
				}
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	define <4 x float> @stack_fold_fmulcsh_mask(<4 x float> %a0, <4 x float> %a1, <4 x float>* %passthru, i8 %mask) {			define <4 x float> @stack_fold_fmulcsh_mask(<4 x float> %a0, <4 x float> %a1, <4 x float>* %passthru, i8 %mask) {
	;CHECK-LABEL: stack_fold_fmulcsh_mask:			;CHECK-LABEL: stack_fold_fmulcsh_mask:
	;CHECK: vfmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload			;CHECK: vfmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load <4 x float>, <4 x float>* %passthru			%2 = load <4 x float>, <4 x float>* %passthru
	%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)			%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)
	Show All 11 Lines

	define <4 x float> @stack_fold_fcmulcsh(<4 x float> %a0, <4 x float> %a1) {			define <4 x float> @stack_fold_fcmulcsh(<4 x float> %a0, <4 x float> %a1) {
	;CHECK-LABEL: stack_fold_fcmulcsh:			;CHECK-LABEL: stack_fold_fcmulcsh:
	;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}

				define <4 x float> @stack_fold_fcmulcsh_commute(<4 x float> %a0, <4 x float> %a1) {
				;CHECK-LABEL: stack_fold_fcmulcsh_commute:
				;CHECK: vmovaps {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}} {{.*#+}} 16-byte Reload
				;CHECK: vfcmulcsh {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]*}}
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a1, <4 x float> %a0, <4 x float> undef, i8 -1, i32 4)
				ret <4 x float> %2
				}
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	define <4 x float> @stack_fold_fcmulcsh_mask(<4 x float> %a0, <4 x float> %a1, <4 x float>* %passthru, i8 %mask) {			define <4 x float> @stack_fold_fcmulcsh_mask(<4 x float> %a0, <4 x float> %a1, <4 x float>* %passthru, i8 %mask) {
	;CHECK-LABEL: stack_fold_fcmulcsh_mask:			;CHECK-LABEL: stack_fold_fcmulcsh_mask:
	;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load <4 x float>, <4 x float>* %passthru			%2 = load <4 x float>, <4 x float>* %passthru
	%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)			%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)
	ret <4 x float> %3			ret <4 x float> %3
	}			}

	define <4 x float> @stack_fold_fcmulcsh_maskz(<4 x float> %a0, <4 x float> %a1, i8* %mask) {			define <4 x float> @stack_fold_fcmulcsh_maskz(<4 x float> %a0, <4 x float> %a1, i8* %mask) {
	;CHECK-LABEL: stack_fold_fcmulcsh_maskz:			;CHECK-LABEL: stack_fold_fcmulcsh_maskz:
	;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmulcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i8, i8* %mask			%2 = load i8, i8* %mask
	%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2, i32 4)			%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2, i32 4)
	ret <4 x float> %3			ret <4 x float> %3
	}			}

	define <4 x float> @stack_fold_fmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {			define <4 x float> @stack_fold_fmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
	;CHECK-LABEL: stack_fold_fmaddcsh:			;CHECK-LABEL: stack_fold_fmaddcsh:
	;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload			;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 -1, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1, i32 4)
				ret <4 x float> %2
				}

				define <4 x float> @stack_fold_fmaddcsh_commute(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
				;CHECK-LABEL: stack_fold_fmaddcsh_commute:
				;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a2, <4 x float> %a1, <4 x float> %a0, i8 -1, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	define <4 x float> @stack_fold_fmaddcsh_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {			define <4 x float> @stack_fold_fmaddcsh_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
	;CHECK-LABEL: stack_fold_fmaddcsh_mask:			;CHECK-LABEL: stack_fold_fmaddcsh_mask:
	;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload			;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%a0 = load <4 x float>, <4 x float>* %p			%a0 = load <4 x float>, <4 x float>* %p
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 %mask, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}

	define <4 x float> @stack_fold_fmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {			define <4 x float> @stack_fold_fmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {
	;CHECK-LABEL: stack_fold_fmaddcsh_maskz:			;CHECK-LABEL: stack_fold_fmaddcsh_maskz:
	;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload			;CHECK: vfmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i8, i8* %mask			%2 = load i8, i8* %mask
	%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> zeroinitializer, <4 x float> %a1, <4 x float> %a2, i8 %2, i32 4)			%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2, i32 4)
	ret <4 x float> %3			ret <4 x float> %3
	}			}
	declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	define <4 x float> @stack_fold_fcmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {			define <4 x float> @stack_fold_fcmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
	;CHECK-LABEL: stack_fold_fcmaddcsh:			;CHECK-LABEL: stack_fold_fcmaddcsh:
	;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 -1, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1, i32 4)
				ret <4 x float> %2
				}

				define <4 x float> @stack_fold_fcmaddcsh_commute(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
				;CHECK-LABEL: stack_fold_fcmaddcsh_commute:
				;CHECK: vmovaps {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}} {{.*#+}} 16-byte Reload
				;CHECK: vfcmaddcsh {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]*}}
				%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
				%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a2, <4 x float> %a1, <4 x float> %a0, i8 -1, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}
	declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	define <4 x float> @stack_fold_fcmaddcsh_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {			define <4 x float> @stack_fold_fcmaddcsh_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
	;CHECK-LABEL: stack_fold_fcmaddcsh_mask:			;CHECK-LABEL: stack_fold_fcmaddcsh_mask:
	;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%a0 = load <4 x float>, <4 x float>* %p			%a0 = load <4 x float>, <4 x float>* %p
	%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 %mask, i32 4)			%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask, i32 4)
	ret <4 x float> %2			ret <4 x float> %2
	}			}

	define <4 x float> @stack_fold_fcmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {			define <4 x float> @stack_fold_fcmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {
	;CHECK-LABEL: stack_fold_fcmaddcsh_maskz:			;CHECK-LABEL: stack_fold_fcmaddcsh_maskz:
	;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload			;CHECK: vfcmaddcsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload
	%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()			%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
	%2 = load i8, i8* %mask			%2 = load i8, i8* %mask
	%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> zeroinitializer, <4 x float> %a1, <4 x float> %a2, i8 %2, i32 4)			%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2, i32 4)
	ret <4 x float> %3			ret <4 x float> %3
	}			}
	declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)			declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)

	attributes #0 = { "unsafe-fp-math"="false" }			attributes #0 = { "unsafe-fp-math"="false" }
	attributes #1 = { "unsafe-fp-math"="true" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" }			attributes #1 = { "unsafe-fp-math"="true" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" }

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16vl.ll

Show First 20 Lines • Show All 640 Lines • ▼ Show 20 Lines	define <4 x float> @stack_fold_fcmulc_maskz(<4 x float> %a0, <4 x float> %a1, i8* %mask) {
%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2)		%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2)
ret <4 x float> %3		ret <4 x float> %3
}		}

define <4 x float> @stack_fold_fmaddc(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {		define <4 x float> @stack_fold_fmaddc(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
;CHECK-LABEL: stack_fold_fmaddc:		;CHECK-LABEL: stack_fold_fmaddc:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 -1)		%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1)
ret <4 x float> %2		ret <4 x float> %2
}		}
declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)		declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

define <4 x float> @stack_fold_fmaddc_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {		define <4 x float> @stack_fold_fmaddc_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
;CHECK-LABEL: stack_fold_fmaddc_mask:		;CHECK-LABEL: stack_fold_fmaddc_mask:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%a0 = load <4 x float>, <4 x float>* %p		%a0 = load <4 x float>, <4 x float>* %p
%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 %mask)		%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask)
ret <4 x float> %2		ret <4 x float> %2
}		}

define <4 x float> @stack_fold_fmaddc_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {		define <4 x float> @stack_fold_fmaddc_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {
;CHECK-LABEL: stack_fold_fmaddc_maskz:		;CHECK-LABEL: stack_fold_fmaddc_maskz:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = load i8, i8* %mask		%2 = load i8, i8* %mask
%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> zeroinitializer, <4 x float> %a1, <4 x float> %a2, i8 %2)		%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2)
ret <4 x float> %3		ret <4 x float> %3
}		}
declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)		declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

define <4 x float> @stack_fold_fcmaddc(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {		define <4 x float> @stack_fold_fcmaddc(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
;CHECK-LABEL: stack_fold_fcmaddc:		;CHECK-LABEL: stack_fold_fcmaddc:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 -1)		%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1)
ret <4 x float> %2		ret <4 x float> %2
}		}
declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)		declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

define <4 x float> @stack_fold_fcmaddc_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {		define <4 x float> @stack_fold_fcmaddc_mask(<4 x float>* %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
;CHECK-LABEL: stack_fold_fcmaddc_mask:		;CHECK-LABEL: stack_fold_fcmaddc_mask:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%a0 = load <4 x float>, <4 x float>* %p		%a0 = load <4 x float>, <4 x float>* %p
%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8 %mask)		%2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask)
ret <4 x float> %2		ret <4 x float> %2
}		}

define <4 x float> @stack_fold_fcmaddc_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {		define <4 x float> @stack_fold_fcmaddc_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, i8* %mask) {
;CHECK-LABEL: stack_fold_fcmaddc_maskz:		;CHECK-LABEL: stack_fold_fcmaddc_maskz:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 16-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = load i8, i8* %mask		%2 = load i8, i8* %mask
%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> zeroinitializer, <4 x float> %a1, <4 x float> %a2, i8 %2)		%3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.128(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2)
ret <4 x float> %3		ret <4 x float> %3
}		}
declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)		declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.128(<4 x float>, <4 x float>, <4 x float>, i8)

define <8 x float> @stack_fold_fmulc_ymm(<8 x float> %a0, <8 x float> %a1) {		define <8 x float> @stack_fold_fmulc_ymm(<8 x float> %a0, <8 x float> %a1) {
;CHECK-LABEL: stack_fold_fmulc_ymm:		;CHECK-LABEL: stack_fold_fmulc_ymm:
;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload		;CHECK: vfmulcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	define <8 x float> @stack_fold_fcmulc_maskz_ymm(<8 x float> %a0, <8 x float> %a1, i8* %mask) {
%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> zeroinitializer, i8 %2)		%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> zeroinitializer, i8 %2)
ret <8 x float> %3		ret <8 x float> %3
}		}

define <8 x float> @stack_fold_fmaddc_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {		define <8 x float> @stack_fold_fmaddc_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
;CHECK-LABEL: stack_fold_fmaddc_ymm:		;CHECK-LABEL: stack_fold_fmaddc_ymm:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8 -1)		%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> %a0, i8 -1)
ret <8 x float> %2		ret <8 x float> %2
}		}
declare <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)		declare <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

define <8 x float> @stack_fold_fmaddc_mask_ymm(<8 x float>* %p, <8 x float> %a1, <8 x float> %a2, i8 %mask) {		define <8 x float> @stack_fold_fmaddc_mask_ymm(<8 x float>* %p, <8 x float> %a1, <8 x float> %a2, i8 %mask) {
;CHECK-LABEL: stack_fold_fmaddc_mask_ymm:		;CHECK-LABEL: stack_fold_fmaddc_mask_ymm:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 32-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%a0 = load <8 x float>, <8 x float>* %p		%a0 = load <8 x float>, <8 x float>* %p
%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8 %mask)		%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> %a0, i8 %mask)
ret <8 x float> %2		ret <8 x float> %2
}		}

define <8 x float> @stack_fold_fmaddc_maskz_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8* %mask) {		define <8 x float> @stack_fold_fmaddc_maskz_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8* %mask) {
;CHECK-LABEL: stack_fold_fmaddc_maskz_ymm:		;CHECK-LABEL: stack_fold_fmaddc_maskz_ymm:
;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 32-byte Folded Reload		;CHECK: vfmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = load i8, i8* %mask		%2 = load i8, i8* %mask
%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> zeroinitializer, <8 x float> %a1, <8 x float> %a2, i8 %2)		%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> zeroinitializer, i8 %2)
ret <8 x float> %3		ret <8 x float> %3
}		}
declare <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)		declare <8 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

define <8 x float> @stack_fold_fcmaddc_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {		define <8 x float> @stack_fold_fcmaddc_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
;CHECK-LABEL: stack_fold_fcmaddc_ymm:		;CHECK-LABEL: stack_fold_fcmaddc_ymm:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8 -1)		%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> %a0, i8 -1)
ret <8 x float> %2		ret <8 x float> %2
}		}
declare <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)		declare <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

define <8 x float> @stack_fold_fcmaddc_mask_ymm(<8 x float>* %p, <8 x float> %a1, <8 x float> %a2, i8 %mask) {		define <8 x float> @stack_fold_fcmaddc_mask_ymm(<8 x float>* %p, <8 x float> %a1, <8 x float> %a2, i8 %mask) {
;CHECK-LABEL: stack_fold_fcmaddc_mask_ymm:		;CHECK-LABEL: stack_fold_fcmaddc_mask_ymm:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 32-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%a0 = load <8 x float>, <8 x float>* %p		%a0 = load <8 x float>, <8 x float>* %p
%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8 %mask)		%2 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> %a0, i8 %mask)
ret <8 x float> %2		ret <8 x float> %2
}		}

define <8 x float> @stack_fold_fcmaddc_maskz_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8* %mask) {		define <8 x float> @stack_fold_fcmaddc_maskz_ymm(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2, i8* %mask) {
;CHECK-LABEL: stack_fold_fcmaddc_maskz_ymm:		;CHECK-LABEL: stack_fold_fcmaddc_maskz_ymm:
;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 32-byte Folded Reload		;CHECK: vfcmaddcph {{-?[0-9]}}(%rsp), {{%ymm[0-9][0-9]}}, {{%ymm[0-9][0-9]}} {{{%k[0-7]}}} {z} {{.#+}} 32-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = load i8, i8* %mask		%2 = load i8, i8* %mask
%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> zeroinitializer, <8 x float> %a1, <8 x float> %a2, i8 %2)		%3 = call <8 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.256(<8 x float> %a1, <8 x float> %a2, <8 x float> zeroinitializer, i8 %2)
ret <8 x float> %3		ret <8 x float> %3
}		}
declare <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)		declare <8 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.256(<8 x float>, <8 x float>, <8 x float>, i8)

attributes #0 = { "unsafe-fp-math"="false" }		attributes #0 = { "unsafe-fp-math"="false" }
attributes #1 = { "unsafe-fp-math"="true" }		attributes #1 = { "unsafe-fp-math"="true" }

This is an archive of the discontinued LLVM Phabricator instance.

[X86][FP16] Change the order of the operands in complex FMA intrinsics to allow swap between the mul operands.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 374428

clang/lib/Headers/avx512fp16intrin.h

clang/lib/Headers/avx512vlfp16intrin.h

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/lib/Target/X86/X86InstrInfo.cpp

llvm/lib/Target/X86/X86IntrinsicsInfo.h

llvm/test/CodeGen/X86/avx512cfma-intrinsics.ll

llvm/test/CodeGen/X86/avx512cfmul-intrinsics.ll

llvm/test/CodeGen/X86/avx512cfmulsh-instrinsics.ll

llvm/test/CodeGen/X86/avx512fp16-combine-vfmulc-fadd.ll

llvm/test/CodeGen/X86/avx512fp16-combine-xor-vfmulc-fadd.ll

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16.ll

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16vl.ll

[X86][FP16] Change the order of the operands in complex FMA intrinsics to allow swap between the mul operands.
ClosedPublic