This is an archive of the discontinued LLVM Phabricator instance.

[X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mapping
ClosedPublic

Authored by RKSimon on Apr 22 2023, 10:25 AM.

Download Raw Diff

Details

Reviewers

goldstein.w.n
pengfei
craig.topper

Commits

rGe9f9467da063: [X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mapping

Summary

Similar to the original VPERMILPSri -> VSHUFPSrri mapping added in D143787, replacing VPERMILPDri -> VSHUFPDrri should never be any slower and saves an encoding byte.

The sibling VPERMILPDmi -> VPSHUFDmi mapping is trickier as we need the same shuffle mask in every lane (and it needs to be adjusted) - I haven't attempted that yet but we can investigate it in the future if there's interest.

Fixes #61060

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Apr 22 2023, 10:25 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 22 2023, 10:25 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

RKSimon requested review of this revision.Apr 22 2023, 10:25 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 22 2023, 10:25 AM

Harbormaster completed remote builds in B227468: Diff 516085.Apr 22 2023, 11:06 AM

LGTM.

This revision is now accepted and ready to land.Apr 22 2023, 11:47 AM

pengfei added inline comments.Apr 22 2023, 7:46 PM

llvm/lib/Target/X86/X86FixupInstTuning.cpp
132	Nit: EVEX and VEX? There's no SSE vpermilpd. Applies to vpermilps too.

RKSimon added inline comments.Apr 23 2023, 1:13 AM

llvm/lib/Target/X86/X86FixupInstTuning.cpp
132	Cheers - copy+pasta strikes again :)

Closed by commit rGe9f9467da063: [X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mapping (authored by RKSimon). · Explain WhyApr 23 2023, 3:49 AM

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rGe9f9467da063: [X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mapping.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86FixupInstTuning.cpp

38 lines

test/

CodeGen/

X86/

avx-intrinsics-fast-isel.ll

4 lines

avx-intrinsics-x86-upgrade.ll

8 lines

avx-intrinsics-x86.ll

4 lines

avx-vbroadcast.ll

4 lines

avx512-cvt.ll

6 lines

avx512-hadd-hsub.ll

16 lines

avx512-intrinsics-fast-isel.ll

76 lines

avx512-intrinsics-upgrade.ll

10 lines

avx512-shuffles/

in_lane_permute.ll

50 lines

avx512fp16-mov.ll

6 lines

avx512fp16-mscatter.ll

4 lines

avx512vl-intrinsics-upgrade.ll

20 lines

combine-and.ll

4 lines

complex-fastmath.ll

12 lines

copy-low-subvec-elt-to-high-subvec-elt.ll

4 lines

2 lines

52 lines

2 lines

8 lines

6 lines

2 lines

16 lines

24 lines

86 lines

4 lines

horizontal-reduce-fadd.ll

20 lines

horizontal-sum.ll

44 lines

known-signbits-vector.ll

4 lines

load-partial-dot-product.ll

6 lines

42 lines

12 lines

2 lines

2 lines

4 lines

shuffle-of-splat-multiuses.ll

2 lines

sse-scalar-fp-arith.ll

4 lines

sse2-intrinsics-fast-isel.ll

24 lines

sse3-avx-addsub-2.ll

16 lines

tuning-shuffle-permilpd-avx512.ll

18 lines

tuning-shuffle-permilpd.ll

4 lines

vec-strict-fptoint-128.ll

26 lines

vec-strict-fptoint-256.ll

54 lines

vec-strict-fptoint-512.ll

36 lines

vec_fp_to_int.ll

76 lines

vector-half-conversions.ll

52 lines

vector-interleave.ll

4 lines

vector-interleaved-load-i32-stride-5.ll

32 lines

vector-interleaved-store-i32-stride-3.ll

60 lines

vector-interleaved-store-i32-stride-4.ll

2 lines

vector-interleaved-store-i32-stride-5.ll

20 lines

vector-interleaved-store-i64-stride-3.ll

94 lines

vector-interleaved-store-i64-stride-7.ll

12 lines

vector-narrow-binop.ll

6 lines

vector-reduce-fadd-fast.ll

132 lines

vector-reduce-fadd.ll

344 lines

vector-reduce-fmax-fmin-fast.ll

28 lines

vector-reduce-fmax-nnan.ll

32 lines

vector-reduce-fmax.ll

84 lines

vector-reduce-fmin-nnan.ll

32 lines

vector-reduce-fmin.ll

84 lines

vector-reduce-fmul-fast.ll

84 lines

vector-reduce-fmul.ll

264 lines

vector-shuffle-128-v2.ll

10 lines

vector-shuffle-256-v4.ll

58 lines

vector-shuffle-256-v8.ll

4 lines

vector-shuffle-512-v16.ll

2 lines

vector-shuffle-512-v8.ll

26 lines

vector-shuffle-combining-avx.ll

10 lines

vector-shuffle-combining-xop.ll

4 lines

vector-shuffle-combining.ll

4 lines

x86-interleaved-access.ll

8 lines

Diff 516150

llvm/lib/Target/X86/X86FixupInstTuning.cpp

Show First 20 Lines • Show All 120 Lines • ▼ Show 20 Lines	auto NewOpcPreferable = [&](unsigned NewOpc,
if (Res.has_value())		if (Res.has_value())
return *Res;		return *Res;

// We either have either were unable to get tput/lat/codesize or all values		// We either have either were unable to get tput/lat/codesize or all values
// were equal. Return specified option for a tie.		// were equal. Return specified option for a tie.
return ReplaceInTie;		return ReplaceInTie;
};		};

		// `vpermilpd r, i` -> `vshufpd r, r, i`
		// `vpermilpd r, i, k` -> `vshufpd r, r, i, k`
		// `vshufpd` is always as fast or faster than `vpermilpd` and takes
		// 1 less byte of code size for VEX and EVEX encoding.
		pengfeiUnsubmitted Not Done Reply Inline Actions Nit: EVEX and VEX? There's no SSE vpermilpd. Applies to vpermilps too. pengfei: Nit: EVEX and VEX? There's no SSE vpermilpd. Applies to vpermilps too.
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Cheers - copy+pasta strikes again :) RKSimon: Cheers - copy+pasta strikes again :)
		auto ProcessVPERMILPDri = [&](unsigned NewOpc) -> bool {
		if (!NewOpcPreferable(NewOpc))
		return false;
		unsigned MaskImm = MI.getOperand(NumOperands - 1).getImm();
		MI.removeOperand(NumOperands - 1);
		MI.addOperand(MI.getOperand(NumOperands - 2));
		MI.setDesc(TII->get(NewOpc));
		MI.addOperand(MachineOperand::CreateImm(MaskImm));
		return true;
		};

// `vpermilps r, i` -> `vshufps r, r, i`		// `vpermilps r, i` -> `vshufps r, r, i`
// `vpermilps r, i, k` -> `vshufps r, r, i, k`		// `vpermilps r, i, k` -> `vshufps r, r, i, k`
// `vshufps` is always as fast or faster than `vpermilps` and takes		// `vshufps` is always as fast or faster than `vpermilps` and takes
// 1 less byte of code size for VEX and EVEX encoding.		// 1 less byte of code size for VEX and EVEX encoding.
auto ProcessVPERMILPSri = [&](unsigned NewOpc) -> bool {		auto ProcessVPERMILPSri = [&](unsigned NewOpc) -> bool {
if (!NewOpcPreferable(NewOpc))		if (!NewOpcPreferable(NewOpc))
return false;		return false;
unsigned MaskImm = MI.getOperand(NumOperands - 1).getImm();		unsigned MaskImm = MI.getOperand(NumOperands - 1).getImm();
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	auto ProcessUNPCKPDrm = [&](unsigned NewOpcIntDomain) -> bool {
return ProcessUNPCKToIntDomain(NewOpcIntDomain);		return ProcessUNPCKToIntDomain(NewOpcIntDomain);
};		};

auto ProcessUNPCKPS = [&](unsigned NewOpc) -> bool {		auto ProcessUNPCKPS = [&](unsigned NewOpc) -> bool {
return ProcessUNPCKToIntDomain(NewOpc);		return ProcessUNPCKToIntDomain(NewOpc);
};		};

switch (Opc) {		switch (Opc) {
		case X86::VPERMILPDri:
		return ProcessVPERMILPDri(X86::VSHUFPDrri);
		case X86::VPERMILPDYri:
		return ProcessVPERMILPDri(X86::VSHUFPDYrri);
		case X86::VPERMILPDZ128ri:
		return ProcessVPERMILPDri(X86::VSHUFPDZ128rri);
		case X86::VPERMILPDZ256ri:
		return ProcessVPERMILPDri(X86::VSHUFPDZ256rri);
		case X86::VPERMILPDZri:
		return ProcessVPERMILPDri(X86::VSHUFPDZrri);
		case X86::VPERMILPDZ128rikz:
		return ProcessVPERMILPDri(X86::VSHUFPDZ128rrikz);
		case X86::VPERMILPDZ256rikz:
		return ProcessVPERMILPDri(X86::VSHUFPDZ256rrikz);
		case X86::VPERMILPDZrikz:
		return ProcessVPERMILPDri(X86::VSHUFPDZrrikz);
		case X86::VPERMILPDZ128rik:
		return ProcessVPERMILPDri(X86::VSHUFPDZ128rrik);
		case X86::VPERMILPDZ256rik:
		return ProcessVPERMILPDri(X86::VSHUFPDZ256rrik);
		case X86::VPERMILPDZrik:
		return ProcessVPERMILPDri(X86::VSHUFPDZrrik);

case X86::VPERMILPSri:		case X86::VPERMILPSri:
return ProcessVPERMILPSri(X86::VSHUFPSrri);		return ProcessVPERMILPSri(X86::VSHUFPSrri);
case X86::VPERMILPSYri:		case X86::VPERMILPSYri:
return ProcessVPERMILPSri(X86::VSHUFPSYrri);		return ProcessVPERMILPSri(X86::VSHUFPSYrri);
case X86::VPERMILPSZ128ri:		case X86::VPERMILPSZ128ri:
return ProcessVPERMILPSri(X86::VSHUFPSZ128rri);		return ProcessVPERMILPSri(X86::VSHUFPSZ128rri);
case X86::VPERMILPSZ256ri:		case X86::VPERMILPSZ256ri:
return ProcessVPERMILPSri(X86::VSHUFPSZ256rri);		return ProcessVPERMILPSri(X86::VSHUFPSZ256rri);
▲ Show 20 Lines • Show All 259 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 1,251 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret{{[l\|q]}}
%res = or <8 x i32> %1, %2		%res = or <8 x i32> %1, %2
%bc = bitcast <8 x i32> %res to <8 x float>		%bc = bitcast <8 x i32> %res to <8 x float>
ret <8 x float> %bc		ret <8 x float> %bc
}		}

define <2 x double> @test_mm_permute_pd(<2 x double> %a0) nounwind {		define <2 x double> @test_mm_permute_pd(<2 x double> %a0) nounwind {
; CHECK-LABEL: test_mm_permute_pd:		; CHECK-LABEL: test_mm_permute_pd:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = shufflevector <2 x double> %a0, <2 x double> %a0, <2 x i32> <i32 1, i32 0>		%res = shufflevector <2 x double> %a0, <2 x double> %a0, <2 x i32> <i32 1, i32 0>
ret <2 x double> %res		ret <2 x double> %res
}		}

define <4 x double> @test_mm256_permute_pd(<4 x double> %a0) nounwind {		define <4 x double> @test_mm256_permute_pd(<4 x double> %a0) nounwind {
; CHECK-LABEL: test_mm256_permute_pd:		; CHECK-LABEL: test_mm256_permute_pd:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = shufflevector <4 x double> %a0, <4 x double> %a0, <4 x i32> <i32 1, i32 0, i32 3, i32 2>		%res = shufflevector <4 x double> %a0, <4 x double> %a0, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x float> @test_mm_permute_ps(<4 x float> %a0) nounwind {		define <4 x float> @test_mm_permute_ps(<4 x float> %a0) nounwind {
; CHECK-LABEL: test_mm_permute_ps:		; CHECK-LABEL: test_mm_permute_ps:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
▲ Show 20 Lines • Show All 1,804 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-intrinsics-x86-upgrade.ll

Show First 20 Lines • Show All 837 Lines • ▼ Show 20 Lines	; X64-AVX512VL-NEXT: retq # encoding: [0xc3]
ret void		ret void
}		}
declare void @llvm.x86.avx.storeu.ps.256(ptr, <8 x float>) nounwind		declare void @llvm.x86.avx.storeu.ps.256(ptr, <8 x float>) nounwind


define <2 x double> @test_x86_avx_vpermil_pd(<2 x double> %a0) {		define <2 x double> @test_x86_avx_vpermil_pd(<2 x double> %a0) {
; AVX-LABEL: test_x86_avx_vpermil_pd:		; AVX-LABEL: test_x86_avx_vpermil_pd:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]		; AVX-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
; AVX-NEXT: # xmm0 = xmm0[1,0]		; AVX-NEXT: # xmm0 = xmm0[1,0]
; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
;		;
; AVX512VL-LABEL: test_x86_avx_vpermil_pd:		; AVX512VL-LABEL: test_x86_avx_vpermil_pd:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]		; AVX512VL-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
; AVX512VL-NEXT: # xmm0 = xmm0[1,0]		; AVX512VL-NEXT: # xmm0 = xmm0[1,0]
; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <2 x double> @llvm.x86.avx.vpermil.pd(<2 x double> %a0, i8 1) ; <<2 x double>> [#uses=1]		%res = call <2 x double> @llvm.x86.avx.vpermil.pd(<2 x double> %a0, i8 1) ; <<2 x double>> [#uses=1]
ret <2 x double> %res		ret <2 x double> %res
}		}
declare <2 x double> @llvm.x86.avx.vpermil.pd(<2 x double>, i8) nounwind readnone		declare <2 x double> @llvm.x86.avx.vpermil.pd(<2 x double>, i8) nounwind readnone


define <4 x double> @test_x86_avx_vpermil_pd_256(<4 x double> %a0) {		define <4 x double> @test_x86_avx_vpermil_pd_256(<4 x double> %a0) {
; AVX-LABEL: test_x86_avx_vpermil_pd_256:		; AVX-LABEL: test_x86_avx_vpermil_pd_256:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd $7, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0x7d,0x05,0xc0,0x07]		; AVX-NEXT: vshufpd $7, %ymm0, %ymm0, %ymm0 # encoding: [0xc5,0xfd,0xc6,0xc0,0x07]
; AVX-NEXT: # ymm0 = ymm0[1,1,3,2]		; AVX-NEXT: # ymm0 = ymm0[1,1,3,2]
; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
;		;
; AVX512VL-LABEL: test_x86_avx_vpermil_pd_256:		; AVX512VL-LABEL: test_x86_avx_vpermil_pd_256:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpermilpd $7, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x7d,0x05,0xc0,0x07]		; AVX512VL-NEXT: vshufpd $7, %ymm0, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xc6,0xc0,0x07]
; AVX512VL-NEXT: # ymm0 = ymm0[1,1,3,2]		; AVX512VL-NEXT: # ymm0 = ymm0[1,1,3,2]
; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx.vpermil.pd.256(<4 x double> %a0, i8 7) ; <<4 x double>> [#uses=1]		%res = call <4 x double> @llvm.x86.avx.vpermil.pd.256(<4 x double> %a0, i8 7) ; <<4 x double>> [#uses=1]
ret <4 x double> %res		ret <4 x double> %res
}		}
declare <4 x double> @llvm.x86.avx.vpermil.pd.256(<4 x double>, i8) nounwind readnone		declare <4 x double> @llvm.x86.avx.vpermil.pd.256(<4 x double>, i8) nounwind readnone


▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-intrinsics-x86.ll

Show First 20 Lines • Show All 650 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> %a1) ; <<4 x double>> [#uses=1]		%res = call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> %a1) ; <<4 x double>> [#uses=1]
ret <4 x double> %res		ret <4 x double> %res
}		}
declare <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double>, <4 x i64>) nounwind readnone		declare <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double>, <4 x i64>) nounwind readnone

define <4 x double> @test_x86_avx_vpermilvar_pd_256_2(<4 x double> %a0) {		define <4 x double> @test_x86_avx_vpermilvar_pd_256_2(<4 x double> %a0) {
; AVX-LABEL: test_x86_avx_vpermilvar_pd_256_2:		; AVX-LABEL: test_x86_avx_vpermilvar_pd_256_2:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd $9, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0x7d,0x05,0xc0,0x09]		; AVX-NEXT: vshufpd $9, %ymm0, %ymm0, %ymm0 # encoding: [0xc5,0xfd,0xc6,0xc0,0x09]
; AVX-NEXT: # ymm0 = ymm0[1,0,2,3]		; AVX-NEXT: # ymm0 = ymm0[1,0,2,3]
; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
;		;
; AVX512VL-LABEL: test_x86_avx_vpermilvar_pd_256_2:		; AVX512VL-LABEL: test_x86_avx_vpermilvar_pd_256_2:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpermilpd $9, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x7d,0x05,0xc0,0x09]		; AVX512VL-NEXT: vshufpd $9, %ymm0, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xc6,0xc0,0x09]
; AVX512VL-NEXT: # ymm0 = ymm0[1,0,2,3]		; AVX512VL-NEXT: # ymm0 = ymm0[1,0,2,3]
; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> <i64 2, i64 0, i64 0, i64 2>) ; <<4 x double>> [#uses=1]		%res = call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> <i64 2, i64 0, i64 0, i64 2>) ; <<4 x double>> [#uses=1]
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x float> @test_x86_avx_vpermilvar_ps(<4 x float> %a0, <4 x i32> %a1) {		define <4 x float> @test_x86_avx_vpermilvar_ps(<4 x float> %a0, <4 x i32> %a1) {
; AVX-LABEL: test_x86_avx_vpermilvar_ps:		; AVX-LABEL: test_x86_avx_vpermilvar_ps:
▲ Show 20 Lines • Show All 392 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-vbroadcast.ll

	Show First 20 Lines • Show All 876 Lines • ▼ Show 20 Lines
	; X86-LABEL: broadcast_scale_xyz:			; X86-LABEL: broadcast_scale_xyz:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: subl $12, %esp			; X86-NEXT: subl $12, %esp
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]			; X86-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; X86-NEXT: vmulpd (%eax), %xmm0, %xmm1			; X86-NEXT: vmulpd (%eax), %xmm0, %xmm1
	; X86-NEXT: vmulsd 16(%eax), %xmm0, %xmm0			; X86-NEXT: vmulsd 16(%eax), %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; X86-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; X86-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; X86-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovsd %xmm0, (%esp)			; X86-NEXT: vmovsd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: addl $12, %esp			; X86-NEXT: addl $12, %esp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: broadcast_scale_xyz:			; X64-LABEL: broadcast_scale_xyz:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]			; X64-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; X64-NEXT: vmulpd (%rsi), %xmm0, %xmm1			; X64-NEXT: vmulpd (%rsi), %xmm0, %xmm1
	; X64-NEXT: vmulsd 16(%rsi), %xmm0, %xmm0			; X64-NEXT: vmulsd 16(%rsi), %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; X64-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; X64-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; X64-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%3 = load <2 x double>, ptr %1, align 8			%3 = load <2 x double>, ptr %1, align 8
	%4 = getelementptr inbounds double, ptr %1, i64 2			%4 = getelementptr inbounds double, ptr %1, i64 2
	%5 = load double, ptr %4, align 8			%5 = load double, ptr %4, align 8
	%6 = load double, ptr %0, align 8			%6 = load double, ptr %0, align 8
	%7 = insertelement <2 x double> undef, double %6, i32 0			%7 = insertelement <2 x double> undef, double %6, i32 0
	▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-cvt.ll

	Show First 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	}			}

	define <4 x i64> @f64to4sl(<4 x double> %a) {			define <4 x i64> @f64to4sl(<4 x double> %a) {
	; NODQ-LABEL: f64to4sl:			; NODQ-LABEL: f64to4sl:
	; NODQ: # %bb.0:			; NODQ: # %bb.0:
	; NODQ-NEXT: vextractf128 $1, %ymm0, %xmm1			; NODQ-NEXT: vextractf128 $1, %ymm0, %xmm1
	; NODQ-NEXT: vcvttsd2si %xmm1, %rax			; NODQ-NEXT: vcvttsd2si %xmm1, %rax
	; NODQ-NEXT: vmovq %rax, %xmm2			; NODQ-NEXT: vmovq %rax, %xmm2
	; NODQ-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; NODQ-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; NODQ-NEXT: vcvttsd2si %xmm1, %rax			; NODQ-NEXT: vcvttsd2si %xmm1, %rax
	; NODQ-NEXT: vmovq %rax, %xmm1			; NODQ-NEXT: vmovq %rax, %xmm1
	; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; NODQ-NEXT: vcvttsd2si %xmm0, %rax			; NODQ-NEXT: vcvttsd2si %xmm0, %rax
	; NODQ-NEXT: vmovq %rax, %xmm2			; NODQ-NEXT: vmovq %rax, %xmm2
	; NODQ-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; NODQ-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; NODQ-NEXT: vcvttsd2si %xmm0, %rax			; NODQ-NEXT: vcvttsd2si %xmm0, %rax
	; NODQ-NEXT: vmovq %rax, %xmm0			; NODQ-NEXT: vmovq %rax, %xmm0
	; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; NODQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; NODQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; NODQ-NEXT: retq			; NODQ-NEXT: retq
	;			;
	; VLDQ-LABEL: f64to4sl:			; VLDQ-LABEL: f64to4sl:
	; VLDQ: # %bb.0:			; VLDQ: # %bb.0:
	Show All 11 Lines
	}			}

	define <4 x i64> @f32to4sl(<4 x float> %a) {			define <4 x i64> @f32to4sl(<4 x float> %a) {
	; NODQ-LABEL: f32to4sl:			; NODQ-LABEL: f32to4sl:
	; NODQ: # %bb.0:			; NODQ: # %bb.0:
	; NODQ-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; NODQ-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; NODQ-NEXT: vcvttss2si %xmm1, %rax			; NODQ-NEXT: vcvttss2si %xmm1, %rax
	; NODQ-NEXT: vmovq %rax, %xmm1			; NODQ-NEXT: vmovq %rax, %xmm1
	; NODQ-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; NODQ-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; NODQ-NEXT: vcvttss2si %xmm2, %rax			; NODQ-NEXT: vcvttss2si %xmm2, %rax
	; NODQ-NEXT: vmovq %rax, %xmm2			; NODQ-NEXT: vmovq %rax, %xmm2
	; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; NODQ-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; NODQ-NEXT: vcvttss2si %xmm0, %rax			; NODQ-NEXT: vcvttss2si %xmm0, %rax
	; NODQ-NEXT: vmovq %rax, %xmm2			; NODQ-NEXT: vmovq %rax, %xmm2
	; NODQ-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; NODQ-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; NODQ-NEXT: vcvttss2si %xmm0, %rax			; NODQ-NEXT: vcvttss2si %xmm0, %rax
	; NODQ-NEXT: vmovq %rax, %xmm0			; NODQ-NEXT: vmovq %rax, %xmm0
	▲ Show 20 Lines • Show All 2,428 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-hadd-hsub.ll

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%x229 = sub <16 x i32> %x227, %x228		%x229 = sub <16 x i32> %x227, %x228
%x230 = extractelement <16 x i32> %x229, i32 0		%x230 = extractelement <16 x i32> %x229, i32 0
ret i32 %x230		ret i32 %x230
}		}

define float @fhadd_16(<16 x float> %x225) {		define float @fhadd_16(<16 x float> %x225) {
; KNL-LABEL: fhadd_16:		; KNL-LABEL: fhadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vaddss %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddss %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16:		; SKX-LABEL: fhadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vaddss %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddss %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fadd <16 x float> %x227, %x228		%x229 = fadd <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
}		}

define float @fhsub_16(<16 x float> %x225) {		define float @fhsub_16(<16 x float> %x225) {
; KNL-LABEL: fhsub_16:		; KNL-LABEL: fhsub_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vsubss %xmm1, %xmm0, %xmm0		; KNL-NEXT: vsubss %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhsub_16:		; SKX-LABEL: fhsub_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vsubss %xmm1, %xmm0, %xmm0		; SKX-NEXT: vsubss %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	i32 29, i32 31>
%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>		%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>
ret <8 x i32> %x230		ret <8 x i32> %x230
}		}


define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {		define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_eel:		; KNL-LABEL: fadd_noundef_eel:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_eel:		; SKX-LABEL: fadd_noundef_eel:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = extractelement <8 x double> %x229, i32 0		%x230 = extractelement <8 x double> %x229, i32 0
ret double %x230		ret double %x230
}		}



define double @fsub_noundef_ee (<8 x double> %x225, <8 x double> %x227) {		define double @fsub_noundef_ee (<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fsub_noundef_ee:		; KNL-LABEL: fsub_noundef_ee:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vextractf32x4 $2, %zmm1, %xmm0		; KNL-NEXT: vextractf32x4 $2, %zmm1, %xmm0
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vsubsd %xmm1, %xmm0, %xmm0		; KNL-NEXT: vsubsd %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fsub_noundef_ee:		; SKX-LABEL: fsub_noundef_ee:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vextractf32x4 $2, %zmm1, %xmm0		; SKX-NEXT: vextractf32x4 $2, %zmm1, %xmm0
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vsubsd %xmm1, %xmm0, %xmm0		; SKX-NEXT: vsubsd %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fsub <8 x double> %x226, %x228		%x229 = fsub <8 x double> %x226, %x228
%x230 = extractelement <8 x double> %x229, i32 5		%x230 = extractelement <8 x double> %x229, i32 5
ret double %x230		ret double %x230
}		}

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 934 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res0 = shufflevector <16 x float> %a1, <16 x float> undef, <16 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6, i32 8, i32 8, i32 10, i32 10, i32 12, i32 12, i32 14, i32 14>		%res0 = shufflevector <16 x float> %a1, <16 x float> undef, <16 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6, i32 8, i32 8, i32 10, i32 10, i32 12, i32 12, i32 14, i32 14>
%res1 = select <16 x i1> %arg0, <16 x float> %res0, <16 x float> zeroinitializer		%res1 = select <16 x i1> %arg0, <16 x float> %res0, <16 x float> zeroinitializer
ret <16 x float> %res1		ret <16 x float> %res1
}		}

define <8 x double> @test_mm512_permute_pd(<8 x double> %a0) {		define <8 x double> @test_mm512_permute_pd(<8 x double> %a0) {
; CHECK-LABEL: test_mm512_permute_pd:		; CHECK-LABEL: test_mm512_permute_pd:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,1,2,2,4,4,6,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,1,2,2,4,4,6,6]
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>		%res = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double> @test_mm512_mask_permute_pd(<8 x double> %a0, i8 %a1, <8 x double> %a2) {		define <8 x double> @test_mm512_mask_permute_pd(<8 x double> %a0, i8 %a1, <8 x double> %a2) {
; X86-LABEL: test_mm512_mask_permute_pd:		; X86-LABEL: test_mm512_mask_permute_pd:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} = zmm1[0,1,2,2,4,4,6,6]		; X86-NEXT: vshufpd {{.*#+}} zmm0 {%k1} = zmm1[0,1,2,2,4,4,6,6]
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_permute_pd:		; X64-LABEL: test_mm512_mask_permute_pd:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} = zmm1[0,1,2,2,4,4,6,6]		; X64-NEXT: vshufpd {{.*#+}} zmm0 {%k1} = zmm1[0,1,2,2,4,4,6,6]
; X64-NEXT: retq		; X64-NEXT: retq
%arg1 = bitcast i8 %a1 to <8 x i1>		%arg1 = bitcast i8 %a1 to <8 x i1>
%res0 = shufflevector <8 x double> %a2, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>		%res0 = shufflevector <8 x double> %a2, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
%res1 = select <8 x i1> %arg1, <8 x double> %res0, <8 x double> %a0		%res1 = select <8 x i1> %arg1, <8 x double> %res0, <8 x double> %a0
ret <8 x double> %res1		ret <8 x double> %res1
}		}

define <8 x double> @test_mm512_maskz_permute_pd(i8 %a0, <8 x double> %a1) {		define <8 x double> @test_mm512_maskz_permute_pd(i8 %a0, <8 x double> %a1) {
; X86-LABEL: test_mm512_maskz_permute_pd:		; X86-LABEL: test_mm512_maskz_permute_pd:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,6]		; X86-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,6]
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_maskz_permute_pd:		; X64-LABEL: test_mm512_maskz_permute_pd:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,6]		; X64-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,6]
; X64-NEXT: retq		; X64-NEXT: retq
%arg0 = bitcast i8 %a0 to <8 x i1>		%arg0 = bitcast i8 %a0 to <8 x i1>
%res0 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>		%res0 = shufflevector <8 x double> %a1, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
%res1 = select <8 x i1> %arg0, <8 x double> %res0, <8 x double> zeroinitializer		%res1 = select <8 x i1> %arg0, <8 x double> %res0, <8 x double> zeroinitializer
ret <8 x double> %res1		ret <8 x double> %res1
}		}

define <16 x float> @test_mm512_permute_ps(<16 x float> %a0) {		define <16 x float> @test_mm512_permute_ps(<16 x float> %a0) {
▲ Show 20 Lines • Show All 848 Lines • ▼ Show 20 Lines

define <2 x double> @test_mm_cvtu64_sd(<2 x double> %__A, i64 %__B) {		define <2 x double> @test_mm_cvtu64_sd(<2 x double> %__A, i64 %__B) {
; X86-LABEL: test_mm_cvtu64_sd:		; X86-LABEL: test_mm_cvtu64_sd:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X86-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm1, %xmm1		; X86-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm1, %xmm1
; X86-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]		; X86-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; X86-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1, %xmm1		; X86-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1, %xmm1
; X86-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
; X86-NEXT: vaddsd %xmm1, %xmm2, %xmm1		; X86-NEXT: vaddsd %xmm1, %xmm2, %xmm1
; X86-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; X86-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm_cvtu64_sd:		; X64-LABEL: test_mm_cvtu64_sd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vcvtusi2sd %rdi, %xmm0, %xmm0		; X64-NEXT: vcvtusi2sd %rdi, %xmm0, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
▲ Show 20 Lines • Show All 5,459 Lines • ▼ Show 20 Lines
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: .cfi_def_cfa_register %ebp		; X86-NEXT: .cfi_def_cfa_register %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_add_pd:		; X64-LABEL: test_mm512_reduce_add_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i		%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i
%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>
Show All 14 Lines
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: .cfi_def_cfa_register %ebp		; X86-NEXT: .cfi_def_cfa_register %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vmulpd %ymm1, %ymm0, %ymm0		; X86-NEXT: vmulpd %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_mul_pd:		; X64-LABEL: test_mm512_reduce_mul_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vmulpd %ymm1, %ymm0, %ymm0		; X64-NEXT: vmulpd %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i		%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i
%shuffle2.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%shuffle2.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>
Show All 9 Lines
; X86-LABEL: test_mm512_reduce_add_ps:		; X86-LABEL: test_mm512_reduce_add_ps:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: pushl %eax		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0		; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_add_ps:		; X64-LABEL: test_mm512_reduce_add_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0		; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <16 x float> %__W to <8 x double>		%0 = bitcast <16 x float> %__W to <8 x double>
%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
Show All 16 Lines
; X86-LABEL: test_mm512_reduce_mul_ps:		; X86-LABEL: test_mm512_reduce_mul_ps:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: pushl %eax		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vmulps %ymm1, %ymm0, %ymm0		; X86-NEXT: vmulps %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_mul_ps:		; X64-LABEL: test_mm512_reduce_mul_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vmulps %ymm1, %ymm0, %ymm0		; X64-NEXT: vmulps %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <16 x float> %__W to <8 x double>		%0 = bitcast <16 x float> %__W to <8 x double>
%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
Show All 24 Lines
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movzbl 8(%ebp), %eax		; X86-NEXT: movzbl 8(%ebp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}		; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_add_pd:		; X64-LABEL: test_mm512_mask_reduce_add_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}		; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i8 %__M to <8 x i1>		%0 = bitcast i8 %__M to <8 x i1>
%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer		%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer
%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
Show All 20 Lines
; X86-NEXT: movzbl 8(%ebp), %eax		; X86-NEXT: movzbl 8(%ebp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]		; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vmulpd %ymm0, %ymm1, %ymm0		; X86-NEXT: vmulpd %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_mul_pd:		; X64-LABEL: test_mm512_mask_reduce_mul_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]		; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vmulpd %ymm0, %ymm1, %ymm0		; X64-NEXT: vmulpd %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i8 %__M to <8 x i1>		%0 = bitcast i8 %__M to <8 x i1>
%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00>		%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00>
%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
Show All 14 Lines
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}		; X86-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0		; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0		; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_add_ps:		; X64-LABEL: test_mm512_mask_reduce_add_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}		; X64-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0		; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0		; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i16 %__M to <16 x i1>		%0 = bitcast i16 %__M to <16 x i1>
%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> zeroinitializer		%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> zeroinitializer
Show All 22 Lines
; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]		; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vmulps %ymm0, %ymm1, %ymm0		; X86-NEXT: vmulps %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0		; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_mul_ps:		; X64-LABEL: test_mm512_mask_reduce_mul_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]		; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vmulps %ymm0, %ymm1, %ymm0		; X64-NEXT: vmulps %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0		; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i16 %__M to <16 x i1>		%0 = bitcast i16 %__M to <16 x i1>
%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>		%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>
▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: .cfi_def_cfa_register %ebp		; X86-NEXT: .cfi_def_cfa_register %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vmaxpd %ymm1, %ymm0, %ymm0		; X86-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmaxpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmaxsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_max_pd:		; X64-LABEL: test_mm512_reduce_max_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vmaxpd %ymm1, %ymm0, %ymm0		; X64-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmaxpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmaxsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%extract.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%extract2.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%extract2.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%0 = tail call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %extract.i, <4 x double> %extract2.i)		%0 = tail call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %extract.i, <4 x double> %extract2.i)
%extract4.i = shufflevector <4 x double> %0, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%extract4.i = shufflevector <4 x double> %0, <4 x double> undef, <2 x i32> <i32 0, i32 1>
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: .cfi_def_cfa_register %ebp		; X86-NEXT: .cfi_def_cfa_register %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vminpd %ymm1, %ymm0, %ymm0		; X86-NEXT: vminpd %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vminpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vminpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vminsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vminsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_min_pd:		; X64-LABEL: test_mm512_reduce_min_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vminpd %ymm1, %ymm0, %ymm0		; X64-NEXT: vminpd %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vminpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vminpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vminsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vminsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%extract.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%extract2.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%extract2.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%0 = tail call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %extract.i, <4 x double> %extract2.i)		%0 = tail call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %extract.i, <4 x double> %extract2.i)
%extract4.i = shufflevector <4 x double> %0, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%extract4.i = shufflevector <4 x double> %0, <4 x double> undef, <2 x i32> <i32 0, i32 1>
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
; X86-NEXT: movzbl 8(%ebp), %eax		; X86-NEXT: movzbl 8(%ebp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]		; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]
; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vmaxpd %ymm0, %ymm1, %ymm0		; X86-NEXT: vmaxpd %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmaxpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmaxsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_max_pd:		; X64-LABEL: test_mm512_mask_reduce_max_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]		; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]
; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vmaxpd %ymm0, %ymm1, %ymm0		; X64-NEXT: vmaxpd %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmaxpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmaxsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i8 %__M to <8 x i1>		%0 = bitcast i8 %__M to <8 x i1>
%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000>		%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000, double 0xFFF0000000000000>
%extract.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%extract4.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%extract4.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
; X86-NEXT: movzbl 8(%ebp), %eax		; X86-NEXT: movzbl 8(%ebp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]		; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]
; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vminpd %ymm0, %ymm1, %ymm0		; X86-NEXT: vminpd %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vminpd %xmm1, %xmm0, %xmm0		; X86-NEXT: vminpd %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vminsd %xmm1, %xmm0, %xmm0		; X86-NEXT: vminsd %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovsd %xmm0, (%esp)		; X86-NEXT: vmovsd %xmm0, (%esp)
; X86-NEXT: fldl (%esp)		; X86-NEXT: fldl (%esp)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: .cfi_def_cfa %esp, 4		; X86-NEXT: .cfi_def_cfa %esp, 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_min_pd:		; X64-LABEL: test_mm512_mask_reduce_min_pd:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]		; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]
; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vminpd %ymm0, %ymm1, %ymm0		; X64-NEXT: vminpd %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vminpd %xmm1, %xmm0, %xmm0		; X64-NEXT: vminpd %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vminsd %xmm1, %xmm0, %xmm0		; X64-NEXT: vminsd %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i8 %__M to <8 x i1>		%0 = bitcast i8 %__M to <8 x i1>
%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000>		%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000, double 0x7FF0000000000000>
%extract.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%extract4.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%extract4.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
; X86-LABEL: test_mm512_reduce_max_ps:		; X86-LABEL: test_mm512_reduce_max_ps:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: pushl %eax		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vmaxps %ymm1, %ymm0, %ymm0		; X86-NEXT: vmaxps %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vmaxss %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_max_ps:		; X64-LABEL: test_mm512_reduce_max_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vmaxps %ymm1, %ymm0, %ymm0		; X64-NEXT: vmaxps %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vmaxss %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <16 x float> %__W to <8 x double>		%0 = bitcast <16 x float> %__W to <8 x double>
%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
; X86-LABEL: test_mm512_reduce_min_ps:		; X86-LABEL: test_mm512_reduce_min_ps:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: pushl %eax		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X86-NEXT: vminps %ymm1, %ymm0, %ymm0		; X86-NEXT: vminps %ymm1, %ymm0, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vminps %xmm1, %xmm0, %xmm0		; X86-NEXT: vminps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vminps %xmm1, %xmm0, %xmm0		; X86-NEXT: vminps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vminss %xmm1, %xmm0, %xmm0		; X86-NEXT: vminss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_reduce_min_ps:		; X64-LABEL: test_mm512_reduce_min_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; X64-NEXT: vminps %ymm1, %ymm0, %ymm0		; X64-NEXT: vminps %ymm1, %ymm0, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vminps %xmm1, %xmm0, %xmm0		; X64-NEXT: vminps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vminps %xmm1, %xmm0, %xmm0		; X64-NEXT: vminps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vminss %xmm1, %xmm0, %xmm0		; X64-NEXT: vminss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <16 x float> %__W to <8 x double>		%0 = bitcast <16 x float> %__W to <8 x double>
%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]		; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]
; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vmaxps %ymm0, %ymm1, %ymm0		; X86-NEXT: vmaxps %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vmaxss %xmm1, %xmm0, %xmm0		; X86-NEXT: vmaxss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_max_ps:		; X64-LABEL: test_mm512_mask_reduce_max_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]		; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf,-Inf]
; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vmaxps %ymm0, %ymm1, %ymm0		; X64-NEXT: vmaxps %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vmaxss %xmm1, %xmm0, %xmm0		; X64-NEXT: vmaxss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i16 %__M to <16 x i1>		%0 = bitcast i16 %__M to <16 x i1>
%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000>		%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000>
▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovw %eax, %k1		; X86-NEXT: kmovw %eax, %k1
; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]		; X86-NEXT: vbroadcastss {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]
; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X86-NEXT: vminps %ymm0, %ymm1, %ymm0		; X86-NEXT: vminps %ymm0, %ymm1, %ymm0
; X86-NEXT: vextractf128 $1, %ymm0, %xmm1		; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
; X86-NEXT: vminps %xmm1, %xmm0, %xmm0		; X86-NEXT: vminps %xmm1, %xmm0, %xmm0
; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X86-NEXT: vminps %xmm1, %xmm0, %xmm0		; X86-NEXT: vminps %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X86-NEXT: vminss %xmm1, %xmm0, %xmm0		; X86-NEXT: vminss %xmm1, %xmm0, %xmm0
; X86-NEXT: vmovss %xmm0, (%esp)		; X86-NEXT: vmovss %xmm0, (%esp)
; X86-NEXT: flds (%esp)		; X86-NEXT: flds (%esp)
; X86-NEXT: popl %eax		; X86-NEXT: popl %eax
; X86-NEXT: .cfi_def_cfa_offset 4		; X86-NEXT: .cfi_def_cfa_offset 4
; X86-NEXT: vzeroupper		; X86-NEXT: vzeroupper
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm512_mask_reduce_min_ps:		; X64-LABEL: test_mm512_mask_reduce_min_ps:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: kmovw %edi, %k1		; X64-NEXT: kmovw %edi, %k1
; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]		; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf,+Inf]
; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}		; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}
; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; X64-NEXT: vminps %ymm0, %ymm1, %ymm0		; X64-NEXT: vminps %ymm0, %ymm1, %ymm0
; X64-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-NEXT: vminps %xmm1, %xmm0, %xmm0		; X64-NEXT: vminps %xmm1, %xmm0, %xmm0
; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
; X64-NEXT: vminps %xmm1, %xmm0, %xmm0		; X64-NEXT: vminps %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; X64-NEXT: vminss %xmm1, %xmm0, %xmm0		; X64-NEXT: vminss %xmm1, %xmm0, %xmm0
; X64-NEXT: vzeroupper		; X64-NEXT: vzeroupper
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast i16 %__M to <16 x i1>		%0 = bitcast i16 %__M to <16 x i1>
%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000>		%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000, float 0x7FF0000000000000>
▲ Show 20 Lines • Show All 1,054 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 964 Lines • ▼ Show 20 Lines	; X64-NEXT: retq ## encoding: [0xc3]
ret <8 x i64> %res4		ret <8 x i64> %res4
}		}

declare <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double>, i32, <8 x double>, i8)		declare <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double>, i32, <8 x double>, i8)

define <8 x double>@test_int_x86_avx512_vpermil_pd_512(<8 x double> %x0, <8 x double> %x2) {		define <8 x double>@test_int_x86_avx512_vpermil_pd_512(<8 x double> %x0, <8 x double> %x2) {
; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_512:		; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_512:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpermilpd $22, %zmm0, %zmm0 ## encoding: [0x62,0xf3,0xfd,0x48,0x05,0xc0,0x16]		; CHECK-NEXT: vshufpd $22, %zmm0, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0xc6,0xc0,0x16]
; CHECK-NEXT: ## zmm0 = zmm0[0,1,3,2,5,4,6,6]		; CHECK-NEXT: ## zmm0 = zmm0[0,1,3,2,5,4,6,6]
; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> %x2, i8 -1)		%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> %x2, i8 -1)
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double>@test_int_x86_avx512_mask_vpermil_pd_512(<8 x double> %x0, <8 x double> %x2, i8 %x3) {		define <8 x double>@test_int_x86_avx512_mask_vpermil_pd_512(<8 x double> %x0, <8 x double> %x2, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_512:		; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_512:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax ## encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax ## encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 ## encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 ## encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $22, %zmm0, %zmm1 {%k1} ## encoding: [0x62,0xf3,0xfd,0x49,0x05,0xc8,0x16]		; X86-NEXT: vshufpd $22, %zmm0, %zmm0, %zmm1 {%k1} ## encoding: [0x62,0xf1,0xfd,0x49,0xc6,0xc8,0x16]
; X86-NEXT: ## zmm1 {%k1} = zmm0[0,1,3,2,5,4,6,6]		; X86-NEXT: ## zmm1 {%k1} = zmm0[0,1,3,2,5,4,6,6]
; X86-NEXT: vmovapd %zmm1, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0x28,0xc1]		; X86-NEXT: vmovapd %zmm1, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0x28,0xc1]
; X86-NEXT: retl ## encoding: [0xc3]		; X86-NEXT: retl ## encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_512:		; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_512:
; X64: ## %bb.0:		; X64: ## %bb.0:
; X64-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $22, %zmm0, %zmm1 {%k1} ## encoding: [0x62,0xf3,0xfd,0x49,0x05,0xc8,0x16]		; X64-NEXT: vshufpd $22, %zmm0, %zmm0, %zmm1 {%k1} ## encoding: [0x62,0xf1,0xfd,0x49,0xc6,0xc8,0x16]
; X64-NEXT: ## zmm1 {%k1} = zmm0[0,1,3,2,5,4,6,6]		; X64-NEXT: ## zmm1 {%k1} = zmm0[0,1,3,2,5,4,6,6]
; X64-NEXT: vmovapd %zmm1, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0x28,0xc1]		; X64-NEXT: vmovapd %zmm1, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0x28,0xc1]
; X64-NEXT: retq ## encoding: [0xc3]		; X64-NEXT: retq ## encoding: [0xc3]
%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> %x2, i8 %x3)		%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> %x2, i8 %x3)
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double>@test_int_x86_avx512_maskz_vpermil_pd_512(<8 x double> %x0, i8 %x3) {		define <8 x double>@test_int_x86_avx512_maskz_vpermil_pd_512(<8 x double> %x0, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_512:		; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_512:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax ## encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax ## encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 ## encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 ## encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $22, %zmm0, %zmm0 {%k1} {z} ## encoding: [0x62,0xf3,0xfd,0xc9,0x05,0xc0,0x16]		; X86-NEXT: vshufpd $22, %zmm0, %zmm0, %zmm0 {%k1} {z} ## encoding: [0x62,0xf1,0xfd,0xc9,0xc6,0xc0,0x16]
; X86-NEXT: ## zmm0 {%k1} {z} = zmm0[0,1,3,2,5,4,6,6]		; X86-NEXT: ## zmm0 {%k1} {z} = zmm0[0,1,3,2,5,4,6,6]
; X86-NEXT: retl ## encoding: [0xc3]		; X86-NEXT: retl ## encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_512:		; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_512:
; X64: ## %bb.0:		; X64: ## %bb.0:
; X64-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 ## encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $22, %zmm0, %zmm0 {%k1} {z} ## encoding: [0x62,0xf3,0xfd,0xc9,0x05,0xc0,0x16]		; X64-NEXT: vshufpd $22, %zmm0, %zmm0, %zmm0 {%k1} {z} ## encoding: [0x62,0xf1,0xfd,0xc9,0xc6,0xc0,0x16]
; X64-NEXT: ## zmm0 {%k1} {z} = zmm0[0,1,3,2,5,4,6,6]		; X64-NEXT: ## zmm0 {%k1} {z} = zmm0[0,1,3,2,5,4,6,6]
; X64-NEXT: retq ## encoding: [0xc3]		; X64-NEXT: retq ## encoding: [0xc3]
%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> zeroinitializer, i8 %x3)		%res = call <8 x double> @llvm.x86.avx512.mask.vpermil.pd.512(<8 x double> %x0, i32 22, <8 x double> zeroinitializer, i8 %x3)
ret <8 x double> %res		ret <8 x double> %res
}		}

declare <16 x float> @llvm.x86.avx512.mask.vpermil.ps.512(<16 x float>, i32, <16 x float>, i16)		declare <16 x float> @llvm.x86.avx512.mask.vpermil.ps.512(<16 x float>, i32, <16 x float>, i16)

▲ Show 20 Lines • Show All 9,945 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-shuffles/in_lane_permute.ll

Show First 20 Lines • Show All 1,236 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = fcmp oeq <16 x float> %mask, zeroinitializer		%cmp = fcmp oeq <16 x float> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x float> %shuf, <16 x float> zeroinitializer		%res = select <16 x i1> %cmp, <16 x float> %shuf, <16 x float> zeroinitializer
ret <16 x float> %res		ret <16 x float> %res
}		}

define <2 x double> @test_2xdouble_perm_mask0(<2 x double> %vec) {		define <2 x double> @test_2xdouble_perm_mask0(<2 x double> %vec) {
; CHECK-LABEL: test_2xdouble_perm_mask0:		; CHECK-LABEL: test_2xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%res = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>
ret <2 x double> %res		ret <2 x double> %res
}		}
define <2 x double> @test_masked_2xdouble_perm_mask0(<2 x double> %vec, <2 x double> %vec2, <2 x double> %mask) {		define <2 x double> @test_masked_2xdouble_perm_mask0(<2 x double> %vec, <2 x double> %vec2, <2 x double> %mask) {
; CHECK-LABEL: test_masked_2xdouble_perm_mask0:		; CHECK-LABEL: test_masked_2xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %xmm3, %xmm2, %k1		; CHECK-NEXT: vcmpeqpd %xmm3, %xmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]
; CHECK-NEXT: vmovapd %xmm1, %xmm0		; CHECK-NEXT: vmovapd %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2
ret <2 x double> %res		ret <2 x double> %res
}		}

define <2 x double> @test_masked_z_2xdouble_perm_mask0(<2 x double> %vec, <2 x double> %mask) {		define <2 x double> @test_masked_z_2xdouble_perm_mask0(<2 x double> %vec, <2 x double> %mask) {
; CHECK-LABEL: test_masked_z_2xdouble_perm_mask0:		; CHECK-LABEL: test_masked_z_2xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %xmm2, %xmm1, %k1		; CHECK-NEXT: vcmpeqpd %xmm2, %xmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer
ret <2 x double> %res		ret <2 x double> %res
}		}
define <2 x double> @test_masked_2xdouble_perm_mask1(<2 x double> %vec, <2 x double> %vec2, <2 x double> %mask) {		define <2 x double> @test_masked_2xdouble_perm_mask1(<2 x double> %vec, <2 x double> %vec2, <2 x double> %mask) {
; CHECK-LABEL: test_masked_2xdouble_perm_mask1:		; CHECK-LABEL: test_masked_2xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %xmm3, %xmm2, %k1		; CHECK-NEXT: vcmpeqpd %xmm3, %xmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]
; CHECK-NEXT: vmovapd %xmm1, %xmm0		; CHECK-NEXT: vmovapd %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2
ret <2 x double> %res		ret <2 x double> %res
}		}

define <2 x double> @test_masked_z_2xdouble_perm_mask1(<2 x double> %vec, <2 x double> %mask) {		define <2 x double> @test_masked_z_2xdouble_perm_mask1(<2 x double> %vec, <2 x double> %mask) {
; CHECK-LABEL: test_masked_z_2xdouble_perm_mask1:		; CHECK-LABEL: test_masked_z_2xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %xmm2, %xmm1, %k1		; CHECK-NEXT: vcmpeqpd %xmm2, %xmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%shuf = shufflevector <2 x double> %vec, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer
ret <2 x double> %res		ret <2 x double> %res
}		}
define <2 x double> @test_2xdouble_perm_mem_mask0(ptr %vp) {		define <2 x double> @test_2xdouble_perm_mem_mask0(ptr %vp) {
; CHECK-LABEL: test_2xdouble_perm_mem_mask0:		; CHECK-LABEL: test_2xdouble_perm_mem_mask0:
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer
ret <2 x double> %res		ret <2 x double> %res
}		}

define <4 x double> @test_4xdouble_perm_mask0(<4 x double> %vec) {		define <4 x double> @test_4xdouble_perm_mask0(<4 x double> %vec) {
; CHECK-LABEL: test_4xdouble_perm_mask0:		; CHECK-LABEL: test_4xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,3]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>		%res = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_4xdouble_perm_mask0(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_4xdouble_perm_mask0(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_4xdouble_perm_mask0:		; CHECK-LABEL: test_masked_4xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1		; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 {%k1} = ymm0[1,0,2,3]		; CHECK-NEXT: vshufpd {{.*#+}} ymm1 {%k1} = ymm0[1,0,2,3]
; CHECK-NEXT: vmovapd %ymm1, %ymm0		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_4xdouble_perm_mask0(<4 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_4xdouble_perm_mask0(<4 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_4xdouble_perm_mask0:		; CHECK-LABEL: test_masked_z_4xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,0,2,3]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,0,2,3]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_4xdouble_perm_mask1(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_4xdouble_perm_mask1(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_4xdouble_perm_mask1:		; CHECK-LABEL: test_masked_4xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1		; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 {%k1} = ymm0[1,1,2,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm1 {%k1} = ymm0[1,1,2,2]
; CHECK-NEXT: vmovapd %ymm1, %ymm0		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_4xdouble_perm_mask1(<4 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_4xdouble_perm_mask1(<4 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_4xdouble_perm_mask1:		; CHECK-LABEL: test_masked_z_4xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,1,2,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,1,2,2]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_4xdouble_perm_mask2(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_4xdouble_perm_mask2(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_4xdouble_perm_mask2:		; CHECK-LABEL: test_masked_4xdouble_perm_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1		; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 {%k1} = ymm0[0,1,3,3]		; CHECK-NEXT: vshufpd {{.*#+}} ymm1 {%k1} = ymm0[0,1,3,3]
; CHECK-NEXT: vmovapd %ymm1, %ymm0		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 0, i32 1, i32 3, i32 3>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 0, i32 1, i32 3, i32 3>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_4xdouble_perm_mask2(<4 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_4xdouble_perm_mask2(<4 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_4xdouble_perm_mask2:		; CHECK-LABEL: test_masked_z_4xdouble_perm_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 {%k1} {z} = ymm0[0,1,3,3]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 {%k1} {z} = ymm0[0,1,3,3]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 0, i32 1, i32 3, i32 3>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 0, i32 1, i32 3, i32 3>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_4xdouble_perm_mask3(<4 x double> %vec) {		define <4 x double> @test_4xdouble_perm_mask3(<4 x double> %vec) {
; CHECK-LABEL: test_4xdouble_perm_mask3:		; CHECK-LABEL: test_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>		%res = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_4xdouble_perm_mask3(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_4xdouble_perm_mask3(<4 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_4xdouble_perm_mask3:		; CHECK-LABEL: test_masked_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1		; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 {%k1} = ymm0[1,1,2,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm1 {%k1} = ymm0[1,1,2,2]
; CHECK-NEXT: vmovapd %ymm1, %ymm0		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_4xdouble_perm_mask3(<4 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_4xdouble_perm_mask3(<4 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_4xdouble_perm_mask3:		; CHECK-LABEL: test_masked_z_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,1,2,2]		; CHECK-NEXT: vshufpd {{.*#+}} ymm0 {%k1} {z} = ymm0[1,1,2,2]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>		%shuf = shufflevector <4 x double> %vec, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 2>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_4xdouble_perm_mem_mask0(ptr %vp) {		define <4 x double> @test_4xdouble_perm_mem_mask0(ptr %vp) {
; CHECK-LABEL: test_4xdouble_perm_mem_mask0:		; CHECK-LABEL: test_4xdouble_perm_mem_mask0:
▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}

define <8 x double> @test_8xdouble_perm_mask0(<8 x double> %vec) {		define <8 x double> @test_8xdouble_perm_mask0(<8 x double> %vec) {
; CHECK-LABEL: test_8xdouble_perm_mask0:		; CHECK-LABEL: test_8xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,0,3,2,4,5,7,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,0,3,2,4,5,7,6]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>		%res = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_masked_8xdouble_perm_mask0(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {		define <8 x double> @test_masked_8xdouble_perm_mask0(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_perm_mask0:		; CHECK-LABEL: test_masked_8xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1		; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm1 {%k1} = zmm0[0,0,3,2,4,5,7,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm1 {%k1} = zmm0[0,0,3,2,4,5,7,6]
; CHECK-NEXT: vmovapd %zmm1, %zmm0		; CHECK-NEXT: vmovapd %zmm1, %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double> @test_masked_z_8xdouble_perm_mask0(<8 x double> %vec, <8 x double> %mask) {		define <8 x double> @test_masked_z_8xdouble_perm_mask0(<8 x double> %vec, <8 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_perm_mask0:		; CHECK-LABEL: test_masked_z_8xdouble_perm_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1		; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,0,3,2,4,5,7,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,0,3,2,4,5,7,6]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 3, i32 2, i32 4, i32 5, i32 7, i32 6>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_masked_8xdouble_perm_mask1(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {		define <8 x double> @test_masked_8xdouble_perm_mask1(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_perm_mask1:		; CHECK-LABEL: test_masked_8xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1		; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,2,3,4,4,7,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,2,3,4,4,7,6]
; CHECK-NEXT: vmovapd %zmm1, %zmm0		; CHECK-NEXT: vmovapd %zmm1, %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 7, i32 6>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 7, i32 6>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double> @test_masked_z_8xdouble_perm_mask1(<8 x double> %vec, <8 x double> %mask) {		define <8 x double> @test_masked_z_8xdouble_perm_mask1(<8 x double> %vec, <8 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_perm_mask1:		; CHECK-LABEL: test_masked_z_8xdouble_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1		; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,3,4,4,7,6]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,3,4,4,7,6]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 7, i32 6>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 7, i32 6>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_masked_8xdouble_perm_mask2(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {		define <8 x double> @test_masked_8xdouble_perm_mask2(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_perm_mask2:		; CHECK-LABEL: test_masked_8xdouble_perm_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1		; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm1 {%k1} = zmm0[0,0,2,3,5,5,6,7]		; CHECK-NEXT: vshufpd {{.*#+}} zmm1 {%k1} = zmm0[0,0,2,3,5,5,6,7]
; CHECK-NEXT: vmovapd %zmm1, %zmm0		; CHECK-NEXT: vmovapd %zmm1, %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 5, i32 5, i32 6, i32 7>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 5, i32 5, i32 6, i32 7>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double> @test_masked_z_8xdouble_perm_mask2(<8 x double> %vec, <8 x double> %mask) {		define <8 x double> @test_masked_z_8xdouble_perm_mask2(<8 x double> %vec, <8 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_perm_mask2:		; CHECK-LABEL: test_masked_z_8xdouble_perm_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1		; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,0,2,3,5,5,6,7]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,0,2,3,5,5,6,7]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 5, i32 5, i32 6, i32 7>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 5, i32 5, i32 6, i32 7>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_8xdouble_perm_mask3(<8 x double> %vec) {		define <8 x double> @test_8xdouble_perm_mask3(<8 x double> %vec) {
; CHECK-LABEL: test_8xdouble_perm_mask3:		; CHECK-LABEL: test_8xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,1,2,2,4,4,6,7]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,1,2,2,4,4,6,7]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>		%res = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_masked_8xdouble_perm_mask3(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {		define <8 x double> @test_masked_8xdouble_perm_mask3(<8 x double> %vec, <8 x double> %vec2, <8 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_perm_mask3:		; CHECK-LABEL: test_masked_8xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1		; CHECK-NEXT: vcmpeqpd %zmm3, %zmm2, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,2,2,4,4,6,7]		; CHECK-NEXT: vshufpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,2,2,4,4,6,7]
; CHECK-NEXT: vmovapd %zmm1, %zmm0		; CHECK-NEXT: vmovapd %zmm1, %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> %vec2
ret <8 x double> %res		ret <8 x double> %res
}		}

define <8 x double> @test_masked_z_8xdouble_perm_mask3(<8 x double> %vec, <8 x double> %mask) {		define <8 x double> @test_masked_z_8xdouble_perm_mask3(<8 x double> %vec, <8 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_perm_mask3:		; CHECK-LABEL: test_masked_z_8xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1		; CHECK-NEXT: vcmpeqpd %zmm2, %zmm1, %k1
; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,7]		; CHECK-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,2,4,4,6,7]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 4, i32 4, i32 6, i32 7>
%cmp = fcmp oeq <8 x double> %mask, zeroinitializer		%cmp = fcmp oeq <8 x double> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer		%res = select <8 x i1> %cmp, <8 x double> %shuf, <8 x double> zeroinitializer
ret <8 x double> %res		ret <8 x double> %res
}		}
define <8 x double> @test_8xdouble_perm_mem_mask0(ptr %vp) {		define <8 x double> @test_8xdouble_perm_mem_mask0(ptr %vp) {
; CHECK-LABEL: test_8xdouble_perm_mem_mask0:		; CHECK-LABEL: test_8xdouble_perm_mem_mask0:
▲ Show 20 Lines • Show All 128 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512fp16-mov.ll

Show First 20 Lines • Show All 1,310 Lines • ▼ Show 20 Lines
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = extractelement <8 x half> %x, i32 3		%res = extractelement <8 x half> %x, i32 3
ret half %res		ret half %res
}		}

define half @extract_f16_4(<8 x half> %x) {		define half @extract_f16_4(<8 x half> %x) {
; CHECK-LABEL: extract_f16_4:		; CHECK-LABEL: extract_f16_4:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; CHECK-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%res = extractelement <8 x half> %x, i32 4		%res = extractelement <8 x half> %x, i32 4
ret half %res		ret half %res
}		}

define half @extract_f16_5(<8 x half> %x) {		define half @extract_f16_5(<8 x half> %x) {
; CHECK-LABEL: extract_f16_5:		; CHECK-LABEL: extract_f16_5:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
▲ Show 20 Lines • Show All 237 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%res = extractelement <8 x half> %x, i32 3		%res = extractelement <8 x half> %x, i32 3
store half %res, ptr %y		store half %res, ptr %y
ret void		ret void
}		}

define void @extract_store_f16_4(<8 x half> %x, ptr %y) {		define void @extract_store_f16_4(<8 x half> %x, ptr %y) {
; X64-LABEL: extract_store_f16_4:		; X64-LABEL: extract_store_f16_4:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; X64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; X64-NEXT: vmovsh %xmm0, (%rdi)		; X64-NEXT: vmovsh %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: extract_store_f16_4:		; X86-LABEL: extract_store_f16_4:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; X86-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; X86-NEXT: vmovsh %xmm0, (%eax)		; X86-NEXT: vmovsh %xmm0, (%eax)
; X86-NEXT: retl		; X86-NEXT: retl
%res = extractelement <8 x half> %x, i32 4		%res = extractelement <8 x half> %x, i32 4
store half %res, ptr %y		store half %res, ptr %y
ret void		ret void
}		}

define void @extract_store_f16_5(<8 x half> %x, ptr %y) {		define void @extract_store_f16_5(<8 x half> %x, ptr %y) {
▲ Show 20 Lines • Show All 563 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512fp16-mscatter.ll

	Show All 18 Lines
	; CHECK-NEXT: vmovsh %xmm3, (%rax)			; CHECK-NEXT: vmovsh %xmm3, (%rax)
	; CHECK-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; CHECK-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm4			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm4
	; CHECK-NEXT: vmovq %xmm4, %rax			; CHECK-NEXT: vmovq %xmm4, %rax
	; CHECK-NEXT: vmovsh %xmm3, (%rax)			; CHECK-NEXT: vmovsh %xmm3, (%rax)
	; CHECK-NEXT: vpsrlq $48, %xmm1, %xmm3			; CHECK-NEXT: vpsrlq $48, %xmm1, %xmm3
	; CHECK-NEXT: vpextrq $1, %xmm4, %rax			; CHECK-NEXT: vpextrq $1, %xmm4, %rax
	; CHECK-NEXT: vmovsh %xmm3, (%rax)			; CHECK-NEXT: vmovsh %xmm3, (%rax)
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm4			; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm4
	; CHECK-NEXT: vmovq %xmm4, %rax			; CHECK-NEXT: vmovq %xmm4, %rax
	; CHECK-NEXT: vmovsh %xmm3, (%rax)			; CHECK-NEXT: vmovsh %xmm3, (%rax)
	; CHECK-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; CHECK-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: vpextrq $1, %xmm4, %rax			; CHECK-NEXT: vpextrq $1, %xmm4, %rax
	; CHECK-NEXT: vmovsh %xmm3, (%rax)			; CHECK-NEXT: vmovsh %xmm3, (%rax)
	; CHECK-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]			; CHECK-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]
	; CHECK-NEXT: vextracti32x4 $3, %zmm0, %xmm0			; CHECK-NEXT: vextracti32x4 $3, %zmm0, %xmm0
	Show All 10 Lines
	; CHECK-NEXT: vmovsh %xmm1, (%rax)			; CHECK-NEXT: vmovsh %xmm1, (%rax)
	; CHECK-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; CHECK-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-NEXT: vextracti128 $1, %ymm2, %xmm3			; CHECK-NEXT: vextracti128 $1, %ymm2, %xmm3
	; CHECK-NEXT: vmovq %xmm3, %rax			; CHECK-NEXT: vmovq %xmm3, %rax
	; CHECK-NEXT: vmovsh %xmm1, (%rax)			; CHECK-NEXT: vmovsh %xmm1, (%rax)
	; CHECK-NEXT: vpsrlq $48, %xmm0, %xmm1			; CHECK-NEXT: vpsrlq $48, %xmm0, %xmm1
	; CHECK-NEXT: vpextrq $1, %xmm3, %rax			; CHECK-NEXT: vpextrq $1, %xmm3, %rax
	; CHECK-NEXT: vmovsh %xmm1, (%rax)			; CHECK-NEXT: vmovsh %xmm1, (%rax)
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; CHECK-NEXT: vextracti32x4 $2, %zmm2, %xmm3			; CHECK-NEXT: vextracti32x4 $2, %zmm2, %xmm3
	; CHECK-NEXT: vmovq %xmm3, %rax			; CHECK-NEXT: vmovq %xmm3, %rax
	; CHECK-NEXT: vmovsh %xmm1, (%rax)			; CHECK-NEXT: vmovsh %xmm1, (%rax)
	; CHECK-NEXT: vpsrldq {{.*#+}} xmm1 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; CHECK-NEXT: vpsrldq {{.*#+}} xmm1 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: vpextrq $1, %xmm3, %rax			; CHECK-NEXT: vpextrq $1, %xmm3, %rax
	; CHECK-NEXT: vmovsh %xmm1, (%rax)			; CHECK-NEXT: vmovsh %xmm1, (%rax)
	; CHECK-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; CHECK-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; CHECK-NEXT: vextracti32x4 $3, %zmm2, %xmm2			; CHECK-NEXT: vextracti32x4 $3, %zmm2, %xmm2
	Show All 13 Lines

llvm/test/CodeGen/X86/avx512vl-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 781 Lines • ▼ Show 20 Lines	; X64-NEXT: retq # encoding: [0xc3]
ret <4 x double> %res		ret <4 x double> %res
}		}

declare <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double>, i32, <4 x double>, i8)		declare <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double>, i32, <4 x double>, i8)

define <4 x double>@test_int_x86_avx512_vpermil_pd_256(<4 x double> %x0, <4 x double> %x2) {		define <4 x double>@test_int_x86_avx512_vpermil_pd_256(<4 x double> %x0, <4 x double> %x2) {
; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_256:		; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_256:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd $6, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x7d,0x05,0xc0,0x06]		; CHECK-NEXT: vshufpd $6, %ymm0, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xc6,0xc0,0x06]
; CHECK-NEXT: # ymm0 = ymm0[0,1,3,2]		; CHECK-NEXT: # ymm0 = ymm0[0,1,3,2]
; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> %x2, i8 -1)		%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> %x2, i8 -1)
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double>@test_int_x86_avx512_mask_vpermil_pd_256(<4 x double> %x0, <4 x double> %x2, i8 %x3) {		define <4 x double>@test_int_x86_avx512_mask_vpermil_pd_256(<4 x double> %x0, <4 x double> %x2, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_256:		; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_256:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $6, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0xfd,0x29,0x05,0xc8,0x06]		; X86-NEXT: vshufpd $6, %ymm0, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf1,0xfd,0x29,0xc6,0xc8,0x06]
; X86-NEXT: # ymm1 {%k1} = ymm0[0,1,3,2]		; X86-NEXT: # ymm1 {%k1} = ymm0[0,1,3,2]
; X86-NEXT: vmovapd %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0x28,0xc1]		; X86-NEXT: vmovapd %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0x28,0xc1]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_256:		; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_256:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $6, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0xfd,0x29,0x05,0xc8,0x06]		; X64-NEXT: vshufpd $6, %ymm0, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf1,0xfd,0x29,0xc6,0xc8,0x06]
; X64-NEXT: # ymm1 {%k1} = ymm0[0,1,3,2]		; X64-NEXT: # ymm1 {%k1} = ymm0[0,1,3,2]
; X64-NEXT: vmovapd %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0x28,0xc1]		; X64-NEXT: vmovapd %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0x28,0xc1]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> %x2, i8 %x3)		%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> %x2, i8 %x3)
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double>@test_int_x86_avx512_maskz_vpermil_pd_256(<4 x double> %x0, i8 %x3) {		define <4 x double>@test_int_x86_avx512_maskz_vpermil_pd_256(<4 x double> %x0, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_256:		; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_256:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $6, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf3,0xfd,0xa9,0x05,0xc0,0x06]		; X86-NEXT: vshufpd $6, %ymm0, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf1,0xfd,0xa9,0xc6,0xc0,0x06]
; X86-NEXT: # ymm0 {%k1} {z} = ymm0[0,1,3,2]		; X86-NEXT: # ymm0 {%k1} {z} = ymm0[0,1,3,2]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_256:		; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_256:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $6, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf3,0xfd,0xa9,0x05,0xc0,0x06]		; X64-NEXT: vshufpd $6, %ymm0, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf1,0xfd,0xa9,0xc6,0xc0,0x06]
; X64-NEXT: # ymm0 {%k1} {z} = ymm0[0,1,3,2]		; X64-NEXT: # ymm0 {%k1} {z} = ymm0[0,1,3,2]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> zeroinitializer, i8 %x3)		%res = call <4 x double> @llvm.x86.avx512.mask.vpermil.pd.256(<4 x double> %x0, i32 22, <4 x double> zeroinitializer, i8 %x3)
ret <4 x double> %res		ret <4 x double> %res
}		}

declare <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double>, i32, <2 x double>, i8)		declare <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double>, i32, <2 x double>, i8)

define <2 x double>@test_int_x86_avx512_vpermil_pd_128(<2 x double> %x0, <2 x double> %x2) {		define <2 x double>@test_int_x86_avx512_vpermil_pd_128(<2 x double> %x0, <2 x double> %x2) {
; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_128:		; CHECK-LABEL: test_int_x86_avx512_vpermil_pd_128:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]		; CHECK-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
; CHECK-NEXT: # xmm0 = xmm0[1,0]		; CHECK-NEXT: # xmm0 = xmm0[1,0]
; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> %x2, i8 -1)		%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> %x2, i8 -1)
ret <2 x double> %res		ret <2 x double> %res
}		}

define <2 x double>@test_int_x86_avx512_mask_vpermil_pd_128(<2 x double> %x0, <2 x double> %x2, i8 %x3) {		define <2 x double>@test_int_x86_avx512_mask_vpermil_pd_128(<2 x double> %x0, <2 x double> %x2, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_128:		; X86-LABEL: test_int_x86_avx512_mask_vpermil_pd_128:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $1, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0xfd,0x09,0x05,0xc8,0x01]		; X86-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf1,0xfd,0x09,0xc6,0xc8,0x01]
; X86-NEXT: # xmm1 {%k1} = xmm0[1,0]		; X86-NEXT: # xmm1 {%k1} = xmm0[1,0]
; X86-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]		; X86-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_128:		; X64-LABEL: test_int_x86_avx512_mask_vpermil_pd_128:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $1, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0xfd,0x09,0x05,0xc8,0x01]		; X64-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf1,0xfd,0x09,0xc6,0xc8,0x01]
; X64-NEXT: # xmm1 {%k1} = xmm0[1,0]		; X64-NEXT: # xmm1 {%k1} = xmm0[1,0]
; X64-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]		; X64-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> %x2, i8 %x3)		%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> %x2, i8 %x3)
ret <2 x double> %res		ret <2 x double> %res
}		}

define <2 x double>@test_int_x86_avx512_maskz_vpermil_pd_128(<2 x double> %x0, i8 %x3) {		define <2 x double>@test_int_x86_avx512_maskz_vpermil_pd_128(<2 x double> %x0, i8 %x3) {
; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_128:		; X86-LABEL: test_int_x86_avx512_maskz_vpermil_pd_128:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]		; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax # encoding: [0x0f,0xb6,0x44,0x24,0x04]
; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]		; X86-NEXT: kmovw %eax, %k1 # encoding: [0xc5,0xf8,0x92,0xc8]
; X86-NEXT: vpermilpd $1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf3,0xfd,0x89,0x05,0xc0,0x01]		; X86-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xfd,0x89,0xc6,0xc0,0x01]
; X86-NEXT: # xmm0 {%k1} {z} = xmm0[1,0]		; X86-NEXT: # xmm0 {%k1} {z} = xmm0[1,0]
; X86-NEXT: retl # encoding: [0xc3]		; X86-NEXT: retl # encoding: [0xc3]
;		;
; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_128:		; X64-LABEL: test_int_x86_avx512_maskz_vpermil_pd_128:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]		; X64-NEXT: kmovw %edi, %k1 # encoding: [0xc5,0xf8,0x92,0xcf]
; X64-NEXT: vpermilpd $1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf3,0xfd,0x89,0x05,0xc0,0x01]		; X64-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf1,0xfd,0x89,0xc6,0xc0,0x01]
; X64-NEXT: # xmm0 {%k1} {z} = xmm0[1,0]		; X64-NEXT: # xmm0 {%k1} {z} = xmm0[1,0]
; X64-NEXT: retq # encoding: [0xc3]		; X64-NEXT: retq # encoding: [0xc3]
%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> zeroinitializer, i8 %x3)		%res = call <2 x double> @llvm.x86.avx512.mask.vpermil.pd.128(<2 x double> %x0, i32 1, <2 x double> zeroinitializer, i8 %x3)
ret <2 x double> %res		ret <2 x double> %res
}		}

declare <8 x float> @llvm.x86.avx512.mask.vpermil.ps.256(<8 x float>, i32, <8 x float>, i8)		declare <8 x float> @llvm.x86.avx512.mask.vpermil.ps.256(<8 x float>, i32, <8 x float>, i8)

▲ Show 20 Lines • Show All 16,546 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-and.ll

	Show First 20 Lines • Show All 621 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: neg_scalar_broadcast_v8i64:			; AVX1-LABEL: neg_scalar_broadcast_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0			; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[0,1,0,1]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[0,1,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,3]
	; AVX1-NEXT: vmovq %rdi, %xmm2			; AVX1-NEXT: vmovq %rdi, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2
	; AVX1-NEXT: vandnpd %ymm0, %ymm2, %ymm0			; AVX1-NEXT: vandnpd %ymm0, %ymm2, %ymm0
	; AVX1-NEXT: vandnpd %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandnpd %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: neg_scalar_broadcast_v8i64:			; AVX2-LABEL: neg_scalar_broadcast_v8i64:
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	;			;
	; AVX1-LABEL: neg_scalar_broadcast_v4i64:			; AVX1-LABEL: neg_scalar_broadcast_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0			; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX1-NEXT: vmovq %rdi, %xmm1			; AVX1-NEXT: vmovq %rdi, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,3]
	; AVX1-NEXT: vandnpd %ymm0, %ymm1, %ymm0			; AVX1-NEXT: vandnpd %ymm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: neg_scalar_broadcast_v4i64:			; AVX2-LABEL: neg_scalar_broadcast_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0			; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX2-NEXT: vmovq %rdi, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	▲ Show 20 Lines • Show All 499 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/complex-fastmath.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SSE-NEXT: mulsd %xmm0, %xmm0			; SSE-NEXT: mulsd %xmm0, %xmm0
	; SSE-NEXT: mulsd %xmm1, %xmm1			; SSE-NEXT: mulsd %xmm1, %xmm1
	; SSE-NEXT: subsd %xmm1, %xmm0			; SSE-NEXT: subsd %xmm1, %xmm0
	; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: complex_square_f64:			; AVX1-LABEL: complex_square_f64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-NEXT: vaddsd %xmm0, %xmm0, %xmm2			; AVX1-NEXT: vaddsd %xmm0, %xmm0, %xmm2
	; AVX1-NEXT: vmulsd %xmm2, %xmm1, %xmm2			; AVX1-NEXT: vmulsd %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vmulsd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmulsd %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmulsd %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; FMA-LABEL: complex_square_f64:			; FMA-LABEL: complex_square_f64:
	; FMA: # %bb.0:			; FMA: # %bb.0:
	; FMA-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; FMA-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; FMA-NEXT: vaddsd %xmm0, %xmm0, %xmm2			; FMA-NEXT: vaddsd %xmm0, %xmm0, %xmm2
	; FMA-NEXT: vmulsd %xmm2, %xmm1, %xmm2			; FMA-NEXT: vmulsd %xmm2, %xmm1, %xmm2
	; FMA-NEXT: vmulsd %xmm1, %xmm1, %xmm1			; FMA-NEXT: vmulsd %xmm1, %xmm1, %xmm1
	; FMA-NEXT: vfmsub231sd {{.#+}} xmm1 = (xmm0 xmm0) - xmm1			; FMA-NEXT: vfmsub231sd {{.#+}} xmm1 = (xmm0 xmm0) - xmm1
	; FMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm2[0]			; FMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm2[0]
	; FMA-NEXT: retq			; FMA-NEXT: retq
	%2 = extractelement <2 x double> %0, i32 0			%2 = extractelement <2 x double> %0, i32 0
	%3 = extractelement <2 x double> %0, i32 1			%3 = extractelement <2 x double> %0, i32 1
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; SSE-NEXT: addsd %xmm4, %xmm1			; SSE-NEXT: addsd %xmm4, %xmm1
	; SSE-NEXT: mulsd %xmm2, %xmm3			; SSE-NEXT: mulsd %xmm2, %xmm3
	; SSE-NEXT: subsd %xmm3, %xmm0			; SSE-NEXT: subsd %xmm3, %xmm0
	; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: complex_mul_f64:			; AVX1-LABEL: complex_mul_f64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX1-NEXT: vmulsd %xmm0, %xmm3, %xmm4			; AVX1-NEXT: vmulsd %xmm0, %xmm3, %xmm4
	; AVX1-NEXT: vmulsd %xmm2, %xmm1, %xmm5			; AVX1-NEXT: vmulsd %xmm2, %xmm1, %xmm5
	; AVX1-NEXT: vaddsd %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vaddsd %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vmulsd %xmm2, %xmm3, %xmm1			; AVX1-NEXT: vmulsd %xmm2, %xmm3, %xmm1
	; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm4[0]			; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; FMA-LABEL: complex_mul_f64:			; FMA-LABEL: complex_mul_f64:
	; FMA: # %bb.0:			; FMA: # %bb.0:
	; FMA-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; FMA-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; FMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; FMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; FMA-NEXT: vmulsd %xmm2, %xmm1, %xmm4			; FMA-NEXT: vmulsd %xmm2, %xmm1, %xmm4
	; FMA-NEXT: vfmadd231sd {{.#+}} xmm4 = (xmm3 xmm0) + xmm4			; FMA-NEXT: vfmadd231sd {{.#+}} xmm4 = (xmm3 xmm0) + xmm4
	; FMA-NEXT: vmulsd %xmm2, %xmm3, %xmm2			; FMA-NEXT: vmulsd %xmm2, %xmm3, %xmm2
	; FMA-NEXT: vfmsub231sd {{.#+}} xmm2 = (xmm1 xmm0) - xmm2			; FMA-NEXT: vfmsub231sd {{.#+}} xmm2 = (xmm1 xmm0) - xmm2
	; FMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm2[0],xmm4[0]			; FMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm2[0],xmm4[0]
	; FMA-NEXT: retq			; FMA-NEXT: retq
	%3 = extractelement <2 x double> %0, i32 0			%3 = extractelement <2 x double> %0, i32 0
	%4 = extractelement <2 x double> %0, i32 1			%4 = extractelement <2 x double> %0, i32 1
	Show All 14 Lines

llvm/test/CodeGen/X86/copy-low-subvec-elt-to-high-subvec-elt.ll

	Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = shufflevector <16 x i8> %x, <16 x i8> %y, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 16>			%r = shufflevector <16 x i8> %x, <16 x i8> %y, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 16>
	ret <16 x i8> %r			ret <16 x i8> %r
	}			}

	define <4 x double> @vec256_eltty_double_source_subvec_0_target_subvec_mask_1_unary(<4 x double> %x) nounwind {			define <4 x double> @vec256_eltty_double_source_subvec_0_target_subvec_mask_1_unary(<4 x double> %x) nounwind {
	; CHECK-LABEL: vec256_eltty_double_source_subvec_0_target_subvec_mask_1_unary:			; CHECK-LABEL: vec256_eltty_double_source_subvec_0_target_subvec_mask_1_unary:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,2,3]			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,2,3]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = shufflevector <4 x double> %x, <4 x double> poison, <4 x i32> <i32 0, i32 0, i32 2, i32 3>			%r = shufflevector <4 x double> %x, <4 x double> poison, <4 x i32> <i32 0, i32 0, i32 2, i32 3>
	ret <4 x double> %r			ret <4 x double> %r
	}			}

	define <4 x double> @vec256_eltty_double_source_subvec_0_target_subvec_mask_1_binary(<4 x double> %x, <4 x double> %y) nounwind {			define <4 x double> @vec256_eltty_double_source_subvec_0_target_subvec_mask_1_binary(<4 x double> %x, <4 x double> %y) nounwind {
	; CHECK-LABEL: vec256_eltty_double_source_subvec_0_target_subvec_mask_1_binary:			; CHECK-LABEL: vec256_eltty_double_source_subvec_0_target_subvec_mask_1_binary:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = shufflevector <4 x double> %x, <4 x double> %y, <4 x i32> <i32 0, i32 6, i32 2, i32 3>			%r = shufflevector <4 x double> %x, <4 x double> %y, <4 x i32> <i32 0, i32 6, i32 2, i32 3>
	ret <4 x double> %r			ret <4 x double> %r
	}			}

	define <4 x double> @vec256_eltty_double_source_subvec_1_target_subvec_mask_2_unary(<4 x double> %x) nounwind {			define <4 x double> @vec256_eltty_double_source_subvec_1_target_subvec_mask_2_unary(<4 x double> %x) nounwind {
	; CHECK-LABEL: vec256_eltty_double_source_subvec_1_target_subvec_mask_2_unary:			; CHECK-LABEL: vec256_eltty_double_source_subvec_1_target_subvec_mask_2_unary:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,1,2,2]			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,1,2,2]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = shufflevector <4 x double> %x, <4 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 2>			%r = shufflevector <4 x double> %x, <4 x double> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 2>
	ret <4 x double> %r			ret <4 x double> %r
	}			}

	define <4 x double> @vec256_eltty_double_source_subvec_1_target_subvec_mask_2_binary(<4 x double> %x, <4 x double> %y) nounwind {			define <4 x double> @vec256_eltty_double_source_subvec_1_target_subvec_mask_2_binary(<4 x double> %x, <4 x double> %y) nounwind {
	; CHECK-LABEL: vec256_eltty_double_source_subvec_1_target_subvec_mask_2_binary:			; CHECK-LABEL: vec256_eltty_double_source_subvec_1_target_subvec_mask_2_binary:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	▲ Show 20 Lines • Show All 667 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/extract-concat.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; AVX1-LABEL: catcat:			; AVX1-LABEL: catcat:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[0,1,0,1]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[0,1,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm4
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm2 = ymm0[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm2 = ymm0[0,0,2,2]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = ymm0[1,1,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm3 = ymm0[1,1,3,3]
	; AVX1-NEXT: vmovaps %ymm4, %ymm0			; AVX1-NEXT: vmovaps %ymm4, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: catcat:			; AVX2-LABEL: catcat:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm0[1,1,1,1]			; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm0[1,1,1,1]
	; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm0[2,2,2,2]			; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm0[2,2,2,2]
	; AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm0[3,3,3,3]			; AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm0[3,3,3,3]
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fmaddsub-combine.ll

Show First 20 Lines • Show All 476 Lines • ▼ Show 20 Lines	bb:
ret <8 x double> %vecinsert8		ret <8 x double> %vecinsert8
}		}

define <4 x float> @buildvector_mul_subadd_ps128(<4 x float> %C, <4 x float> %D, <4 x float> %B) #0 {		define <4 x float> @buildvector_mul_subadd_ps128(<4 x float> %C, <4 x float> %D, <4 x float> %B) #0 {
; NOFMA-LABEL: buildvector_mul_subadd_ps128:		; NOFMA-LABEL: buildvector_mul_subadd_ps128:
; NOFMA: # %bb.0: # %bb		; NOFMA: # %bb.0: # %bb
; NOFMA-NEXT: vmulps %xmm1, %xmm0, %xmm0		; NOFMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
; NOFMA-NEXT: vaddss %xmm2, %xmm0, %xmm1		; NOFMA-NEXT: vaddss %xmm2, %xmm0, %xmm1
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm4 = xmm2[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm4 = xmm2[1,0]
; NOFMA-NEXT: vaddss %xmm4, %xmm3, %xmm3		; NOFMA-NEXT: vaddss %xmm4, %xmm3, %xmm3
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]
; NOFMA-NEXT: vsubss %xmm5, %xmm4, %xmm4		; NOFMA-NEXT: vsubss %xmm5, %xmm4, %xmm4
; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[2,3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[2,3]
; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
Show All 31 Lines	bb:
ret <4 x float> %vecinsert4		ret <4 x float> %vecinsert4
}		}

define <2 x double> @buildvector_mul_subadd_pd128(<2 x double> %C, <2 x double> %D, <2 x double> %B) #0 {		define <2 x double> @buildvector_mul_subadd_pd128(<2 x double> %C, <2 x double> %D, <2 x double> %B) #0 {
; NOFMA-LABEL: buildvector_mul_subadd_pd128:		; NOFMA-LABEL: buildvector_mul_subadd_pd128:
; NOFMA: # %bb.0: # %bb		; NOFMA: # %bb.0: # %bb
; NOFMA-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; NOFMA-NEXT: vmulpd %xmm1, %xmm0, %xmm0
; NOFMA-NEXT: vaddsd %xmm2, %xmm0, %xmm1		; NOFMA-NEXT: vaddsd %xmm2, %xmm0, %xmm1
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
; NOFMA-NEXT: vsubsd %xmm2, %xmm0, %xmm0		; NOFMA-NEXT: vsubsd %xmm2, %xmm0, %xmm0
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; NOFMA-NEXT: retq		; NOFMA-NEXT: retq
;		;
; FMA3-LABEL: buildvector_mul_subadd_pd128:		; FMA3-LABEL: buildvector_mul_subadd_pd128:
; FMA3: # %bb.0: # %bb		; FMA3: # %bb.0: # %bb
; FMA3-NEXT: vfmsubadd213pd {{.#+}} xmm0 = (xmm1 xmm0) -/+ xmm2		; FMA3-NEXT: vfmsubadd213pd {{.#+}} xmm0 = (xmm1 xmm0) -/+ xmm2
; FMA3-NEXT: retq		; FMA3-NEXT: retq
Show All 15 Lines	bb:
ret <2 x double> %vecinsert2		ret <2 x double> %vecinsert2
}		}

define <8 x float> @buildvector_mul_subadd_ps256(<8 x float> %C, <8 x float> %D, <8 x float> %B) #0 {		define <8 x float> @buildvector_mul_subadd_ps256(<8 x float> %C, <8 x float> %D, <8 x float> %B) #0 {
; NOFMA-LABEL: buildvector_mul_subadd_ps256:		; NOFMA-LABEL: buildvector_mul_subadd_ps256:
; NOFMA: # %bb.0: # %bb		; NOFMA: # %bb.0: # %bb
; NOFMA-NEXT: vmulps %ymm1, %ymm0, %ymm0		; NOFMA-NEXT: vmulps %ymm1, %ymm0, %ymm0
; NOFMA-NEXT: vaddss %xmm2, %xmm0, %xmm1		; NOFMA-NEXT: vaddss %xmm2, %xmm0, %xmm1
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm4 = xmm2[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm4 = xmm2[1,0]
; NOFMA-NEXT: vaddss %xmm4, %xmm3, %xmm3		; NOFMA-NEXT: vaddss %xmm4, %xmm3, %xmm3
; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm4		; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm4
; NOFMA-NEXT: vextractf128 $1, %ymm2, %xmm5		; NOFMA-NEXT: vextractf128 $1, %ymm2, %xmm5
; NOFMA-NEXT: vaddss %xmm5, %xmm4, %xmm6		; NOFMA-NEXT: vaddss %xmm5, %xmm4, %xmm6
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm7 = xmm4[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm7 = xmm4[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm8 = xmm5[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm8 = xmm5[1,0]
; NOFMA-NEXT: vaddss %xmm7, %xmm8, %xmm7		; NOFMA-NEXT: vaddss %xmm7, %xmm8, %xmm7
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm8 = xmm0[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm8 = xmm0[1,1,3,3]
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm9 = xmm2[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm9 = xmm2[1,1,3,3]
; NOFMA-NEXT: vsubss %xmm9, %xmm8, %xmm8		; NOFMA-NEXT: vsubss %xmm9, %xmm8, %xmm8
; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[2,3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[2,3]
; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
define <4 x double> @buildvector_mul_subadd_pd256(<4 x double> %C, <4 x double> %D, <4 x double> %B) #0 {		define <4 x double> @buildvector_mul_subadd_pd256(<4 x double> %C, <4 x double> %D, <4 x double> %B) #0 {
; NOFMA-LABEL: buildvector_mul_subadd_pd256:		; NOFMA-LABEL: buildvector_mul_subadd_pd256:
; NOFMA: # %bb.0: # %bb		; NOFMA: # %bb.0: # %bb
; NOFMA-NEXT: vmulpd %ymm1, %ymm0, %ymm0		; NOFMA-NEXT: vmulpd %ymm1, %ymm0, %ymm0
; NOFMA-NEXT: vaddsd %xmm2, %xmm0, %xmm1		; NOFMA-NEXT: vaddsd %xmm2, %xmm0, %xmm1
; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm3		; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm3
; NOFMA-NEXT: vextractf128 $1, %ymm2, %xmm4		; NOFMA-NEXT: vextractf128 $1, %ymm2, %xmm4
; NOFMA-NEXT: vaddsd %xmm4, %xmm3, %xmm5		; NOFMA-NEXT: vaddsd %xmm4, %xmm3, %xmm5
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
; NOFMA-NEXT: vsubsd %xmm2, %xmm0, %xmm0		; NOFMA-NEXT: vsubsd %xmm2, %xmm0, %xmm0
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm2 = xmm4[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm2 = xmm4[1,0]
; NOFMA-NEXT: vsubsd %xmm2, %xmm1, %xmm1		; NOFMA-NEXT: vsubsd %xmm2, %xmm1, %xmm1
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm5[0],xmm1[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm5[0],xmm1[0]
; NOFMA-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; NOFMA-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; NOFMA-NEXT: retq		; NOFMA-NEXT: retq
;		;
; FMA3-LABEL: buildvector_mul_subadd_pd256:		; FMA3-LABEL: buildvector_mul_subadd_pd256:
; FMA3: # %bb.0: # %bb		; FMA3: # %bb.0: # %bb
; FMA3-NEXT: vfmsubadd213pd {{.#+}} ymm0 = (ymm1 ymm0) -/+ ymm2		; FMA3-NEXT: vfmsubadd213pd {{.#+}} ymm0 = (ymm1 ymm0) -/+ ymm2
Show All 25 Lines
}		}

define <16 x float> @buildvector_mul_subadd_ps512(<16 x float> %C, <16 x float> %D, <16 x float> %B) #0 {		define <16 x float> @buildvector_mul_subadd_ps512(<16 x float> %C, <16 x float> %D, <16 x float> %B) #0 {
; NOFMA-LABEL: buildvector_mul_subadd_ps512:		; NOFMA-LABEL: buildvector_mul_subadd_ps512:
; NOFMA: # %bb.0: # %bb		; NOFMA: # %bb.0: # %bb
; NOFMA-NEXT: vmulps %ymm3, %ymm1, %ymm1		; NOFMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
; NOFMA-NEXT: vmulps %ymm2, %ymm0, %ymm0		; NOFMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
; NOFMA-NEXT: vaddss %xmm4, %xmm0, %xmm2		; NOFMA-NEXT: vaddss %xmm4, %xmm0, %xmm2
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm6 = xmm4[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm6 = xmm4[1,0]
; NOFMA-NEXT: vaddss %xmm6, %xmm3, %xmm3		; NOFMA-NEXT: vaddss %xmm6, %xmm3, %xmm3
; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm6		; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm6
; NOFMA-NEXT: vextractf128 $1, %ymm4, %xmm7		; NOFMA-NEXT: vextractf128 $1, %ymm4, %xmm7
; NOFMA-NEXT: vaddss %xmm7, %xmm6, %xmm8		; NOFMA-NEXT: vaddss %xmm7, %xmm6, %xmm8
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm9 = xmm6[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm9 = xmm6[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm10 = xmm7[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm10 = xmm7[1,0]
; NOFMA-NEXT: vaddss %xmm10, %xmm9, %xmm9		; NOFMA-NEXT: vaddss %xmm10, %xmm9, %xmm9
; NOFMA-NEXT: vinsertps {{.*#+}} xmm8 = xmm8[0,1],xmm9[0],xmm8[3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm8 = xmm8[0,1],xmm9[0],xmm8[3]
; NOFMA-NEXT: vaddss %xmm5, %xmm1, %xmm9		; NOFMA-NEXT: vaddss %xmm5, %xmm1, %xmm9
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm10 = xmm1[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm10 = xmm1[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm11 = xmm5[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm11 = xmm5[1,0]
; NOFMA-NEXT: vaddss %xmm11, %xmm10, %xmm10		; NOFMA-NEXT: vaddss %xmm11, %xmm10, %xmm10
; NOFMA-NEXT: vextractf128 $1, %ymm1, %xmm11		; NOFMA-NEXT: vextractf128 $1, %ymm1, %xmm11
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm12 = xmm11[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm12 = xmm11[1,0]
; NOFMA-NEXT: vextractf128 $1, %ymm5, %xmm13		; NOFMA-NEXT: vextractf128 $1, %ymm5, %xmm13
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm14 = xmm13[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm14 = xmm13[1,0]
; NOFMA-NEXT: vaddss %xmm14, %xmm12, %xmm12		; NOFMA-NEXT: vaddss %xmm14, %xmm12, %xmm12
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm14 = xmm0[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm14 = xmm0[1,1,3,3]
; NOFMA-NEXT: vmovshdup {{.*#+}} xmm15 = xmm4[1,1,3,3]		; NOFMA-NEXT: vmovshdup {{.*#+}} xmm15 = xmm4[1,1,3,3]
; NOFMA-NEXT: vsubss %xmm15, %xmm14, %xmm14		; NOFMA-NEXT: vsubss %xmm15, %xmm14, %xmm14
; NOFMA-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[2,3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm14[0],xmm2[2,3]
; NOFMA-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]		; NOFMA-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; NOFMA-NEXT: vshufps {{.*#+}} xmm3 = xmm4[3,3,3,3]		; NOFMA-NEXT: vshufps {{.*#+}} xmm3 = xmm4[3,3,3,3]
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
; NOFMA-NEXT: vaddsd %xmm4, %xmm0, %xmm2		; NOFMA-NEXT: vaddsd %xmm4, %xmm0, %xmm2
; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm3		; NOFMA-NEXT: vextractf128 $1, %ymm0, %xmm3
; NOFMA-NEXT: vextractf128 $1, %ymm4, %xmm6		; NOFMA-NEXT: vextractf128 $1, %ymm4, %xmm6
; NOFMA-NEXT: vaddsd %xmm6, %xmm3, %xmm7		; NOFMA-NEXT: vaddsd %xmm6, %xmm3, %xmm7
; NOFMA-NEXT: vaddsd %xmm5, %xmm1, %xmm8		; NOFMA-NEXT: vaddsd %xmm5, %xmm1, %xmm8
; NOFMA-NEXT: vextractf128 $1, %ymm1, %xmm1		; NOFMA-NEXT: vextractf128 $1, %ymm1, %xmm1
; NOFMA-NEXT: vextractf128 $1, %ymm5, %xmm5		; NOFMA-NEXT: vextractf128 $1, %ymm5, %xmm5
; NOFMA-NEXT: vaddsd %xmm5, %xmm1, %xmm9		; NOFMA-NEXT: vaddsd %xmm5, %xmm1, %xmm9
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm4 = xmm4[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm4 = xmm4[1,0]
; NOFMA-NEXT: vsubsd %xmm4, %xmm0, %xmm0		; NOFMA-NEXT: vsubsd %xmm4, %xmm0, %xmm0
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm2[0],xmm0[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm2[0],xmm0[0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm6[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm6[1,0]
; NOFMA-NEXT: vsubsd %xmm3, %xmm2, %xmm2		; NOFMA-NEXT: vsubsd %xmm3, %xmm2, %xmm2
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm7[0],xmm2[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm7[0],xmm2[0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
; NOFMA-NEXT: vpermilpd {{.*#+}} xmm3 = xmm5[1,0]		; NOFMA-NEXT: vshufpd {{.*#+}} xmm3 = xmm5[1,0]
; NOFMA-NEXT: vsubsd %xmm3, %xmm1, %xmm1		; NOFMA-NEXT: vsubsd %xmm3, %xmm1, %xmm1
; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm9[0],xmm1[0]		; NOFMA-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm9[0],xmm1[0]
; NOFMA-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; NOFMA-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; NOFMA-NEXT: vinsertf128 $1, %xmm1, %ymm8, %ymm1		; NOFMA-NEXT: vinsertf128 $1, %xmm1, %ymm8, %ymm1
; NOFMA-NEXT: retq		; NOFMA-NEXT: retq
;		;
; FMA3_256-LABEL: buildvector_mul_subadd_pd512:		; FMA3_256-LABEL: buildvector_mul_subadd_pd512:
; FMA3_256: # %bb.0: # %bb		; FMA3_256: # %bb.0: # %bb
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fmf-reduction.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=fma \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-- -mattr=fma \| FileCheck %s

	; Propagation of IR FMF should not drop flags when adding the DAG reduction flag.			; Propagation of IR FMF should not drop flags when adding the DAG reduction flag.
	; This should include an FMA instruction, not separate FMUL/FADD.			; This should include an FMA instruction, not separate FMUL/FADD.

	define double @julia_dotf(<4 x double> %x, <4 x double> %y, <4 x double> %z, i1 %t3) {			define double @julia_dotf(<4 x double> %x, <4 x double> %y, <4 x double> %z, i1 %t3) {
	; CHECK-LABEL: julia_dotf:			; CHECK-LABEL: julia_dotf:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vfmadd213pd {{.#+}} ymm0 = (ymm1 ymm0) + ymm2			; CHECK-NEXT: vfmadd213pd {{.#+}} ymm0 = (ymm1 ymm0) + ymm2
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; CHECK-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%t1 = fmul contract <4 x double> %x, %y			%t1 = fmul contract <4 x double> %x, %y
	%t2 = fadd fast <4 x double> %z, %t1			%t2 = fadd fast <4 x double> %z, %t1
	%rdx.shuf = shufflevector <4 x double> %t2, <4 x double> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%rdx.shuf = shufflevector <4 x double> %t2, <4 x double> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%bin.rdx22 = fadd fast <4 x double> %t2, %rdx.shuf			%bin.rdx22 = fadd fast <4 x double> %t2, %rdx.shuf
	%rdx.shuf23 = shufflevector <4 x double> %bin.rdx22, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%rdx.shuf23 = shufflevector <4 x double> %bin.rdx22, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%bin.rdx24 = fadd fast <4 x double> %bin.rdx22, %rdx.shuf23			%bin.rdx24 = fadd fast <4 x double> %bin.rdx22, %rdx.shuf23
	%t4 = extractelement <4 x double> %bin.rdx24, i32 0			%t4 = extractelement <4 x double> %bin.rdx24, i32 0
	ret double %t4			ret double %t4
	}			}

llvm/test/CodeGen/X86/haddsub-2.ll

	Show First 20 Lines • Show All 900 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; SSE-NEXT: subss %xmm3, %xmm1			; SSE-NEXT: subss %xmm3, %xmm1
	; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: not_a_hsub_2:			; AVX-LABEL: not_a_hsub_2:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vsubss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vsubss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vsubss %xmm3, %xmm1, %xmm1			; AVX-NEXT: vsubss %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]
	; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm2[0]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm2[0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%vecext = extractelement <4 x float> %A, i32 2			%vecext = extractelement <4 x float> %A, i32 2
	%vecext1 = extractelement <4 x float> %A, i32 3			%vecext1 = extractelement <4 x float> %A, i32 3
	Show All 24 Lines
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: subsd %xmm0, %xmm2			; SSE-NEXT: subsd %xmm0, %xmm2
	; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE-NEXT: movapd %xmm2, %xmm0			; SSE-NEXT: movapd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: not_a_hsub_3:			; AVX-LABEL: not_a_hsub_3:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vsubsd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vsubsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vsubsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vsubsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%vecext = extractelement <2 x double> %B, i32 0			%vecext = extractelement <2 x double> %B, i32 0
	%vecext1 = extractelement <2 x double> %B, i32 1			%vecext1 = extractelement <2 x double> %B, i32 1
	%sub = fsub double %vecext, %vecext1			%sub = fsub double %vecext, %vecext1
	%vecinit = insertelement <2 x double> undef, double %sub, i32 1			%vecinit = insertelement <2 x double> undef, double %sub, i32 1
	%vecext2 = extractelement <2 x double> %A, i32 1			%vecext2 = extractelement <2 x double> %A, i32 1
	▲ Show 20 Lines • Show All 456 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-3.ll

	Show All 31 Lines
	; SSSE3-FAST-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSSE3-FAST-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSSE3-FAST-NEXT: addss %xmm1, %xmm0			; SSSE3-FAST-NEXT: addss %xmm1, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: pr26491:			; AVX1-SLOW-LABEL: pr26491:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: pr26491:			; AVX1-FAST-LABEL: pr26491:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: pr26491:			; AVX2-LABEL: pr26491:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%1 = shufflevector <4 x float> %a0, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>			%1 = shufflevector <4 x float> %a0, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>
	%2 = fadd <4 x float> %1, %a0			%2 = fadd <4 x float> %1, %a0
	%3 = extractelement <4 x float> %2, i32 2			%3 = extractelement <4 x float> %2, i32 2
	%4 = extractelement <4 x float> %2, i32 0			%4 = extractelement <4 x float> %2, i32 0
	%5 = fadd float %3, %4			%5 = fadd float %3, %4
	ret float %5			ret float %5
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR41414:			; AVX2-LABEL: PR41414:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovq %rdi, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; AVX2-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX2-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vaddsd %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1			; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
	; AVX2-NEXT: vdivpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vdivpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%conv = uitofp i64 %x to double			%conv = uitofp i64 %x to double
	%t0 = insertelement <4 x double> undef, double %conv, i32 0			%t0 = insertelement <4 x double> undef, double %conv, i32 0
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-broadcast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-- -mattr=avx2 \| FileCheck %s			; RUN: llc < %s -mtriple=i686-- -mattr=avx2 \| FileCheck %s

	; The broadcast node takes a vector operand as input and changes its length.			; The broadcast node takes a vector operand as input and changes its length.

	define <4 x double> @PR43402(i64 %x) {			define <4 x double> @PR43402(i64 %x) {
	; CHECK-LABEL: PR43402:			; CHECK-LABEL: PR43402:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0			; CHECK-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; CHECK-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: vbroadcastsd %xmm0, %ymm0			; CHECK-NEXT: vbroadcastsd %xmm0, %ymm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%conv = uitofp i64 %x to double			%conv = uitofp i64 %x to double
	%t2 = insertelement <4 x double> undef, double %conv, i32 0			%t2 = insertelement <4 x double> undef, double %conv, i32 0
	%t3 = shufflevector <4 x double> %t2, <4 x double> undef, <4 x i32> zeroinitializer			%t3 = shufflevector <4 x double> %t2, <4 x double> undef, <4 x i32> zeroinitializer
	ret <4 x double> %t3			ret <4 x double> %t3
	}			}

llvm/test/CodeGen/X86/haddsub-shuf.ll

	Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	;			;
	; SSE_FAST-LABEL: hadd_v2f64:			; SSE_FAST-LABEL: hadd_v2f64:
	; SSE_FAST: # %bb.0:			; SSE_FAST: # %bb.0:
	; SSE_FAST-NEXT: haddpd %xmm0, %xmm0			; SSE_FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE_FAST-NEXT: retq			; SSE_FAST-NEXT: retq
	;			;
	; AVX1_SLOW-LABEL: hadd_v2f64:			; AVX1_SLOW-LABEL: hadd_v2f64:
	; AVX1_SLOW: # %bb.0:			; AVX1_SLOW: # %bb.0:
	; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1_SLOW-NEXT: retq			; AVX1_SLOW-NEXT: retq
	;			;
	; AVX1_FAST-LABEL: hadd_v2f64:			; AVX1_FAST-LABEL: hadd_v2f64:
	; AVX1_FAST: # %bb.0:			; AVX1_FAST: # %bb.0:
	; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1_FAST-NEXT: retq			; AVX1_FAST-NEXT: retq
	;			;
	; AVX2_SLOW-LABEL: hadd_v2f64:			; AVX2_SLOW-LABEL: hadd_v2f64:
	; AVX2_SLOW: # %bb.0:			; AVX2_SLOW: # %bb.0:
	; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX2_SLOW-NEXT: retq			; AVX2_SLOW-NEXT: retq
	;			;
	; AVX2_FAST-LABEL: hadd_v2f64:			; AVX2_FAST-LABEL: hadd_v2f64:
	; AVX2_FAST: # %bb.0:			; AVX2_FAST: # %bb.0:
	; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX2_FAST-NEXT: retq			; AVX2_FAST-NEXT: retq
	Show All 15 Lines
	;			;
	; SSE_FAST-LABEL: hadd_v2f64_scalar_splat:			; SSE_FAST-LABEL: hadd_v2f64_scalar_splat:
	; SSE_FAST: # %bb.0:			; SSE_FAST: # %bb.0:
	; SSE_FAST-NEXT: haddpd %xmm0, %xmm0			; SSE_FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE_FAST-NEXT: retq			; SSE_FAST-NEXT: retq
	;			;
	; AVX1_SLOW-LABEL: hadd_v2f64_scalar_splat:			; AVX1_SLOW-LABEL: hadd_v2f64_scalar_splat:
	; AVX1_SLOW: # %bb.0:			; AVX1_SLOW: # %bb.0:
	; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1_SLOW-NEXT: retq			; AVX1_SLOW-NEXT: retq
	;			;
	; AVX1_FAST-LABEL: hadd_v2f64_scalar_splat:			; AVX1_FAST-LABEL: hadd_v2f64_scalar_splat:
	; AVX1_FAST: # %bb.0:			; AVX1_FAST: # %bb.0:
	; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1_FAST-NEXT: retq			; AVX1_FAST-NEXT: retq
	;			;
	; AVX2_SLOW-LABEL: hadd_v2f64_scalar_splat:			; AVX2_SLOW-LABEL: hadd_v2f64_scalar_splat:
	; AVX2_SLOW: # %bb.0:			; AVX2_SLOW: # %bb.0:
	; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX2_SLOW-NEXT: retq			; AVX2_SLOW-NEXT: retq
	;			;
	; AVX2_FAST-LABEL: hadd_v2f64_scalar_splat:			; AVX2_FAST-LABEL: hadd_v2f64_scalar_splat:
	; AVX2_FAST: # %bb.0:			; AVX2_FAST: # %bb.0:
	; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX2_FAST-NEXT: retq			; AVX2_FAST-NEXT: retq
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; SSE_FAST-LABEL: hadd_v4f64_scalar_broadcast:			; SSE_FAST-LABEL: hadd_v4f64_scalar_broadcast:
	; SSE_FAST: # %bb.0:			; SSE_FAST: # %bb.0:
	; SSE_FAST-NEXT: haddpd %xmm0, %xmm0			; SSE_FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE_FAST-NEXT: movapd %xmm0, %xmm1			; SSE_FAST-NEXT: movapd %xmm0, %xmm1
	; SSE_FAST-NEXT: retq			; SSE_FAST-NEXT: retq
	;			;
	; AVX1_SLOW-LABEL: hadd_v4f64_scalar_broadcast:			; AVX1_SLOW-LABEL: hadd_v4f64_scalar_broadcast:
	; AVX1_SLOW: # %bb.0:			; AVX1_SLOW: # %bb.0:
	; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1_SLOW-NEXT: retq			; AVX1_SLOW-NEXT: retq
	;			;
	; AVX1_FAST-LABEL: hadd_v4f64_scalar_broadcast:			; AVX1_FAST-LABEL: hadd_v4f64_scalar_broadcast:
	; AVX1_FAST: # %bb.0:			; AVX1_FAST: # %bb.0:
	; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1_FAST-NEXT: retq			; AVX1_FAST-NEXT: retq
	;			;
	; AVX2_SLOW-LABEL: hadd_v4f64_scalar_broadcast:			; AVX2_SLOW-LABEL: hadd_v4f64_scalar_broadcast:
	; AVX2_SLOW: # %bb.0:			; AVX2_SLOW: # %bb.0:
	; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2_SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2_SLOW-NEXT: vbroadcastsd %xmm0, %ymm0			; AVX2_SLOW-NEXT: vbroadcastsd %xmm0, %ymm0
	; AVX2_SLOW-NEXT: retq			; AVX2_SLOW-NEXT: retq
	;			;
	; AVX2_FAST-LABEL: hadd_v4f64_scalar_broadcast:			; AVX2_FAST-LABEL: hadd_v4f64_scalar_broadcast:
	; AVX2_FAST: # %bb.0:			; AVX2_FAST: # %bb.0:
	; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX2_FAST-NEXT: vbroadcastsd %xmm0, %ymm0			; AVX2_FAST-NEXT: vbroadcastsd %xmm0, %ymm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	;			;
	; SSE_FAST-LABEL: hsub_v2f64:			; SSE_FAST-LABEL: hsub_v2f64:
	; SSE_FAST: # %bb.0:			; SSE_FAST: # %bb.0:
	; SSE_FAST-NEXT: hsubpd %xmm0, %xmm0			; SSE_FAST-NEXT: hsubpd %xmm0, %xmm0
	; SSE_FAST-NEXT: retq			; SSE_FAST-NEXT: retq
	;			;
	; AVX1_SLOW-LABEL: hsub_v2f64:			; AVX1_SLOW-LABEL: hsub_v2f64:
	; AVX1_SLOW: # %bb.0:			; AVX1_SLOW: # %bb.0:
	; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1_SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX1_SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1_SLOW-NEXT: retq			; AVX1_SLOW-NEXT: retq
	;			;
	; AVX1_FAST-LABEL: hsub_v2f64:			; AVX1_FAST-LABEL: hsub_v2f64:
	; AVX1_FAST: # %bb.0:			; AVX1_FAST: # %bb.0:
	; AVX1_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX1_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX1_FAST-NEXT: retq			; AVX1_FAST-NEXT: retq
	;			;
	; AVX2_SLOW-LABEL: hsub_v2f64:			; AVX2_SLOW-LABEL: hsub_v2f64:
	; AVX2_SLOW: # %bb.0:			; AVX2_SLOW: # %bb.0:
	; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2_SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2_SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX2_SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX2_SLOW-NEXT: retq			; AVX2_SLOW-NEXT: retq
	;			;
	; AVX2_FAST-LABEL: hsub_v2f64:			; AVX2_FAST-LABEL: hsub_v2f64:
	; AVX2_FAST: # %bb.0:			; AVX2_FAST: # %bb.0:
	; AVX2_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX2_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX2_FAST-NEXT: retq			; AVX2_FAST-NEXT: retq
	▲ Show 20 Lines • Show All 1,006 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-undef.ll

	Show First 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	;			;
	; SSE-FAST-LABEL: test5_undef:			; SSE-FAST-LABEL: test5_undef:
	; SSE-FAST: # %bb.0:			; SSE-FAST: # %bb.0:
	; SSE-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: test5_undef:			; AVX-SLOW-LABEL: test5_undef:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: test5_undef:			; AVX-FAST-LABEL: test5_undef:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%vecext = extractelement <2 x double> %a, i32 0			%vecext = extractelement <2 x double> %a, i32 0
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE-FAST-NEXT: haddps %xmm0, %xmm0			; SSE-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,1]			; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,1]
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: test8_undef:			; AVX-SLOW-LABEL: test8_undef:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: test8_undef:			; AVX-FAST-LABEL: test8_undef:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	;			;
	; AVX512-SLOW-LABEL: test13_v16f32_undef:			; AVX512-SLOW-LABEL: test13_v16f32_undef:
	; AVX512-SLOW: # %bb.0:			; AVX512-SLOW: # %bb.0:
	; AVX512-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX512-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX512-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]			; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
	; AVX512-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm2			; AVX512-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm2
	; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX512-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX512-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX512-SLOW-NEXT: retq			; AVX512-SLOW-NEXT: retq
	%vecext = extractelement <16 x float> %a, i32 0			%vecext = extractelement <16 x float> %a, i32 0
	%vecext1 = extractelement <16 x float> %a, i32 1			%vecext1 = extractelement <16 x float> %a, i32 1
	%add1 = fadd float %vecext, %vecext1			%add1 = fadd float %vecext, %vecext1
	%vecinit1 = insertelement <16 x float> undef, float %add1, i32 0			%vecinit1 = insertelement <16 x float> undef, float %add1, i32 0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	;			;
	; SSE-FAST-LABEL: add_pd_003_2:			; SSE-FAST-LABEL: add_pd_003_2:
	; SSE-FAST: # %bb.0:			; SSE-FAST: # %bb.0:
	; SSE-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: add_pd_003_2:			; AVX-SLOW-LABEL: add_pd_003_2:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: add_pd_003_2:			; AVX-FAST-LABEL: add_pd_003_2:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 0>			%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 0>
	%add = fadd <2 x double> %l, %x			%add = fadd <2 x double> %l, %x
	ret <2 x double> %add			ret <2 x double> %add
	}			}

	define <2 x double> @add_pd_010(<2 x double> %x) {			define <2 x double> @add_pd_010(<2 x double> %x) {
	; SSE-LABEL: add_pd_010:			; SSE-LABEL: add_pd_010:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: haddpd %xmm0, %xmm0			; SSE-NEXT: haddpd %xmm0, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: add_pd_010:			; AVX-SLOW-LABEL: add_pd_010:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]			; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: add_pd_010:			; AVX-FAST-LABEL: add_pd_010:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>			%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>
	▲ Show 20 Lines • Show All 198 Lines • ▼ Show 20 Lines
	; SSE-FAST-NEXT: movapd %xmm2, %xmm1			; SSE-FAST-NEXT: movapd %xmm2, %xmm1
	; SSE-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE-FAST-NEXT: haddpd %xmm2, %xmm1			; SSE-FAST-NEXT: haddpd %xmm2, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: add_pd_011:			; AVX1-SLOW-LABEL: add_pd_011:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: add_pd_011:			; AVX1-FAST-LABEL: add_pd_011:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm2			; AVX1-FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm2
	; AVX1-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vhaddpd %ymm2, %ymm0, %ymm0			; AVX1-FAST-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
	; SSE-FAST-LABEL: PR45747_2:			; SSE-FAST-LABEL: PR45747_2:
	; SSE-FAST: # %bb.0:			; SSE-FAST: # %bb.0:
	; SSE-FAST-NEXT: haddps %xmm1, %xmm1			; SSE-FAST-NEXT: haddps %xmm1, %xmm1
	; SSE-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR45747_2:			; AVX-SLOW-LABEL: PR45747_2:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,1,1]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,1,1]
	; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR45747_2:			; AVX-FAST-LABEL: PR45747_2:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm0
	; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; SSE-FAST-NEXT: movapd %xmm2, %xmm1			; SSE-FAST-NEXT: movapd %xmm2, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR34724_add_v4f64_u123:			; AVX-SLOW-LABEL: PR34724_add_v4f64_u123:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1],xmm1[0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1],xmm1[0]
	; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR34724_add_v4f64_u123:			; AVX-FAST-LABEL: PR34724_add_v4f64_u123:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	Show All 33 Lines
	; SSE-FAST-NEXT: haddpd %xmm2, %xmm0			; SSE-FAST-NEXT: haddpd %xmm2, %xmm0
	; SSE-FAST-NEXT: haddpd %xmm3, %xmm1			; SSE-FAST-NEXT: haddpd %xmm3, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR34724_add_v4f64_0u23:			; AVX-SLOW-LABEL: PR34724_add_v4f64_0u23:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vhaddpd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1],xmm1[0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1],xmm1[0]
	; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR34724_add_v4f64_0u23:			; AVX-FAST-LABEL: PR34724_add_v4f64_0u23:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	Show All 30 Lines
	; SSE-FAST-NEXT: movapd %xmm3, %xmm1			; SSE-FAST-NEXT: movapd %xmm3, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR34724_add_v4f64_01u3:			; AVX-SLOW-LABEL: PR34724_add_v4f64_01u3:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX-SLOW-NEXT: vhaddpd %xmm2, %xmm0, %xmm0			; AVX-SLOW-NEXT: vhaddpd %xmm2, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]			; AVX-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]
	; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR34724_add_v4f64_01u3:			; AVX1-FAST-LABEL: PR34724_add_v4f64_01u3:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX1-FAST-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
	Show All 35 Lines
	; SSE-FAST-NEXT: haddpd %xmm2, %xmm2			; SSE-FAST-NEXT: haddpd %xmm2, %xmm2
	; SSE-FAST-NEXT: movapd %xmm2, %xmm1			; SSE-FAST-NEXT: movapd %xmm2, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR34724_add_v4f64_012u:			; AVX-SLOW-LABEL: PR34724_add_v4f64_012u:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX-SLOW-NEXT: vhaddpd %xmm2, %xmm0, %xmm0			; AVX-SLOW-NEXT: vhaddpd %xmm2, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR34724_add_v4f64_012u:			; AVX-FAST-LABEL: PR34724_add_v4f64_012u:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	Show All 16 Lines

llvm/test/CodeGen/X86/haddsub.ll

	Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	;			;
	; SSE3-FAST-LABEL: haddpd3:			; SSE3-FAST-LABEL: haddpd3:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: haddpd3:			; AVX-SLOW-LABEL: haddpd3:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: haddpd3:			; AVX-FAST-LABEL: haddpd3:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>			%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	;			;
	; SSE3-FAST-LABEL: hsubpd2:			; SSE3-FAST-LABEL: hsubpd2:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: hsubpd2:			; AVX-SLOW-LABEL: hsubpd2:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vsubpd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vsubpd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: hsubpd2:			; AVX-FAST-LABEL: hsubpd2:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>			%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v4f32_fadd_f32:			; SSE3-FAST-LABEL: extract_extract23_v4f32_fadd_f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v4f32_fadd_f32:			; AVX-SLOW-LABEL: extract_extract23_v4f32_fadd_f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v4f32_fadd_f32:			; AVX-FAST-LABEL: extract_extract23_v4f32_fadd_f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v4f32_fadd_f32_commute:			; SSE3-FAST-LABEL: extract_extract23_v4f32_fadd_f32_commute:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v4f32_fadd_f32_commute:			; AVX-SLOW-LABEL: extract_extract23_v4f32_fadd_f32_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v4f32_fadd_f32_commute:			; AVX-FAST-LABEL: extract_extract23_v4f32_fadd_f32_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	Show All 14 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v2f64_fadd_f64:			; SSE3-FAST-LABEL: extract_extract01_v2f64_fadd_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v2f64_fadd_f64:			; AVX-SLOW-LABEL: extract_extract01_v2f64_fadd_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v2f64_fadd_f64:			; AVX-FAST-LABEL: extract_extract01_v2f64_fadd_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x0 = extractelement <2 x double> %x, i32 0			%x0 = extractelement <2 x double> %x, i32 0
	Show All 12 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v2f64_fadd_f64_commute:			; SSE3-FAST-LABEL: extract_extract01_v2f64_fadd_f64_commute:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v2f64_fadd_f64_commute:			; AVX-SLOW-LABEL: extract_extract01_v2f64_fadd_f64_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v2f64_fadd_f64_commute:			; AVX-FAST-LABEL: extract_extract01_v2f64_fadd_f64_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x0 = extractelement <2 x double> %x, i32 0			%x0 = extractelement <2 x double> %x, i32 0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v4f32_fsub_f32:			; SSE3-FAST-LABEL: extract_extract23_v4f32_fsub_f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v4f32_fsub_f32:			; AVX-SLOW-LABEL: extract_extract23_v4f32_fsub_f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vsubss %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vsubss %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v4f32_fsub_f32:			; AVX-FAST-LABEL: extract_extract23_v4f32_fsub_f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX-FAST-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	Show All 29 Lines
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE3-NEXT: subss %xmm1, %xmm0			; SSE3-NEXT: subss %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: extract_extract23_v4f32_fsub_f32_commute:			; AVX-LABEL: extract_extract23_v4f32_fsub_f32_commute:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0 = extractelement <4 x float> %x, i32 2			%x0 = extractelement <4 x float> %x, i32 2
	%x1 = extractelement <4 x float> %x, i32 3			%x1 = extractelement <4 x float> %x, i32 3
	%x01 = fsub float %x1, %x0			%x01 = fsub float %x1, %x0
	ret float %x01			ret float %x01
	}			}

	define double @extract_extract01_v2f64_fsub_f64(<2 x double> %x) {			define double @extract_extract01_v2f64_fsub_f64(<2 x double> %x) {
	; SSE3-SLOW-LABEL: extract_extract01_v2f64_fsub_f64:			; SSE3-SLOW-LABEL: extract_extract01_v2f64_fsub_f64:
	; SSE3-SLOW: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-SLOW-NEXT: movapd %xmm0, %xmm1			; SSE3-SLOW-NEXT: movapd %xmm0, %xmm1
	; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-SLOW-NEXT: subsd %xmm1, %xmm0			; SSE3-SLOW-NEXT: subsd %xmm1, %xmm0
	; SSE3-SLOW-NEXT: retq			; SSE3-SLOW-NEXT: retq
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v2f64_fsub_f64:			; SSE3-FAST-LABEL: extract_extract01_v2f64_fsub_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v2f64_fsub_f64:			; AVX-SLOW-LABEL: extract_extract01_v2f64_fsub_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v2f64_fsub_f64:			; AVX-FAST-LABEL: extract_extract01_v2f64_fsub_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x0 = extractelement <2 x double> %x, i32 0			%x0 = extractelement <2 x double> %x, i32 0
	%x1 = extractelement <2 x double> %x, i32 1			%x1 = extractelement <2 x double> %x, i32 1
	%x01 = fsub double %x0, %x1			%x01 = fsub double %x0, %x1
	ret double %x01			ret double %x01
	}			}

	define double @extract_extract01_v2f64_fsub_f64_commute(<2 x double> %x) {			define double @extract_extract01_v2f64_fsub_f64_commute(<2 x double> %x) {
	; SSE3-LABEL: extract_extract01_v2f64_fsub_f64_commute:			; SSE3-LABEL: extract_extract01_v2f64_fsub_f64_commute:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movapd %xmm0, %xmm1			; SSE3-NEXT: movapd %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: subsd %xmm0, %xmm1			; SSE3-NEXT: subsd %xmm0, %xmm1
	; SSE3-NEXT: movapd %xmm1, %xmm0			; SSE3-NEXT: movapd %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: extract_extract01_v2f64_fsub_f64_commute:			; AVX-LABEL: extract_extract01_v2f64_fsub_f64_commute:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0 = extractelement <2 x double> %x, i32 0			%x0 = extractelement <2 x double> %x, i32 0
	%x1 = extractelement <2 x double> %x, i32 1			%x1 = extractelement <2 x double> %x, i32 1
	%x01 = fsub double %x1, %x0			%x01 = fsub double %x1, %x0
	ret double %x01			ret double %x01
	}			}

	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v8f32_fadd_f32:			; SSE3-FAST-LABEL: extract_extract23_v8f32_fadd_f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v8f32_fadd_f32:			; AVX-SLOW-LABEL: extract_extract23_v8f32_fadd_f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v8f32_fadd_f32:			; AVX-FAST-LABEL: extract_extract23_v8f32_fadd_f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	Show All 19 Lines
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm1, %xmm1			; SSE3-FAST-NEXT: haddps %xmm1, %xmm1
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract67_v8f32_fadd_f32:			; AVX-SLOW-LABEL: extract_extract67_v8f32_fadd_f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract67_v8f32_fadd_f32:			; AVX-FAST-LABEL: extract_extract67_v8f32_fadd_f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v8f32_fadd_f32_commute:			; SSE3-FAST-LABEL: extract_extract23_v8f32_fadd_f32_commute:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v8f32_fadd_f32_commute:			; AVX-SLOW-LABEL: extract_extract23_v8f32_fadd_f32_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v8f32_fadd_f32_commute:			; AVX-FAST-LABEL: extract_extract23_v8f32_fadd_f32_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	Show All 19 Lines
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddps %xmm1, %xmm1			; SSE3-FAST-NEXT: haddps %xmm1, %xmm1
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract67_v8f32_fadd_f32_commute:			; AVX-SLOW-LABEL: extract_extract67_v8f32_fadd_f32_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract67_v8f32_fadd_f32_commute:			; AVX-FAST-LABEL: extract_extract67_v8f32_fadd_f32_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	Show All 17 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v4f64_fadd_f64:			; SSE3-FAST-LABEL: extract_extract01_v4f64_fadd_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v4f64_fadd_f64:			; AVX-SLOW-LABEL: extract_extract01_v4f64_fadd_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v4f64_fadd_f64:			; AVX-FAST-LABEL: extract_extract01_v4f64_fadd_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	Show All 16 Lines
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: movapd %xmm1, %xmm0			; SSE3-FAST-NEXT: movapd %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddpd %xmm1, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm1, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v4f64_fadd_f64:			; AVX-SLOW-LABEL: extract_extract23_v4f64_fadd_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v4f64_fadd_f64:			; AVX-FAST-LABEL: extract_extract23_v4f64_fadd_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	Show All 15 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v4f64_fadd_f64_commute:			; SSE3-FAST-LABEL: extract_extract01_v4f64_fadd_f64_commute:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v4f64_fadd_f64_commute:			; AVX-SLOW-LABEL: extract_extract01_v4f64_fadd_f64_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v4f64_fadd_f64_commute:			; AVX-FAST-LABEL: extract_extract01_v4f64_fadd_f64_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	Show All 16 Lines
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: movapd %xmm1, %xmm0			; SSE3-FAST-NEXT: movapd %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddpd %xmm1, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm1, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v4f64_fadd_f64_commute:			; AVX-SLOW-LABEL: extract_extract23_v4f64_fadd_f64_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v4f64_fadd_f64_commute:			; AVX-FAST-LABEL: extract_extract23_v4f64_fadd_f64_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SSE3-FAST-LABEL: extract_extract23_v8f32_fsub_f32:			; SSE3-FAST-LABEL: extract_extract23_v8f32_fsub_f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
	; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE3-FAST-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract23_v8f32_fsub_f32:			; AVX-SLOW-LABEL: extract_extract23_v8f32_fsub_f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vsubss %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vsubss %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract23_v8f32_fsub_f32:			; AVX-FAST-LABEL: extract_extract23_v8f32_fsub_f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v4f64_fsub_f64:			; SSE3-FAST-LABEL: extract_extract01_v4f64_fsub_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v4f64_fsub_f64:			; AVX-SLOW-LABEL: extract_extract01_v4f64_fsub_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v4f64_fsub_f64:			; AVX-FAST-LABEL: extract_extract01_v4f64_fsub_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	Show All 12 Lines
	; SSE3-NEXT: movapd %xmm0, %xmm1			; SSE3-NEXT: movapd %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: subsd %xmm0, %xmm1			; SSE3-NEXT: subsd %xmm0, %xmm1
	; SSE3-NEXT: movapd %xmm1, %xmm0			; SSE3-NEXT: movapd %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: extract_extract01_v4f64_fsub_f64_commute:			; AVX-LABEL: extract_extract01_v4f64_fsub_f64_commute:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0 = extractelement <4 x double> %x, i32 0			%x0 = extractelement <4 x double> %x, i32 0
	%x1 = extractelement <4 x double> %x, i32 1			%x1 = extractelement <4 x double> %x, i32 1
	%x01 = fsub double %x1, %x0			%x01 = fsub double %x1, %x0
	ret double %x01			ret double %x01
	}			}
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v8f64_fadd_f64:			; SSE3-FAST-LABEL: extract_extract01_v8f64_fadd_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v8f64_fadd_f64:			; AVX-SLOW-LABEL: extract_extract01_v8f64_fadd_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v8f64_fadd_f64:			; AVX-FAST-LABEL: extract_extract01_v8f64_fadd_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	Show All 14 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v8f64_fadd_f64_commute:			; SSE3-FAST-LABEL: extract_extract01_v8f64_fadd_f64_commute:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v8f64_fadd_f64_commute:			; AVX-SLOW-LABEL: extract_extract01_v8f64_fadd_f64_commute:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v8f64_fadd_f64_commute:			; AVX-FAST-LABEL: extract_extract01_v8f64_fadd_f64_commute:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	;			;
	; SSE3-FAST-LABEL: extract_extract01_v8f64_fsub_f64:			; SSE3-FAST-LABEL: extract_extract01_v8f64_fsub_f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0			; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: extract_extract01_v8f64_fsub_f64:			; AVX-SLOW-LABEL: extract_extract01_v8f64_fsub_f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vsubsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: extract_extract01_v8f64_fsub_f64:			; AVX-FAST-LABEL: extract_extract01_v8f64_fsub_f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	Show All 10 Lines
	; SSE3-NEXT: movapd %xmm0, %xmm1			; SSE3-NEXT: movapd %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: subsd %xmm0, %xmm1			; SSE3-NEXT: subsd %xmm0, %xmm1
	; SSE3-NEXT: movapd %xmm1, %xmm0			; SSE3-NEXT: movapd %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: extract_extract01_v8f64_fsub_f64_commute:			; AVX-LABEL: extract_extract01_v8f64_fsub_f64_commute:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vsubsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0 = extractelement <8 x double> %x, i32 0			%x0 = extractelement <8 x double> %x, i32 0
	%x1 = extractelement <8 x double> %x, i32 1			%x1 = extractelement <8 x double> %x, i32 1
	%x01 = fsub double %x1, %x0			%x01 = fsub double %x1, %x0
	ret double %x01			ret double %x01
	}			}
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; SSE3-FAST-NEXT: haddps %xmm2, %xmm2			; SSE3-FAST-NEXT: haddps %xmm2, %xmm2
	; SSE3-FAST-NEXT: addss %xmm2, %xmm0			; SSE3-FAST-NEXT: addss %xmm2, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v8f32:			; AVX-SLOW-LABEL: fadd_reduce_v8f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v8f32:			; AVX-FAST-LABEL: fadd_reduce_v8f32:
	Show All 25 Lines
	; SSE3-FAST-NEXT: haddpd %xmm2, %xmm2			; SSE3-FAST-NEXT: haddpd %xmm2, %xmm2
	; SSE3-FAST-NEXT: addsd %xmm2, %xmm0			; SSE3-FAST-NEXT: addsd %xmm2, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v4f64:			; AVX-SLOW-LABEL: fadd_reduce_v4f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v4f64:			; AVX-FAST-LABEL: fadd_reduce_v4f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: hadd32_4:			; AVX-SLOW-LABEL: hadd32_4:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: hadd32_4:			; AVX-FAST-LABEL: hadd32_4:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%x227 = fadd <4 x float> %x225, %x226			%x227 = fadd <4 x float> %x225, %x226
	%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <4 x float> %x227, %x228			%x229 = fadd <4 x float> %x227, %x228
	%x230 = extractelement <4 x float> %x229, i32 0			%x230 = extractelement <4 x float> %x229, i32 0
	Show All 15 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: hadd32_8:			; AVX-SLOW-LABEL: hadd32_8:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: hadd32_8:			; AVX-FAST-LABEL: hadd32_8:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <8 x float> %x225, %x226			%x227 = fadd <8 x float> %x225, %x226
	%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <8 x float> %x227, %x228			%x229 = fadd <8 x float> %x227, %x228
	Show All 16 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: hadd32_16:			; AVX-SLOW-LABEL: hadd32_16:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: hadd32_16:			; AVX-FAST-LABEL: hadd32_16:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <16 x float> %x225, %x226			%x227 = fadd <16 x float> %x225, %x226
	%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <16 x float> %x227, %x228			%x229 = fadd <16 x float> %x227, %x228
	%x230 = extractelement <16 x float> %x229, i32 0			%x230 = extractelement <16 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_4_optsize(<4 x float> %x225) optsize {			define float @hadd32_4_optsize(<4 x float> %x225) optsize {
	; SSE3-LABEL: hadd32_4_optsize:			; SSE3-LABEL: hadd32_4_optsize:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_4_optsize:			; AVX-LABEL: hadd32_4_optsize:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%x227 = fadd <4 x float> %x225, %x226			%x227 = fadd <4 x float> %x225, %x226
	%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <4 x float> %x227, %x228			%x229 = fadd <4 x float> %x227, %x228
	%x230 = extractelement <4 x float> %x229, i32 0			%x230 = extractelement <4 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_8_optsize(<8 x float> %x225) optsize {			define float @hadd32_8_optsize(<8 x float> %x225) optsize {
	; SSE3-LABEL: hadd32_8_optsize:			; SSE3-LABEL: hadd32_8_optsize:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_8_optsize:			; AVX-LABEL: hadd32_8_optsize:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <8 x float> %x225, %x226			%x227 = fadd <8 x float> %x225, %x226
	%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <8 x float> %x227, %x228			%x229 = fadd <8 x float> %x227, %x228
	%x230 = extractelement <8 x float> %x229, i32 0			%x230 = extractelement <8 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_16_optsize(<16 x float> %x225) optsize {			define float @hadd32_16_optsize(<16 x float> %x225) optsize {
	; SSE3-LABEL: hadd32_16_optsize:			; SSE3-LABEL: hadd32_16_optsize:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_16_optsize:			; AVX-LABEL: hadd32_16_optsize:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <16 x float> %x225, %x226			%x227 = fadd <16 x float> %x225, %x226
	%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <16 x float> %x227, %x228			%x229 = fadd <16 x float> %x227, %x228
	%x230 = extractelement <16 x float> %x229, i32 0			%x230 = extractelement <16 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_4_pgso(<4 x float> %x225) !prof !14 {			define float @hadd32_4_pgso(<4 x float> %x225) !prof !14 {
	; SSE3-LABEL: hadd32_4_pgso:			; SSE3-LABEL: hadd32_4_pgso:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_4_pgso:			; AVX-LABEL: hadd32_4_pgso:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%x226 = shufflevector <4 x float> %x225, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%x227 = fadd <4 x float> %x225, %x226			%x227 = fadd <4 x float> %x225, %x226
	%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <4 x float> %x227, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <4 x float> %x227, %x228			%x229 = fadd <4 x float> %x227, %x228
	%x230 = extractelement <4 x float> %x229, i32 0			%x230 = extractelement <4 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_8_pgso(<8 x float> %x225) !prof !14 {			define float @hadd32_8_pgso(<8 x float> %x225) !prof !14 {
	; SSE3-LABEL: hadd32_8_pgso:			; SSE3-LABEL: hadd32_8_pgso:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_8_pgso:			; AVX-LABEL: hadd32_8_pgso:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <8 x float> %x225, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <8 x float> %x225, %x226			%x227 = fadd <8 x float> %x225, %x226
	%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <8 x float> %x227, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <8 x float> %x227, %x228			%x229 = fadd <8 x float> %x227, %x228
	%x230 = extractelement <8 x float> %x229, i32 0			%x230 = extractelement <8 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @hadd32_16_pgso(<16 x float> %x225) !prof !14 {			define float @hadd32_16_pgso(<16 x float> %x225) !prof !14 {
	; SSE3-LABEL: hadd32_16_pgso:			; SSE3-LABEL: hadd32_16_pgso:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movaps %xmm0, %xmm1			; SSE3-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-NEXT: addps %xmm1, %xmm0			; SSE3-NEXT: addps %xmm1, %xmm0
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-NEXT: haddps %xmm0, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hadd32_16_pgso:			; AVX-LABEL: hadd32_16_pgso:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <16 x float> %x225, %x226			%x227 = fadd <16 x float> %x225, %x226
	%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <16 x float> %x227, %x228			%x229 = fadd <16 x float> %x227, %x228
	Show All 16 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: partial_reduction_fadd_v8f32:			; AVX-SLOW-LABEL: partial_reduction_fadd_v8f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: partial_reduction_fadd_v8f32:			; AVX-FAST-LABEL: partial_reduction_fadd_v8f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	Show All 27 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: partial_reduction_fadd_v8f32_wrong_flags:			; AVX-SLOW-LABEL: partial_reduction_fadd_v8f32_wrong_flags:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: partial_reduction_fadd_v8f32_wrong_flags:			; AVX-FAST-LABEL: partial_reduction_fadd_v8f32_wrong_flags:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x23 = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x23 = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0213 = fadd fast <8 x float> %x, %x23			%x0213 = fadd fast <8 x float> %x, %x23
	%x13 = shufflevector <8 x float> %x0213, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x13 = shufflevector <8 x float> %x0213, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0123 = fadd ninf nnan <8 x float> %x0213, %x13			%x0123 = fadd ninf nnan <8 x float> %x0213, %x13
	Show All 16 Lines
	; SSE3-FAST-NEXT: movaps %xmm0, %xmm1			; SSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: partial_reduction_fadd_v16f32:			; AVX-SLOW-LABEL: partial_reduction_fadd_v16f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: partial_reduction_fadd_v16f32:			; AVX-FAST-LABEL: partial_reduction_fadd_v16f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	Show All 28 Lines

llvm/test/CodeGen/X86/half.ll

	Show First 20 Lines • Show All 1,702 Lines • ▼ Show 20 Lines
	; BWON-F16C-NEXT: vcvtph2ps %xmm3, %xmm3			; BWON-F16C-NEXT: vcvtph2ps %xmm3, %xmm3
	; BWON-F16C-NEXT: vucomiss %xmm2, %xmm3			; BWON-F16C-NEXT: vucomiss %xmm2, %xmm3
	; BWON-F16C-NEXT: ja .LBB26_6			; BWON-F16C-NEXT: ja .LBB26_6
	; BWON-F16C-NEXT: # %bb.5:			; BWON-F16C-NEXT: # %bb.5:
	; BWON-F16C-NEXT: vmovaps %xmm2, %xmm3			; BWON-F16C-NEXT: vmovaps %xmm2, %xmm3
	; BWON-F16C-NEXT: .LBB26_6:			; BWON-F16C-NEXT: .LBB26_6:
	; BWON-F16C-NEXT: vcvtps2ph $4, %xmm3, %xmm2			; BWON-F16C-NEXT: vcvtps2ph $4, %xmm3, %xmm2
	; BWON-F16C-NEXT: vmovd %xmm2, %edx			; BWON-F16C-NEXT: vmovd %xmm2, %edx
	; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; BWON-F16C-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; BWON-F16C-NEXT: vpextrw $0, %xmm2, %esi			; BWON-F16C-NEXT: vpextrw $0, %xmm2, %esi
	; BWON-F16C-NEXT: movzwl %si, %esi			; BWON-F16C-NEXT: movzwl %si, %esi
	; BWON-F16C-NEXT: vmovd %esi, %xmm2			; BWON-F16C-NEXT: vmovd %esi, %xmm2
	; BWON-F16C-NEXT: vcvtph2ps %xmm2, %xmm2			; BWON-F16C-NEXT: vcvtph2ps %xmm2, %xmm2
	; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; BWON-F16C-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; BWON-F16C-NEXT: vpextrw $0, %xmm3, %esi			; BWON-F16C-NEXT: vpextrw $0, %xmm3, %esi
	; BWON-F16C-NEXT: movzwl %si, %esi			; BWON-F16C-NEXT: movzwl %si, %esi
	; BWON-F16C-NEXT: vmovd %esi, %xmm3			; BWON-F16C-NEXT: vmovd %esi, %xmm3
	; BWON-F16C-NEXT: vcvtph2ps %xmm3, %xmm3			; BWON-F16C-NEXT: vcvtph2ps %xmm3, %xmm3
	; BWON-F16C-NEXT: vucomiss %xmm2, %xmm3			; BWON-F16C-NEXT: vucomiss %xmm2, %xmm3
	; BWON-F16C-NEXT: ja .LBB26_8			; BWON-F16C-NEXT: ja .LBB26_8
	; BWON-F16C-NEXT: # %bb.7:			; BWON-F16C-NEXT: # %bb.7:
	; BWON-F16C-NEXT: vmovaps %xmm2, %xmm3			; BWON-F16C-NEXT: vmovaps %xmm2, %xmm3
	▲ Show 20 Lines • Show All 430 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/horizontal-reduce-fadd.ll

	Show All 30 Lines
	; SSSE3-FAST-LABEL: PR37890_v4f32:			; SSSE3-FAST-LABEL: PR37890_v4f32:
	; SSSE3-FAST: # %bb.0:			; SSSE3-FAST: # %bb.0:
	; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: PR37890_v4f32:			; AVX1-SLOW-LABEL: PR37890_v4f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR37890_v4f32:			; AVX1-FAST-LABEL: PR37890_v4f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: PR37890_v4f32:			; AVX2-LABEL: PR37890_v4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%hi0 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 2, i32 3>			%hi0 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 2, i32 3>
	%lo0 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 1>			%lo0 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 1>
	%sum0 = fadd fast <2 x float> %lo0, %hi0			%sum0 = fadd fast <2 x float> %lo0, %hi0
	%hi1 = shufflevector <2 x float> %sum0, <2 x float> undef, <2 x i32> <i32 1, i32 undef>			%hi1 = shufflevector <2 x float> %sum0, <2 x float> undef, <2 x i32> <i32 1, i32 undef>
	Show All 24 Lines
	; SSSE3-FAST-NEXT: addpd %xmm1, %xmm0			; SSSE3-FAST-NEXT: addpd %xmm1, %xmm0
	; SSSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: PR37890_v4f64:			; AVX1-SLOW-LABEL: PR37890_v4f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR37890_v4f64:			; AVX1-FAST-LABEL: PR37890_v4f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: PR37890_v4f64:			; AVX2-LABEL: PR37890_v4f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%hi0 = shufflevector <4 x double> %a, <4 x double> undef, <2 x i32> <i32 2, i32 3>			%hi0 = shufflevector <4 x double> %a, <4 x double> undef, <2 x i32> <i32 2, i32 3>
	%lo0 = shufflevector <4 x double> %a, <4 x double> undef, <2 x i32> <i32 0, i32 1>			%lo0 = shufflevector <4 x double> %a, <4 x double> undef, <2 x i32> <i32 0, i32 1>
	%sum0 = fadd fast <2 x double> %lo0, %hi0			%sum0 = fadd fast <2 x double> %lo0, %hi0
	%hi1 = shufflevector <2 x double> %sum0, <2 x double> undef, <2 x i32> <i32 1, i32 undef>			%hi1 = shufflevector <2 x double> %sum0, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
	%sum1 = fadd fast <2 x double> %sum0, %hi1			%sum1 = fadd fast <2 x double> %sum0, %hi1
	Show All 29 Lines
	; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: PR37890_v8f32:			; AVX1-SLOW-LABEL: PR37890_v8f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR37890_v8f32:			; AVX1-FAST-LABEL: PR37890_v8f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: PR37890_v8f32:			; AVX2-LABEL: PR37890_v8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%hi0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%hi0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%lo0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%lo0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%sum0 = fadd fast <4 x float> %lo0, %hi0			%sum0 = fadd fast <4 x float> %lo0, %hi0
	Show All 35 Lines
	; SSSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: PR37890_v8f64:			; AVX1-SLOW-LABEL: PR37890_v8f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR37890_v8f64:			; AVX1-FAST-LABEL: PR37890_v8f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: PR37890_v8f64:			; AVX2-LABEL: PR37890_v8f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%hi0 = shufflevector <8 x double> %a, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%hi0 = shufflevector <8 x double> %a, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%lo0 = shufflevector <8 x double> %a, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%lo0 = shufflevector <8 x double> %a, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%sum0 = fadd fast <4 x double> %lo0, %hi0			%sum0 = fadd fast <4 x double> %lo0, %hi0
	%hi1 = shufflevector <4 x double> %sum0, <4 x double> undef, <2 x i32> <i32 2, i32 3>			%hi1 = shufflevector <4 x double> %sum0, <4 x double> undef, <2 x i32> <i32 2, i32 3>
	%lo1 = shufflevector <4 x double> %sum0, <4 x double> undef, <2 x i32> <i32 0, i32 1>			%lo1 = shufflevector <4 x double> %sum0, <4 x double> undef, <2 x i32> <i32 0, i32 1>
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: PR37890_v16f32:			; AVX1-SLOW-LABEL: PR37890_v16f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: PR37890_v16f32:			; AVX1-FAST-LABEL: PR37890_v16f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: PR37890_v16f32:			; AVX2-LABEL: PR37890_v16f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%hi0 = shufflevector <16 x float> %a, <16 x float> undef, <8 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%hi0 = shufflevector <16 x float> %a, <16 x float> undef, <8 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%lo0 = shufflevector <16 x float> %a, <16 x float> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%lo0 = shufflevector <16 x float> %a, <16 x float> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%sum0 = fadd fast <8 x float> %lo0, %hi0			%sum0 = fadd fast <8 x float> %lo0, %hi0
	Show All 11 Lines

llvm/test/CodeGen/X86/horizontal-sum.ll

	Show First 20 Lines • Show All 224 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vhaddps %xmm5, %xmm5, %xmm4			; AVX1-SLOW-NEXT: vhaddps %xmm5, %xmm5, %xmm4
	; AVX1-SLOW-NEXT: vhaddps %xmm3, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vhaddps %xmm3, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,1]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,1]
	; AVX1-SLOW-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]			; AVX1-SLOW-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]
	; AVX1-SLOW-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]			; AVX1-SLOW-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm3, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm3, %xmm1
	; AVX1-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-SLOW-NEXT: vhaddps %xmm7, %xmm6, %xmm2			; AVX1-SLOW-NEXT: vhaddps %xmm7, %xmm6, %xmm2
	; AVX1-SLOW-NEXT: vhaddps %xmm2, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vhaddps %xmm2, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: pair_sum_v8f32_v4f32:			; AVX1-FAST-LABEL: pair_sum_v8f32_v4f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm4, %xmm4, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm4, %xmm4, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm5, %xmm5, %xmm4			; AVX1-FAST-NEXT: vhaddps %xmm5, %xmm5, %xmm4
	; AVX1-FAST-NEXT: vhaddps %xmm3, %xmm2, %xmm2			; AVX1-FAST-NEXT: vhaddps %xmm3, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,1]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,1]
	; AVX1-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]			; AVX1-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]
	; AVX1-FAST-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]			; AVX1-FAST-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm3, %xmm1			; AVX1-FAST-NEXT: vaddps %xmm1, %xmm3, %xmm1
	; AVX1-FAST-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-FAST-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-FAST-NEXT: vhaddps %xmm7, %xmm6, %xmm2			; AVX1-FAST-NEXT: vhaddps %xmm7, %xmm6, %xmm2
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm2, %xmm2			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-FAST-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: pair_sum_v8f32_v4f32:			; AVX2-SLOW-LABEL: pair_sum_v8f32_v4f32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[1,3,1,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[1,3,1,3]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vhaddps %xmm4, %xmm4, %xmm1			; AVX2-SLOW-NEXT: vhaddps %xmm4, %xmm4, %xmm1
	; AVX2-SLOW-NEXT: vhaddps %xmm5, %xmm5, %xmm4			; AVX2-SLOW-NEXT: vhaddps %xmm5, %xmm5, %xmm4
	; AVX2-SLOW-NEXT: vhaddps %xmm3, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vhaddps %xmm3, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,3]
	; AVX2-SLOW-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]			; AVX2-SLOW-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]
	; AVX2-SLOW-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]			; AVX2-SLOW-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX2-SLOW-NEXT: vaddps %xmm1, %xmm3, %xmm1			; AVX2-SLOW-NEXT: vaddps %xmm1, %xmm3, %xmm1
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX2-SLOW-NEXT: vhaddps %xmm7, %xmm6, %xmm2			; AVX2-SLOW-NEXT: vhaddps %xmm7, %xmm6, %xmm2
	; AVX2-SLOW-NEXT: vhaddps %xmm2, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vhaddps %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]			; AVX2-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: pair_sum_v8f32_v4f32:			; AVX2-FAST-LABEL: pair_sum_v8f32_v4f32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0			; AVX2-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vhaddps %xmm4, %xmm4, %xmm1			; AVX2-FAST-NEXT: vhaddps %xmm4, %xmm4, %xmm1
	; AVX2-FAST-NEXT: vhaddps %xmm5, %xmm5, %xmm4			; AVX2-FAST-NEXT: vhaddps %xmm5, %xmm5, %xmm4
	; AVX2-FAST-NEXT: vhaddps %xmm3, %xmm2, %xmm2			; AVX2-FAST-NEXT: vhaddps %xmm3, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,3]			; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,3]
	; AVX2-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]			; AVX2-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]			; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]
	; AVX2-FAST-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]			; AVX2-FAST-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX2-FAST-NEXT: vaddps %xmm1, %xmm3, %xmm1			; AVX2-FAST-NEXT: vaddps %xmm1, %xmm3, %xmm1
	; AVX2-FAST-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX2-FAST-NEXT: vhaddps %xmm7, %xmm6, %xmm2			; AVX2-FAST-NEXT: vhaddps %xmm7, %xmm6, %xmm2
	; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm2, %xmm2			; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]			; AVX2-FAST-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[2]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	%9 = shufflevector <4 x float> %0, <4 x float> poison, <2 x i32> <i32 0, i32 2>			%9 = shufflevector <4 x float> %0, <4 x float> poison, <2 x i32> <i32 0, i32 2>
	%10 = shufflevector <4 x float> %0, <4 x float> poison, <2 x i32> <i32 1, i32 3>			%10 = shufflevector <4 x float> %0, <4 x float> poison, <2 x i32> <i32 1, i32 3>
	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,0]			; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,0]
	; SSSE3-FAST-NEXT: movaps %xmm4, %xmm0			; SSSE3-FAST-NEXT: movaps %xmm4, %xmm0
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: sequential_sum_v4f32_v4f32:			; AVX-SLOW-LABEL: sequential_sum_v4f32_v4f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm4			; AVX-SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm4
	; AVX-SLOW-NEXT: vunpckhps {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX-SLOW-NEXT: vunpckhps {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm4[0,2],xmm1[0,1]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm4[0,2],xmm1[0,1]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[3,3]
	; AVX-SLOW-NEXT: vblendps {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]			; AVX-SLOW-NEXT: vblendps {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX-SLOW-NEXT: vaddps %xmm3, %xmm4, %xmm4			; AVX-SLOW-NEXT: vaddps %xmm3, %xmm4, %xmm4
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[0]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[0]
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1
	; AVX-SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3]			; AVX-SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: sequential_sum_v4f32_v4f32:			; AVX-FAST-LABEL: sequential_sum_v4f32_v4f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm4			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm4
	; AVX-FAST-NEXT: vunpckhps {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX-FAST-NEXT: vunpckhps {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
	; AVX-FAST-NEXT: vhaddps %xmm2, %xmm2, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm2, %xmm2, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm4[0,2],xmm1[0,1]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm4[0,2],xmm1[0,1]
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[3,3]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[3,3]
	; AVX-FAST-NEXT: vblendps {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]			; AVX-FAST-NEXT: vblendps {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]
	; AVX-FAST-NEXT: vhaddps %xmm3, %xmm3, %xmm4			; AVX-FAST-NEXT: vhaddps %xmm3, %xmm3, %xmm4
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[0]			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[0]
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]
	▲ Show 20 Lines • Show All 266 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; SSSE3-FAST-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSSE3-FAST-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSSE3-FAST-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: reduction_sum_v4f32_v4f32:			; AVX-SLOW-LABEL: reduction_sum_v4f32_v4f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm4, %xmm0, %xmm4			; AVX-SLOW-NEXT: vaddss %xmm4, %xmm0, %xmm4
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm5 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm5 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddss %xmm5, %xmm4, %xmm4			; AVX-SLOW-NEXT: vaddss %xmm5, %xmm4, %xmm4
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm0, %xmm4, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm0, %xmm4, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm4, %xmm1, %xmm4			; AVX-SLOW-NEXT: vaddss %xmm4, %xmm1, %xmm4
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddss %xmm5, %xmm4, %xmm4			; AVX-SLOW-NEXT: vaddss %xmm5, %xmm4, %xmm4
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm4, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm4, %xmm1
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm2, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm2, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm2[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm2[1,0]
	; AVX-SLOW-NEXT: vaddss %xmm4, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm4, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm3[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm3[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm3, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm3, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm3[3,3,3,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm3[3,3,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: reduction_sum_v4f32_v4f32:			; AVX-FAST-LABEL: reduction_sum_v4f32_v4f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm4			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm4
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm5 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm5 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddss %xmm5, %xmm4, %xmm4			; AVX-FAST-NEXT: vaddss %xmm5, %xmm4, %xmm4
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-FAST-NEXT: vaddss %xmm0, %xmm4, %xmm0			; AVX-FAST-NEXT: vaddss %xmm0, %xmm4, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm4			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm4
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
	; AVX-FAST-NEXT: vaddss %xmm5, %xmm4, %xmm4			; AVX-FAST-NEXT: vaddss %xmm5, %xmm4, %xmm4
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-FAST-NEXT: vaddss %xmm1, %xmm4, %xmm1			; AVX-FAST-NEXT: vaddss %xmm1, %xmm4, %xmm1
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; AVX-FAST-NEXT: vhaddps %xmm2, %xmm2, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm2, %xmm2, %xmm1
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm4 = xmm2[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm4 = xmm2[1,0]
	; AVX-FAST-NEXT: vaddss %xmm4, %xmm1, %xmm1			; AVX-FAST-NEXT: vaddss %xmm4, %xmm1, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]
	; AVX-FAST-NEXT: vhaddps %xmm3, %xmm3, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm3, %xmm3, %xmm1
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm3[3,3,3,3]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm3[3,3,3,3]
	; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]			; AVX-FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%5 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %0)			%5 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %0)
	%6 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %1)			%6 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %1)
	%7 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %2)			%7 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %2)
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm3[1]			; SSSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm3[1]
	; SSSE3-FAST-NEXT: addps %xmm3, %xmm2			; SSSE3-FAST-NEXT: addps %xmm3, %xmm2
	; SSSE3-FAST-NEXT: haddps %xmm2, %xmm1			; SSSE3-FAST-NEXT: haddps %xmm2, %xmm1
	; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: reduction_sum_v4f32_v4f32_reassoc:			; AVX-SLOW-LABEL: reduction_sum_v4f32_v4f32_reassoc:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm4, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm4, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm4, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm4, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm2[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm2[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm4, %xmm2, %xmm2			; AVX-SLOW-NEXT: vaddps %xmm4, %xmm2, %xmm2
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm4, %xmm3, %xmm3			; AVX-SLOW-NEXT: vaddps %xmm4, %xmm3, %xmm3
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm3[1,1],xmm2[1,1]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm3[1,1],xmm2[1,1]
	; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm5 = xmm0[1],xmm1[1],zero,zero			; AVX-SLOW-NEXT: vinsertps {{.*#+}} xmm5 = xmm0[1],xmm1[1],zero,zero
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm5[0,1],xmm4[2,0]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm5[0,1],xmm4[2,0]
	; AVX-SLOW-NEXT: vmovlhps {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX-SLOW-NEXT: vmovlhps {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX-SLOW-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX-SLOW-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
	; AVX-SLOW-NEXT: vaddps %xmm4, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm4, %xmm0, %xmm0
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: reduction_sum_v4f32_v4f32_reassoc:			; AVX-FAST-LABEL: reduction_sum_v4f32_v4f32_reassoc:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm4, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm4, %xmm0, %xmm0
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-FAST-NEXT: vaddps %xmm4, %xmm1, %xmm1			; AVX-FAST-NEXT: vaddps %xmm4, %xmm1, %xmm1
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm2, %xmm1			; AVX-FAST-NEXT: vaddps %xmm1, %xmm2, %xmm1
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX-FAST-NEXT: vaddps %xmm2, %xmm3, %xmm2			; AVX-FAST-NEXT: vaddps %xmm2, %xmm3, %xmm2
	; AVX-FAST-NEXT: vhaddps %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%5 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %0)			%5 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %0)
	%6 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %1)			%6 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %1)
	%7 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %2)			%7 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %2)
	%8 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %3)			%8 = call reassoc float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %3)
	▲ Show 20 Lines • Show All 116 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	}			}

	define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {			define <4 x double> @signbits_sext_shuffle_sitofp(<4 x i32> %a0, <4 x i64> %a1) nounwind {
	; X86-LABEL: signbits_sext_shuffle_sitofp:			; X86-LABEL: signbits_sext_shuffle_sitofp:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero			; X86-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
	; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; X86-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]			; X86-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; X86-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X86-NEXT: vcvtdq2pd %xmm0, %ymm0			; X86-NEXT: vcvtdq2pd %xmm0, %ymm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:			; X64-AVX1-LABEL: signbits_sext_shuffle_sitofp:
	; X64-AVX1: # %bb.0:			; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero			; X64-AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
	; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; X64-AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]			; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; X64-AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0			; X64-AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:			; X64-AVX2-LABEL: signbits_sext_shuffle_sitofp:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X64-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	▲ Show 20 Lines • Show All 488 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/load-partial-dot-product.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: dot3_float4:			; AVX-LABEL: dot3_float4:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovups (%rdi), %xmm0			; AVX-NEXT: vmovups (%rdi), %xmm0
	; AVX-NEXT: vmulps (%rsi), %xmm0, %xmm0			; AVX-NEXT: vmulps (%rsi), %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0123 = load <4 x float>, ptr %a0, align 4			%x0123 = load <4 x float>, ptr %a0, align 4
	%y0123 = load <4 x float>, ptr %a1, align 4			%y0123 = load <4 x float>, ptr %a1, align 4
	%mul0123 = fmul <4 x float> %x0123, %y0123			%mul0123 = fmul <4 x float> %x0123, %y0123
	%mul0 = extractelement <4 x float> %mul0123, i32 0			%mul0 = extractelement <4 x float> %mul0123, i32 0
	%mul1 = extractelement <4 x float> %mul0123, i32 1			%mul1 = extractelement <4 x float> %mul0123, i32 1
	Show All 38 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: dot3_float4_as_float3:			; AVX-LABEL: dot3_float4_as_float3:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovups (%rdi), %xmm0			; AVX-NEXT: vmovups (%rdi), %xmm0
	; AVX-NEXT: vmulps (%rsi), %xmm0, %xmm0			; AVX-NEXT: vmulps (%rsi), %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x0123 = load <4 x float>, ptr %a0, align 4			%x0123 = load <4 x float>, ptr %a0, align 4
	%y0123 = load <4 x float>, ptr %a1, align 4			%y0123 = load <4 x float>, ptr %a1, align 4
	%x012 = shufflevector <4 x float> %x0123, <4 x float> undef, <3 x i32> <i32 0, i32 1, i32 2>			%x012 = shufflevector <4 x float> %x0123, <4 x float> undef, <3 x i32> <i32 0, i32 1, i32 2>
	%y012 = shufflevector <4 x float> %y0123, <4 x float> undef, <3 x i32> <i32 0, i32 1, i32 2>			%y012 = shufflevector <4 x float> %y0123, <4 x float> undef, <3 x i32> <i32 0, i32 1, i32 2>
	%mul012 = fmul <3 x float> %x012, %y012			%mul012 = fmul <3 x float> %x012, %y012
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX-LABEL: dot3_float3:			; AVX-LABEL: dot3_float3:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
	; AVX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]			; AVX-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x012 = load <3 x float>, ptr %a0, align 4			%x012 = load <3 x float>, ptr %a0, align 4
	%y012 = load <3 x float>, ptr %a1, align 4			%y012 = load <3 x float>, ptr %a1, align 4
	%mul012 = fmul <3 x float> %x012, %y012			%mul012 = fmul <3 x float> %x012, %y012
	%mul0 = extractelement <3 x float> %mul012, i32 0			%mul0 = extractelement <3 x float> %mul012, i32 0
	%mul1 = extractelement <3 x float> %mul012, i32 1			%mul1 = extractelement <3 x float> %mul012, i32 1
	▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/matrix-multiply.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show All 31 Lines
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; SSE-NEXT: mulps %xmm4, %xmm1			; SSE-NEXT: mulps %xmm4, %xmm1
	; SSE-NEXT: addps %xmm3, %xmm1			; SSE-NEXT: addps %xmm3, %xmm1
	; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_mul2x2_f32:			; AVX1-LABEL: test_mul2x2_f32:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: vmovsldup {{.*#+}} xmm3 = xmm1[0,0,2,2]			; AVX1-NEXT: vmovsldup {{.*#+}} xmm3 = xmm1[0,0,2,2]
	; AVX1-NEXT: vmulps %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vmulps %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX1-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX1-NEXT: vmulps %xmm4, %xmm2, %xmm4			; AVX1-NEXT: vmulps %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vaddps %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vaddps %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]
	; AVX1-NEXT: vmulps %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vmulps %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX1-NEXT: vmulps %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vmulps %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_mul2x2_f32:			; AVX2-LABEL: test_mul2x2_f32:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vbroadcastss %xmm1, %xmm3			; AVX2-NEXT: vbroadcastss %xmm1, %xmm3
	; AVX2-NEXT: vmulps %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vmulps %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX2-NEXT: vmulps %xmm4, %xmm2, %xmm4			; AVX2-NEXT: vmulps %xmm4, %xmm2, %xmm4
	; AVX2-NEXT: vaddps %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vaddps %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]			; AVX2-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]
	; AVX2-NEXT: vmulps %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vmulps %xmm4, %xmm0, %xmm0
	; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX2-NEXT: vmulps %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vmulps %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovlhps {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX2-NEXT: vmovlhps {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_mul2x2_f32:			; AVX512-LABEL: test_mul2x2_f32:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vbroadcastss %xmm1, %xmm3			; AVX512-NEXT: vbroadcastss %xmm1, %xmm3
	; AVX512-NEXT: vmulps %xmm3, %xmm0, %xmm3			; AVX512-NEXT: vmulps %xmm3, %xmm0, %xmm3
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm4, %xmm2, %xmm4			; AVX512-NEXT: vmulps %xmm4, %xmm2, %xmm4
	; AVX512-NEXT: vaddps %xmm4, %xmm3, %xmm3			; AVX512-NEXT: vaddps %xmm4, %xmm3, %xmm3
	; AVX512-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]			; AVX512-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,2,2,2]
	; AVX512-NEXT: vmulps %xmm4, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm4, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	Show All 36 Lines
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_mul2x2_f64:			; AVX-LABEL: test_mul2x2_f64:
	; AVX: # %bb.0: # %entry			; AVX: # %bb.0: # %entry
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX-NEXT: vmovddup {{.*#+}} xmm3 = xmm1[0,0]			; AVX-NEXT: vmovddup {{.*#+}} xmm3 = xmm1[0,0]
	; AVX-NEXT: vmulpd %xmm3, %xmm0, %xmm3			; AVX-NEXT: vmulpd %xmm3, %xmm0, %xmm3
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,1]
	; AVX-NEXT: vmulpd %xmm4, %xmm2, %xmm4			; AVX-NEXT: vmulpd %xmm4, %xmm2, %xmm4
	; AVX-NEXT: vaddpd %xmm4, %xmm3, %xmm3			; AVX-NEXT: vaddpd %xmm4, %xmm3, %xmm3
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]			; AVX-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]
	; AVX-NEXT: vmulpd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,1]
	; AVX-NEXT: vmulpd %xmm1, %xmm2, %xmm1			; AVX-NEXT: vmulpd %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%split = shufflevector <4 x double> %a0, <4 x double> poison, <2 x i32> <i32 0, i32 1>			%split = shufflevector <4 x double> %a0, <4 x double> poison, <2 x i32> <i32 0, i32 1>
	%split1 = shufflevector <4 x double> %a0, <4 x double> poison, <2 x i32> <i32 2, i32 3>			%split1 = shufflevector <4 x double> %a0, <4 x double> poison, <2 x i32> <i32 2, i32 3>
	%splat.splat = shufflevector <4 x double> %a1, <4 x double> undef, <2 x i32> zeroinitializer			%splat.splat = shufflevector <4 x double> %a1, <4 x double> undef, <2 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: valignd {{.*#+}} zmm2 = zmm0[3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2]			; AVX512F-NEXT: valignd {{.*#+}} zmm2 = zmm0[3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2]
	; AVX512F-NEXT: vbroadcastss %xmm1, %xmm3			; AVX512F-NEXT: vbroadcastss %xmm1, %xmm3
	; AVX512F-NEXT: vmulps %xmm3, %xmm0, %xmm3			; AVX512F-NEXT: vmulps %xmm3, %xmm0, %xmm3
	; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm6 = xmm1[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm6 = xmm1[1,1,3,3]
	; AVX512F-NEXT: vmulps %xmm6, %xmm2, %xmm4			; AVX512F-NEXT: vmulps %xmm6, %xmm2, %xmm4
	; AVX512F-NEXT: vaddps %xmm4, %xmm3, %xmm4			; AVX512F-NEXT: vaddps %xmm4, %xmm3, %xmm4
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm3 = xmm5[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm3 = xmm5[1,0]
	; AVX512F-NEXT: vshufps {{.*#+}} xmm7 = xmm1[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm7 = xmm1[3,3,3,3]
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm8 = xmm1[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm8 = xmm1[1,0]
	; AVX512F-NEXT: vshufps {{.*#+}} xmm9 = xmm1[2,2,2,2]			; AVX512F-NEXT: vshufps {{.*#+}} xmm9 = xmm1[2,2,2,2]
	; AVX512F-NEXT: vmulps %xmm3, %xmm9, %xmm9			; AVX512F-NEXT: vmulps %xmm3, %xmm9, %xmm9
	; AVX512F-NEXT: vaddps %xmm4, %xmm9, %xmm9			; AVX512F-NEXT: vaddps %xmm4, %xmm9, %xmm9
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX512F-NEXT: vmulss %xmm1, %xmm4, %xmm10			; AVX512F-NEXT: vmulss %xmm1, %xmm4, %xmm10
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm5 = xmm5[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; AVX512F-NEXT: vmulss %xmm6, %xmm5, %xmm6			; AVX512F-NEXT: vmulss %xmm6, %xmm5, %xmm6
	; AVX512F-NEXT: vaddss %xmm6, %xmm10, %xmm6			; AVX512F-NEXT: vaddss %xmm6, %xmm10, %xmm6
	; AVX512F-NEXT: vextractf32x4 $2, %zmm0, %xmm10			; AVX512F-NEXT: vextractf32x4 $2, %zmm0, %xmm10
	; AVX512F-NEXT: vmulss %xmm8, %xmm10, %xmm8			; AVX512F-NEXT: vmulss %xmm8, %xmm10, %xmm8
	; AVX512F-NEXT: vaddss %xmm6, %xmm8, %xmm6			; AVX512F-NEXT: vaddss %xmm6, %xmm8, %xmm6
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm6 = xmm9[0,1],xmm6[0],xmm9[3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm6 = xmm9[0,1],xmm6[0],xmm9[3]
	; AVX512F-NEXT: vmulps %xmm7, %xmm0, %xmm8			; AVX512F-NEXT: vmulps %xmm7, %xmm0, %xmm8
	; AVX512F-NEXT: vextractf128 $1, %ymm1, %xmm9			; AVX512F-NEXT: vextractf128 $1, %ymm1, %xmm9
	; AVX512F-NEXT: vmovsldup {{.*#+}} xmm11 = xmm9[0,0,2,2]			; AVX512F-NEXT: vmovsldup {{.*#+}} xmm11 = xmm9[0,0,2,2]
	; AVX512F-NEXT: vmulps %xmm2, %xmm11, %xmm11			; AVX512F-NEXT: vmulps %xmm2, %xmm11, %xmm11
	; AVX512F-NEXT: vaddps %xmm11, %xmm8, %xmm8			; AVX512F-NEXT: vaddps %xmm11, %xmm8, %xmm8
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm11 = xmm9[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm11 = xmm9[1,1,3,3]
	; AVX512F-NEXT: vmulps %xmm3, %xmm11, %xmm12			; AVX512F-NEXT: vmulps %xmm3, %xmm11, %xmm12
	; AVX512F-NEXT: vaddps %xmm12, %xmm8, %xmm8			; AVX512F-NEXT: vaddps %xmm12, %xmm8, %xmm8
	; AVX512F-NEXT: vmulss %xmm7, %xmm4, %xmm7			; AVX512F-NEXT: vmulss %xmm7, %xmm4, %xmm7
	; AVX512F-NEXT: vmulss %xmm5, %xmm9, %xmm12			; AVX512F-NEXT: vmulss %xmm5, %xmm9, %xmm12
	; AVX512F-NEXT: vaddss %xmm7, %xmm12, %xmm7			; AVX512F-NEXT: vaddss %xmm7, %xmm12, %xmm7
	; AVX512F-NEXT: vmulss %xmm11, %xmm10, %xmm11			; AVX512F-NEXT: vmulss %xmm11, %xmm10, %xmm11
	; AVX512F-NEXT: vaddss %xmm7, %xmm11, %xmm7			; AVX512F-NEXT: vaddss %xmm7, %xmm11, %xmm7
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm7 = xmm8[0,1],xmm7[0],xmm8[3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm7 = xmm8[0,1],xmm7[0],xmm8[3]
	; AVX512F-NEXT: vshufps {{.*#+}} xmm8 = xmm9[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm8 = xmm9[3,3,3,3]
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm11 = xmm9[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm11 = xmm9[1,0]
	; AVX512F-NEXT: vshufps {{.*#+}} xmm9 = xmm9[2,2,2,2]			; AVX512F-NEXT: vshufps {{.*#+}} xmm9 = xmm9[2,2,2,2]
	; AVX512F-NEXT: vmulps %xmm0, %xmm9, %xmm0			; AVX512F-NEXT: vmulps %xmm0, %xmm9, %xmm0
	; AVX512F-NEXT: vmulps %xmm2, %xmm8, %xmm2			; AVX512F-NEXT: vmulps %xmm2, %xmm8, %xmm2
	; AVX512F-NEXT: vaddps %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vaddps %xmm2, %xmm0, %xmm0
	; AVX512F-NEXT: vextractf32x4 $2, %zmm1, %xmm1			; AVX512F-NEXT: vextractf32x4 $2, %zmm1, %xmm1
	; AVX512F-NEXT: vbroadcastss %xmm1, %xmm2			; AVX512F-NEXT: vbroadcastss %xmm1, %xmm2
	; AVX512F-NEXT: vmulps %xmm2, %xmm3, %xmm2			; AVX512F-NEXT: vmulps %xmm2, %xmm3, %xmm2
	; AVX512F-NEXT: vaddps %xmm2, %xmm0, %xmm0			; AVX512F-NEXT: vaddps %xmm2, %xmm0, %xmm0
	Show All 12 Lines
	; AVX512VL: # %bb.0: # %entry			; AVX512VL: # %bb.0: # %entry
	; AVX512VL-NEXT: valignd {{.*#+}} zmm2 = zmm0[3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2]			; AVX512VL-NEXT: valignd {{.*#+}} zmm2 = zmm0[3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2]
	; AVX512VL-NEXT: vbroadcastss %xmm1, %xmm3			; AVX512VL-NEXT: vbroadcastss %xmm1, %xmm3
	; AVX512VL-NEXT: vmulps %xmm3, %xmm0, %xmm3			; AVX512VL-NEXT: vmulps %xmm3, %xmm0, %xmm3
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm5 = xmm1[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm5 = xmm1[1,1,3,3]
	; AVX512VL-NEXT: vmulps %xmm5, %xmm2, %xmm6			; AVX512VL-NEXT: vmulps %xmm5, %xmm2, %xmm6
	; AVX512VL-NEXT: vaddps %xmm6, %xmm3, %xmm3			; AVX512VL-NEXT: vaddps %xmm6, %xmm3, %xmm3
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm4[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm6 = xmm4[1,0]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm7 = xmm1[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm7 = xmm1[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm8 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm8 = xmm1[1,0]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm9 = xmm1[2,2,2,2]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm9 = xmm1[2,2,2,2]
	; AVX512VL-NEXT: vmulps %xmm6, %xmm9, %xmm9			; AVX512VL-NEXT: vmulps %xmm6, %xmm9, %xmm9
	; AVX512VL-NEXT: vaddps %xmm3, %xmm9, %xmm3			; AVX512VL-NEXT: vaddps %xmm3, %xmm9, %xmm3
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm9 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm9 = xmm0[1,0]
	; AVX512VL-NEXT: vmulss %xmm1, %xmm9, %xmm10			; AVX512VL-NEXT: vmulss %xmm1, %xmm9, %xmm10
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm4[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; AVX512VL-NEXT: vmulss %xmm5, %xmm4, %xmm5			; AVX512VL-NEXT: vmulss %xmm5, %xmm4, %xmm5
	; AVX512VL-NEXT: vaddss %xmm5, %xmm10, %xmm5			; AVX512VL-NEXT: vaddss %xmm5, %xmm10, %xmm5
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm10			; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm10
	; AVX512VL-NEXT: vmulss %xmm8, %xmm10, %xmm8			; AVX512VL-NEXT: vmulss %xmm8, %xmm10, %xmm8
	; AVX512VL-NEXT: vaddss %xmm5, %xmm8, %xmm5			; AVX512VL-NEXT: vaddss %xmm5, %xmm8, %xmm5
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm5[0],xmm3[3]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm5[0],xmm3[3]
	; AVX512VL-NEXT: vmulps %xmm7, %xmm0, %xmm5			; AVX512VL-NEXT: vmulps %xmm7, %xmm0, %xmm5
	; AVX512VL-NEXT: vextractf128 $1, %ymm1, %xmm8			; AVX512VL-NEXT: vextractf128 $1, %ymm1, %xmm8
	; AVX512VL-NEXT: vmovsldup {{.*#+}} xmm11 = xmm8[0,0,2,2]			; AVX512VL-NEXT: vmovsldup {{.*#+}} xmm11 = xmm8[0,0,2,2]
	; AVX512VL-NEXT: vmulps %xmm2, %xmm11, %xmm11			; AVX512VL-NEXT: vmulps %xmm2, %xmm11, %xmm11
	; AVX512VL-NEXT: vaddps %xmm5, %xmm11, %xmm5			; AVX512VL-NEXT: vaddps %xmm5, %xmm11, %xmm5
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm11 = xmm8[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm11 = xmm8[1,1,3,3]
	; AVX512VL-NEXT: vmulps %xmm6, %xmm11, %xmm12			; AVX512VL-NEXT: vmulps %xmm6, %xmm11, %xmm12
	; AVX512VL-NEXT: vaddps %xmm5, %xmm12, %xmm5			; AVX512VL-NEXT: vaddps %xmm5, %xmm12, %xmm5
	; AVX512VL-NEXT: vmulss %xmm7, %xmm9, %xmm7			; AVX512VL-NEXT: vmulss %xmm7, %xmm9, %xmm7
	; AVX512VL-NEXT: vmulss %xmm4, %xmm8, %xmm12			; AVX512VL-NEXT: vmulss %xmm4, %xmm8, %xmm12
	; AVX512VL-NEXT: vaddss %xmm7, %xmm12, %xmm7			; AVX512VL-NEXT: vaddss %xmm7, %xmm12, %xmm7
	; AVX512VL-NEXT: vmulss %xmm11, %xmm10, %xmm11			; AVX512VL-NEXT: vmulss %xmm11, %xmm10, %xmm11
	; AVX512VL-NEXT: vaddss %xmm7, %xmm11, %xmm7			; AVX512VL-NEXT: vaddss %xmm7, %xmm11, %xmm7
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1],xmm7[0],xmm5[3]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1],xmm7[0],xmm5[3]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm7 = xmm8[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm7 = xmm8[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm11 = xmm8[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm11 = xmm8[1,0]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm8 = xmm8[2,2,2,2]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm8 = xmm8[2,2,2,2]
	; AVX512VL-NEXT: vmulps %xmm0, %xmm8, %xmm0			; AVX512VL-NEXT: vmulps %xmm0, %xmm8, %xmm0
	; AVX512VL-NEXT: vmulps %xmm7, %xmm2, %xmm2			; AVX512VL-NEXT: vmulps %xmm7, %xmm2, %xmm2
	; AVX512VL-NEXT: vaddps %xmm2, %xmm0, %xmm0			; AVX512VL-NEXT: vaddps %xmm2, %xmm0, %xmm0
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm1, %xmm1			; AVX512VL-NEXT: vextractf32x4 $2, %zmm1, %xmm1
	; AVX512VL-NEXT: vbroadcastss %xmm1, %xmm2			; AVX512VL-NEXT: vbroadcastss %xmm1, %xmm2
	; AVX512VL-NEXT: vmulps %xmm2, %xmm6, %xmm2			; AVX512VL-NEXT: vmulps %xmm2, %xmm6, %xmm2
	; AVX512VL-NEXT: vaddps %xmm2, %xmm0, %xmm0			; AVX512VL-NEXT: vaddps %xmm2, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 909 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movapd %xmm8, (%rdi)			; SSE-NEXT: movapd %xmm8, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_mul4x4_f64:			; AVX1-LABEL: test_mul4x4_f64:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm4[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm4[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8
	; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8			; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm9 = xmm4[1,1]			; AVX1-NEXT: vshufpd {{.*#+}} xmm9 = xmm4[1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9			; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9
	; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm4[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm4[0,0,2,2]
	; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm4[1,1,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm4[1,1,3,3]
	; AVX1-NEXT: vmulpd %ymm4, %ymm3, %ymm4			; AVX1-NEXT: vmulpd %ymm4, %ymm3, %ymm4
	; AVX1-NEXT: vaddpd %ymm4, %ymm8, %ymm4			; AVX1-NEXT: vaddpd %ymm4, %ymm8, %ymm4
	; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm5[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm5[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8
	; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8			; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm9 = xmm5[1,1]			; AVX1-NEXT: vshufpd {{.*#+}} xmm9 = xmm5[1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9			; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9
	; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm5[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm5[2,3,2,3]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm5[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm5[0,0,2,2]
	; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm5 = ymm5[1,1,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm5 = ymm5[1,1,3,3]
	; AVX1-NEXT: vmulpd %ymm5, %ymm3, %ymm5			; AVX1-NEXT: vmulpd %ymm5, %ymm3, %ymm5
	; AVX1-NEXT: vaddpd %ymm5, %ymm8, %ymm5			; AVX1-NEXT: vaddpd %ymm5, %ymm8, %ymm5
	; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm6[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm6[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8
	; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8			; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm9 = xmm6[1,1]			; AVX1-NEXT: vshufpd {{.*#+}} xmm9 = xmm6[1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9			; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm9, %ymm9
	; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm1, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm6[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm6[2,3,2,3]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm6[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm9 = ymm6[0,0,2,2]
	; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9			; AVX1-NEXT: vmulpd %ymm2, %ymm9, %ymm9
	; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8			; AVX1-NEXT: vaddpd %ymm9, %ymm8, %ymm8
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[1,1,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[1,1,3,3]
	; AVX1-NEXT: vmulpd %ymm6, %ymm3, %ymm6			; AVX1-NEXT: vmulpd %ymm6, %ymm3, %ymm6
	; AVX1-NEXT: vaddpd %ymm6, %ymm8, %ymm6			; AVX1-NEXT: vaddpd %ymm6, %ymm8, %ymm6
	; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm7[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm8 = xmm7[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8
	; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm0			; AVX1-NEXT: vmulpd %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm8 = xmm7[1,1]			; AVX1-NEXT: vshufpd {{.*#+}} xmm8 = xmm7[1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm8, %ymm8
	; AVX1-NEXT: vmulpd %ymm1, %ymm8, %ymm1			; AVX1-NEXT: vmulpd %ymm1, %ymm8, %ymm1
	; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm7[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm7[2,3,2,3]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm7 = ymm1[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm7 = ymm1[0,0,2,2]
	; AVX1-NEXT: vmulpd %ymm7, %ymm2, %ymm2			; AVX1-NEXT: vmulpd %ymm7, %ymm2, %ymm2
	; AVX1-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1,1,3,3]
	; AVX1-NEXT: vmulpd %ymm1, %ymm3, %ymm1			; AVX1-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm3			; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm3
	; AVX1-NEXT: vmovapd %ymm4, %ymm0			; AVX1-NEXT: vmovapd %ymm4, %ymm0
	; AVX1-NEXT: vmovapd %ymm5, %ymm1			; AVX1-NEXT: vmovapd %ymm5, %ymm1
	; AVX1-NEXT: vmovapd %ymm6, %ymm2			; AVX1-NEXT: vmovapd %ymm6, %ymm2
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_mul4x4_f64:			; AVX2-LABEL: test_mul4x4_f64:
	▲ Show 20 Lines • Show All 3,936 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 1,714 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovups 16(%rdx), %xmm2			; AVX1-NEXT: vmovups 16(%rdx), %xmm2
	; AVX1-NEXT: vmovups (%rsi), %xmm3			; AVX1-NEXT: vmovups (%rsi), %xmm3
	; AVX1-NEXT: vmovups 16(%rsi), %xmm4			; AVX1-NEXT: vmovups 16(%rsi), %xmm4
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,3],xmm2[3,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,3],xmm2[3,3]
	; AVX1-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm4[1],xmm2[1]			; AVX1-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm4[1],xmm2[1]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,1],xmm4[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,1],xmm4[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3,2,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm4[0,0,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm4[0,0,3,3]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm4[1],ymm2[2,3],ymm4[4],ymm2[5,6],ymm4[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm4[1],ymm2[2,3],ymm4[4],ymm2[5,6],ymm4[7]
	; AVX1-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm3[1],xmm1[1]			; AVX1-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm3[1],xmm1[1]
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[1,1],xmm4[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[1,1],xmm4[0,2]
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm3[0]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm3[2,1]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm3[2,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: vbroadcastsd (%rcx), %ymm3			; AVX1-NEXT: vbroadcastsd (%rcx), %ymm3
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = mem[1,0,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = mem[1,0,2,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2],ymm4[3,4],ymm3[5],ymm4[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2],ymm4[3,4],ymm3[5],ymm4[6,7]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm3[1,2],ymm0[3],ymm3[4,5],ymm0[6],ymm3[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm3[1,2],ymm0[3],ymm3[4,5],ymm0[6],ymm3[7]
	; AVX1-NEXT: vmovups %ymm0, 32(%rdi)			; AVX1-NEXT: vmovups %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm1, (%rdi)			; AVX1-NEXT: vmovups %ymm1, (%rdi)
	; AVX1-NEXT: vmovups %ymm2, 64(%rdi)			; AVX1-NEXT: vmovups %ymm2, 64(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: interleave_24i32_in:			; AVX2-SLOW-LABEL: interleave_24i32_in:
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; XOP-NEXT: vmovups 16(%rdx), %xmm3			; XOP-NEXT: vmovups 16(%rdx), %xmm3
	; XOP-NEXT: vmovups (%rsi), %xmm4			; XOP-NEXT: vmovups (%rsi), %xmm4
	; XOP-NEXT: vmovups 16(%rsi), %xmm5			; XOP-NEXT: vmovups 16(%rsi), %xmm5
	; XOP-NEXT: vshufps {{.*#+}} xmm6 = xmm5[3,3],xmm3[3,3]			; XOP-NEXT: vshufps {{.*#+}} xmm6 = xmm5[3,3],xmm3[3,3]
	; XOP-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm5[1],xmm3[1]			; XOP-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm5[1],xmm3[1]
	; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm3[1,1],xmm5[0,2]			; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm3[1,1],xmm5[0,2]
	; XOP-NEXT: vinsertf128 $1, %xmm6, %ymm3, %ymm3			; XOP-NEXT: vinsertf128 $1, %xmm6, %ymm3, %ymm3
	; XOP-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[2,3,2,3]			; XOP-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[2,3,2,3]
	; XOP-NEXT: vpermilpd {{.*#+}} ymm5 = ymm5[0,0,3,3]			; XOP-NEXT: vshufpd {{.*#+}} ymm5 = ymm5[0,0,3,3]
	; XOP-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm5[1],ymm3[2,3],ymm5[4],ymm3[5,6],ymm5[7]			; XOP-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm5[1],ymm3[2,3],ymm5[4],ymm3[5,6],ymm5[7]
	; XOP-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm4[1],xmm2[1]			; XOP-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm4[1],xmm2[1]
	; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm2[1,1],xmm5[0,2]			; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm2[1,1],xmm5[0,2]
	; XOP-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm4[0]			; XOP-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm4[0]
	; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,1]			; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,1]
	; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2			; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; XOP-NEXT: vbroadcastsd (%rcx), %ymm4			; XOP-NEXT: vbroadcastsd (%rcx), %ymm4
	; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]			; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
	; XOP-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]			; XOP-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1,1,2,2]
	; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3],ymm0[4,5],ymm1[6],ymm0[7]			; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3],ymm0[4,5],ymm1[6],ymm0[7]
	; XOP-NEXT: vmovups %ymm0, 32(%rdi)			; XOP-NEXT: vmovups %ymm0, 32(%rdi)
	; XOP-NEXT: vmovups %ymm2, (%rdi)			; XOP-NEXT: vmovups %ymm2, (%rdi)
	; XOP-NEXT: vmovups %ymm3, 64(%rdi)			; XOP-NEXT: vmovups %ymm3, 64(%rdi)
	; XOP-NEXT: vzeroupper			; XOP-NEXT: vzeroupper
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%s1 = load <8 x i32>, ptr %q1, align 4			%s1 = load <8 x i32>, ptr %q1, align 4
	%s2 = load <8 x i32>, ptr %q2, align 4			%s2 = load <8 x i32>, ptr %q2, align 4
	▲ Show 20 Lines • Show All 555 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vmovshdup {{.*#+}} ymm3 = ymm1[1,1,3,3,5,5,7,7]			; AVX1-NEXT: vmovshdup {{.*#+}} ymm3 = ymm1[1,1,3,3,5,5,7,7]
	; AVX1-NEXT: vshufps {{.*#+}} ymm4 = ymm1[3,3,3,3,7,7,7,7]			; AVX1-NEXT: vshufps {{.*#+}} ymm4 = ymm1[3,3,3,3,7,7,7,7]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm5 = ymm1[0,0,3,2]			; AVX1-NEXT: vshufpd {{.*#+}} ymm5 = ymm1[0,0,3,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,1,1]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,3,3]
	; AVX1-NEXT: vmovdqa %xmm0, 16(%rsi)			; AVX1-NEXT: vmovdqa %xmm0, 16(%rsi)
	; AVX1-NEXT: vmovdqa %xmm7, 112(%rsi)			; AVX1-NEXT: vmovdqa %xmm7, 112(%rsi)
	; AVX1-NEXT: vmovdqa %xmm6, 48(%rsi)			; AVX1-NEXT: vmovdqa %xmm6, 48(%rsi)
	; AVX1-NEXT: vmovups %ymm1, 128(%rsi)			; AVX1-NEXT: vmovups %ymm1, 128(%rsi)
	; AVX1-NEXT: vmovupd %ymm5, 192(%rsi)			; AVX1-NEXT: vmovupd %ymm5, 192(%rsi)
	; AVX1-NEXT: vmovups %ymm4, 224(%rsi)			; AVX1-NEXT: vmovups %ymm4, 224(%rsi)
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; XOP-NEXT: vextractf128 $1, %ymm2, %xmm1			; XOP-NEXT: vextractf128 $1, %ymm2, %xmm1
	; XOP-NEXT: vpsrld $16, %xmm1, %xmm1			; XOP-NEXT: vpsrld $16, %xmm1, %xmm1
	; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; XOP-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]			; XOP-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]
	; XOP-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]			; XOP-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]
	; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; XOP-NEXT: vmovshdup {{.*#+}} ymm3 = ymm1[1,1,3,3,5,5,7,7]			; XOP-NEXT: vmovshdup {{.*#+}} ymm3 = ymm1[1,1,3,3,5,5,7,7]
	; XOP-NEXT: vshufps {{.*#+}} ymm4 = ymm1[3,3,3,3,7,7,7,7]			; XOP-NEXT: vshufps {{.*#+}} ymm4 = ymm1[3,3,3,3,7,7,7,7]
	; XOP-NEXT: vpermilpd {{.*#+}} ymm5 = ymm1[0,0,3,2]			; XOP-NEXT: vshufpd {{.*#+}} ymm5 = ymm1[0,0,3,2]
	; XOP-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,1,1]			; XOP-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,1,1]
	; XOP-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,3,3]			; XOP-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,3,3]
	; XOP-NEXT: vmovdqa %xmm0, 16(%rsi)			; XOP-NEXT: vmovdqa %xmm0, 16(%rsi)
	; XOP-NEXT: vmovdqa %xmm7, 112(%rsi)			; XOP-NEXT: vmovdqa %xmm7, 112(%rsi)
	; XOP-NEXT: vmovdqa %xmm6, 48(%rsi)			; XOP-NEXT: vmovdqa %xmm6, 48(%rsi)
	; XOP-NEXT: vmovups %ymm1, 128(%rsi)			; XOP-NEXT: vmovups %ymm1, 128(%rsi)
	; XOP-NEXT: vmovupd %ymm5, 192(%rsi)			; XOP-NEXT: vmovupd %ymm5, 192(%rsi)
	; XOP-NEXT: vmovups %ymm4, 224(%rsi)			; XOP-NEXT: vmovups %ymm4, 224(%rsi)
	Show All 14 Lines

llvm/test/CodeGen/X86/pr40730.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s

	define <8 x i32> @shuffle_v8i32_0dcd3f14(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_0dcd3f14(<8 x i32> %a, <8 x i32> %b) {
	; CHECK-LABEL: shuffle_v8i32_0dcd3f14:			; CHECK-LABEL: shuffle_v8i32_0dcd3f14:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm2			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm2
	; CHECK-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3]			; CHECK-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3]
	; CHECK-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,1,1,0]			; CHECK-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,1,1,0]
	; CHECK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; CHECK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; CHECK-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,2,3]			; CHECK-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; CHECK-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5],ymm0[6,7]			; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5],ymm0[6,7]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 13, i32 12, i32 13, i32 3, i32 15, i32 1, i32 4>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 13, i32 12, i32 13, i32 3, i32 15, i32 1, i32 4>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	; CHECK: .LCPI1_0:			; CHECK: .LCPI1_0:
	; CHECK-NEXT: .quad 0x0000000e0000000d			; CHECK-NEXT: .quad 0x0000000e0000000d
	Show All 16 Lines

llvm/test/CodeGen/X86/scalar-int-to-fp.ll

	Show First 20 Lines • Show All 647 Lines • ▼ Show 20 Lines
	; AVX512F_32: # %bb.0:			; AVX512F_32: # %bb.0:
	; AVX512F_32-NEXT: pushl %ebp			; AVX512F_32-NEXT: pushl %ebp
	; AVX512F_32-NEXT: movl %esp, %ebp			; AVX512F_32-NEXT: movl %esp, %ebp
	; AVX512F_32-NEXT: andl $-8, %esp			; AVX512F_32-NEXT: andl $-8, %esp
	; AVX512F_32-NEXT: subl $8, %esp			; AVX512F_32-NEXT: subl $8, %esp
	; AVX512F_32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX512F_32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX512F_32-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; AVX512F_32-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; AVX512F_32-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0			; AVX512F_32-NEXT: vsubpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0
	; AVX512F_32-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512F_32-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512F_32-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512F_32-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512F_32-NEXT: vmovsd %xmm0, (%esp)			; AVX512F_32-NEXT: vmovsd %xmm0, (%esp)
	; AVX512F_32-NEXT: fldl (%esp)			; AVX512F_32-NEXT: fldl (%esp)
	; AVX512F_32-NEXT: movl %ebp, %esp			; AVX512F_32-NEXT: movl %ebp, %esp
	; AVX512F_32-NEXT: popl %ebp			; AVX512F_32-NEXT: popl %ebp
	; AVX512F_32-NEXT: retl			; AVX512F_32-NEXT: retl
	;			;
	; SSE2_32-LABEL: u64_to_d:			; SSE2_32-LABEL: u64_to_d:
	▲ Show 20 Lines • Show All 446 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/scalarize-fp.ll

	Show First 20 Lines • Show All 428 Lines • ▼ Show 20 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: fadd_splat_splat_nonzero_v2f64:			; AVX-LABEL: fadd_splat_splat_nonzero_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%splatx = shufflevector <2 x double> %vx, <2 x double> undef, <2 x i32> <i32 1, i32 1>			%splatx = shufflevector <2 x double> %vx, <2 x double> undef, <2 x i32> <i32 1, i32 1>
	%splaty = shufflevector <2 x double> %vy, <2 x double> undef, <2 x i32> <i32 1, i32 1>			%splaty = shufflevector <2 x double> %vy, <2 x double> undef, <2 x i32> <i32 1, i32 1>
	%r = fadd <2 x double> %splatx, %splaty			%r = fadd <2 x double> %splatx, %splaty
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	; Negative test - splat of non-zero index and mismatched indexes.			; Negative test - splat of non-zero index and mismatched indexes.

	define <2 x double> @fadd_splat_splat_mismatch_v2f64(<2 x double> %vx, <2 x double> %vy) {			define <2 x double> @fadd_splat_splat_mismatch_v2f64(<2 x double> %vx, <2 x double> %vy) {
	; SSE-LABEL: fadd_splat_splat_mismatch_v2f64:			; SSE-LABEL: fadd_splat_splat_mismatch_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0,0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0,0]
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: fadd_splat_splat_mismatch_v2f64:			; AVX-LABEL: fadd_splat_splat_mismatch_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,1]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%splatx = shufflevector <2 x double> %vx, <2 x double> undef, <2 x i32> <i32 0, i32 0>			%splatx = shufflevector <2 x double> %vx, <2 x double> undef, <2 x i32> <i32 0, i32 0>
	%splaty = shufflevector <2 x double> %vy, <2 x double> undef, <2 x i32> <i32 1, i32 1>			%splaty = shufflevector <2 x double> %vy, <2 x double> undef, <2 x i32> <i32 1, i32 1>
	%r = fadd <2 x double> %splatx, %splaty			%r = fadd <2 x double> %splatx, %splaty
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	▲ Show 20 Lines • Show All 332 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shuffle-of-splat-multiuses.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE
	; PR32449			; PR32449

	define <2 x double> @foo2(<2 x double> %v, ptr%p) nounwind {			define <2 x double> @foo2(<2 x double> %v, ptr%p) nounwind {
	; AVX2-LABEL: foo2:			; AVX2-LABEL: foo2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
	; AVX2-NEXT: vmovapd %xmm0, (%rdi)			; AVX2-NEXT: vmovapd %xmm0, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = shufflevector <2 x double> %v, <2 x double> undef, <2 x i32> <i32 1, i32 1>			%res = shufflevector <2 x double> %v, <2 x double> undef, <2 x i32> <i32 1, i32 1>
	%res1 = shufflevector<2 x double> %res, <2 x double> undef, <2 x i32> <i32 1, i32 undef>			%res1 = shufflevector<2 x double> %res, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
	store <2 x double> %res, ptr %p			store <2 x double> %res, ptr %p
	ret <2 x double> %res1			ret <2 x double> %res1
	}			}

	▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse-scalar-fp-arith.ll

	Show First 20 Lines • Show All 1,483 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: movss %xmm1, (%esp)			; X86-SSE-NEXT: movss %xmm1, (%esp)
	; X86-SSE-NEXT: flds (%esp)			; X86-SSE-NEXT: flds (%esp)
	; X86-SSE-NEXT: popl %eax			; X86-SSE-NEXT: popl %eax
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: PR26515:			; X86-AVX-LABEL: PR26515:
	; X86-AVX: # %bb.0:			; X86-AVX: # %bb.0:
	; X86-AVX-NEXT: pushl %eax			; X86-AVX-NEXT: pushl %eax
	; X86-AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vmovss %xmm0, (%esp)			; X86-AVX-NEXT: vmovss %xmm0, (%esp)
	; X86-AVX-NEXT: flds (%esp)			; X86-AVX-NEXT: flds (%esp)
	; X86-AVX-NEXT: popl %eax			; X86-AVX-NEXT: popl %eax
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: PR26515:			; X64-SSE-LABEL: PR26515:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: movaps %xmm0, %xmm1			; X64-SSE-NEXT: movaps %xmm0, %xmm1
	; X64-SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; X64-SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; X64-SSE-NEXT: addss %xmm1, %xmm0			; X64-SSE-NEXT: addss %xmm1, %xmm0
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: PR26515:			; X64-AVX-LABEL: PR26515:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%2 = shufflevector <4 x float> %0, <4 x float> poison, <4 x i32> <i32 2, i32 undef, i32 undef, i32 undef>			%2 = shufflevector <4 x float> %0, <4 x float> poison, <4 x i32> <i32 2, i32 undef, i32 undef, i32 undef>
	%3 = fadd <4 x float> %2, %0			%3 = fadd <4 x float> %2, %0
	%4 = extractelement <4 x float> %3, i64 0			%4 = extractelement <4 x float> %3, i64 0
	ret float %4			ret float %4
	}			}

llvm/test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,546 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]			; X86-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]
	; X86-SSE-NEXT: # xmm0 = xmm0[1,1]			; X86-SSE-NEXT: # xmm0 = xmm0[1,1]
	; X86-SSE-NEXT: movsd %xmm0, (%eax) # encoding: [0xf2,0x0f,0x11,0x00]			; X86-SSE-NEXT: movsd %xmm0, (%eax) # encoding: [0xf2,0x0f,0x11,0x00]
	; X86-SSE-NEXT: retl # encoding: [0xc3]			; X86-SSE-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX1-LABEL: test_mm_storeh_sd:			; X86-AVX1-LABEL: test_mm_storeh_sd:
	; X86-AVX1: # %bb.0:			; X86-AVX1: # %bb.0:
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X86-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X86-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X86-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X86-AVX1-NEXT: vmovsd %xmm0, (%eax) # encoding: [0xc5,0xfb,0x11,0x00]			; X86-AVX1-NEXT: vmovsd %xmm0, (%eax) # encoding: [0xc5,0xfb,0x11,0x00]
	; X86-AVX1-NEXT: retl # encoding: [0xc3]			; X86-AVX1-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX512-LABEL: test_mm_storeh_sd:			; X86-AVX512-LABEL: test_mm_storeh_sd:
	; X86-AVX512: # %bb.0:			; X86-AVX512: # %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X86-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X86-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X86-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X86-AVX512-NEXT: vmovsd %xmm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xfb,0x11,0x00]			; X86-AVX512-NEXT: vmovsd %xmm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xfb,0x11,0x00]
	; X86-AVX512-NEXT: retl # encoding: [0xc3]			; X86-AVX512-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-SSE-LABEL: test_mm_storeh_sd:			; X64-SSE-LABEL: test_mm_storeh_sd:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]			; X64-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]
	; X64-SSE-NEXT: # xmm0 = xmm0[1,1]			; X64-SSE-NEXT: # xmm0 = xmm0[1,1]
	; X64-SSE-NEXT: movsd %xmm0, (%rdi) # encoding: [0xf2,0x0f,0x11,0x07]			; X64-SSE-NEXT: movsd %xmm0, (%rdi) # encoding: [0xf2,0x0f,0x11,0x07]
	; X64-SSE-NEXT: retq # encoding: [0xc3]			; X64-SSE-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX1-LABEL: test_mm_storeh_sd:			; X64-AVX1-LABEL: test_mm_storeh_sd:
	; X64-AVX1: # %bb.0:			; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X64-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X64-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X64-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X64-AVX1-NEXT: vmovsd %xmm0, (%rdi) # encoding: [0xc5,0xfb,0x11,0x07]			; X64-AVX1-NEXT: vmovsd %xmm0, (%rdi) # encoding: [0xc5,0xfb,0x11,0x07]
	; X64-AVX1-NEXT: retq # encoding: [0xc3]			; X64-AVX1-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX512-LABEL: test_mm_storeh_sd:			; X64-AVX512-LABEL: test_mm_storeh_sd:
	; X64-AVX512: # %bb.0:			; X64-AVX512: # %bb.0:
	; X64-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X64-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X64-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X64-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X64-AVX512-NEXT: vmovsd %xmm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xfb,0x11,0x07]			; X64-AVX512-NEXT: vmovsd %xmm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xfb,0x11,0x07]
	; X64-AVX512-NEXT: retq # encoding: [0xc3]			; X64-AVX512-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-SSE-LABEL: test_mm_storeh_sd:			; X32-SSE-LABEL: test_mm_storeh_sd:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]			; X32-SSE-NEXT: movhlps %xmm0, %xmm0 # encoding: [0x0f,0x12,0xc0]
	; X32-SSE-NEXT: # xmm0 = xmm0[1,1]			; X32-SSE-NEXT: # xmm0 = xmm0[1,1]
	; X32-SSE-NEXT: movsd %xmm0, (%edi) # encoding: [0x67,0xf2,0x0f,0x11,0x07]			; X32-SSE-NEXT: movsd %xmm0, (%edi) # encoding: [0x67,0xf2,0x0f,0x11,0x07]
	; X32-SSE-NEXT: retq # encoding: [0xc3]			; X32-SSE-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-AVX1-LABEL: test_mm_storeh_sd:			; X32-AVX1-LABEL: test_mm_storeh_sd:
	; X32-AVX1: # %bb.0:			; X32-AVX1: # %bb.0:
	; X32-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X32-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X32-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X32-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X32-AVX1-NEXT: vmovsd %xmm0, (%edi) # encoding: [0x67,0xc5,0xfb,0x11,0x07]			; X32-AVX1-NEXT: vmovsd %xmm0, (%edi) # encoding: [0x67,0xc5,0xfb,0x11,0x07]
	; X32-AVX1-NEXT: retq # encoding: [0xc3]			; X32-AVX1-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-AVX512-LABEL: test_mm_storeh_sd:			; X32-AVX512-LABEL: test_mm_storeh_sd:
	; X32-AVX512: # %bb.0:			; X32-AVX512: # %bb.0:
	; X32-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X32-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X32-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X32-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X32-AVX512-NEXT: vmovsd %xmm0, (%edi) # EVEX TO VEX Compression encoding: [0x67,0xc5,0xfb,0x11,0x07]			; X32-AVX512-NEXT: vmovsd %xmm0, (%edi) # EVEX TO VEX Compression encoding: [0x67,0xc5,0xfb,0x11,0x07]
	; X32-AVX512-NEXT: retq # encoding: [0xc3]			; X32-AVX512-NEXT: retq # encoding: [0xc3]
	%ext = extractelement <2 x double> %a1, i32 1			%ext = extractelement <2 x double> %a1, i32 1
	store double %ext, ptr %a0, align 8			store double %ext, ptr %a0, align 8
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]			; X86-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]
	; X86-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]			; X86-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]
	; X86-SSE-NEXT: movaps %xmm0, (%eax) # encoding: [0x0f,0x29,0x00]			; X86-SSE-NEXT: movaps %xmm0, (%eax) # encoding: [0x0f,0x29,0x00]
	; X86-SSE-NEXT: retl # encoding: [0xc3]			; X86-SSE-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX1-LABEL: test_mm_storer_pd:			; X86-AVX1-LABEL: test_mm_storer_pd:
	; X86-AVX1: # %bb.0:			; X86-AVX1: # %bb.0:
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X86-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X86-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X86-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X86-AVX1-NEXT: vmovapd %xmm0, (%eax) # encoding: [0xc5,0xf9,0x29,0x00]			; X86-AVX1-NEXT: vmovapd %xmm0, (%eax) # encoding: [0xc5,0xf9,0x29,0x00]
	; X86-AVX1-NEXT: retl # encoding: [0xc3]			; X86-AVX1-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX512-LABEL: test_mm_storer_pd:			; X86-AVX512-LABEL: test_mm_storer_pd:
	; X86-AVX512: # %bb.0:			; X86-AVX512: # %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X86-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X86-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X86-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X86-AVX512-NEXT: vmovapd %xmm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x29,0x00]			; X86-AVX512-NEXT: vmovapd %xmm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x29,0x00]
	; X86-AVX512-NEXT: retl # encoding: [0xc3]			; X86-AVX512-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-SSE-LABEL: test_mm_storer_pd:			; X64-SSE-LABEL: test_mm_storer_pd:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]			; X64-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]
	; X64-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]			; X64-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]
	; X64-SSE-NEXT: movaps %xmm0, (%rdi) # encoding: [0x0f,0x29,0x07]			; X64-SSE-NEXT: movaps %xmm0, (%rdi) # encoding: [0x0f,0x29,0x07]
	; X64-SSE-NEXT: retq # encoding: [0xc3]			; X64-SSE-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX1-LABEL: test_mm_storer_pd:			; X64-AVX1-LABEL: test_mm_storer_pd:
	; X64-AVX1: # %bb.0:			; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X64-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X64-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X64-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X64-AVX1-NEXT: vmovapd %xmm0, (%rdi) # encoding: [0xc5,0xf9,0x29,0x07]			; X64-AVX1-NEXT: vmovapd %xmm0, (%rdi) # encoding: [0xc5,0xf9,0x29,0x07]
	; X64-AVX1-NEXT: retq # encoding: [0xc3]			; X64-AVX1-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX512-LABEL: test_mm_storer_pd:			; X64-AVX512-LABEL: test_mm_storer_pd:
	; X64-AVX512: # %bb.0:			; X64-AVX512: # %bb.0:
	; X64-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X64-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X64-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X64-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X64-AVX512-NEXT: vmovapd %xmm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x29,0x07]			; X64-AVX512-NEXT: vmovapd %xmm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x29,0x07]
	; X64-AVX512-NEXT: retq # encoding: [0xc3]			; X64-AVX512-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-SSE-LABEL: test_mm_storer_pd:			; X32-SSE-LABEL: test_mm_storer_pd:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]			; X32-SSE-NEXT: shufps $78, %xmm0, %xmm0 # encoding: [0x0f,0xc6,0xc0,0x4e]
	; X32-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]			; X32-SSE-NEXT: # xmm0 = xmm0[2,3,0,1]
	; X32-SSE-NEXT: movaps %xmm0, (%edi) # encoding: [0x67,0x0f,0x29,0x07]			; X32-SSE-NEXT: movaps %xmm0, (%edi) # encoding: [0x67,0x0f,0x29,0x07]
	; X32-SSE-NEXT: retq # encoding: [0xc3]			; X32-SSE-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-AVX1-LABEL: test_mm_storer_pd:			; X32-AVX1-LABEL: test_mm_storer_pd:
	; X32-AVX1: # %bb.0:			; X32-AVX1: # %bb.0:
	; X32-AVX1-NEXT: vpermilpd $1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X32-AVX1-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X32-AVX1-NEXT: # xmm0 = xmm0[1,0]			; X32-AVX1-NEXT: # xmm0 = xmm0[1,0]
	; X32-AVX1-NEXT: vmovapd %xmm0, (%edi) # encoding: [0x67,0xc5,0xf9,0x29,0x07]			; X32-AVX1-NEXT: vmovapd %xmm0, (%edi) # encoding: [0x67,0xc5,0xf9,0x29,0x07]
	; X32-AVX1-NEXT: retq # encoding: [0xc3]			; X32-AVX1-NEXT: retq # encoding: [0xc3]
	;			;
	; X32-AVX512-LABEL: test_mm_storer_pd:			; X32-AVX512-LABEL: test_mm_storer_pd:
	; X32-AVX512: # %bb.0:			; X32-AVX512: # %bb.0:
	; X32-AVX512-NEXT: vpermilpd $1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x05,0xc0,0x01]			; X32-AVX512-NEXT: vshufpd $1, %xmm0, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc6,0xc0,0x01]
	; X32-AVX512-NEXT: # xmm0 = xmm0[1,0]			; X32-AVX512-NEXT: # xmm0 = xmm0[1,0]
	; X32-AVX512-NEXT: vmovapd %xmm0, (%edi) # EVEX TO VEX Compression encoding: [0x67,0xc5,0xf9,0x29,0x07]			; X32-AVX512-NEXT: vmovapd %xmm0, (%edi) # EVEX TO VEX Compression encoding: [0x67,0xc5,0xf9,0x29,0x07]
	; X32-AVX512-NEXT: retq # encoding: [0xc3]			; X32-AVX512-NEXT: retq # encoding: [0xc3]
	%shuf = shufflevector <2 x double> %a1, <2 x double> undef, <2 x i32> <i32 1, i32 0>			%shuf = shufflevector <2 x double> %a1, <2 x double> undef, <2 x i32> <i32 1, i32 0>
	store <2 x double> %shuf, ptr %a0, align 16			store <2 x double> %shuf, ptr %a0, align 16
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 1,098 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse3-avx-addsub-2.ll

	Show First 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: subss %xmm1, %xmm0			; SSE-NEXT: subss %xmm1, %xmm0
	; SSE-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]			; SSE-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test11:			; AVX1-LABEL: test11:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-NEXT: vsubss %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vsubss %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: test11:			; AVX512-LABEL: test11:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vsubss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vsubss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vbroadcastss %xmm0, %xmm0			; AVX512-NEXT: vbroadcastss %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = extractelement <4 x float> %A, i32 2			%1 = extractelement <4 x float> %A, i32 2
	%2 = extractelement <4 x float> %B, i32 2			%2 = extractelement <4 x float> %B, i32 2
	%sub = fsub float %1, %2			%sub = fsub float %1, %2
	%vecinsert1 = insertelement <4 x float> undef, float %sub, i32 2			%vecinsert1 = insertelement <4 x float> undef, float %sub, i32 2
	ret <4 x float> %vecinsert1			ret <4 x float> %vecinsert1
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; SSE-NEXT: subss %xmm1, %xmm0			; SSE-NEXT: subss %xmm1, %xmm0
	; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]			; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test14:			; AVX-LABEL: test14:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm2			; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vsubss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1],xmm0[0],xmm2[3]			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1],xmm0[0],xmm2[3]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = extractelement <4 x float> %A, i32 0			%1 = extractelement <4 x float> %A, i32 0
	%2 = extractelement <4 x float> %B, i32 0			%2 = extractelement <4 x float> %B, i32 0
	%sub = fsub float %1, %2			%sub = fsub float %1, %2
	%3 = extractelement <4 x float> %A, i32 2			%3 = extractelement <4 x float> %A, i32 2
	%4 = extractelement <4 x float> %B, i32 2			%4 = extractelement <4 x float> %B, i32 2
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm4[0]			; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm4[0]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test16:			; AVX-LABEL: test16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; AVX-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; AVX-NEXT: vsubss %xmm2, %xmm0, %xmm3			; AVX-NEXT: vsubss %xmm2, %xmm0, %xmm3
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
	; AVX-NEXT: vsubss %xmm5, %xmm4, %xmm4			; AVX-NEXT: vsubss %xmm5, %xmm4, %xmm4
	; AVX-NEXT: vmovshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm5, %xmm2			; AVX-NEXT: vaddss %xmm2, %xmm5, %xmm2
	; AVX-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]			; AVX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 187 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/tuning-shuffle-permilpd-avx512.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-NO-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-NO-BYPASS-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-BYPASS-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64-v4 \| FileCheck %s --check-prefixes=CHECK,CHECK-V4			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64-v4 \| FileCheck %s --check-prefixes=CHECK,CHECK-V4
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw,+avx512dq \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw,+avx512dq \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=znver4 \| FileCheck %s --check-prefixes=CHECK,CHECK-ZNVER4			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=znver4 \| FileCheck %s --check-prefixes=CHECK,CHECK-ZNVER4

	define <8 x double> @transform_VPERMILPSZrr(<8 x double> %a) nounwind {			define <8 x double> @transform_VPERMILPSZrr(<8 x double> %a) nounwind {
	; CHECK-LABEL: transform_VPERMILPSZrr:			; CHECK-LABEL: transform_VPERMILPSZrr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,1,2,3,4,5,7,6]			; CHECK-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,1,2,3,4,5,7,6]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 7, i32 6>			%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 7, i32 6>
	ret <8 x double> %shufp			ret <8 x double> %shufp
	}			}

	define <4 x double> @transform_VPERMILPSYrr(<4 x double> %a) nounwind {			define <4 x double> @transform_VPERMILPSYrr(<4 x double> %a) nounwind {
	; CHECK-LABEL: transform_VPERMILPSYrr:			; CHECK-LABEL: transform_VPERMILPSYrr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3]			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,3]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 2, i32 3>			%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
	ret <4 x double> %shufp			ret <4 x double> %shufp
	}			}

	define <2 x double> @transform_VPERMILPSrr(<2 x double> %a) nounwind {			define <2 x double> @transform_VPERMILPSrr(<2 x double> %a) nounwind {
	; CHECK-LABEL: transform_VPERMILPSrr:			; CHECK-LABEL: transform_VPERMILPSrr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>			%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>
	ret <2 x double> %shufp			ret <2 x double> %shufp
	}			}

	define <8 x double> @transform_VPERMILPSZrrkz(<8 x double> %a, i8 %mask_int) nounwind {			define <8 x double> @transform_VPERMILPSZrrkz(<8 x double> %a, i8 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSZrrkz:			; CHECK-LABEL: transform_VPERMILPSZrrkz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,3,5,4,6,7]			; CHECK-NEXT: vshufpd {{.*#+}} zmm0 {%k1} {z} = zmm0[0,1,2,3,5,4,6,7]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i8 %mask_int to <8 x i1>			%mask = bitcast i8 %mask_int to <8 x i1>
	%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>			%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>
	%res = select <8 x i1> %mask, <8 x double> %shufp, <8 x double> zeroinitializer			%res = select <8 x i1> %mask, <8 x double> %shufp, <8 x double> zeroinitializer
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	define <4 x double> @transform_VPERMILPSYrrkz(<4 x double> %a, i4 %mask_int) nounwind {			define <4 x double> @transform_VPERMILPSYrrkz(<4 x double> %a, i4 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSYrrkz:			; CHECK-LABEL: transform_VPERMILPSYrrkz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 {%k1} {z} = ymm0[0,1,3,2]			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 {%k1} {z} = ymm0[0,1,3,2]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i4 %mask_int to <4 x i1>			%mask = bitcast i4 %mask_int to <4 x i1>
	%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 0, i32 1, i32 3, i32 2>			%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 0, i32 1, i32 3, i32 2>
	%res = select <4 x i1> %mask, <4 x double> %shufp, <4 x double> zeroinitializer			%res = select <4 x i1> %mask, <4 x double> %shufp, <4 x double> zeroinitializer
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <2 x double> @transform_VPERMILPSrrkz(<2 x double> %a, i2 %mask_int) nounwind {			define <2 x double> @transform_VPERMILPSrrkz(<2 x double> %a, i2 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSrrkz:			; CHECK-LABEL: transform_VPERMILPSrrkz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm0 {%k1} {z} = xmm0[1,0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i2 %mask_int to <2 x i1>			%mask = bitcast i2 %mask_int to <2 x i1>
	%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>			%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>
	%res = select <2 x i1> %mask, <2 x double> %shufp, <2 x double> zeroinitializer			%res = select <2 x i1> %mask, <2 x double> %shufp, <2 x double> zeroinitializer
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <8 x double> @transform_VPERMILPSZrrk(<8 x double> %a, <8 x double> %b, i8 %mask_int) nounwind {			define <8 x double> @transform_VPERMILPSZrrk(<8 x double> %a, <8 x double> %b, i8 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSZrrk:			; CHECK-LABEL: transform_VPERMILPSZrrk:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,3,2,4,5,6,7]			; CHECK-NEXT: vshufpd {{.*#+}} zmm1 {%k1} = zmm0[0,1,3,2,4,5,6,7]
	; CHECK-NEXT: vmovapd %zmm1, %zmm0			; CHECK-NEXT: vmovapd %zmm1, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i8 %mask_int to <8 x i1>			%mask = bitcast i8 %mask_int to <8 x i1>
	%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 3, i32 2, i32 4, i32 5, i32 6, i32 7>			%shufp = shufflevector <8 x double> %a, <8 x double> poison, <8 x i32> <i32 0, i32 1, i32 3, i32 2, i32 4, i32 5, i32 6, i32 7>
	%res = select <8 x i1> %mask, <8 x double> %shufp, <8 x double> %b			%res = select <8 x i1> %mask, <8 x double> %shufp, <8 x double> %b
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	define <4 x double> @transform_VPERMILPSYrrk(<4 x double> %a, <4 x double> %b, i4 %mask_int) nounwind {			define <4 x double> @transform_VPERMILPSYrrk(<4 x double> %a, <4 x double> %b, i4 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSYrrk:			; CHECK-LABEL: transform_VPERMILPSYrrk:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm1 {%k1} = ymm0[1,0,3,2]			; CHECK-NEXT: vshufpd {{.*#+}} ymm1 {%k1} = ymm0[1,0,3,2]
	; CHECK-NEXT: vmovapd %ymm1, %ymm0			; CHECK-NEXT: vmovapd %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i4 %mask_int to <4 x i1>			%mask = bitcast i4 %mask_int to <4 x i1>
	%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 3, i32 2>			%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
	%res = select <4 x i1> %mask, <4 x double> %shufp, <4 x double> %b			%res = select <4 x i1> %mask, <4 x double> %shufp, <4 x double> %b
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <2 x double> @transform_VPERMILPSrrk(<2 x double> %a, <2 x double> %b, i2 %mask_int) nounwind {			define <2 x double> @transform_VPERMILPSrrk(<2 x double> %a, <2 x double> %b, i2 %mask_int) nounwind {
	; CHECK-LABEL: transform_VPERMILPSrrk:			; CHECK-LABEL: transform_VPERMILPSrrk:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1			; CHECK-NEXT: kmovd %edi, %k1
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm1 {%k1} = xmm0[1,0]
	; CHECK-NEXT: vmovapd %xmm1, %xmm0			; CHECK-NEXT: vmovapd %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = bitcast i2 %mask_int to <2 x i1>			%mask = bitcast i2 %mask_int to <2 x i1>
	%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>			%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>
	%res = select <2 x i1> %mask, <2 x double> %shufp, <2 x double> %b			%res = select <2 x i1> %mask, <2 x double> %shufp, <2 x double> %b
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	▲ Show 20 Lines • Show All 114 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/tuning-shuffle-permilpd.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx,+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx,+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX1-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX1-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx2,+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx2,+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx2 \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX2-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown --mattr=+avx2 \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX2-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-NO-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-NO-BYPASS-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=icelake-server -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-ICX,CHECK-ICX-BYPASS-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=sandybridge -mattr=+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-SNB,CHECK-SNB-NO-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=sandybridge -mattr=+no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-SNB,CHECK-SNB-NO-BYPASS-DELAY
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=sandybridge -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-SNB,CHECK-SNB-BYPASS-DELAY			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=sandybridge -mattr=-no-bypass-delay-shuffle \| FileCheck %s --check-prefixes=CHECK,CHECK-SNB,CHECK-SNB-BYPASS-DELAY

	define <4 x double> @transform_VPERMILPDYrr(<4 x double> %a) nounwind {			define <4 x double> @transform_VPERMILPDYrr(<4 x double> %a) nounwind {
	; CHECK-LABEL: transform_VPERMILPDYrr:			; CHECK-LABEL: transform_VPERMILPDYrr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3]			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,3]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 2, i32 3>			%shufp = shufflevector <4 x double> %a, <4 x double> poison, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
	ret <4 x double> %shufp			ret <4 x double> %shufp
	}			}

	define <2 x double> @transform_VPERMILPDrr(<2 x double> %a) nounwind {			define <2 x double> @transform_VPERMILPDrr(<2 x double> %a) nounwind {
	; CHECK-LABEL: transform_VPERMILPDrr:			; CHECK-LABEL: transform_VPERMILPDrr:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; CHECK-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>			%shufp = shufflevector <2 x double> %a, <2 x double> poison, <2 x i32> <i32 1, i32 0>
	ret <2 x double> %shufp			ret <2 x double> %shufp
	}			}

	define <4 x double> @transform_VPERMILPDYrm(ptr %ap) nounwind {			define <4 x double> @transform_VPERMILPDYrm(ptr %ap) nounwind {
	; CHECK-LABEL: transform_VPERMILPDYrm:			; CHECK-LABEL: transform_VPERMILPDYrm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	Show All 27 Lines

llvm/test/CodeGen/X86/vec-strict-fptoint-128.ll

	Show First 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: popl %ebp			; AVX-32-NEXT: popl %ebp
	; AVX-32-NEXT: .cfi_def_cfa %esp, 4			; AVX-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX-32-NEXT: retl			; AVX-32-NEXT: retl
	;			;
	; AVX-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX-64: # %bb.0:			; AVX-64: # %bb.0:
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm1			; AVX-64-NEXT: vmovq %rax, %xmm1
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm0			; AVX-64-NEXT: vmovq %rax, %xmm0
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	;			;
	; AVX512F-32-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX512F-32-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: pushl %ebp			; AVX512F-32-NEXT: pushl %ebp
	Show All 18 Lines
	; AVX512F-32-NEXT: popl %ebp			; AVX512F-32-NEXT: popl %ebp
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX512F-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-64-NEXT: retq			; AVX512F-64-NEXT: retq
	;			;
	; AVX512VL-32-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX512VL-32-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX512VL-32: # %bb.0:			; AVX512VL-32: # %bb.0:
	; AVX512VL-32-NEXT: pushl %ebp			; AVX512VL-32-NEXT: pushl %ebp
	Show All 18 Lines
	; AVX512VL-32-NEXT: popl %ebp			; AVX512VL-32-NEXT: popl %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX512VL-64-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptosi_v2f64_to_v2i64:			; AVX512DQ-LABEL: strict_vector_fptosi_v2f64_to_v2i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vmovaps %xmm0, %xmm0			; AVX512DQ-NEXT: vmovaps %xmm0, %xmm0
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; AVX-32: # %bb.0:			; AVX-32: # %bb.0:
	; AVX-32-NEXT: pushl %ebp			; AVX-32-NEXT: pushl %ebp
	; AVX-32-NEXT: .cfi_def_cfa_offset 8			; AVX-32-NEXT: .cfi_def_cfa_offset 8
	; AVX-32-NEXT: .cfi_offset %ebp, -8			; AVX-32-NEXT: .cfi_offset %ebp, -8
	; AVX-32-NEXT: movl %esp, %ebp			; AVX-32-NEXT: movl %esp, %ebp
	; AVX-32-NEXT: .cfi_def_cfa_register %ebp			; AVX-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX-32-NEXT: andl $-8, %esp			; AVX-32-NEXT: andl $-8, %esp
	; AVX-32-NEXT: subl $16, %esp			; AVX-32-NEXT: subl $16, %esp
	; AVX-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX-32-NEXT: vcomisd %xmm1, %xmm2			; AVX-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX-32-NEXT: vmovapd %xmm1, %xmm3			; AVX-32-NEXT: vmovapd %xmm1, %xmm3
	; AVX-32-NEXT: jae .LBB1_2			; AVX-32-NEXT: jae .LBB1_2
	; AVX-32-NEXT: # %bb.1:			; AVX-32-NEXT: # %bb.1:
	; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3			; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3
	; AVX-32-NEXT: .LBB1_2:			; AVX-32-NEXT: .LBB1_2:
	; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	Show All 40 Lines
	; AVX-64-NEXT: .LBB1_2:			; AVX-64-NEXT: .LBB1_2:
	; AVX-64-NEXT: vsubsd %xmm3, %xmm0, %xmm3			; AVX-64-NEXT: vsubsd %xmm3, %xmm0, %xmm3
	; AVX-64-NEXT: vcvttsd2si %xmm3, %rax			; AVX-64-NEXT: vcvttsd2si %xmm3, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	; AVX-64-NEXT: movzbl %cl, %ecx			; AVX-64-NEXT: movzbl %cl, %ecx
	; AVX-64-NEXT: shlq $63, %rcx			; AVX-64-NEXT: shlq $63, %rcx
	; AVX-64-NEXT: xorq %rax, %rcx			; AVX-64-NEXT: xorq %rax, %rcx
	; AVX-64-NEXT: vmovq %rcx, %xmm3			; AVX-64-NEXT: vmovq %rcx, %xmm3
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcomisd %xmm1, %xmm0			; AVX-64-NEXT: vcomisd %xmm1, %xmm0
	; AVX-64-NEXT: jb .LBB1_4			; AVX-64-NEXT: jb .LBB1_4
	; AVX-64-NEXT: # %bb.3:			; AVX-64-NEXT: # %bb.3:
	; AVX-64-NEXT: vmovapd %xmm1, %xmm2			; AVX-64-NEXT: vmovapd %xmm1, %xmm2
	; AVX-64-NEXT: .LBB1_4:			; AVX-64-NEXT: .LBB1_4:
	; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0			; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	; AVX-64-NEXT: movzbl %cl, %ecx			; AVX-64-NEXT: movzbl %cl, %ecx
	; AVX-64-NEXT: shlq $63, %rcx			; AVX-64-NEXT: shlq $63, %rcx
	; AVX-64-NEXT: xorq %rax, %rcx			; AVX-64-NEXT: xorq %rax, %rcx
	; AVX-64-NEXT: vmovq %rcx, %xmm0			; AVX-64-NEXT: vmovq %rcx, %xmm0
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	;			;
	; AVX512F-32-LABEL: strict_vector_fptoui_v2f64_to_v2i64:			; AVX512F-32-LABEL: strict_vector_fptoui_v2f64_to_v2i64:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: pushl %ebp			; AVX512F-32-NEXT: pushl %ebp
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 8			; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
	; AVX512F-32-NEXT: .cfi_offset %ebp, -8			; AVX512F-32-NEXT: .cfi_offset %ebp, -8
	; AVX512F-32-NEXT: movl %esp, %ebp			; AVX512F-32-NEXT: movl %esp, %ebp
	; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp			; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX512F-32-NEXT: andl $-8, %esp			; AVX512F-32-NEXT: andl $-8, %esp
	; AVX512F-32-NEXT: subl $16, %esp			; AVX512F-32-NEXT: subl $16, %esp
	; AVX512F-32-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512F-32-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512F-32-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX512F-32-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512F-32-NEXT: xorl %eax, %eax			; AVX512F-32-NEXT: xorl %eax, %eax
	; AVX512F-32-NEXT: vcomisd %xmm2, %xmm1			; AVX512F-32-NEXT: vcomisd %xmm2, %xmm1
	; AVX512F-32-NEXT: setae %al			; AVX512F-32-NEXT: setae %al
	; AVX512F-32-NEXT: kmovw %eax, %k1			; AVX512F-32-NEXT: kmovw %eax, %k1
	; AVX512F-32-NEXT: vmovsd %xmm2, %xmm2, %xmm3 {%k1} {z}			; AVX512F-32-NEXT: vmovsd %xmm2, %xmm2, %xmm3 {%k1} {z}
	; AVX512F-32-NEXT: vsubsd %xmm3, %xmm1, %xmm1			; AVX512F-32-NEXT: vsubsd %xmm3, %xmm1, %xmm1
	; AVX512F-32-NEXT: vmovsd %xmm1, (%esp)			; AVX512F-32-NEXT: vmovsd %xmm1, (%esp)
	Show All 21 Lines
	; AVX512F-32-NEXT: popl %ebp			; AVX512F-32-NEXT: popl %ebp
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptoui_v2f64_to_v2i64:			; AVX512F-64-LABEL: strict_vector_fptoui_v2f64_to_v2i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-64-NEXT: retq			; AVX512F-64-NEXT: retq
	;			;
	; AVX512VL-32-LABEL: strict_vector_fptoui_v2f64_to_v2i64:			; AVX512VL-32-LABEL: strict_vector_fptoui_v2f64_to_v2i64:
	; AVX512VL-32: # %bb.0:			; AVX512VL-32: # %bb.0:
	; AVX512VL-32-NEXT: pushl %ebp			; AVX512VL-32-NEXT: pushl %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa_offset 8			; AVX512VL-32-NEXT: .cfi_def_cfa_offset 8
	; AVX512VL-32-NEXT: .cfi_offset %ebp, -8			; AVX512VL-32-NEXT: .cfi_offset %ebp, -8
	; AVX512VL-32-NEXT: movl %esp, %ebp			; AVX512VL-32-NEXT: movl %esp, %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa_register %ebp			; AVX512VL-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX512VL-32-NEXT: andl $-8, %esp			; AVX512VL-32-NEXT: andl $-8, %esp
	; AVX512VL-32-NEXT: subl $16, %esp			; AVX512VL-32-NEXT: subl $16, %esp
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm2, %xmm1			; AVX512VL-32-NEXT: vcomisd %xmm2, %xmm1
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm2, %xmm2, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm2, %xmm2, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm1, %xmm1			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm1, %xmm1
	; AVX512VL-32-NEXT: vmovsd %xmm1, (%esp)			; AVX512VL-32-NEXT: vmovsd %xmm1, (%esp)
	Show All 21 Lines
	; AVX512VL-32-NEXT: popl %ebp			; AVX512VL-32-NEXT: popl %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptoui_v2f64_to_v2i64:			; AVX512VL-64-LABEL: strict_vector_fptoui_v2f64_to_v2i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptoui_v2f64_to_v2i64:			; AVX512DQ-LABEL: strict_vector_fptoui_v2f64_to_v2i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vmovaps %xmm0, %xmm0			; AVX512DQ-NEXT: vmovaps %xmm0, %xmm0
	▲ Show 20 Lines • Show All 1,118 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: vpinsrd $1, (%esp), %xmm0, %xmm0			; AVX-32-NEXT: vpinsrd $1, (%esp), %xmm0, %xmm0
	; AVX-32-NEXT: movl %ebp, %esp			; AVX-32-NEXT: movl %ebp, %esp
	; AVX-32-NEXT: popl %ebp			; AVX-32-NEXT: popl %ebp
	; AVX-32-NEXT: .cfi_def_cfa %esp, 4			; AVX-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX-32-NEXT: retl			; AVX-32-NEXT: retl
	;			;
	; AVX-64-LABEL: strict_vector_fptoui_v2f64_to_v2i32:			; AVX-64-LABEL: strict_vector_fptoui_v2f64_to_v2i32:
	; AVX-64: # %bb.0:			; AVX-64: # %bb.0:
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rcx			; AVX-64-NEXT: vcvttsd2si %xmm0, %rcx
	; AVX-64-NEXT: vmovd %ecx, %xmm0			; AVX-64-NEXT: vmovd %ecx, %xmm0
	; AVX-64-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0			; AVX-64-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	;			;
	; AVX512F-LABEL: strict_vector_fptoui_v2f64_to_v2i32:			; AVX512F-LABEL: strict_vector_fptoui_v2f64_to_v2i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 680 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: popl %ebp			; AVX-32-NEXT: popl %ebp
	; AVX-32-NEXT: .cfi_def_cfa %esp, 4			; AVX-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX-32-NEXT: retl			; AVX-32-NEXT: retl
	;			;
	; AVX-64-LABEL: strict_vector_fptosi_v2f64_to_v2i1:			; AVX-64-LABEL: strict_vector_fptosi_v2f64_to_v2i1:
	; AVX-64: # %bb.0:			; AVX-64: # %bb.0:
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm1			; AVX-64-NEXT: vmovq %rax, %xmm1
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm0			; AVX-64-NEXT: vmovq %rax, %xmm0
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	;			;
	; AVX512F-LABEL: strict_vector_fptosi_v2f64_to_v2i1:			; AVX512F-LABEL: strict_vector_fptosi_v2f64_to_v2i1:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vcvttpd2dq %xmm0, %xmm0			; AVX512F-NEXT: vcvttpd2dq %xmm0, %xmm0
	▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	; AVX-32: # %bb.0:			; AVX-32: # %bb.0:
	; AVX-32-NEXT: pushl %ebp			; AVX-32-NEXT: pushl %ebp
	; AVX-32-NEXT: .cfi_def_cfa_offset 8			; AVX-32-NEXT: .cfi_def_cfa_offset 8
	; AVX-32-NEXT: .cfi_offset %ebp, -8			; AVX-32-NEXT: .cfi_offset %ebp, -8
	; AVX-32-NEXT: movl %esp, %ebp			; AVX-32-NEXT: movl %esp, %ebp
	; AVX-32-NEXT: .cfi_def_cfa_register %ebp			; AVX-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX-32-NEXT: andl $-8, %esp			; AVX-32-NEXT: andl $-8, %esp
	; AVX-32-NEXT: subl $16, %esp			; AVX-32-NEXT: subl $16, %esp
	; AVX-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX-32-NEXT: vcomisd %xmm1, %xmm2			; AVX-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX-32-NEXT: vmovapd %xmm1, %xmm3			; AVX-32-NEXT: vmovapd %xmm1, %xmm3
	; AVX-32-NEXT: jae .LBB19_2			; AVX-32-NEXT: jae .LBB19_2
	; AVX-32-NEXT: # %bb.1:			; AVX-32-NEXT: # %bb.1:
	; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3			; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3
	; AVX-32-NEXT: .LBB19_2:			; AVX-32-NEXT: .LBB19_2:
	; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	Show All 40 Lines
	; AVX-64-NEXT: .LBB19_2:			; AVX-64-NEXT: .LBB19_2:
	; AVX-64-NEXT: vsubsd %xmm3, %xmm0, %xmm3			; AVX-64-NEXT: vsubsd %xmm3, %xmm0, %xmm3
	; AVX-64-NEXT: vcvttsd2si %xmm3, %rax			; AVX-64-NEXT: vcvttsd2si %xmm3, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	; AVX-64-NEXT: movzbl %cl, %ecx			; AVX-64-NEXT: movzbl %cl, %ecx
	; AVX-64-NEXT: shlq $63, %rcx			; AVX-64-NEXT: shlq $63, %rcx
	; AVX-64-NEXT: xorq %rax, %rcx			; AVX-64-NEXT: xorq %rax, %rcx
	; AVX-64-NEXT: vmovq %rcx, %xmm3			; AVX-64-NEXT: vmovq %rcx, %xmm3
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcomisd %xmm1, %xmm0			; AVX-64-NEXT: vcomisd %xmm1, %xmm0
	; AVX-64-NEXT: jb .LBB19_4			; AVX-64-NEXT: jb .LBB19_4
	; AVX-64-NEXT: # %bb.3:			; AVX-64-NEXT: # %bb.3:
	; AVX-64-NEXT: vmovapd %xmm1, %xmm2			; AVX-64-NEXT: vmovapd %xmm1, %xmm2
	; AVX-64-NEXT: .LBB19_4:			; AVX-64-NEXT: .LBB19_4:
	; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0			; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	▲ Show 20 Lines • Show All 769 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec-strict-fptoint-256.ll

	Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: .cfi_def_cfa %esp, 4			; AVX-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX-32-NEXT: retl			; AVX-32-NEXT: retl
	;			;
	; AVX-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX-64: # %bb.0:			; AVX-64: # %bb.0:
	; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm2			; AVX-64-NEXT: vmovq %rax, %xmm2
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm1			; AVX-64-NEXT: vmovq %rax, %xmm1
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm2			; AVX-64-NEXT: vmovq %rax, %xmm2
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm0			; AVX-64-NEXT: vmovq %rax, %xmm0
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX-64-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-64-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	;			;
	; AVX512F-32-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX512F-32-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	Show All 32 Lines
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX512F-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512F-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512F-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512F-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-64-NEXT: retq			; AVX512F-64-NEXT: retq
	;			;
	; AVX512VL-32-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX512VL-32-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX512VL-32: # %bb.0:			; AVX512VL-32: # %bb.0:
	Show All 32 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX512VL-64-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptosi_v4f64_to_v4i64:			; AVX512DQ-LABEL: strict_vector_fptosi_v4f64_to_v4i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	Show All 16 Lines
	; AVX-32: # %bb.0:			; AVX-32: # %bb.0:
	; AVX-32-NEXT: pushl %ebp			; AVX-32-NEXT: pushl %ebp
	; AVX-32-NEXT: .cfi_def_cfa_offset 8			; AVX-32-NEXT: .cfi_def_cfa_offset 8
	; AVX-32-NEXT: .cfi_offset %ebp, -8			; AVX-32-NEXT: .cfi_offset %ebp, -8
	; AVX-32-NEXT: movl %esp, %ebp			; AVX-32-NEXT: movl %esp, %ebp
	; AVX-32-NEXT: .cfi_def_cfa_register %ebp			; AVX-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX-32-NEXT: andl $-8, %esp			; AVX-32-NEXT: andl $-8, %esp
	; AVX-32-NEXT: subl $32, %esp			; AVX-32-NEXT: subl $32, %esp
	; AVX-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX-32-NEXT: vcomisd %xmm1, %xmm2			; AVX-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX-32-NEXT: vmovapd %xmm1, %xmm3			; AVX-32-NEXT: vmovapd %xmm1, %xmm3
	; AVX-32-NEXT: jae .LBB1_2			; AVX-32-NEXT: jae .LBB1_2
	; AVX-32-NEXT: # %bb.1:			; AVX-32-NEXT: # %bb.1:
	; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3			; AVX-32-NEXT: vxorpd %xmm3, %xmm3, %xmm3
	; AVX-32-NEXT: .LBB1_2:			; AVX-32-NEXT: .LBB1_2:
	; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX-32-NEXT: fldl {{[0-9]+}}(%esp)			; AVX-32-NEXT: fldl {{[0-9]+}}(%esp)
	; AVX-32-NEXT: fisttpll {{[0-9]+}}(%esp)			; AVX-32-NEXT: fisttpll {{[0-9]+}}(%esp)
	; AVX-32-NEXT: wait			; AVX-32-NEXT: wait
	; AVX-32-NEXT: setae %al			; AVX-32-NEXT: setae %al
	; AVX-32-NEXT: movzbl %al, %eax			; AVX-32-NEXT: movzbl %al, %eax
	; AVX-32-NEXT: shll $31, %eax			; AVX-32-NEXT: shll $31, %eax
	; AVX-32-NEXT: xorl {{[0-9]+}}(%esp), %eax			; AVX-32-NEXT: xorl {{[0-9]+}}(%esp), %eax
	; AVX-32-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-32-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX-32-NEXT: vcomisd %xmm1, %xmm3			; AVX-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX-32-NEXT: vmovapd %xmm1, %xmm4			; AVX-32-NEXT: vmovapd %xmm1, %xmm4
	; AVX-32-NEXT: jae .LBB1_4			; AVX-32-NEXT: jae .LBB1_4
	; AVX-32-NEXT: # %bb.3:			; AVX-32-NEXT: # %bb.3:
	; AVX-32-NEXT: vxorpd %xmm4, %xmm4, %xmm4			; AVX-32-NEXT: vxorpd %xmm4, %xmm4, %xmm4
	; AVX-32-NEXT: .LBB1_4:			; AVX-32-NEXT: .LBB1_4:
	; AVX-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX-32-NEXT: vmovsd %xmm3, (%esp)			; AVX-32-NEXT: vmovsd %xmm3, (%esp)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; AVX-64-NEXT: vmovapd %xmm1, %xmm4			; AVX-64-NEXT: vmovapd %xmm1, %xmm4
	; AVX-64-NEXT: .LBB1_2:			; AVX-64-NEXT: .LBB1_2:
	; AVX-64-NEXT: vsubsd %xmm4, %xmm3, %xmm4			; AVX-64-NEXT: vsubsd %xmm4, %xmm3, %xmm4
	; AVX-64-NEXT: vcvttsd2si %xmm4, %rcx			; AVX-64-NEXT: vcvttsd2si %xmm4, %rcx
	; AVX-64-NEXT: setae %al			; AVX-64-NEXT: setae %al
	; AVX-64-NEXT: movzbl %al, %eax			; AVX-64-NEXT: movzbl %al, %eax
	; AVX-64-NEXT: shlq $63, %rax			; AVX-64-NEXT: shlq $63, %rax
	; AVX-64-NEXT: xorq %rcx, %rax			; AVX-64-NEXT: xorq %rcx, %rax
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX-64-NEXT: vcomisd %xmm1, %xmm4			; AVX-64-NEXT: vcomisd %xmm1, %xmm4
	; AVX-64-NEXT: vxorpd %xmm5, %xmm5, %xmm5			; AVX-64-NEXT: vxorpd %xmm5, %xmm5, %xmm5
	; AVX-64-NEXT: jb .LBB1_4			; AVX-64-NEXT: jb .LBB1_4
	; AVX-64-NEXT: # %bb.3:			; AVX-64-NEXT: # %bb.3:
	; AVX-64-NEXT: vmovapd %xmm1, %xmm5			; AVX-64-NEXT: vmovapd %xmm1, %xmm5
	; AVX-64-NEXT: .LBB1_4:			; AVX-64-NEXT: .LBB1_4:
	; AVX-64-NEXT: vmovq %rax, %xmm3			; AVX-64-NEXT: vmovq %rax, %xmm3
	; AVX-64-NEXT: vsubsd %xmm5, %xmm4, %xmm4			; AVX-64-NEXT: vsubsd %xmm5, %xmm4, %xmm4
	Show All 12 Lines
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]
	; AVX-64-NEXT: vsubsd %xmm5, %xmm0, %xmm4			; AVX-64-NEXT: vsubsd %xmm5, %xmm0, %xmm4
	; AVX-64-NEXT: vcvttsd2si %xmm4, %rax			; AVX-64-NEXT: vcvttsd2si %xmm4, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	; AVX-64-NEXT: movzbl %cl, %ecx			; AVX-64-NEXT: movzbl %cl, %ecx
	; AVX-64-NEXT: shlq $63, %rcx			; AVX-64-NEXT: shlq $63, %rcx
	; AVX-64-NEXT: xorq %rax, %rcx			; AVX-64-NEXT: xorq %rax, %rcx
	; AVX-64-NEXT: vmovq %rcx, %xmm4			; AVX-64-NEXT: vmovq %rcx, %xmm4
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-64-NEXT: vcomisd %xmm1, %xmm0			; AVX-64-NEXT: vcomisd %xmm1, %xmm0
	; AVX-64-NEXT: jb .LBB1_8			; AVX-64-NEXT: jb .LBB1_8
	; AVX-64-NEXT: # %bb.7:			; AVX-64-NEXT: # %bb.7:
	; AVX-64-NEXT: vmovapd %xmm1, %xmm2			; AVX-64-NEXT: vmovapd %xmm1, %xmm2
	; AVX-64-NEXT: .LBB1_8:			; AVX-64-NEXT: .LBB1_8:
	; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0			; AVX-64-NEXT: vsubsd %xmm2, %xmm0, %xmm0
	; AVX-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX-64-NEXT: setae %cl			; AVX-64-NEXT: setae %cl
	Show All 12 Lines
	; AVX512F-32-NEXT: .cfi_offset %ebp, -8			; AVX512F-32-NEXT: .cfi_offset %ebp, -8
	; AVX512F-32-NEXT: movl %esp, %ebp			; AVX512F-32-NEXT: movl %esp, %ebp
	; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp			; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX512F-32-NEXT: pushl %ebx			; AVX512F-32-NEXT: pushl %ebx
	; AVX512F-32-NEXT: andl $-8, %esp			; AVX512F-32-NEXT: andl $-8, %esp
	; AVX512F-32-NEXT: subl $40, %esp			; AVX512F-32-NEXT: subl $40, %esp
	; AVX512F-32-NEXT: .cfi_offset %ebx, -12			; AVX512F-32-NEXT: .cfi_offset %ebx, -12
	; AVX512F-32-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512F-32-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512F-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512F-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512F-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512F-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512F-32-NEXT: xorl %eax, %eax			; AVX512F-32-NEXT: xorl %eax, %eax
	; AVX512F-32-NEXT: vcomisd %xmm1, %xmm3			; AVX512F-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX512F-32-NEXT: setae %al			; AVX512F-32-NEXT: setae %al
	; AVX512F-32-NEXT: kmovw %eax, %k1			; AVX512F-32-NEXT: kmovw %eax, %k1
	; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512F-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX512F-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX512F-32-NEXT: vmovsd %xmm3, (%esp)			; AVX512F-32-NEXT: vmovsd %xmm3, (%esp)
	; AVX512F-32-NEXT: xorl %edx, %edx			; AVX512F-32-NEXT: xorl %edx, %edx
	; AVX512F-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512F-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512F-32-NEXT: setae %dl			; AVX512F-32-NEXT: setae %dl
	; AVX512F-32-NEXT: kmovw %edx, %k1			; AVX512F-32-NEXT: kmovw %edx, %k1
	; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512F-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512F-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512F-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-32-NEXT: xorl %ecx, %ecx			; AVX512F-32-NEXT: xorl %ecx, %ecx
	; AVX512F-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512F-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512F-32-NEXT: setae %cl			; AVX512F-32-NEXT: setae %cl
	; AVX512F-32-NEXT: kmovw %ecx, %k1			; AVX512F-32-NEXT: kmovw %ecx, %k1
	; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512F-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512F-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512F-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512F-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: xorl %ebx, %ebx			; AVX512F-32-NEXT: xorl %ebx, %ebx
	Show All 35 Lines
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptoui_v4f64_to_v4i64:			; AVX512F-64-LABEL: strict_vector_fptoui_v4f64_to_v4i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512F-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512F-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512F-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-64-NEXT: retq			; AVX512F-64-NEXT: retq
	;			;
	; AVX512VL-32-LABEL: strict_vector_fptoui_v4f64_to_v4i64:			; AVX512VL-32-LABEL: strict_vector_fptoui_v4f64_to_v4i64:
	; AVX512VL-32: # %bb.0:			; AVX512VL-32: # %bb.0:
	; AVX512VL-32-NEXT: pushl %ebp			; AVX512VL-32-NEXT: pushl %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa_offset 8			; AVX512VL-32-NEXT: .cfi_def_cfa_offset 8
	; AVX512VL-32-NEXT: .cfi_offset %ebp, -8			; AVX512VL-32-NEXT: .cfi_offset %ebp, -8
	; AVX512VL-32-NEXT: movl %esp, %ebp			; AVX512VL-32-NEXT: movl %esp, %ebp
	; AVX512VL-32-NEXT: .cfi_def_cfa_register %ebp			; AVX512VL-32-NEXT: .cfi_def_cfa_register %ebp
	; AVX512VL-32-NEXT: pushl %ebx			; AVX512VL-32-NEXT: pushl %ebx
	; AVX512VL-32-NEXT: andl $-8, %esp			; AVX512VL-32-NEXT: andl $-8, %esp
	; AVX512VL-32-NEXT: subl $40, %esp			; AVX512VL-32-NEXT: subl $40, %esp
	; AVX512VL-32-NEXT: .cfi_offset %ebx, -12			; AVX512VL-32-NEXT: .cfi_offset %ebx, -12
	; AVX512VL-32-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512VL-32-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovsd %xmm3, (%esp)			; AVX512VL-32-NEXT: vmovsd %xmm3, (%esp)
	; AVX512VL-32-NEXT: xorl %edx, %edx			; AVX512VL-32-NEXT: xorl %edx, %edx
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %dl			; AVX512VL-32-NEXT: setae %dl
	; AVX512VL-32-NEXT: kmovw %edx, %k1			; AVX512VL-32-NEXT: kmovw %edx, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-32-NEXT: xorl %ecx, %ecx			; AVX512VL-32-NEXT: xorl %ecx, %ecx
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %cl			; AVX512VL-32-NEXT: setae %cl
	; AVX512VL-32-NEXT: kmovw %ecx, %k1			; AVX512VL-32-NEXT: kmovw %ecx, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: xorl %ebx, %ebx			; AVX512VL-32-NEXT: xorl %ebx, %ebx
	Show All 35 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptoui_v4f64_to_v4i64:			; AVX512VL-64-LABEL: strict_vector_fptoui_v4f64_to_v4i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptoui_v4f64_to_v4i64:			; AVX512DQ-LABEL: strict_vector_fptoui_v4f64_to_v4i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: .cfi_def_cfa %esp, 4			; AVX-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX-32-NEXT: retl			; AVX-32-NEXT: retl
	;			;
	; AVX-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:			; AVX-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:
	; AVX-64: # %bb.0:			; AVX-64: # %bb.0:
	; AVX-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-64-NEXT: vcvttss2si %xmm1, %rax			; AVX-64-NEXT: vcvttss2si %xmm1, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm1			; AVX-64-NEXT: vmovq %rax, %xmm1
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-64-NEXT: vcvttss2si %xmm2, %rax			; AVX-64-NEXT: vcvttss2si %xmm2, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm2			; AVX-64-NEXT: vmovq %rax, %xmm2
	; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX-64-NEXT: vcvttss2si %xmm0, %rax			; AVX-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm2			; AVX-64-NEXT: vmovq %rax, %xmm2
	; AVX-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX-64-NEXT: vcvttss2si %xmm0, %rax			; AVX-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX-64-NEXT: vmovq %rax, %xmm0			; AVX-64-NEXT: vmovq %rax, %xmm0
	Show All 37 Lines
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:			; AVX512F-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512F-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512F-64-NEXT: vcvttss2si %xmm1, %rax			; AVX512F-64-NEXT: vcvttss2si %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttss2si %xmm2, %rax			; AVX512F-64-NEXT: vcvttss2si %xmm2, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512F-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512F-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512F-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	Show All 37 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:			; AVX512VL-64-LABEL: strict_vector_fptosi_v4f32_to_v4i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; AVX-32-NEXT: vmovss %xmm2, (%esp)			; AVX-32-NEXT: vmovss %xmm2, (%esp)
	; AVX-32-NEXT: flds (%esp)			; AVX-32-NEXT: flds (%esp)
	; AVX-32-NEXT: fisttpll (%esp)			; AVX-32-NEXT: fisttpll (%esp)
	; AVX-32-NEXT: wait			; AVX-32-NEXT: wait
	; AVX-32-NEXT: setae %cl			; AVX-32-NEXT: setae %cl
	; AVX-32-NEXT: movzbl %cl, %ecx			; AVX-32-NEXT: movzbl %cl, %ecx
	; AVX-32-NEXT: shll $31, %ecx			; AVX-32-NEXT: shll $31, %ecx
	; AVX-32-NEXT: xorl {{[0-9]+}}(%esp), %ecx			; AVX-32-NEXT: xorl {{[0-9]+}}(%esp), %ecx
	; AVX-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-32-NEXT: vcomiss %xmm1, %xmm2			; AVX-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX-32-NEXT: vmovaps %xmm1, %xmm3			; AVX-32-NEXT: vmovaps %xmm1, %xmm3
	; AVX-32-NEXT: jae .LBB3_6			; AVX-32-NEXT: jae .LBB3_6
	; AVX-32-NEXT: # %bb.5:			; AVX-32-NEXT: # %bb.5:
	; AVX-32-NEXT: vxorps %xmm3, %xmm3, %xmm3			; AVX-32-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; AVX-32-NEXT: .LBB3_6:			; AVX-32-NEXT: .LBB3_6:
	; AVX-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)			; AVX-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; AVX-64-NEXT: vmovaps %xmm1, %xmm4			; AVX-64-NEXT: vmovaps %xmm1, %xmm4
	; AVX-64-NEXT: .LBB3_2:			; AVX-64-NEXT: .LBB3_2:
	; AVX-64-NEXT: vsubss %xmm4, %xmm3, %xmm3			; AVX-64-NEXT: vsubss %xmm4, %xmm3, %xmm3
	; AVX-64-NEXT: vcvttss2si %xmm3, %rcx			; AVX-64-NEXT: vcvttss2si %xmm3, %rcx
	; AVX-64-NEXT: setae %al			; AVX-64-NEXT: setae %al
	; AVX-64-NEXT: movzbl %al, %eax			; AVX-64-NEXT: movzbl %al, %eax
	; AVX-64-NEXT: shlq $63, %rax			; AVX-64-NEXT: shlq $63, %rax
	; AVX-64-NEXT: xorq %rcx, %rax			; AVX-64-NEXT: xorq %rcx, %rax
	; AVX-64-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-64-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-64-NEXT: vcomiss %xmm1, %xmm4			; AVX-64-NEXT: vcomiss %xmm1, %xmm4
	; AVX-64-NEXT: vxorps %xmm5, %xmm5, %xmm5			; AVX-64-NEXT: vxorps %xmm5, %xmm5, %xmm5
	; AVX-64-NEXT: jb .LBB3_4			; AVX-64-NEXT: jb .LBB3_4
	; AVX-64-NEXT: # %bb.3:			; AVX-64-NEXT: # %bb.3:
	; AVX-64-NEXT: vmovaps %xmm1, %xmm5			; AVX-64-NEXT: vmovaps %xmm1, %xmm5
	; AVX-64-NEXT: .LBB3_4:			; AVX-64-NEXT: .LBB3_4:
	; AVX-64-NEXT: vmovq %rax, %xmm3			; AVX-64-NEXT: vmovq %rax, %xmm3
	; AVX-64-NEXT: vsubss %xmm5, %xmm4, %xmm4			; AVX-64-NEXT: vsubss %xmm5, %xmm4, %xmm4
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX512F-32-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; AVX512F-32-NEXT: xorl %eax, %eax			; AVX512F-32-NEXT: xorl %eax, %eax
	; AVX512F-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512F-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512F-32-NEXT: setae %al			; AVX512F-32-NEXT: setae %al
	; AVX512F-32-NEXT: kmovw %eax, %k1			; AVX512F-32-NEXT: kmovw %eax, %k1
	; AVX512F-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512F-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512F-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512F-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512F-32-NEXT: vmovss %xmm2, (%esp)			; AVX512F-32-NEXT: vmovss %xmm2, (%esp)
	; AVX512F-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-32-NEXT: xorl %edx, %edx			; AVX512F-32-NEXT: xorl %edx, %edx
	; AVX512F-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512F-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512F-32-NEXT: setae %dl			; AVX512F-32-NEXT: setae %dl
	; AVX512F-32-NEXT: kmovw %edx, %k1			; AVX512F-32-NEXT: kmovw %edx, %k1
	; AVX512F-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512F-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512F-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512F-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512F-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512F-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512F-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	;			;
	; AVX512F-64-LABEL: strict_vector_fptoui_v4f32_to_v4i64:			; AVX512F-64-LABEL: strict_vector_fptoui_v4f32_to_v4i64:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512F-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512F-64-NEXT: vcvttss2usi %xmm1, %rax			; AVX512F-64-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm1			; AVX512F-64-NEXT: vmovq %rax, %xmm1
	; AVX512F-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-64-NEXT: vcvttss2usi %xmm2, %rax			; AVX512F-64-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm2			; AVX512F-64-NEXT: vmovq %rax, %xmm2
	; AVX512F-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512F-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512F-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512F-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512F-64-NEXT: vmovq %rax, %xmm0			; AVX512F-64-NEXT: vmovq %rax, %xmm0
	Show All 16 Lines
	; AVX512VL-32-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX512VL-32-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovss %xmm2, (%esp)			; AVX512VL-32-NEXT: vmovss %xmm2, (%esp)
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-32-NEXT: xorl %edx, %edx			; AVX512VL-32-NEXT: xorl %edx, %edx
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %dl			; AVX512VL-32-NEXT: setae %dl
	; AVX512VL-32-NEXT: kmovw %edx, %k1			; AVX512VL-32-NEXT: kmovw %edx, %k1
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512VL-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptoui_v4f32_to_v4i64:			; AVX512VL-64-LABEL: strict_vector_fptoui_v4f32_to_v4i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	▲ Show 20 Lines • Show All 618 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec-strict-fptoint-512.ll

	Show First 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptosi_v8f64_to_v8i64:			; AVX512VL-64-LABEL: strict_vector_fptosi_v8f64_to_v8i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512VL-64-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512VL-64-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512VL-64-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512VL-64-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptosi_v8f64_to_v8i64:			; AVX512DQ-LABEL: strict_vector_fptosi_v8f64_to_v8i64:
	Show All 17 Lines
	; AVX512VL-32-NEXT: pushl %edi			; AVX512VL-32-NEXT: pushl %edi
	; AVX512VL-32-NEXT: pushl %esi			; AVX512VL-32-NEXT: pushl %esi
	; AVX512VL-32-NEXT: andl $-8, %esp			; AVX512VL-32-NEXT: andl $-8, %esp
	; AVX512VL-32-NEXT: subl $80, %esp			; AVX512VL-32-NEXT: subl $80, %esp
	; AVX512VL-32-NEXT: .cfi_offset %esi, -20			; AVX512VL-32-NEXT: .cfi_offset %esi, -20
	; AVX512VL-32-NEXT: .cfi_offset %edi, -16			; AVX512VL-32-NEXT: .cfi_offset %edi, -16
	; AVX512VL-32-NEXT: .cfi_offset %ebx, -12			; AVX512VL-32-NEXT: .cfi_offset %ebx, -12
	; AVX512VL-32-NEXT: vextractf32x4 $3, %zmm0, %xmm2			; AVX512VL-32-NEXT: vextractf32x4 $3, %zmm0, %xmm2
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512VL-32-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: movl %eax, %edi			; AVX512VL-32-NEXT: movl %eax, %edi
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovsd %xmm3, (%esp)			; AVX512VL-32-NEXT: vmovsd %xmm3, (%esp)
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: movl %eax, %esi			; AVX512VL-32-NEXT: movl %eax, %esi
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512VL-32-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovsd %xmm3, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm3, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: xorl %edx, %edx			; AVX512VL-32-NEXT: xorl %edx, %edx
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %dl			; AVX512VL-32-NEXT: setae %dl
	; AVX512VL-32-NEXT: kmovw %edx, %k1			; AVX512VL-32-NEXT: kmovw %edx, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512VL-32-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubsd %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovsd %xmm3, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm3, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: xorl %ecx, %ecx			; AVX512VL-32-NEXT: xorl %ecx, %ecx
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %cl			; AVX512VL-32-NEXT: setae %cl
	; AVX512VL-32-NEXT: kmovw %ecx, %k1			; AVX512VL-32-NEXT: kmovw %ecx, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-32-NEXT: xorl %ebx, %ebx			; AVX512VL-32-NEXT: xorl %ebx, %ebx
	; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomisd %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %bl			; AVX512VL-32-NEXT: setae %bl
	; AVX512VL-32-NEXT: kmovw %ebx, %k1			; AVX512VL-32-NEXT: kmovw %ebx, %k1
	; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovsd %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubsd %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovsd %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4			; AVX512VL-32-NEXT: .cfi_def_cfa %esp, 4
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptoui_v8f64_to_v8i64:			; AVX512VL-64-LABEL: strict_vector_fptoui_v8f64_to_v8i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512VL-64-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-64-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512VL-64-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX512VL-64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512VL-64-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512VL-64-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512VL-64-NEXT: retq			; AVX512VL-64-NEXT: retq
	;			;
	; AVX512DQ-LABEL: strict_vector_fptoui_v8f64_to_v8i64:			; AVX512DQ-LABEL: strict_vector_fptoui_v8f64_to_v8i64:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptosi_v8f32_to_v8i64:			; AVX512VL-64-LABEL: strict_vector_fptosi_v8f32_to_v8i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm3, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm3, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm3, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm3, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	Show All 33 Lines
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: movl %eax, %edi			; AVX512VL-32-NEXT: movl %eax, %edi
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubss %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovss %xmm3, (%esp)			; AVX512VL-32-NEXT: vmovss %xmm3, (%esp)
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm3			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm3
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: movl %eax, %esi			; AVX512VL-32-NEXT: movl %eax, %esi
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm4 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm4 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm4, %xmm3, %xmm3			; AVX512VL-32-NEXT: vsubss %xmm4, %xmm3, %xmm3
	; AVX512VL-32-NEXT: vmovss %xmm3, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovss %xmm3, {{[0-9]+}}(%esp)
	Show All 17 Lines
	; AVX512VL-32-NEXT: xorl %eax, %eax			; AVX512VL-32-NEXT: xorl %eax, %eax
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %al			; AVX512VL-32-NEXT: setae %al
	; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; AVX512VL-32-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; AVX512VL-32-NEXT: kmovw %eax, %k1			; AVX512VL-32-NEXT: kmovw %eax, %k1
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-32-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-32-NEXT: xorl %ecx, %ecx			; AVX512VL-32-NEXT: xorl %ecx, %ecx
	; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2			; AVX512VL-32-NEXT: vcomiss %xmm1, %xmm2
	; AVX512VL-32-NEXT: setae %cl			; AVX512VL-32-NEXT: setae %cl
	; AVX512VL-32-NEXT: kmovw %ecx, %k1			; AVX512VL-32-NEXT: kmovw %ecx, %k1
	; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}			; AVX512VL-32-NEXT: vmovss %xmm1, %xmm1, %xmm3 {%k1} {z}
	; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2			; AVX512VL-32-NEXT: vsubss %xmm3, %xmm2, %xmm2
	; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)			; AVX512VL-32-NEXT: vmovss %xmm2, {{[0-9]+}}(%esp)
	; AVX512VL-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512VL-32-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; AVX512VL-32-NEXT: retl			; AVX512VL-32-NEXT: retl
	;			;
	; AVX512VL-64-LABEL: strict_vector_fptoui_v8f32_to_v8i64:			; AVX512VL-64-LABEL: strict_vector_fptoui_v8f32_to_v8i64:
	; AVX512VL-64: # %bb.0:			; AVX512VL-64: # %bb.0:
	; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm3, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm3, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm1			; AVX512VL-64-NEXT: vmovq %rax, %xmm1
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]
	; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512VL-64-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512VL-64-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm2			; AVX512VL-64-NEXT: vmovq %rax, %xmm2
	; AVX512VL-64-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX512VL-64-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm3, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm3, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX512VL-64-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm3			; AVX512VL-64-NEXT: vmovq %rax, %xmm3
	; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-64-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-64-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-64-NEXT: vmovq %rax, %xmm0			; AVX512VL-64-NEXT: vmovq %rax, %xmm0
	▲ Show 20 Lines • Show All 280 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_fp_to_int.ll

	Show All 26 Lines
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; VEX-LABEL: fptosi_2f64_to_2i64:			; VEX-LABEL: fptosi_2f64_to_2i64:
	; VEX: # %bb.0:			; VEX: # %bb.0:
	; VEX-NEXT: vcvttsd2si %xmm0, %rax			; VEX-NEXT: vcvttsd2si %xmm0, %rax
	; VEX-NEXT: vmovq %rax, %xmm1			; VEX-NEXT: vmovq %rax, %xmm1
	; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; VEX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; VEX-NEXT: vcvttsd2si %xmm0, %rax			; VEX-NEXT: vcvttsd2si %xmm0, %rax
	; VEX-NEXT: vmovq %rax, %xmm0			; VEX-NEXT: vmovq %rax, %xmm0
	; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; VEX-NEXT: retq			; VEX-NEXT: retq
	;			;
	; AVX512F-LABEL: fptosi_2f64_to_2i64:			; AVX512F-LABEL: fptosi_2f64_to_2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptosi_2f64_to_2i64:			; AVX512VL-LABEL: fptosi_2f64_to_2i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: fptosi_2f64_to_2i64:			; AVX512DQ-LABEL: fptosi_2f64_to_2i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa %xmm3, %xmm1			; SSE-NEXT: movdqa %xmm3, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: fptosi_4f64_to_4i64:			; AVX1-LABEL: fptosi_4f64_to_4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vcvttsd2si %xmm1, %rax			; AVX1-NEXT: vcvttsd2si %xmm1, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-NEXT: vcvttsd2si %xmm1, %rax			; AVX1-NEXT: vcvttsd2si %xmm1, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vcvttsd2si %xmm0, %rax			; AVX1-NEXT: vcvttsd2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vcvttsd2si %xmm0, %rax			; AVX1-NEXT: vcvttsd2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: fptosi_4f64_to_4i64:			; AVX2-LABEL: fptosi_4f64_to_4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vcvttsd2si %xmm1, %rax			; AVX2-NEXT: vcvttsd2si %xmm1, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-NEXT: vcvttsd2si %xmm1, %rax			; AVX2-NEXT: vcvttsd2si %xmm1, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vcvttsd2si %xmm0, %rax			; AVX2-NEXT: vcvttsd2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vcvttsd2si %xmm0, %rax			; AVX2-NEXT: vcvttsd2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptosi_4f64_to_4i64:			; AVX512F-LABEL: fptosi_4f64_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vcvttsd2si %xmm1, %rax			; AVX512F-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512F-NEXT: vcvttsd2si %xmm1, %rax			; AVX512F-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-NEXT: vcvttsd2si %xmm0, %rax			; AVX512F-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptosi_4f64_to_4i64:			; AVX512VL-LABEL: fptosi_4f64_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-NEXT: vcvttsd2si %xmm1, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: fptosi_4f64_to_4i64:			; AVX512DQ-LABEL: fptosi_4f64_to_4i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2			; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2
	; VEX-NEXT: vcvttsd2si %xmm2, %rax			; VEX-NEXT: vcvttsd2si %xmm2, %rax
	; VEX-NEXT: vcvttsd2si %xmm0, %rcx			; VEX-NEXT: vcvttsd2si %xmm0, %rcx
	; VEX-NEXT: movq %rcx, %rdx			; VEX-NEXT: movq %rcx, %rdx
	; VEX-NEXT: sarq $63, %rdx			; VEX-NEXT: sarq $63, %rdx
	; VEX-NEXT: andq %rax, %rdx			; VEX-NEXT: andq %rax, %rdx
	; VEX-NEXT: orq %rcx, %rdx			; VEX-NEXT: orq %rcx, %rdx
	; VEX-NEXT: vmovq %rdx, %xmm2			; VEX-NEXT: vmovq %rdx, %xmm2
	; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; VEX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm1			; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm1
	; VEX-NEXT: vcvttsd2si %xmm1, %rax			; VEX-NEXT: vcvttsd2si %xmm1, %rax
	; VEX-NEXT: vcvttsd2si %xmm0, %rcx			; VEX-NEXT: vcvttsd2si %xmm0, %rcx
	; VEX-NEXT: movq %rcx, %rdx			; VEX-NEXT: movq %rcx, %rdx
	; VEX-NEXT: sarq $63, %rdx			; VEX-NEXT: sarq $63, %rdx
	; VEX-NEXT: andq %rax, %rdx			; VEX-NEXT: andq %rax, %rdx
	; VEX-NEXT: orq %rcx, %rdx			; VEX-NEXT: orq %rcx, %rdx
	; VEX-NEXT: vmovq %rdx, %xmm0			; VEX-NEXT: vmovq %rdx, %xmm0
	; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; VEX-NEXT: retq			; VEX-NEXT: retq
	;			;
	; AVX512F-LABEL: fptoui_2f64_to_2i64:			; AVX512F-LABEL: fptoui_2f64_to_2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptoui_2f64_to_2i64:			; AVX512VL-LABEL: fptoui_2f64_to_2i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: fptoui_2f64_to_2i64:			; AVX512DQ-LABEL: fptoui_2f64_to_2i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	▲ Show 20 Lines • Show All 237 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vsubsd %xmm1, %xmm2, %xmm3			; AVX1-NEXT: vsubsd %xmm1, %xmm2, %xmm3
	; AVX1-NEXT: vcvttsd2si %xmm3, %rax			; AVX1-NEXT: vcvttsd2si %xmm3, %rax
	; AVX1-NEXT: vcvttsd2si %xmm2, %rcx			; AVX1-NEXT: vcvttsd2si %xmm2, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm3			; AVX1-NEXT: vmovq %rdx, %xmm3
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX1-NEXT: vsubsd %xmm1, %xmm2, %xmm4			; AVX1-NEXT: vsubsd %xmm1, %xmm2, %xmm4
	; AVX1-NEXT: vcvttsd2si %xmm4, %rax			; AVX1-NEXT: vcvttsd2si %xmm4, %rax
	; AVX1-NEXT: vcvttsd2si %xmm2, %rcx			; AVX1-NEXT: vcvttsd2si %xmm2, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm2			; AVX1-NEXT: vmovq %rdx, %xmm2
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm3			; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm3
	; AVX1-NEXT: vcvttsd2si %xmm3, %rax			; AVX1-NEXT: vcvttsd2si %xmm3, %rax
	; AVX1-NEXT: vcvttsd2si %xmm0, %rcx			; AVX1-NEXT: vcvttsd2si %xmm0, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm3			; AVX1-NEXT: vmovq %rdx, %xmm3
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vsubsd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vcvttsd2si %xmm1, %rax			; AVX1-NEXT: vcvttsd2si %xmm1, %rax
	; AVX1-NEXT: vcvttsd2si %xmm0, %rcx			; AVX1-NEXT: vcvttsd2si %xmm0, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm0			; AVX1-NEXT: vmovq %rdx, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: fptoui_4f64_to_4i64:			; AVX2-LABEL: fptoui_4f64_to_4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-NEXT: vsubsd %xmm1, %xmm2, %xmm3			; AVX2-NEXT: vsubsd %xmm1, %xmm2, %xmm3
	; AVX2-NEXT: vcvttsd2si %xmm3, %rax			; AVX2-NEXT: vcvttsd2si %xmm3, %rax
	; AVX2-NEXT: vcvttsd2si %xmm2, %rcx			; AVX2-NEXT: vcvttsd2si %xmm2, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm3			; AVX2-NEXT: vmovq %rdx, %xmm3
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX2-NEXT: vsubsd %xmm1, %xmm2, %xmm4			; AVX2-NEXT: vsubsd %xmm1, %xmm2, %xmm4
	; AVX2-NEXT: vcvttsd2si %xmm4, %rax			; AVX2-NEXT: vcvttsd2si %xmm4, %rax
	; AVX2-NEXT: vcvttsd2si %xmm2, %rcx			; AVX2-NEXT: vcvttsd2si %xmm2, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm2			; AVX2-NEXT: vmovq %rdx, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX2-NEXT: vsubsd %xmm1, %xmm0, %xmm3			; AVX2-NEXT: vsubsd %xmm1, %xmm0, %xmm3
	; AVX2-NEXT: vcvttsd2si %xmm3, %rax			; AVX2-NEXT: vcvttsd2si %xmm3, %rax
	; AVX2-NEXT: vcvttsd2si %xmm0, %rcx			; AVX2-NEXT: vcvttsd2si %xmm0, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm3			; AVX2-NEXT: vmovq %rdx, %xmm3
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vsubsd %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vsubsd %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vcvttsd2si %xmm1, %rax			; AVX2-NEXT: vcvttsd2si %xmm1, %rax
	; AVX2-NEXT: vcvttsd2si %xmm0, %rcx			; AVX2-NEXT: vcvttsd2si %xmm0, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm0			; AVX2-NEXT: vmovq %rdx, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm3[0],xmm0[0]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptoui_4f64_to_4i64:			; AVX512F-LABEL: fptoui_4f64_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512F-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512F-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptoui_4f64_to_4i64:			; AVX512VL-LABEL: fptoui_4f64_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512VL-NEXT: vcvttsd2usi %xmm1, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttsd2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: fptoui_4f64_to_4i64:			; AVX512DQ-LABEL: fptoui_4f64_to_4i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: fptosi_4f32_to_4i64:			; AVX1-LABEL: fptosi_4f32_to_4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX1-NEXT: vcvttss2si %xmm1, %rax			; AVX1-NEXT: vcvttss2si %xmm1, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: vcvttss2si %xmm2, %rax			; AVX1-NEXT: vcvttss2si %xmm2, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vcvttss2si %xmm0, %rax			; AVX1-NEXT: vcvttss2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX1-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vcvttss2si %xmm0, %rax			; AVX1-NEXT: vcvttss2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: fptosi_4f32_to_4i64:			; AVX2-LABEL: fptosi_4f32_to_4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX2-NEXT: vcvttss2si %xmm1, %rax			; AVX2-NEXT: vcvttss2si %xmm1, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vcvttss2si %xmm2, %rax			; AVX2-NEXT: vcvttss2si %xmm2, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vcvttss2si %xmm0, %rax			; AVX2-NEXT: vcvttss2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vcvttss2si %xmm0, %rax			; AVX2-NEXT: vcvttss2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptosi_4f32_to_4i64:			; AVX512F-LABEL: fptosi_4f32_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512F-NEXT: vcvttss2si %xmm1, %rax			; AVX512F-NEXT: vcvttss2si %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-NEXT: vcvttss2si %xmm2, %rax			; AVX512F-NEXT: vcvttss2si %xmm2, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-NEXT: vcvttss2si %xmm0, %rax			; AVX512F-NEXT: vcvttss2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512F-NEXT: vcvttss2si %xmm0, %rax			; AVX512F-NEXT: vcvttss2si %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptosi_4f32_to_4i64:			; AVX512VL-LABEL: fptosi_4f32_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vcvttss2si %xmm1, %rax			; AVX512VL-NEXT: vcvttss2si %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttss2si %xmm2, %rax			; AVX512VL-NEXT: vcvttss2si %xmm2, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vcvttss2si %xmm0, %rax			; AVX512VL-NEXT: vcvttss2si %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	Show All 37 Lines
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: fptosi_8f32_to_4i64:			; AVX1-LABEL: fptosi_8f32_to_4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX1-NEXT: vcvttss2si %xmm1, %rax			; AVX1-NEXT: vcvttss2si %xmm1, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: vcvttss2si %xmm2, %rax			; AVX1-NEXT: vcvttss2si %xmm2, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vcvttss2si %xmm0, %rax			; AVX1-NEXT: vcvttss2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX1-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vcvttss2si %xmm0, %rax			; AVX1-NEXT: vcvttss2si %xmm0, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: fptosi_8f32_to_4i64:			; AVX2-LABEL: fptosi_8f32_to_4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX2-NEXT: vcvttss2si %xmm1, %rax			; AVX2-NEXT: vcvttss2si %xmm1, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vcvttss2si %xmm2, %rax			; AVX2-NEXT: vcvttss2si %xmm2, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vcvttss2si %xmm0, %rax			; AVX2-NEXT: vcvttss2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vcvttss2si %xmm0, %rax			; AVX2-NEXT: vcvttss2si %xmm0, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptosi_8f32_to_4i64:			; AVX512F-LABEL: fptosi_8f32_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512F-NEXT: vcvttss2si %xmm1, %rax			; AVX512F-NEXT: vcvttss2si %xmm1, %rax
	; AVX512F-NEXT: vcvttss2si %xmm0, %rcx			; AVX512F-NEXT: vcvttss2si %xmm0, %rcx
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512F-NEXT: vcvttss2si %xmm1, %rdx			; AVX512F-NEXT: vcvttss2si %xmm1, %rdx
	; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512F-NEXT: vcvttss2si %xmm0, %rsi			; AVX512F-NEXT: vcvttss2si %xmm0, %rsi
	; AVX512F-NEXT: vmovq %rsi, %xmm0			; AVX512F-NEXT: vmovq %rsi, %xmm0
	; AVX512F-NEXT: vmovq %rdx, %xmm1			; AVX512F-NEXT: vmovq %rdx, %xmm1
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-NEXT: vmovq %rcx, %xmm1			; AVX512F-NEXT: vmovq %rcx, %xmm1
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptosi_8f32_to_4i64:			; AVX512VL-LABEL: fptosi_8f32_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vcvttss2si %xmm1, %rax			; AVX512VL-NEXT: vcvttss2si %xmm1, %rax
	; AVX512VL-NEXT: vcvttss2si %xmm0, %rcx			; AVX512VL-NEXT: vcvttss2si %xmm0, %rcx
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttss2si %xmm1, %rdx			; AVX512VL-NEXT: vcvttss2si %xmm1, %rdx
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vcvttss2si %xmm0, %rsi			; AVX512VL-NEXT: vcvttss2si %xmm0, %rsi
	; AVX512VL-NEXT: vmovq %rsi, %xmm0			; AVX512VL-NEXT: vmovq %rsi, %xmm0
	; AVX512VL-NEXT: vmovq %rdx, %xmm1			; AVX512VL-NEXT: vmovq %rdx, %xmm1
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-NEXT: vmovq %rcx, %xmm1			; AVX512VL-NEXT: vmovq %rcx, %xmm1
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vsubss %xmm1, %xmm2, %xmm3			; AVX1-NEXT: vsubss %xmm1, %xmm2, %xmm3
	; AVX1-NEXT: vcvttss2si %xmm3, %rax			; AVX1-NEXT: vcvttss2si %xmm3, %rax
	; AVX1-NEXT: vcvttss2si %xmm2, %rcx			; AVX1-NEXT: vcvttss2si %xmm2, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm2			; AVX1-NEXT: vmovq %rdx, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-NEXT: vsubss %xmm1, %xmm3, %xmm4			; AVX1-NEXT: vsubss %xmm1, %xmm3, %xmm4
	; AVX1-NEXT: vcvttss2si %xmm4, %rax			; AVX1-NEXT: vcvttss2si %xmm4, %rax
	; AVX1-NEXT: vcvttss2si %xmm3, %rcx			; AVX1-NEXT: vcvttss2si %xmm3, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm3			; AVX1-NEXT: vmovq %rdx, %xmm3
	Show All 26 Lines
	; AVX2-NEXT: vsubss %xmm1, %xmm2, %xmm3			; AVX2-NEXT: vsubss %xmm1, %xmm2, %xmm3
	; AVX2-NEXT: vcvttss2si %xmm3, %rax			; AVX2-NEXT: vcvttss2si %xmm3, %rax
	; AVX2-NEXT: vcvttss2si %xmm2, %rcx			; AVX2-NEXT: vcvttss2si %xmm2, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm2			; AVX2-NEXT: vmovq %rdx, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX2-NEXT: vsubss %xmm1, %xmm3, %xmm4			; AVX2-NEXT: vsubss %xmm1, %xmm3, %xmm4
	; AVX2-NEXT: vcvttss2si %xmm4, %rax			; AVX2-NEXT: vcvttss2si %xmm4, %rax
	; AVX2-NEXT: vcvttss2si %xmm3, %rcx			; AVX2-NEXT: vcvttss2si %xmm3, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm3			; AVX2-NEXT: vmovq %rdx, %xmm3
	Show All 19 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptoui_4f32_to_4i64:			; AVX512F-LABEL: fptoui_4f32_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512F-NEXT: vcvttss2usi %xmm1, %rax			; AVX512F-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512F-NEXT: vcvttss2usi %xmm2, %rax			; AVX512F-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512F-NEXT: vcvttss2usi %xmm0, %rax			; AVX512F-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512F-NEXT: vcvttss2usi %xmm0, %rax			; AVX512F-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512F-NEXT: vmovq %rax, %xmm0			; AVX512F-NEXT: vmovq %rax, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptoui_4f32_to_4i64:			; AVX512VL-LABEL: fptoui_4f32_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vcvttss2usi %xmm1, %rax			; AVX512VL-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm1			; AVX512VL-NEXT: vmovq %rax, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttss2usi %xmm2, %rax			; AVX512VL-NEXT: vcvttss2usi %xmm2, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512VL-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vcvttss2usi %xmm0, %rax			; AVX512VL-NEXT: vcvttss2usi %xmm0, %rax
	; AVX512VL-NEXT: vmovq %rax, %xmm0			; AVX512VL-NEXT: vmovq %rax, %xmm0
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vsubss %xmm1, %xmm2, %xmm3			; AVX1-NEXT: vsubss %xmm1, %xmm2, %xmm3
	; AVX1-NEXT: vcvttss2si %xmm3, %rax			; AVX1-NEXT: vcvttss2si %xmm3, %rax
	; AVX1-NEXT: vcvttss2si %xmm2, %rcx			; AVX1-NEXT: vcvttss2si %xmm2, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm2			; AVX1-NEXT: vmovq %rdx, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-NEXT: vsubss %xmm1, %xmm3, %xmm4			; AVX1-NEXT: vsubss %xmm1, %xmm3, %xmm4
	; AVX1-NEXT: vcvttss2si %xmm4, %rax			; AVX1-NEXT: vcvttss2si %xmm4, %rax
	; AVX1-NEXT: vcvttss2si %xmm3, %rcx			; AVX1-NEXT: vcvttss2si %xmm3, %rcx
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: movq %rcx, %rdx
	; AVX1-NEXT: sarq $63, %rdx			; AVX1-NEXT: sarq $63, %rdx
	; AVX1-NEXT: andq %rax, %rdx			; AVX1-NEXT: andq %rax, %rdx
	; AVX1-NEXT: orq %rcx, %rdx			; AVX1-NEXT: orq %rcx, %rdx
	; AVX1-NEXT: vmovq %rdx, %xmm3			; AVX1-NEXT: vmovq %rdx, %xmm3
	Show All 26 Lines
	; AVX2-NEXT: vsubss %xmm1, %xmm2, %xmm3			; AVX2-NEXT: vsubss %xmm1, %xmm2, %xmm3
	; AVX2-NEXT: vcvttss2si %xmm3, %rax			; AVX2-NEXT: vcvttss2si %xmm3, %rax
	; AVX2-NEXT: vcvttss2si %xmm2, %rcx			; AVX2-NEXT: vcvttss2si %xmm2, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm2			; AVX2-NEXT: vmovq %rdx, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX2-NEXT: vsubss %xmm1, %xmm3, %xmm4			; AVX2-NEXT: vsubss %xmm1, %xmm3, %xmm4
	; AVX2-NEXT: vcvttss2si %xmm4, %rax			; AVX2-NEXT: vcvttss2si %xmm4, %rax
	; AVX2-NEXT: vcvttss2si %xmm3, %rcx			; AVX2-NEXT: vcvttss2si %xmm3, %rcx
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: movq %rcx, %rdx
	; AVX2-NEXT: sarq $63, %rdx			; AVX2-NEXT: sarq $63, %rdx
	; AVX2-NEXT: andq %rax, %rdx			; AVX2-NEXT: andq %rax, %rdx
	; AVX2-NEXT: orq %rcx, %rdx			; AVX2-NEXT: orq %rcx, %rdx
	; AVX2-NEXT: vmovq %rdx, %xmm3			; AVX2-NEXT: vmovq %rdx, %xmm3
	Show All 19 Lines
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: fptoui_8f32_to_4i64:			; AVX512F-LABEL: fptoui_8f32_to_4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512F-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512F-NEXT: vcvttss2usi %xmm1, %rax			; AVX512F-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512F-NEXT: vcvttss2usi %xmm0, %rcx			; AVX512F-NEXT: vcvttss2usi %xmm0, %rcx
	; AVX512F-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512F-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512F-NEXT: vcvttss2usi %xmm1, %rdx			; AVX512F-NEXT: vcvttss2usi %xmm1, %rdx
	; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512F-NEXT: vcvttss2usi %xmm0, %rsi			; AVX512F-NEXT: vcvttss2usi %xmm0, %rsi
	; AVX512F-NEXT: vmovq %rsi, %xmm0			; AVX512F-NEXT: vmovq %rsi, %xmm0
	; AVX512F-NEXT: vmovq %rdx, %xmm1			; AVX512F-NEXT: vmovq %rdx, %xmm1
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512F-NEXT: vmovq %rcx, %xmm1			; AVX512F-NEXT: vmovq %rcx, %xmm1
	; AVX512F-NEXT: vmovq %rax, %xmm2			; AVX512F-NEXT: vmovq %rax, %xmm2
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: fptoui_8f32_to_4i64:			; AVX512VL-LABEL: fptoui_8f32_to_4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vcvttss2usi %xmm1, %rax			; AVX512VL-NEXT: vcvttss2usi %xmm1, %rax
	; AVX512VL-NEXT: vcvttss2usi %xmm0, %rcx			; AVX512VL-NEXT: vcvttss2usi %xmm0, %rcx
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512VL-NEXT: vcvttss2usi %xmm1, %rdx			; AVX512VL-NEXT: vcvttss2usi %xmm1, %rdx
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vcvttss2usi %xmm0, %rsi			; AVX512VL-NEXT: vcvttss2usi %xmm0, %rsi
	; AVX512VL-NEXT: vmovq %rsi, %xmm0			; AVX512VL-NEXT: vmovq %rsi, %xmm0
	; AVX512VL-NEXT: vmovq %rdx, %xmm1			; AVX512VL-NEXT: vmovq %rdx, %xmm1
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512VL-NEXT: vmovq %rcx, %xmm1			; AVX512VL-NEXT: vmovq %rcx, %xmm1
	; AVX512VL-NEXT: vmovq %rax, %xmm2			; AVX512VL-NEXT: vmovq %rax, %xmm2
	▲ Show 20 Lines • Show All 902 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-half-conversions.ll

Show First 20 Lines • Show All 3,078 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret i16 %2		ret i16 %2
}		}

define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {		define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {
; AVX-LABEL: cvt_2f64_to_2i16:		; AVX-LABEL: cvt_2f64_to_2i16:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: subq $40, %rsp		; AVX-NEXT: subq $40, %rsp
; AVX-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX-NEXT: callq __truncdfhf2@PLT		; AVX-NEXT: callq __truncdfhf2@PLT
; AVX-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; AVX-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; AVX-NEXT: callq __truncdfhf2@PLT		; AVX-NEXT: callq __truncdfhf2@PLT
; AVX-NEXT: vpunpcklwd (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX-NEXT: vpunpcklwd (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX-NEXT: addq $40, %rsp		; AVX-NEXT: addq $40, %rsp
; AVX-NEXT: retq		; AVX-NEXT: retq
Show All 16 Lines	; F16C-NEXT: retq
ret <2 x i16> %2		ret <2 x i16> %2
}		}

define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {		define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {
; AVX1-LABEL: cvt_4f64_to_4i16:		; AVX1-LABEL: cvt_4f64_to_4i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: subq $88, %rsp		; AVX1-NEXT: subq $88, %rsp
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]		; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero
; AVX1-NEXT: addq $88, %rsp		; AVX1-NEXT: addq $88, %rsp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: cvt_4f64_to_4i16:		; AVX2-LABEL: cvt_4f64_to_4i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: subq $88, %rsp		; AVX2-NEXT: subq $88, %rsp
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret <4 x i16> %2		ret <4 x i16> %2
}		}

define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {		define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {
; AVX1-LABEL: cvt_4f64_to_8i16_undef:		; AVX1-LABEL: cvt_4f64_to_8i16_undef:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: subq $88, %rsp		; AVX1-NEXT: subq $88, %rsp
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]		; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero
; AVX1-NEXT: addq $88, %rsp		; AVX1-NEXT: addq $88, %rsp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: cvt_4f64_to_8i16_undef:		; AVX2-LABEL: cvt_4f64_to_8i16_undef:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: subq $88, %rsp		; AVX2-NEXT: subq $88, %rsp
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret <8 x i16> %3		ret <8 x i16> %3
}		}

define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {		define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {
; AVX1-LABEL: cvt_4f64_to_8i16_zero:		; AVX1-LABEL: cvt_4f64_to_8i16_zero:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: subq $88, %rsp		; AVX1-NEXT: subq $88, %rsp
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]		; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero
; AVX1-NEXT: addq $88, %rsp		; AVX1-NEXT: addq $88, %rsp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: cvt_4f64_to_8i16_zero:		; AVX2-LABEL: cvt_4f64_to_8i16_zero:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: subq $88, %rsp		; AVX2-NEXT: subq $88, %rsp
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
▲ Show 20 Lines • Show All 294 Lines • ▼ Show 20 Lines

define void @store_cvt_2f64_to_2i16(<2 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_2f64_to_2i16(<2 x double> %a0, ptr %a1) nounwind {
; AVX-LABEL: store_cvt_2f64_to_2i16:		; AVX-LABEL: store_cvt_2f64_to_2i16:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: pushq %rbx		; AVX-NEXT: pushq %rbx
; AVX-NEXT: subq $32, %rsp		; AVX-NEXT: subq $32, %rsp
; AVX-NEXT: movq %rdi, %rbx		; AVX-NEXT: movq %rdi, %rbx
; AVX-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX-NEXT: callq __truncdfhf2@PLT		; AVX-NEXT: callq __truncdfhf2@PLT
; AVX-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX-NEXT: callq __truncdfhf2@PLT		; AVX-NEXT: callq __truncdfhf2@PLT
; AVX-NEXT: vpextrw $0, %xmm0, (%rbx)		; AVX-NEXT: vpextrw $0, %xmm0, (%rbx)
; AVX-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; AVX-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; AVX-NEXT: vpextrw $0, %xmm0, 2(%rbx)		; AVX-NEXT: vpextrw $0, %xmm0, 2(%rbx)
; AVX-NEXT: addq $32, %rsp		; AVX-NEXT: addq $32, %rsp
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines

define void @store_cvt_4f64_to_4i16(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_4i16(<4 x double> %a0, ptr %a1) nounwind {
; AVX1-LABEL: store_cvt_4f64_to_4i16:		; AVX1-LABEL: store_cvt_4f64_to_4i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: pushq %rbx		; AVX1-NEXT: pushq %rbx
; AVX1-NEXT: subq $80, %rsp		; AVX1-NEXT: subq $80, %rsp
; AVX1-NEXT: movq %rdi, %rbx		; AVX1-NEXT: movq %rdi, %rbx
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
Show All 11 Lines
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: store_cvt_4f64_to_4i16:		; AVX2-LABEL: store_cvt_4f64_to_4i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: pushq %rbx		; AVX2-NEXT: pushq %rbx
; AVX2-NEXT: subq $80, %rsp		; AVX2-NEXT: subq $80, %rsp
; AVX2-NEXT: movq %rdi, %rbx		; AVX2-NEXT: movq %rdi, %rbx
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines

define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, ptr %a1) nounwind {
; AVX1-LABEL: store_cvt_4f64_to_8i16_undef:		; AVX1-LABEL: store_cvt_4f64_to_8i16_undef:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: pushq %rbx		; AVX1-NEXT: pushq %rbx
; AVX1-NEXT: subq $80, %rsp		; AVX1-NEXT: subq $80, %rsp
; AVX1-NEXT: movq %rdi, %rbx		; AVX1-NEXT: movq %rdi, %rbx
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]		; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero
; AVX1-NEXT: vmovaps %xmm0, (%rbx)		; AVX1-NEXT: vmovaps %xmm0, (%rbx)
; AVX1-NEXT: addq $80, %rsp		; AVX1-NEXT: addq $80, %rsp
; AVX1-NEXT: popq %rbx		; AVX1-NEXT: popq %rbx
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: store_cvt_4f64_to_8i16_undef:		; AVX2-LABEL: store_cvt_4f64_to_8i16_undef:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: pushq %rbx		; AVX2-NEXT: pushq %rbx
; AVX2-NEXT: subq $80, %rsp		; AVX2-NEXT: subq $80, %rsp
; AVX2-NEXT: movq %rdi, %rbx		; AVX2-NEXT: movq %rdi, %rbx
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines

define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, ptr %a1) nounwind {
; AVX1-LABEL: store_cvt_4f64_to_8i16_zero:		; AVX1-LABEL: store_cvt_4f64_to_8i16_zero:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: pushq %rbx		; AVX1-NEXT: pushq %rbx
; AVX1-NEXT: subq $80, %rsp		; AVX1-NEXT: subq $80, %rsp
; AVX1-NEXT: movq %rdi, %rbx		; AVX1-NEXT: movq %rdi, %rbx
; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX1-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX1-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX1-NEXT: callq __truncdfhf2@PLT		; AVX1-NEXT: callq __truncdfhf2@PLT
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX1-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX1-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload		; AVX1-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]		; AVX1-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],zero,zero
; AVX1-NEXT: vmovaps %xmm0, (%rbx)		; AVX1-NEXT: vmovaps %xmm0, (%rbx)
; AVX1-NEXT: addq $80, %rsp		; AVX1-NEXT: addq $80, %rsp
; AVX1-NEXT: popq %rbx		; AVX1-NEXT: popq %rbx
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: store_cvt_4f64_to_8i16_zero:		; AVX2-LABEL: store_cvt_4f64_to_8i16_zero:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: pushq %rbx		; AVX2-NEXT: pushq %rbx
; AVX2-NEXT: subq $80, %rsp		; AVX2-NEXT: subq $80, %rsp
; AVX2-NEXT: movq %rdi, %rbx		; AVX2-NEXT: movq %rdi, %rbx
; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill		; AVX2-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload		; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload		; AVX2-NEXT: vmovdqa (%rsp), %xmm0 # 16-byte Reload
; AVX2-NEXT: callq __truncdfhf2@PLT		; AVX2-NEXT: callq __truncdfhf2@PLT
; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX2-NEXT: vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]		; AVX2-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload		; AVX2-NEXT: vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
▲ Show 20 Lines • Show All 773 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleave.ll

	Show First 20 Lines • Show All 576 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqu %xmm3, 32(%rsi)			; SSE-NEXT: movdqu %xmm3, 32(%rsi)
	; SSE-NEXT: movdqu %xmm0, 16(%rsi)			; SSE-NEXT: movdqu %xmm0, 16(%rsi)
	; SSE-NEXT: movdqu %xmm2, (%rsi)			; SSE-NEXT: movdqu %xmm2, (%rsi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: splat2_i64:			; AVX1-LABEL: splat2_i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]			; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,3,3]
	; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]			; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)			; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)
	; AVX1-NEXT: vmovupd %ymm1, (%rsi)			; AVX1-NEXT: vmovupd %ymm1, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: splat2_i64:			; AVX2-LABEL: splat2_i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovups (%rdi), %ymm0			; AVX2-NEXT: vmovups (%rdi), %ymm0
	Show All 12 Lines

llvm/test/CodeGen/X86/vector-interleaved-load-i32-stride-5.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 227 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm3[0,1],xmm4[2,3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm3[0,1],xmm4[2,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],mem[2],xmm5[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],mem[2],xmm5[3]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,2,3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,2,3,3]
	; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm6[0]			; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm6[0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm1[0,1,2,3],ymm0[4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm1[0,1,2,3],ymm0[4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm7, %xmm7			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm7, %xmm7
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm7 = xmm7[0,1],mem[2],xmm7[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm7 = xmm7[0,1],mem[2],xmm7[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm7 = xmm7[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm7 = xmm7[1,0]
	; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm7 = xmm7[0,1,2],xmm6[1]			; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm7 = xmm7[0,1,2],xmm6[1]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm4[0,1],xmm3[2,3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm4[0,1],xmm3[2,3]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm3[3,0],mem[1,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm3[3,0],mem[1,3]
	; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm6[2]			; AVX1-ONLY-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm6[2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],mem[1],xmm0[2,3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],mem[1],xmm0[2,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm6[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm6[3]
	▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm11[0,1,2],ymm7[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm11[0,1,2],ymm7[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vbroadcastss 144(%rdi), %ymm11			; AVX1-ONLY-NEXT: vbroadcastss 144(%rdi), %ymm11
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0,1,2,3,4,5,6],ymm11[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0,1,2,3,4,5,6],ymm11[7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm8 = ymm8[3,0],ymm1[2,0],ymm8[7,4],ymm1[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm8 = ymm8[3,0],ymm1[2,0],ymm8[7,4],ymm1[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm8 = ymm8[2,0],ymm1[2,1],ymm8[6,4],ymm1[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm8 = ymm8[2,0],ymm1[2,1],ymm8[6,4],ymm1[6,5]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm4[0,1,2,3],ymm3[4,5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm4[0,1,2,3],ymm3[4,5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm11, %xmm11			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm11, %xmm11
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm11 = xmm11[0,1],mem[2],xmm11[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm11 = xmm11[0,1],mem[2],xmm11[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm11 = xmm11[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm11 = xmm11[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm11[0,1,2],ymm8[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm11[0,1,2],ymm8[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm0[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm0[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm0[1,0],ymm11[0,0],ymm0[5,4],ymm11[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm0[1,0],ymm11[0,0],ymm0[5,4],ymm11[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm12[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm12[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1,2,3,4,5],ymm12[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1,2,3,4,5],ymm12[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm2[0,0],ymm1[3,0],ymm2[4,4],ymm1[7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm2[0,0],ymm1[3,0],ymm2[4,4],ymm1[7,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm12[2,0],ymm1[2,2],ymm12[6,4],ymm1[6,6]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm12 = ymm12[2,0],ymm1[2,2],ymm12[6,4],ymm1[6,6]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm9 = xmm10[0,1],xmm9[2,3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm9 = xmm10[0,1],xmm9[2,3]
	▲ Show 20 Lines • Show All 426 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vbroadcastss 304(%rdi), %ymm3			; AVX1-ONLY-NEXT: vbroadcastss 304(%rdi), %ymm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm14[3,0],ymm5[2,0],ymm14[7,4],ymm5[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm14[3,0],ymm5[2,0],ymm14[7,4],ymm5[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[2,0],ymm5[2,1],ymm1[6,4],ymm5[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[2,0],ymm5[2,1],ymm1[6,4],ymm5[6,5]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm7[0,1,2,3],ymm13[4,5],ymm7[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm7[0,1,2,3],ymm13[4,5],ymm7[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2],ymm1[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2],ymm1[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm1			; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm1
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm13 = ymm1[1,0],ymm4[0,0],ymm1[5,4],ymm4[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm13 = ymm1[1,0],ymm4[0,0],ymm1[5,4],ymm4[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm13 = ymm13[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm13 = ymm13[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm3, (%rsp) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm3, (%rsp) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm2[2,0],ymm0[7,4],ymm2[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm2[2,0],ymm0[7,4],ymm2[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm2[2,1],ymm0[6,4],ymm2[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm2[2,1],ymm0[6,4],ymm2[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm7 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm7 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm12[0,1,2,3],ymm7[4,5],ymm12[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm12[0,1,2,3],ymm7[4,5],ymm12[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm13 = ymm3[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm13 = ymm3[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm0			; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm0[1,0],ymm3[0,0],ymm0[5,4],ymm3[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm0[1,0],ymm3[0,0],ymm0[5,4],ymm3[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm14[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm14[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm13 = ymm13[0,1,2,3,4,5],ymm14[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm13 = ymm13[0,1,2,3,4,5],ymm14[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm10 = xmm10[0,1],xmm15[2,3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm10 = xmm10[0,1],xmm15[2,3]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm6[0,0],ymm5[3,0],ymm6[4,4],ymm5[7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm14 = ymm6[0,0],ymm5[3,0],ymm6[4,4],ymm5[7,4]
	▲ Show 20 Lines • Show All 935 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm11[3,0],ymm8[2,0],ymm11[7,4],ymm8[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm11[3,0],ymm8[2,0],ymm11[7,4],ymm8[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm8[2,1],ymm0[6,4],ymm8[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm8[2,1],ymm0[6,4],ymm8[6,5]
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm12, %ymm2 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm12, %ymm2 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm2 = ymm12[0,1,2,3],mem[4,5],ymm12[6,7]			; AVX1-ONLY-NEXT: # ymm2 = ymm12[0,1,2,3],mem[4,5],ymm12[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm5			; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm5
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm5[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm5[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm5[1,0],ymm1[0,0],ymm5[5,4],ymm1[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm5[1,0],ymm1[0,0],ymm5[5,4],ymm1[4,4]
	; AVX1-ONLY-NEXT: vmovaps %ymm1, %ymm11			; AVX1-ONLY-NEXT: vmovaps %ymm1, %ymm11
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm13[3,0],ymm7[2,0],ymm13[7,4],ymm7[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm13[3,0],ymm7[2,0],ymm13[7,4],ymm7[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm7[2,1],ymm0[6,4],ymm7[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm7[2,1],ymm0[6,4],ymm7[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm2 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm2 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm2 = mem[0,1,2,3],ymm1[4,5],mem[6,7]			; AVX1-ONLY-NEXT: # ymm2 = mem[0,1,2,3],ymm1[4,5],mem[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 608(%rdi), %ymm6			; AVX1-ONLY-NEXT: vmovaps 608(%rdi), %ymm6
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm6[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm6[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm6[1,0],ymm12[0,0],ymm6[5,4],ymm12[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm6[1,0],ymm12[0,0],ymm6[5,4],ymm12[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm4[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm4[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm10[3,0],ymm14[2,0],ymm10[7,4],ymm14[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm10[3,0],ymm14[2,0],ymm10[7,4],ymm14[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm14[2,1],ymm0[6,4],ymm14[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm14[2,1],ymm0[6,4],ymm14[6,5]
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15, %ymm4 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15, %ymm4 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm4 = ymm15[0,1,2,3],mem[4,5],ymm15[6,7]			; AVX1-ONLY-NEXT: # ymm4 = ymm15[0,1,2,3],mem[4,5],ymm15[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm4, %xmm4			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm4, %xmm4
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0,1],mem[2],xmm4[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0,1],mem[2],xmm4[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm4 = xmm4[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm4 = xmm4[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm9			; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm9
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm13 = ymm9[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm13 = ymm9[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm9[1,0],ymm13[0,0],ymm9[5,4],ymm13[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm9[1,0],ymm13[0,0],ymm9[5,4],ymm13[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm4[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm4 = ymm4[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm3[2,0],ymm0[7,4],ymm3[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm3[2,0],ymm0[7,4],ymm3[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm3[2,1],ymm0[6,4],ymm3[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm3[2,1],ymm0[6,4],ymm3[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm4 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm4 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm4 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: # ymm4 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm4, %xmm4			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm4, %xmm4
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0,1],mem[2],xmm4[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0,1],mem[2],xmm4[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm4 = xmm4[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm4 = xmm4[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %ymm4			; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %ymm4
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm4[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm4[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm4[1,0],ymm10[0,0],ymm4[5,4],ymm10[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm4[1,0],ymm10[0,0],ymm4[5,4],ymm10[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm15[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm15[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm15[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm15[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; AVX1-ONLY-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	▲ Show 20 Lines • Show All 1,949 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = mem[0,1,2,3],ymm1[4,5],mem[6,7]			; AVX1-ONLY-NEXT: # ymm3 = mem[0,1,2,3],ymm1[4,5],mem[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm3 = xmm3[0,1],mem[2],xmm3[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm1			; AVX1-ONLY-NEXT: vmovaps 288(%rdi), %ymm1
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm1[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm1[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm1[1,0],ymm10[0,0],ymm1[5,4],ymm10[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm1[1,0],ymm10[0,0],ymm1[5,4],ymm10[4,4]
	; AVX1-ONLY-NEXT: vmovups %ymm10, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm10, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]			; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 608(%rdi), %ymm2			; AVX1-ONLY-NEXT: vmovaps 608(%rdi), %ymm2
	; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm1[2,0],ymm0[7,4],ymm1[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm1[2,1],ymm0[6,4],ymm1[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 928(%rdi), %ymm2			; AVX1-ONLY-NEXT: vmovaps 928(%rdi), %ymm2
	; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups %ymm6, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm6, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm6[2,0],ymm0[7,4],ymm6[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm6[2,0],ymm0[7,4],ymm6[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm6[2,1],ymm0[6,4],ymm6[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm6[2,1],ymm0[6,4],ymm6[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]			; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 1248(%rdi), %ymm1			; AVX1-ONLY-NEXT: vmovaps 1248(%rdi), %ymm1
	; AVX1-ONLY-NEXT: vmovups %ymm1, (%rsp) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, (%rsp) # 32-byte Spill
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm1[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm1[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[1,0],ymm7[0,0],ymm1[5,4],ymm7[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[1,0],ymm7[0,0],ymm1[5,4],ymm7[4,4]
	; AVX1-ONLY-NEXT: vmovups %ymm7, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm7, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm9[2,0],ymm0[7,4],ymm9[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm9[2,0],ymm0[7,4],ymm9[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm9[2,1],ymm0[6,4],ymm9[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm9[2,1],ymm0[6,4],ymm9[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $207, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]			; AVX1-ONLY-NEXT: # ymm1 = mem[0,1,2,3],ymm1[4,5],mem[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 1088(%rdi), %ymm2			; AVX1-ONLY-NEXT: vmovaps 1088(%rdi), %ymm2
	; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3,0,1]
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm2[1,0],ymm1[0,0],ymm2[5,4],ymm1[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm11[2,0],ymm0[7,4],ymm11[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0],ymm11[2,0],ymm0[7,4],ymm11[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm11[2,1],ymm0[6,4],ymm11[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm11[2,1],ymm0[6,4],ymm11[6,5]
	; AVX1-ONLY-NEXT: vmovaps %ymm11, %ymm4			; AVX1-ONLY-NEXT: vmovaps %ymm11, %ymm4
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],mem[2],xmm1[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm3			; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %ymm3
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm9 = ymm3[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm9 = ymm3[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm3[1,0],ymm9[0,0],ymm3[5,4],ymm9[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm3[1,0],ymm9[0,0],ymm3[5,4],ymm9[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm0[3,0],ymm14[2,0],ymm0[7,4],ymm14[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm0[3,0],ymm14[2,0],ymm0[7,4],ymm14[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[2,0],ymm14[2,1],ymm1[6,4],ymm14[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm1[2,0],ymm14[2,1],ymm1[6,4],ymm14[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm2 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm2 = ymm0[0,1,2,3],mem[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: # ymm2 = ymm0[0,1,2,3],mem[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],mem[2],xmm2[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm1[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm1[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %ymm6			; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %ymm6
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm6[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm6[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm5 = ymm6[1,0],ymm12[0,0],ymm6[5,4],ymm12[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm5 = ymm6[1,0],ymm12[0,0],ymm6[5,4],ymm12[4,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm5 = ymm5[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm5 = ymm5[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3,4,5],ymm5[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3,4,5],ymm5[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm0[3,0],ymm13[2,0],ymm0[7,4],ymm13[6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm0[3,0],ymm13[2,0],ymm0[7,4],ymm13[6,4]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[2,0],ymm13[2,1],ymm2[6,4],ymm13[6,5]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[2,0],ymm13[2,1],ymm2[6,4],ymm13[6,5]
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm5 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $48, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm5 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm5 = ymm0[0,1,2,3],mem[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: # ymm5 = ymm0[0,1,2,3],mem[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vextractf128 $1, %ymm5, %xmm5			; AVX1-ONLY-NEXT: vextractf128 $1, %ymm5, %xmm5
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],mem[2],xmm5[3]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],mem[2],xmm5[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} xmm5 = xmm5[1,0]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} xmm5 = xmm5[1,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm5[0,1,2],ymm2[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm5[0,1,2],ymm2[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps 768(%rdi), %ymm8			; AVX1-ONLY-NEXT: vmovaps 768(%rdi), %ymm8
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3,0,1]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3,0,1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm8[1,0],ymm1[0,0],ymm8[5,4],ymm1[4,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm8[1,0],ymm1[0,0],ymm8[5,4],ymm1[4,4]
	; AVX1-ONLY-NEXT: vmovaps %ymm1, %ymm2			; AVX1-ONLY-NEXT: vmovaps %ymm1, %ymm2
	; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm15[0,1,2,0,4,5,6,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm15 = ymm15[0,1,2,0,4,5,6,4]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm15[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm15[6,7]
	▲ Show 20 Lines • Show All 1,304 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-3.ll

	Show First 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm3			; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm4[3,3],xmm2[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm4[3,3],xmm2[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm4[1],xmm2[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm4[1],xmm2[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,1],xmm4[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,1],xmm4[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1],ymm2[2,3],ymm3[4],ymm2[5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1],ymm2[2,3],ymm3[4],ymm2[5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2],ymm4[3,4],ymm3[5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2],ymm4[3,4],ymm3[5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm3[1,2],ymm0[3],ymm3[4,5],ymm0[6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm3[1,2],ymm0[3],ymm3[4,5],ymm0[6],ymm3[7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 32(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 32(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm2, 64(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm2, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, (%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm1, (%rcx)
	; AVX1-ONLY-NEXT: vzeroupper			; AVX1-ONLY-NEXT: vzeroupper
	; AVX1-ONLY-NEXT: retq			; AVX1-ONLY-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: store_i32_stride3_vf8:			; AVX2-SLOW-LABEL: store_i32_stride3_vf8:
	▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm6			; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm6
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm6[2],ymm2[3,4],ymm6[5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm6[2],ymm2[3,4],ymm6[5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm9 = xmm6[3,3],xmm5[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm9 = xmm6[3,3],xmm5[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm6[1],xmm5[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm6[1],xmm5[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,1],xmm6[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,1],xmm6[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm9, %ymm5, %ymm5			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm9, %ymm5, %ymm5
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm5[0],ymm6[1],ymm5[2,3],ymm6[4],ymm5[5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm5[0],ymm6[1],ymm5[2,3],ymm6[4],ymm5[5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm8[1],xmm4[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm8[1],xmm4[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm4[1,1],xmm6[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm4[1,1],xmm6[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm4 = xmm4[0],xmm8[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm4 = xmm4[0],xmm8[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm4 = xmm4[2,0],xmm8[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm4 = xmm4[2,0],xmm8[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm6, %ymm4, %ymm4			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm6, %ymm4, %ymm4
	; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm6			; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm6
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0,1],ymm6[2],ymm4[3,4],ymm6[5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0,1],ymm6[2],ymm4[3,4],ymm6[5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm7[3,3],xmm3[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm7[3,3],xmm3[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm7 = xmm7[1],xmm3[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm7 = xmm7[1],xmm3[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm3[1,1],xmm7[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm3[1,1],xmm7[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm6, %ymm3, %ymm3			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm6, %ymm3, %ymm3
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm1[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm1[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1],ymm3[2,3],ymm6[4],ymm3[5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1],ymm3[2,3],ymm6[4],ymm3[5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm6 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm6 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm7[0,1],ymm6[2],ymm7[3,4],ymm6[5],ymm7[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm7[0,1],ymm6[2],ymm7[3,4],ymm6[5],ymm7[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm6[1,2],ymm1[3],ymm6[4,5],ymm1[6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm6[1,2],ymm1[3],ymm6[4,5],ymm1[6],ymm6[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm6 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm6 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm7[0,1],ymm6[2],ymm7[3,4],ymm6[5],ymm7[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm7[0,1],ymm6[2],ymm7[3,4],ymm6[5],ymm7[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm6[1,2],ymm0[3],ymm6[4,5],ymm0[6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm6[1,2],ymm0[3],ymm6[4,5],ymm0[6],ymm6[7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 128(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 128(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, 32(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm1, 32(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm3, 64(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm3, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm4, 96(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm4, 96(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm5, 160(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm5, 160(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm2, (%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm2, (%rcx)
	; AVX1-ONLY-NEXT: vzeroupper			; AVX1-ONLY-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 401 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm5[2],ymm1[3,4],ymm5[5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm5[2],ymm1[3,4],ymm5[5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vmovaps 80(%rsi), %xmm5			; AVX1-ONLY-NEXT: vmovaps 80(%rsi), %xmm5
	; AVX1-ONLY-NEXT: vmovaps 80(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovaps 80(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm6[3,3],xmm5[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm6[3,3],xmm5[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm6[1],xmm5[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm6 = xmm6[1],xmm5[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,1],xmm6[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm5[1,1],xmm6[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm12, %ymm5, %ymm5			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm12, %ymm5, %ymm5
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm3[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm3[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm5[0],ymm6[1],ymm5[2,3],ymm6[4],ymm5[5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm5[0],ymm6[1],ymm5[2,3],ymm6[4],ymm5[5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vmovaps 64(%rsi), %xmm6			; AVX1-ONLY-NEXT: vmovaps 64(%rsi), %xmm6
	; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm12			; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm12
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm13 = xmm12[1],xmm6[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm13 = xmm12[1],xmm6[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm6[1,1],xmm13[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm6[1,1],xmm13[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm6 = xmm6[0],xmm12[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm6 = xmm6[0],xmm12[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm6[2,0],xmm12[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm6 = xmm6[2,0],xmm12[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm6, %ymm6			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm6, %ymm6
	; AVX1-ONLY-NEXT: vbroadcastsd 64(%rdx), %ymm12			; AVX1-ONLY-NEXT: vbroadcastsd 64(%rdx), %ymm12
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1],ymm12[2],ymm6[3,4],ymm12[5],ymm6[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1],ymm12[2],ymm6[3,4],ymm12[5],ymm6[6,7]
	; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm12			; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm12
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm12[3,3],xmm9[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm12[3,3],xmm9[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm12[1],xmm9[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm12[1],xmm9[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm9 = xmm9[1,1],xmm12[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm9 = xmm9[1,1],xmm12[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm9, %ymm9			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm9, %ymm9
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm2[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm2[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm12 = ymm12[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm12 = ymm12[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm9 = ymm9[0],ymm12[1],ymm9[2,3],ymm12[4],ymm9[5,6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm9 = ymm9[0],ymm12[1],ymm9[2,3],ymm12[4],ymm9[5,6],ymm12[7]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm11[1],xmm10[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm11[1],xmm10[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm10[1,1],xmm12[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm10[1,1],xmm12[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm10 = xmm10[0],xmm11[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm10 = xmm10[0],xmm11[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm10 = xmm10[2,0],xmm11[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm10 = xmm10[2,0],xmm11[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm12, %ymm10, %ymm10			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm12, %ymm10, %ymm10
	; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm11			; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm11
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm10[0,1],ymm11[2],ymm10[3,4],ymm11[5],ymm10[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm10[0,1],ymm11[2],ymm10[3,4],ymm11[5],ymm10[6,7]
	; AVX1-ONLY-NEXT: vmovaps 112(%rsi), %xmm11			; AVX1-ONLY-NEXT: vmovaps 112(%rsi), %xmm11
	; AVX1-ONLY-NEXT: vmovaps 112(%rdi), %xmm12			; AVX1-ONLY-NEXT: vmovaps 112(%rdi), %xmm12
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm12[3,3],xmm11[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm12[3,3],xmm11[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm12[1],xmm11[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm12 = xmm12[1],xmm11[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm11 = xmm11[1,1],xmm12[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm11 = xmm11[1,1],xmm12[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm11, %ymm11			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm11, %ymm11
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm0[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm12 = ymm0[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm12 = ymm12[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm12 = ymm12[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm11[0],ymm12[1],ymm11[2,3],ymm12[4],ymm11[5,6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm11[0],ymm12[1],ymm11[2,3],ymm12[4],ymm11[5,6],ymm12[7]
	; AVX1-ONLY-NEXT: vmovaps 96(%rsi), %xmm12			; AVX1-ONLY-NEXT: vmovaps 96(%rsi), %xmm12
	; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm13			; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm13
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm14 = xmm13[1],xmm12[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm14 = xmm13[1],xmm12[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm14 = xmm12[1,1],xmm14[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm14 = xmm12[1,1],xmm14[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm12 = xmm12[0],xmm13[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm12 = xmm12[0],xmm13[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm12[2,0],xmm13[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm12 = xmm12[2,0],xmm13[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm14, %ymm12, %ymm12			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm14, %ymm12, %ymm12
	; AVX1-ONLY-NEXT: vbroadcastsd 96(%rdx), %ymm13			; AVX1-ONLY-NEXT: vbroadcastsd 96(%rdx), %ymm13
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm12[0,1],ymm13[2],ymm12[3,4],ymm13[5],ymm12[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm12[0,1],ymm13[2],ymm12[3,4],ymm13[5],ymm12[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm8[3,3],xmm7[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm13 = xmm8[3,3],xmm7[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm8 = xmm8[1],xmm7[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm8 = xmm8[1],xmm7[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm7 = xmm7[1,1],xmm8[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm7 = xmm7[1,1],xmm8[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm7, %ymm7			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm13, %ymm7, %ymm7
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm8 = ymm4[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm8 = ymm4[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm8 = ymm8[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm8 = ymm8[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0],ymm8[1],ymm7[2,3],ymm8[4],ymm7[5,6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0],ymm8[1],ymm7[2,3],ymm8[4],ymm7[5,6],ymm8[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = ymm4[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm4 = ymm4[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0],ymm8[1,2],ymm4[3],ymm8[4,5],ymm4[6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0],ymm8[1,2],ymm4[3],ymm8[4,5],ymm4[6],ymm8[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm8[1,2],ymm3[3],ymm8[4,5],ymm3[6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm8[1,2],ymm3[3],ymm8[4,5],ymm3[6],ymm8[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm8[1,2],ymm2[3],ymm8[4,5],ymm2[6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm8[1,2],ymm2[3],ymm8[4,5],ymm2[6],ymm8[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm8 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm13[0,1],ymm8[2],ymm13[3,4],ymm8[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm8[1,2],ymm0[3],ymm8[4,5],ymm0[6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm8[1,2],ymm0[3],ymm8[4,5],ymm0[6],ymm8[7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 320(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 320(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm2, 128(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm2, 128(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm3, 224(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm3, 224(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm4, 32(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm4, 32(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm7, 64(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm7, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm12, 288(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm12, 288(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm11, 352(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm11, 352(%rcx)
	▲ Show 20 Lines • Show All 800 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm4			; AVX1-ONLY-NEXT: vbroadcastsd (%rdx), %ymm4
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm4[2],ymm0[3,4],ymm4[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm4[2],ymm0[3,4],ymm4[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm5[3,3],xmm1[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm5[3,3],xmm1[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm5[1],xmm1[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm4 = xmm5[1],xmm1[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm4[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm4[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm6[1],xmm2[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm6[1],xmm2[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm2[1,1],xmm0[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm2[1,1],xmm0[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm6[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm6[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm6[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm6[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 32(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 48(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3],xmm3[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3],xmm3[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm3[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm3[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm3[1,1],xmm0[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm3[1,1],xmm0[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm9[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm9[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 64(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 64(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 64(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 64(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 64(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 80(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 80(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 80(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 80(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm11[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm11[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, (%rsp) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, (%rsp) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 96(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 96(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 96(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 96(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 112(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 112(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 112(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 112(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 128(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 128(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 128(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 128(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 128(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 144(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 144(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 144(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 144(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]
	; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm6			; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm6
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm6[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm6[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovaps 160(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 160(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 160(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 160(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 160(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 160(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm14 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm14 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovaps 176(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 176(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 176(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 176(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm4			; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm4
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm15 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm15 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vmovaps 192(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 192(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 192(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 192(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm0[1,1],xmm3[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm0[1,1],xmm3[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 192(%rdx), %ymm1			; AVX1-ONLY-NEXT: vbroadcastsd 192(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovaps 208(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 208(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 208(%rdi), %xmm1			; AVX1-ONLY-NEXT: vmovaps 208(%rdi), %xmm1
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm2[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm2[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm0[0],ymm3[1],ymm0[2,3],ymm3[4],ymm0[5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm0[0],ymm3[1],ymm0[2,3],ymm3[4],ymm0[5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vmovaps 224(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 224(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 224(%rdi), %xmm3			; AVX1-ONLY-NEXT: vmovaps 224(%rdi), %xmm3
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm3[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm5 = xmm3[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm0[1,1],xmm5[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm5 = xmm0[1,1],xmm5[0,2]
	; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; AVX1-ONLY-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm3[2,1]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm3[2,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vbroadcastsd 224(%rdx), %ymm3			; AVX1-ONLY-NEXT: vbroadcastsd 224(%rdx), %ymm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm0[0,1],ymm3[2],ymm0[3,4],ymm3[5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm0[0,1],ymm3[2],ymm0[3,4],ymm3[5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovaps 240(%rsi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 240(%rsi), %xmm0
	; AVX1-ONLY-NEXT: vmovaps 240(%rdi), %xmm3			; AVX1-ONLY-NEXT: vmovaps 240(%rdi), %xmm3
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3],xmm0[3,3]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3],xmm0[3,3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm3[1],xmm0[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm3[1],xmm0[1]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm3[0,2]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,1],xmm3[0,2]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm0			; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm0[2,3,2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm1[0],ymm3[1],ymm1[2,3],ymm3[4],ymm1[5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm1[0],ymm3[1],ymm1[2,3],ymm3[4],ymm1[5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm8 = ymm8[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm8 = ymm8[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0],ymm1[1,2],ymm8[3],ymm1[4,5],ymm8[6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0],ymm1[1,2],ymm8[3],ymm1[4,5],ymm8[6],ymm1[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm9 = ymm9[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm9 = ymm9[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm9 = ymm9[0],ymm1[1,2],ymm9[3],ymm1[4,5],ymm9[6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm9 = ymm9[0],ymm1[1,2],ymm9[3],ymm1[4,5],ymm9[6],ymm1[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm13[0,1],ymm1[2],ymm13[3,4],ymm1[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm11 = ymm11[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm11 = ymm11[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm11[0],ymm1[1,2],ymm11[3],ymm1[4,5],ymm11[6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm11[0],ymm1[1,2],ymm11[3],ymm1[4,5],ymm11[6],ymm1[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm11 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm11 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm13[0,1],ymm11[2],ymm13[3,4],ymm11[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm13[0,1],ymm11[2],ymm13[3,4],ymm11[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm12 = ymm12[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm12 = ymm12[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm12[0],ymm11[1,2],ymm12[3],ymm11[4,5],ymm12[6],ymm11[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm12[0],ymm11[1,2],ymm12[3],ymm11[4,5],ymm12[6],ymm11[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0],ymm12[1,2],ymm6[3],ymm12[4,5],ymm6[6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0],ymm12[1,2],ymm6[3],ymm12[4,5],ymm6[6],ymm12[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = ymm4[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm4 = ymm4[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0],ymm12[1,2],ymm4[3],ymm12[4,5],ymm4[6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0],ymm12[1,2],ymm4[3],ymm12[4,5],ymm4[6],ymm12[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm12[1,2],ymm2[3],ymm12[4,5],ymm2[6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm12[1,2],ymm2[3],ymm12[4,5],ymm2[6],ymm12[7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm12 = mem[0,0,3,3,4,4,7,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4],ymm12[5],ymm13[6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm12[1,2],ymm0[3],ymm12[4,5],ymm0[6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm12[1,2],ymm0[3],ymm12[4,5],ymm0[6],ymm12[7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 704(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 704(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm2, 608(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm2, 608(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm4, 512(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm4, 512(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm6, 416(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm6, 416(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm11, 320(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm11, 320(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm9, 128(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm9, 128(%rcx)
	▲ Show 20 Lines • Show All 827 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-4.ll

	Show First 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm6[0,1,2],ymm3[3],ymm6[4,5],ymm3[6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm6[0,1,2],ymm3[3],ymm6[4,5],ymm3[6],ymm6[7]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm0[1,0,2,3,5,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm0[1,0,2,3,5,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1],ymm4[2,3],ymm1[4],ymm4[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1],ymm4[2,3],ymm1[4],ymm4[5,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2,3],ymm1[4,5],ymm3[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2,3],ymm1[4,5],ymm3[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,3,2,4,5,7,6]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,1,3,2,4,5,7,6]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm5[0,1,2],ymm2[3],ymm5[4,5],ymm2[6],ymm5[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm5[0,1,2],ymm2[3],ymm5[4,5],ymm2[6],ymm5[7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,2,2,3,7,6,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,2,2,3,7,6,6,7]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm4[1,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm4[1,0,3,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0],ymm0[1],ymm3[2,3],ymm0[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0],ymm0[1],ymm3[2,3],ymm0[4],ymm3[5,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3],ymm0[4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3],ymm0[4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 32(%r8)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 32(%r8)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, (%r8)			; AVX1-ONLY-NEXT: vmovaps %ymm1, (%r8)
	; AVX1-ONLY-NEXT: vzeroupper			; AVX1-ONLY-NEXT: vzeroupper
	; AVX1-ONLY-NEXT: retq			; AVX1-ONLY-NEXT: retq
	;			;
	; AVX2-ONLY-LABEL: store_i32_stride4_vf4:			; AVX2-ONLY-LABEL: store_i32_stride4_vf4:
	▲ Show 20 Lines • Show All 2,779 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-5.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vmovaps (%rcx), %xmm3			; AVX1-ONLY-NEXT: vmovaps (%rcx), %xmm3
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm4			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm4
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm5			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm5
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm6			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm6
	; AVX1-ONLY-NEXT: vunpcklps {{.*#+}} ymm5 = ymm5[0],ymm6[0],ymm5[1],ymm6[1],ymm5[4],ymm6[4],ymm5[5],ymm6[5]			; AVX1-ONLY-NEXT: vunpcklps {{.*#+}} ymm5 = ymm5[0],ymm6[0],ymm5[1],ymm6[1],ymm5[4],ymm6[4],ymm5[5],ymm6[5]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm5 = ymm5[u,u,1,0,u,u,u,6]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm5 = ymm5[u,u,1,0,u,u,u,6]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; AVX1-ONLY-NEXT: vunpcklps {{.*#+}} ymm7 = ymm4[0],ymm1[0],ymm4[1],ymm1[1],ymm4[4],ymm1[4],ymm4[5],ymm1[5]			; AVX1-ONLY-NEXT: vunpcklps {{.*#+}} ymm7 = ymm4[0],ymm1[0],ymm4[1],ymm1[1],ymm4[4],ymm1[4],ymm4[5],ymm1[5]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm7[0,0,3,3]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm7[0,0,3,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm7[0,1],ymm5[2,3],ymm7[4,5,6],ymm5[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm7[0,1],ymm5[2,3],ymm7[4,5,6],ymm5[7]
	; AVX1-ONLY-NEXT: vbroadcastf128 {{.*#+}} ymm7 = mem[0,1,0,1]			; AVX1-ONLY-NEXT: vbroadcastf128 {{.*#+}} ymm7 = mem[0,1,0,1]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm7, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm7, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm5[1,2,3],ymm0[4],ymm5[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm5[1,2,3],ymm0[4],ymm5[5,6,7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[u,u,u,2,u,u,u,7]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[u,u,u,2,u,u,u,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm4[2],ymm1[3,4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm4[2],ymm1[3,4,5,6,7]
	; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm4 = ymm6[1,u,u,u,6,u,u,u]			; AVX1-ONLY-NEXT: vpermilps {{.*#+}} ymm4 = ymm6[1,u,u,u,6,u,u,u]
	; AVX1-ONLY-NEXT: vbroadcastss 8(%rcx), %ymm5			; AVX1-ONLY-NEXT: vbroadcastss 8(%rcx), %ymm5
	▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm8, %ymm8			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm8, %ymm8
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm10 = ymm3[3,3],ymm1[3,3],ymm3[7,7],ymm1[7,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm10 = ymm3[3,3],ymm1[3,3],ymm3[7,7],ymm1[7,7]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm10[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm10 = ymm10[2,3,2,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1,2],ymm10[3,4],ymm8[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1,2],ymm10[3,4],ymm8[5,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1],ymm9[2],ymm8[3,4,5,6],ymm9[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1],ymm9[2],ymm8[3,4,5,6],ymm9[7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4],ymm3[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm4[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm4[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4,5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4,5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 64(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 64(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm8, 128(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm8, 128(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm6, 32(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm6, 32(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm7, 96(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm7, 96(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm5, (%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm5, (%r9)
	▲ Show 20 Lines • Show All 501 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2],ymm4[3,4],ymm0[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2],ymm4[3,4],ymm0[5,6,7]
	; AVX1-ONLY-NEXT: vmovaps (%r8), %ymm4			; AVX1-ONLY-NEXT: vmovaps (%r8), %ymm4
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm4[2,3,2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm4[2,3,2,3]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1],ymm0[2],ymm8[3,4,5,6],ymm0[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm8[0,1],ymm0[2],ymm8[3,4,5,6],ymm0[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm3[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm3[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm9[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm9[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm6[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm6[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4,5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4,5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2],ymm12[3],ymm1[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2],ymm12[3],ymm1[4,5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm15[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm2 = ymm15[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm5[4],ymm2[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm5[4],ymm2[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm14[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm14[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm9 = ymm13[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm9 = ymm13[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm9[0,1],ymm3[2],ymm9[3,4,5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm9[0,1],ymm3[2],ymm9[3,4,5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3],ymm2[4,5],ymm3[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3],ymm2[4,5],ymm3[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm4[3],ymm2[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm4[3],ymm2[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps %ymm2, 64(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm2, 64(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 96(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 96(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm8, 128(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm8, 128(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm7, 192(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm7, 192(%r9)
	▲ Show 20 Lines • Show All 1,145 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm0[0],ymm5[1,2,3,4],ymm0[5],ymm5[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm0[0],ymm5[1,2,3,4],ymm0[5],ymm5[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6],ymm0[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6],ymm0[7]
	; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = mem[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: # ymm1 = mem[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4],ymm1[5,6,7]			; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4],ymm1[5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm0 = mem[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: # ymm0 = mem[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = ymm13[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm13 = ymm13[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm13[0,1],ymm0[2],ymm13[3,4,5,6],ymm0[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm13[0,1],ymm0[2],ymm13[3,4,5,6],ymm0[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm0 = ymm0[0,1,2],mem[3],ymm0[4,5,6,7]			; AVX1-ONLY-NEXT: # ymm0 = ymm0[0,1,2],mem[3],ymm0[4,5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm12[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm12[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4],ymm1[5,6,7]			; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2,3],mem[4],ymm1[5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm12 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm12 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm12 = mem[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: # ymm12 = mem[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm13 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm13 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm13 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm13 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4,5,6],ymm12[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm13[0,1],ymm12[2],ymm13[3,4,5,6],ymm12[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm12[1,2,3],ymm1[4,5],ymm12[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm12[1,2,3],ymm1[4,5],ymm12[6,7]
	; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm1, %ymm1 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2],mem[3],ymm1[4,5,6,7]			; AVX1-ONLY-NEXT: # ymm1 = ymm1[0,1,2],mem[3],ymm1[4,5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm6 = ymm6[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm6 = ymm6[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1,2,3],ymm7[4],ymm6[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1,2,3],ymm7[4],ymm6[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm7 = ymm9[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm7 = ymm9[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm9 = ymm11[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm9 = ymm11[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm9[0,1],ymm7[2],ymm9[3,4,5,6],ymm7[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm9[0,1],ymm7[2],ymm9[3,4,5,6],ymm7[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0],ymm7[1,2,3],ymm6[4,5],ymm7[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0],ymm7[1,2,3],ymm6[4,5],ymm7[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1,2],ymm8[3],ymm6[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm6[0,1,2],ymm8[3],ymm6[4,5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm7 = ymm15[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm7 = ymm15[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm7[0,1,2,3],ymm2[4],ymm7[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm7[0,1,2,3],ymm2[4],ymm7[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm3 = ymm3[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm14[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm14[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm7[0,1],ymm3[2],ymm7[3,4,5,6],ymm3[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm7[0,1],ymm3[2],ymm7[3,4,5,6],ymm3[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3],ymm2[4,5],ymm3[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3],ymm2[4,5],ymm3[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm4[3],ymm2[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2],ymm4[3],ymm2[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps %ymm2, 544(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm2, 544(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm6, 384(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm6, 384(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm1, 224(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 64(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 64(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm5, 608(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm5, 608(%r9)
	▲ Show 20 Lines • Show All 2,396 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm6[0,1],ymm10[2],ymm6[3,4,5,6],ymm10[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm6[0,1],ymm10[2],ymm6[3,4,5,6],ymm10[7]
	; AVX1-ONLY-NEXT: vmovups %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm6 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm6 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm6 = mem[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: # ymm6 = mem[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm10 = ymm15[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm10 = ymm15[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm10[0,1],ymm6[2],ymm10[3,4,5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm10[0,1],ymm6[2],ymm10[3,4,5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]
	; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]			; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm6 = ymm14[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm6 = ymm14[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm10 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm10 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm10 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm10 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm10[0,1],ymm6[2],ymm10[3,4,5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm10[0,1],ymm6[2],ymm10[3,4,5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]
	; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm10 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm10 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm10 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]			; AVX1-ONLY-NEXT: # ymm10 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm6 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $52, {{[-0-9]+}}(%r{{[sb]}}p), %ymm6 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm6 = mem[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: # ymm6 = mem[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm15 = ymm13[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm15 = ymm13[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm15[0,1],ymm6[2],ymm15[3,4,5,6],ymm6[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm6 = ymm15[0,1],ymm6[2],ymm15[3,4,5,6],ymm6[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0],ymm6[1,2,3],ymm3[4,5],ymm6[6,7]
	; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm6 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $8, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm6 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm6 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]			; AVX1-ONLY-NEXT: # ymm6 = ymm3[0,1,2],mem[3],ymm3[4,5,6,7]
	; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilps $227, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: # ymm3 = mem[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendps $16, {{[-0-9]+}}(%r{{[sb]}}p), %ymm3, %ymm3 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]			; AVX1-ONLY-NEXT: # ymm3 = ymm3[0,1,2,3],mem[4],ymm3[5,6,7]
	Show All 34 Lines
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm11 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm11 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm11 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm11 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm11[0,1],ymm8[2],ymm11[3,4,5,6],ymm8[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm8 = ymm11[0,1],ymm8[2],ymm11[3,4,5,6],ymm8[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0],ymm8[1,2,3],ymm7[4,5],ymm8[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0],ymm8[1,2,3],ymm7[4,5],ymm8[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0,1,2],ymm9[3],ymm7[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm7 = ymm7[0,1,2],ymm9[3],ymm7[4,5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0,2,3,7,4,6,7]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm0 = ymm0[3,0,2,3,7,4,6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm4[0,1,3,0,4,5,7,4]			; AVX1-ONLY-NEXT: vshufps {{.*#+}} ymm1 = ymm4[0,1,3,0,4,5,7,4]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = ymm5[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm4 = ymm5[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2],ymm4[3,4,5,6],ymm1[7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2],ymm4[3,4,5,6],ymm1[7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4,5],ymm1[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4,5],ymm1[6,7]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2],ymm2[3],ymm0[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2],ymm2[3],ymm0[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 1184(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 1184(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm7, 1024(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm7, 1024(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm12, 864(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm12, 864(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm13, 704(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm13, 704(%r9)
	; AVX1-ONLY-NEXT: vmovaps %ymm3, 544(%r9)			; AVX1-ONLY-NEXT: vmovaps %ymm3, 544(%r9)
	▲ Show 20 Lines • Show All 2,343 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-3.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vmovapd (%rdx), %ymm1			; AVX1-ONLY-NEXT: vmovapd (%rdx), %ymm1
	; AVX1-ONLY-NEXT: vmovaps (%rdi), %xmm2			; AVX1-ONLY-NEXT: vmovaps (%rdi), %xmm2
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm3 = xmm2[0],mem[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm3 = xmm2[0],mem[0]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; AVX1-ONLY-NEXT: vinsertf128 $1, (%rdx), %ymm3, %ymm3			; AVX1-ONLY-NEXT: vinsertf128 $1, (%rdx), %ymm3, %ymm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0,1],ymm2[2,3],ymm3[4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0,1],ymm2[2,3],ymm3[4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm3			; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm3
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],ymm1[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],ymm1[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm4 = ymm0[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm4[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm4[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vmovapd %ymm3, 64(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm3, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm0, 32(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm0, 32(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm2, (%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm2, (%rcx)
	; AVX1-ONLY-NEXT: vzeroupper			; AVX1-ONLY-NEXT: vzeroupper
	; AVX1-ONLY-NEXT: retq			; AVX1-ONLY-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm5[0,1],ymm4[2,3],ymm5[4,5],ymm4[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm4 = ymm5[0,1],ymm4[2,3],ymm5[4,5],ymm4[6,7]
	; AVX1-ONLY-NEXT: vmovaps 32(%rdi), %xmm5			; AVX1-ONLY-NEXT: vmovaps 32(%rdi), %xmm5
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm6 = xmm5[0],mem[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm6 = xmm5[0],mem[0]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm5			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm5
	; AVX1-ONLY-NEXT: vinsertf128 $1, 32(%rdx), %ymm6, %ymm6			; AVX1-ONLY-NEXT: vinsertf128 $1, 32(%rdx), %ymm6, %ymm6
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm6[0,1],ymm5[2,3],ymm6[4,5],ymm5[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm6[0,1],ymm5[2,3],ymm6[4,5],ymm5[6,7]
	; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm3[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm3[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm3[2,3],ymm7[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm3[2,3],ymm7[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm7[0],ymm6[1],ymm7[2],ymm6[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm7[0],ymm6[1],ymm7[2],ymm6[3]
	; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm7			; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm7
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm8 = ymm0[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm8 = ymm0[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm8 = ymm2[2,3],ymm8[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm8 = ymm2[2,3],ymm8[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm8[0],ymm7[1],ymm8[2],ymm7[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm8[0],ymm7[1],ymm8[2],ymm7[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0,1],mem[2],ymm1[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0,1],mem[2],ymm1[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm3[1],ymm1[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm3[1],ymm1[2,3]
	; AVX1-ONLY-NEXT: vmovapd %ymm7, 64(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm7, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm6, 160(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm6, 160(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm1, 128(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm1, 128(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm0, 32(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm0, 32(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm5, 96(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm5, 96(%rcx)
	; AVX1-ONLY-NEXT: vmovaps %ymm4, (%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm4, (%rcx)
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm11[0,1],ymm10[2,3],ymm11[4,5],ymm10[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm10 = ymm11[0,1],ymm10[2,3],ymm11[4,5],ymm10[6,7]
	; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm11			; AVX1-ONLY-NEXT: vmovaps 96(%rdi), %xmm11
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm12 = xmm11[0],mem[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm12 = xmm11[0],mem[0]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm12, %ymm11			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm12, %ymm11
	; AVX1-ONLY-NEXT: vinsertf128 $1, 96(%rdx), %ymm12, %ymm12			; AVX1-ONLY-NEXT: vinsertf128 $1, 96(%rdx), %ymm12, %ymm12
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm12[0,1],ymm11[2,3],ymm12[4,5],ymm11[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm11 = ymm12[0,1],ymm11[2,3],ymm12[4,5],ymm11[6,7]
	; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm12			; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm12
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm12[0,1],ymm8[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm12[0,1],ymm8[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = ymm6[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm13 = ymm6[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm13 = ymm8[2,3],ymm13[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm13 = ymm8[2,3],ymm13[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm13[0],ymm12[1],ymm13[2],ymm12[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm13[0],ymm12[1],ymm13[2],ymm12[3]
	; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm13			; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm13
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm13[0,1],ymm4[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm13[0,1],ymm4[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm14 = ymm2[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm14 = ymm2[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm14 = ymm4[2,3],ymm14[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm14 = ymm4[2,3],ymm14[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm14[0],ymm13[1],ymm14[2],ymm13[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm14[0],ymm13[1],ymm14[2],ymm13[3]
	; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm14			; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm14
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],ymm3[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],ymm3[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm15 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm15 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm3[2,3],ymm15[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm3[2,3],ymm15[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm15[0],ymm14[1],ymm15[2],ymm14[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm15[0],ymm14[1],ymm15[2],ymm14[3]
	; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm15			; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm15
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],ymm9[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],ymm9[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm0 = ymm7[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm0 = ymm7[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm9[2,3],ymm0[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm9[2,3],ymm0[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm15[1],ymm0[2],ymm15[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm15[1],ymm0[2],ymm15[3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm7[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm7[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0],ymm9[1],ymm7[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0],ymm9[1],ymm7[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm6[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm6[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],mem[2],ymm6[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],mem[2],ymm6[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0],ymm8[1],ymm6[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0],ymm8[1],ymm6[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm2[0,1],mem[2],ymm2[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm2[0,1],mem[2],ymm2[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm2[0],ymm4[1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm2[0],ymm4[1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0,1],mem[2],ymm1[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0,1],mem[2],ymm1[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm3[1],ymm1[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm3[1],ymm1[2,3]
	; AVX1-ONLY-NEXT: vmovapd %ymm0, 64(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm0, 64(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm14, 352(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm14, 352(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm1, 320(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm1, 320(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm13, 160(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm13, 160(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm2, 128(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm2, 128(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm6, 224(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm6, 224(%rcx)
	▲ Show 20 Lines • Show All 420 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vmovaps 224(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovaps 224(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0]
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-ONLY-NEXT: vinsertf128 $1, 224(%rdx), %ymm1, %ymm1			; AVX1-ONLY-NEXT: vinsertf128 $1, 224(%rdx), %ymm1, %ymm1
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm12[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm12[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm3[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm3[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm13[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm13[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm2[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm2[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm13[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm13[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vmovupd %ymm4, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm4, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]
	; AVX1-ONLY-NEXT: vmovapd 64(%rsi), %ymm10			; AVX1-ONLY-NEXT: vmovapd 64(%rsi), %ymm10
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm10[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm10[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 96(%rdx), %ymm4			; AVX1-ONLY-NEXT: vmovapd 96(%rdx), %ymm4
	; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]
	; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm9			; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm9
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm9[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm9[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovapd 144(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 144(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 128(%rsi), %ymm8			; AVX1-ONLY-NEXT: vmovapd 128(%rsi), %ymm8
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm6 = ymm8[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm6 = ymm8[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm2[2,3],ymm6[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm2[2,3],ymm6[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm6[0],ymm0[1],ymm6[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm6[0],ymm0[1],ymm6[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm1			; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vmovapd 176(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovapd 176(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm1[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm1[2,3]
	; AVX1-ONLY-NEXT: vmovapd 160(%rsi), %ymm7			; AVX1-ONLY-NEXT: vmovapd 160(%rsi), %ymm7
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm11 = ymm7[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm11 = ymm7[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm1[2,3],ymm11[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm1[2,3],ymm11[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm11[0],ymm6[1],ymm11[2],ymm6[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm11[0],ymm6[1],ymm11[2],ymm6[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm0			; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm0
	; AVX1-ONLY-NEXT: vmovapd 208(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovapd 208(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vmovapd 192(%rsi), %ymm5			; AVX1-ONLY-NEXT: vmovapd 192(%rsi), %ymm5
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm15 = ymm5[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm15 = ymm5[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm0[2,3],ymm15[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm0[2,3],ymm15[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm15[0],ymm6[1],ymm15[2],ymm6[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm15[0],ymm6[1],ymm15[2],ymm6[3]
	; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm15			; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm15
	; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm14			; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm14
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],ymm15[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],ymm15[2,3]
	; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm3			; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm3
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm11 = ymm3[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm11 = ymm3[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm15[2,3],ymm11[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm11 = ymm15[2,3],ymm11[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm11 = ymm11[0],ymm14[1],ymm11[2],ymm14[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm11 = ymm11[0],ymm14[1],ymm11[2],ymm14[3]
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm14 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm14 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm14 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm14 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],mem[2],ymm14[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],mem[2],ymm14[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm14[0],ymm12[1],ymm14[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm12 = ymm14[0],ymm12[1],ymm14[2,3]
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm14 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm14 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm14 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm14 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],mem[2],ymm14[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm14 = ymm14[0,1],mem[2],ymm14[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm14[0],ymm13[1],ymm14[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm14[0],ymm13[1],ymm14[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm10 = ymm10[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm10 = ymm10[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm10 = ymm10[0,1],mem[2],ymm10[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm10 = ymm10[0,1],mem[2],ymm10[3]
	; AVX1-ONLY-NEXT: vblendpd $2, {{[-0-9]+}}(%r{{[sb]}}p), %ymm10, %ymm10 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendpd $2, {{[-0-9]+}}(%r{{[sb]}}p), %ymm10, %ymm10 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm10 = ymm10[0],mem[1],ymm10[2,3]			; AVX1-ONLY-NEXT: # ymm10 = ymm10[0],mem[1],ymm10[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm9 = ymm9[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm9 = ymm9[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm9[0,1],mem[2],ymm9[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm9[0,1],mem[2],ymm9[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm9[0],ymm4[1],ymm9[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm9[0],ymm4[1],ymm9[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm8 = ymm8[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm8 = ymm8[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm8 = ymm8[0,1],mem[2],ymm8[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm8 = ymm8[0,1],mem[2],ymm8[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm8[0],ymm2[1],ymm8[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm8[0],ymm2[1],ymm8[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm7[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm7[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm7[0],ymm1[1],ymm7[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm7[0],ymm1[1],ymm7[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm5 = ymm5[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm5 = ymm5[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm5[0,1],mem[2],ymm5[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm5[0,1],mem[2],ymm5[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm5[0],ymm0[1],ymm5[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm5[0],ymm0[1],ymm5[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],mem[2],ymm3[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],mem[2],ymm3[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm15[1],ymm3[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm15[1],ymm3[2,3]
	; AVX1-ONLY-NEXT: vmovapd %ymm11, 736(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm11, 736(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm3, 704(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm3, 704(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm6, 640(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm6, 640(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm0, 608(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm0, 608(%rcx)
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-ONLY-NEXT: vmovaps %ymm0, 544(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm0, 544(%rcx)
	▲ Show 20 Lines • Show All 867 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd (%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd (%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 16(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd (%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd (%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 32(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 32(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 32(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 32(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 64(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 64(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 80(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 64(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 64(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 96(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 96(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 128(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 144(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 144(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 128(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 128(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm14			; AVX1-ONLY-NEXT: vmovapd 160(%rdx), %ymm14
	; AVX1-ONLY-NEXT: vmovapd 176(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 176(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm14[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm14[2,3]
	; AVX1-ONLY-NEXT: vmovapd 160(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 160(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm14[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm14[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm12			; AVX1-ONLY-NEXT: vmovapd 192(%rdx), %ymm12
	; AVX1-ONLY-NEXT: vmovapd 208(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 208(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm12[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm12[2,3]
	; AVX1-ONLY-NEXT: vmovapd 192(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 192(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm12[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm11			; AVX1-ONLY-NEXT: vmovapd 224(%rdx), %ymm11
	; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm11[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm11[2,3]
	; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm11[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm11[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 256(%rdx), %ymm9			; AVX1-ONLY-NEXT: vmovapd 256(%rdx), %ymm9
	; AVX1-ONLY-NEXT: vmovapd 272(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 272(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm9[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm9[2,3]
	; AVX1-ONLY-NEXT: vmovapd 256(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 256(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm9[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm9[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 288(%rdx), %ymm8			; AVX1-ONLY-NEXT: vmovapd 288(%rdx), %ymm8
	; AVX1-ONLY-NEXT: vmovapd 304(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 304(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm8[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm8[2,3]
	; AVX1-ONLY-NEXT: vmovapd 288(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 288(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm8[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 320(%rdx), %ymm6			; AVX1-ONLY-NEXT: vmovapd 320(%rdx), %ymm6
	; AVX1-ONLY-NEXT: vmovapd 336(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 336(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm6[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm6[2,3]
	; AVX1-ONLY-NEXT: vmovapd 320(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 320(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm6[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm6[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 352(%rdx), %ymm5			; AVX1-ONLY-NEXT: vmovapd 352(%rdx), %ymm5
	; AVX1-ONLY-NEXT: vmovapd 368(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 368(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm5[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm5[2,3]
	; AVX1-ONLY-NEXT: vmovapd 352(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 352(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm5[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm5[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 384(%rdx), %ymm4			; AVX1-ONLY-NEXT: vmovapd 384(%rdx), %ymm4
	; AVX1-ONLY-NEXT: vmovapd 400(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 400(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3]
	; AVX1-ONLY-NEXT: vmovapd 384(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 384(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm4[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 416(%rdx), %ymm3			; AVX1-ONLY-NEXT: vmovapd 416(%rdx), %ymm3
	; AVX1-ONLY-NEXT: vmovapd 432(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 432(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3]
	; AVX1-ONLY-NEXT: vmovapd 416(%rsi), %ymm13			; AVX1-ONLY-NEXT: vmovapd 416(%rsi), %ymm13
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm13[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm13[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm3[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm3[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 448(%rdx), %ymm2			; AVX1-ONLY-NEXT: vmovapd 448(%rdx), %ymm2
	; AVX1-ONLY-NEXT: vmovapd 464(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 464(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 448(%rsi), %ymm10			; AVX1-ONLY-NEXT: vmovapd 448(%rsi), %ymm10
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm10[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm10[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm2[2,3],ymm7[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm7 = ymm2[2,3],ymm7[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm7[0],ymm0[1],ymm7[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm7[0],ymm0[1],ymm7[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 480(%rdx), %ymm1			; AVX1-ONLY-NEXT: vmovapd 480(%rdx), %ymm1
	; AVX1-ONLY-NEXT: vmovapd 496(%rdi), %xmm7			; AVX1-ONLY-NEXT: vmovapd 496(%rdi), %xmm7
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm7[0,1],ymm1[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm7[0,1],ymm1[2,3]
	; AVX1-ONLY-NEXT: vmovapd 480(%rsi), %ymm7			; AVX1-ONLY-NEXT: vmovapd 480(%rsi), %ymm7
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm15 = ymm7[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm15 = ymm7[0,0,3,2]
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm1[2,3],ymm15[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm1[2,3],ymm15[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm15[0],ymm0[1],ymm15[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm15[0],ymm0[1],ymm15[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm0 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm0 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3]
	; AVX1-ONLY-NEXT: vblendpd $2, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vblendpd $2, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm0 = ymm0[0],mem[1],ymm0[2,3]			; AVX1-ONLY-NEXT: # ymm0 = ymm0[0],mem[1],ymm0[2,3]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm15 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm15 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2],ymm15[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2],ymm15[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm15[0],ymm5[1],ymm15[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm15[0],ymm5[1],ymm15[2,3]
	; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15 # 32-byte Folded Reload			; AVX1-ONLY-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm15 # 32-byte Folded Reload
	; AVX1-ONLY-NEXT: # ymm15 = mem[1,0,2,2]			; AVX1-ONLY-NEXT: # ymm15 = mem[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2],ymm15[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2],ymm15[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm15[0],ymm4[1],ymm15[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm15[0],ymm4[1],ymm15[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm13 = ymm13[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm13 = ymm13[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm13[0,1],mem[2],ymm13[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm13 = ymm13[0,1],mem[2],ymm13[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm13[0],ymm3[1],ymm13[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm13[0],ymm3[1],ymm13[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm10 = ymm10[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm10 = ymm10[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm10 = ymm10[0,1],mem[2],ymm10[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm10 = ymm10[0,1],mem[2],ymm10[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm10[0],ymm2[1],ymm10[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm10[0],ymm2[1],ymm10[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm7 = ymm7[1,0,2,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm7 = ymm7[1,0,2,2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0,1],mem[2],ymm7[3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm7[0],ymm1[1],ymm7[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm7[0],ymm1[1],ymm7[2,3]
	; AVX1-ONLY-NEXT: vmovups (%rsp), %ymm7 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups (%rsp), %ymm7 # 32-byte Reload
	; AVX1-ONLY-NEXT: vmovaps %ymm7, 1504(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm7, 1504(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm1, 1472(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm1, 1472(%rcx)
	; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload			; AVX1-ONLY-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm1 # 32-byte Reload
	; AVX1-ONLY-NEXT: vmovaps %ymm1, 1408(%rcx)			; AVX1-ONLY-NEXT: vmovaps %ymm1, 1408(%rcx)
	; AVX1-ONLY-NEXT: vmovapd %ymm2, 1376(%rcx)			; AVX1-ONLY-NEXT: vmovapd %ymm2, 1376(%rcx)
	▲ Show 20 Lines • Show All 607 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-7.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 586 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm12[0,1],ymm0[2,3],ymm12[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm12 = ymm12[0,1],ymm0[2,3],ymm12[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm15[1],xmm9[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm15[1],xmm9[1]
	; AVX1-ONLY-NEXT: vmovapd 32(%rdi), %ymm9			; AVX1-ONLY-NEXT: vmovapd 32(%rdi), %ymm9
	; AVX1-ONLY-NEXT: vmovapd 32(%rsi), %ymm15			; AVX1-ONLY-NEXT: vmovapd 32(%rsi), %ymm15
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm9 = ymm9[0],ymm15[0],ymm9[2],ymm15[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm9 = ymm9[0],ymm15[0],ymm9[2],ymm15[2]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm0[0,1],ymm9[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm0[0,1],ymm9[2,3]
	; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 48(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm15 = ymm15[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm15 = ymm15[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 32(%rax), %ymm1			; AVX1-ONLY-NEXT: vmovapd 32(%rax), %ymm1
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm1[2,3],ymm15[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm15 = ymm1[2,3],ymm15[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm15[0],ymm0[1],ymm15[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm15[0],ymm0[1],ymm15[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovapd 32(%r8), %ymm15			; AVX1-ONLY-NEXT: vmovapd 32(%r8), %ymm15
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm15 = ymm15[0],mem[0],ymm15[2],mem[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm15 = ymm15[0],mem[0],ymm15[2],mem[2]
	; AVX1-ONLY-NEXT: vmovapd 48(%rcx), %xmm0			; AVX1-ONLY-NEXT: vmovapd 48(%rcx), %xmm0
	; AVX1-ONLY-NEXT: vmovapd 48(%rdx), %xmm6			; AVX1-ONLY-NEXT: vmovapd 48(%rdx), %xmm6
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm6 = xmm6[0],xmm0[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm6 = xmm6[0],xmm0[0]
	▲ Show 20 Lines • Show All 1,565 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovapd 96(%rdi), %ymm3			; AVX1-ONLY-NEXT: vmovapd 96(%rdi), %ymm3
	; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm4			; AVX1-ONLY-NEXT: vmovapd 96(%rsi), %ymm4
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm3[0],ymm4[0],ymm3[2],ymm4[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm3[0],ymm4[0],ymm3[2],ymm4[2]
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm6 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm6 = mem[0,0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0,1],ymm3[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0,1],ymm3[2,3]
	; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm6			; AVX1-ONLY-NEXT: vmovapd 112(%rdi), %xmm6
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm6 = ymm6[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm4 = ymm4[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm4 = ymm4[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 96(%rax), %ymm8			; AVX1-ONLY-NEXT: vmovapd 96(%rax), %ymm8
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm8[2,3],ymm4[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm8[2,3],ymm4[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm4[0],ymm6[1],ymm4[2],ymm6[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm4[0],ymm6[1],ymm4[2],ymm6[3]
	; AVX1-ONLY-NEXT: vmovapd 112(%rcx), %xmm6			; AVX1-ONLY-NEXT: vmovapd 112(%rcx), %xmm6
	; AVX1-ONLY-NEXT: vmovapd 112(%rdx), %xmm9			; AVX1-ONLY-NEXT: vmovapd 112(%rdx), %xmm9
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm9 = xmm9[0],xmm6[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm9 = xmm9[0],xmm6[0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm9[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm9[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vbroadcastsd 112(%r9), %ymm10			; AVX1-ONLY-NEXT: vbroadcastsd 112(%r9), %ymm10
	▲ Show 20 Lines • Show All 2,883 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm5 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovapd 224(%rdi), %ymm0			; AVX1-ONLY-NEXT: vmovapd 224(%rdi), %ymm0
	; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm1			; AVX1-ONLY-NEXT: vmovapd 224(%rsi), %ymm1
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm15 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm15 = mem[0,0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm15[0,1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm4 = ymm15[0,1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm15			; AVX1-ONLY-NEXT: vmovapd 240(%rdi), %xmm15
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm15 = ymm15[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 224(%rax), %ymm0			; AVX1-ONLY-NEXT: vmovapd 224(%rax), %ymm0
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm15[1],ymm1[2],ymm15[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm15[1],ymm1[2],ymm15[3]
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm3[1],mem[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm3[1],mem[1]
	; AVX1-ONLY-NEXT: vbroadcastsd 216(%r9), %ymm15			; AVX1-ONLY-NEXT: vbroadcastsd 216(%r9), %ymm15
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm15[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm15[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovapd 240(%rcx), %xmm15			; AVX1-ONLY-NEXT: vmovapd 240(%rcx), %xmm15
	; AVX1-ONLY-NEXT: vmovapd 240(%rdx), %xmm13			; AVX1-ONLY-NEXT: vmovapd 240(%rdx), %xmm13
	▲ Show 20 Lines • Show All 6,070 Lines • ▼ Show 20 Lines
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],mem[0],ymm0[2],mem[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],mem[0],ymm0[2],mem[2]
	; AVX1-ONLY-NEXT: vmovapd 432(%rcx), %xmm6			; AVX1-ONLY-NEXT: vmovapd 432(%rcx), %xmm6
	; AVX1-ONLY-NEXT: vmovapd 432(%rdx), %xmm1			; AVX1-ONLY-NEXT: vmovapd 432(%rdx), %xmm1
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm6[0]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm6[0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 432(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 432(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 416(%rax), %ymm1			; AVX1-ONLY-NEXT: vmovapd 416(%rax), %ymm1
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm2[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm2[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %xmm15			; AVX1-ONLY-NEXT: vmovaps 448(%rdi), %xmm15
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm15, %ymm0, %ymm2			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm15, %ymm0, %ymm2
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1],ymm0[2,3],ymm2[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1],ymm0[2,3],ymm2[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovapd 448(%r8), %ymm13			; AVX1-ONLY-NEXT: vmovapd 448(%r8), %ymm13
	; AVX1-ONLY-NEXT: vinsertf128 $1, 448(%rax), %ymm13, %ymm2			; AVX1-ONLY-NEXT: vinsertf128 $1, 448(%rax), %ymm13, %ymm2
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1],ymm0[2,3],ymm2[4,5],ymm0[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1],ymm0[2,3],ymm2[4,5],ymm0[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 448(%rdi), %ymm0			; AVX1-ONLY-NEXT: vmovapd 448(%rdi), %ymm0
	; AVX1-ONLY-NEXT: vmovapd 448(%rsi), %ymm2			; AVX1-ONLY-NEXT: vmovapd 448(%rsi), %ymm2
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm3 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm3 = mem[0,0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm3[0,1],ymm0[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm9 = ymm3[0,1],ymm0[2,3]
	; AVX1-ONLY-NEXT: vmovapd 464(%rdi), %xmm0			; AVX1-ONLY-NEXT: vmovapd 464(%rdi), %xmm0
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm5[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm5[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm2 = ymm2[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 448(%rax), %ymm4			; AVX1-ONLY-NEXT: vmovapd 448(%rax), %ymm4
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm4[2,3],ymm2[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm4[2,3],ymm2[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm0, %ymm0			; AVX1-ONLY-NEXT: vinsertf128 $1, %xmm11, %ymm0, %ymm0
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm2 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm2 = mem[0,0]
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm0[0,1],ymm2[2,3],ymm0[4,5,6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm0[0,1],ymm2[2,3],ymm0[4,5,6,7]
	; AVX1-ONLY-NEXT: vmovapd 480(%r8), %ymm0			; AVX1-ONLY-NEXT: vmovapd 480(%r8), %ymm0
	; AVX1-ONLY-NEXT: vinsertf128 $1, 480(%rax), %ymm0, %ymm3			; AVX1-ONLY-NEXT: vinsertf128 $1, 480(%rax), %ymm0, %ymm3
	; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0,1],ymm2[2,3],ymm3[4,5],ymm2[6,7]			; AVX1-ONLY-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0,1],ymm2[2,3],ymm3[4,5],ymm2[6,7]
	; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovups %ymm2, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vmovapd 480(%rdi), %ymm2			; AVX1-ONLY-NEXT: vmovapd 480(%rdi), %ymm2
	; AVX1-ONLY-NEXT: vmovapd 480(%rsi), %ymm3			; AVX1-ONLY-NEXT: vmovapd 480(%rsi), %ymm3
	; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm2[0],ymm3[0],ymm2[2],ymm3[2]			; AVX1-ONLY-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm2[0],ymm3[0],ymm2[2],ymm3[2]
	; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm5 = mem[0,0]			; AVX1-ONLY-NEXT: vmovddup {{.*#+}} xmm5 = mem[0,0]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm5[0,1],ymm2[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm2 = ymm5[0,1],ymm2[2,3]
	; AVX1-ONLY-NEXT: vmovapd 496(%rdi), %xmm5			; AVX1-ONLY-NEXT: vmovapd 496(%rdi), %xmm5
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm5[0,1],mem[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm5 = ymm5[0,1],mem[2,3]
	; AVX1-ONLY-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,0,3,2]			; AVX1-ONLY-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,0,3,2]
	; AVX1-ONLY-NEXT: vmovapd 480(%rax), %ymm11			; AVX1-ONLY-NEXT: vmovapd 480(%rax), %ymm11
	; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm11[2,3],ymm3[2,3]			; AVX1-ONLY-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm11[2,3],ymm3[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm5[1],ymm3[2],ymm5[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm5[1],ymm3[2],ymm5[3]
	; AVX1-ONLY-NEXT: vmovupd %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-ONLY-NEXT: vmovupd %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm6[1],mem[1]			; AVX1-ONLY-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm6[1],mem[1]
	; AVX1-ONLY-NEXT: vbroadcastsd 440(%r9), %ymm6			; AVX1-ONLY-NEXT: vbroadcastsd 440(%r9), %ymm6
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],ymm6[2,3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0,1],ymm6[2,3]
	; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm3[0,1,2],ymm1[3]			; AVX1-ONLY-NEXT: vblendpd {{.*#+}} ymm1 = ymm3[0,1,2],ymm1[3]
	▲ Show 20 Lines • Show All 8,972 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-narrow-binop.ll

	Show First 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	;			;
	; AVX1-LABEL: fmul_v2f64:			; AVX1-LABEL: fmul_v2f64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm1[0],xmm0[0]			; AVX1-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; AVX1-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; AVX1-NEXT: vmulpd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vmulpd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmulpd %xmm2, %xmm2, %xmm1			; AVX1-NEXT: vmulpd %xmm2, %xmm2, %xmm1
	; AVX1-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: fmul_v2f64:			; AVX2-LABEL: fmul_v2f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm1[0],xmm0[0]			; AVX2-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm1[0],xmm0[0]
	; AVX2-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; AVX2-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; AVX2-NEXT: vmulpd %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vmulpd %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vmulpd %xmm2, %xmm2, %xmm1			; AVX2-NEXT: vmulpd %xmm2, %xmm2, %xmm1
	; AVX2-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: fmul_v2f64:			; AVX512-LABEL: fmul_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm0[1],xmm1[1]			; AVX512-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm0[1],xmm1[1]
	; AVX512-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmulpd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vfmadd231pd {{.#+}} xmm0 = (xmm2 xmm2) + xmm0			; AVX512-NEXT: vfmadd231pd {{.#+}} xmm0 = (xmm2 xmm2) + xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = shufflevector <2 x double> %x, <2 x double> %y, <4 x i32> <i32 2, i32 0, i32 1, i32 3>			%s = shufflevector <2 x double> %x, <2 x double> %y, <4 x i32> <i32 2, i32 0, i32 1, i32 3>
	%bo = fmul fast <4 x double> %s, %s			%bo = fmul fast <4 x double> %s, %s
	%ext = shufflevector <4 x double> %bo, <4 x double> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%ext = shufflevector <4 x double> %bo, <4 x double> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%add = fadd fast <4 x double> %bo, %ext			%add = fadd fast <4 x double> %bo, %ext
	%rdx = shufflevector <4 x double> %add, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%rdx = shufflevector <4 x double> %add, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	ret <4 x double> %rdx			ret <4 x double> %rdx
	}			}

llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm1			; SSE41-NEXT: addss %xmm2, %xmm1
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f32:			; AVX1-SLOW-LABEL: test_v4f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32:			; AVX1-FAST-LABEL: test_v4f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32:			; AVX2-LABEL: test_v4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}
	Show All 21 Lines
	; SSE41-NEXT: addss %xmm2, %xmm1			; SSE41-NEXT: addss %xmm2, %xmm1
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f32:			; AVX1-SLOW-LABEL: test_v8f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32:			; AVX1-FAST-LABEL: test_v8f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm2, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm2, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32:			; AVX2-LABEL: test_v8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	Show All 27 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f32:			; AVX1-SLOW-LABEL: test_v16f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddps %ymm2, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f32:			; AVX1-FAST-LABEL: test_v16f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddps %ymm2, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f32:			; AVX2-LABEL: test_v16f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddps %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f32_zero:			; AVX1-SLOW-LABEL: test_v4f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32_zero:			; AVX1-FAST-LABEL: test_v4f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32_zero:			; AVX2-LABEL: test_v4f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f32_zero:			; AVX1-SLOW-LABEL: test_v8f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32_zero:			; AVX1-FAST-LABEL: test_v8f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32_zero:			; AVX2-LABEL: test_v8f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f32_zero:			; AVX1-SLOW-LABEL: test_v16f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f32_zero:			; AVX1-FAST-LABEL: test_v16f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f32_zero:			; AVX2-LABEL: test_v16f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f32_undef:			; AVX1-SLOW-LABEL: test_v4f32_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32_undef:			; AVX1-FAST-LABEL: test_v4f32_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32_undef:			; AVX2-LABEL: test_v4f32_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f32_undef:			; AVX1-SLOW-LABEL: test_v8f32_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32_undef:			; AVX1-FAST-LABEL: test_v8f32_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32_undef:			; AVX2-LABEL: test_v8f32_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f32_undef:			; AVX1-SLOW-LABEL: test_v16f32_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f32_undef:			; AVX1-FAST-LABEL: test_v16f32_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f32_undef:			; AVX2-LABEL: test_v16f32_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm2			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: addsd %xmm1, %xmm2			; SSE-NEXT: addsd %xmm1, %xmm2
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f64:			; AVX1-SLOW-LABEL: test_v2f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f64:			; AVX1-FAST-LABEL: test_v2f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f64:			; AVX2-LABEL: test_v2f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm2			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: addsd %xmm1, %xmm2			; SSE-NEXT: addsd %xmm1, %xmm2
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f64:			; AVX1-SLOW-LABEL: test_v4f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64:			; AVX1-FAST-LABEL: test_v4f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm2, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm2, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64:			; AVX2-LABEL: test_v4f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 9 Lines
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f64:			; AVX1-SLOW-LABEL: test_v8f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f64:			; AVX1-FAST-LABEL: test_v8f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f64:			; AVX2-LABEL: test_v8f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 15 Lines
	;			;
	; AVX1-SLOW-LABEL: test_v16f64:			; AVX1-SLOW-LABEL: test_v16f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm4, %ymm2, %ymm2			; AVX1-SLOW-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f64:			; AVX1-FAST-LABEL: test_v16f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm4, %ymm2, %ymm2			; AVX1-FAST-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f64:			; AVX2-LABEL: test_v16f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_zero:			; SSE-LABEL: test_v2f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f64_zero:			; AVX1-SLOW-LABEL: test_v2f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f64_zero:			; AVX1-FAST-LABEL: test_v2f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f64_zero:			; AVX2-LABEL: test_v2f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f64_zero:			; AVX1-SLOW-LABEL: test_v4f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64_zero:			; AVX1-FAST-LABEL: test_v4f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64_zero:			; AVX2-LABEL: test_v4f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f64_zero:			; AVX1-SLOW-LABEL: test_v8f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f64_zero:			; AVX1-FAST-LABEL: test_v8f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f64_zero:			; AVX2-LABEL: test_v8f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX1-SLOW-LABEL: test_v16f64_zero:			; AVX1-SLOW-LABEL: test_v16f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f64_zero:			; AVX1-FAST-LABEL: test_v16f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f64_zero:			; AVX2-LABEL: test_v16f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f64_undef:			; AVX1-SLOW-LABEL: test_v2f64_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f64_undef:			; AVX1-FAST-LABEL: test_v2f64_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f64_undef:			; AVX2-LABEL: test_v2f64_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f64_undef:			; AVX1-SLOW-LABEL: test_v4f64_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64_undef:			; AVX1-FAST-LABEL: test_v4f64_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64_undef:			; AVX2-LABEL: test_v4f64_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f64_undef:			; AVX1-SLOW-LABEL: test_v8f64_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f64_undef:			; AVX1-FAST-LABEL: test_v8f64_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f64_undef:			; AVX2-LABEL: test_v8f64_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX1-SLOW-LABEL: test_v16f64_undef:			; AVX1-SLOW-LABEL: test_v16f64_undef:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f64_undef:			; AVX1-FAST-LABEL: test_v16f64_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f64_undef:			; AVX2-LABEL: test_v16f64_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.vector.reduce.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.vector.reduce.fadd.f32.v8f32(float, <8 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.vector.reduce.fadd.f32.v16f32(float, <16 x float>)

	declare double @llvm.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.vector.reduce.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.vector.reduce.fadd.f64.v4f64(double, <4 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v8f64(double, <8 x double>)			declare double @llvm.vector.reduce.fadd.f64.v8f64(double, <8 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v16f64(double, <16 x double>)			declare double @llvm.vector.reduce.fadd.f64.v16f64(double, <16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fadd.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	Show All 40 Lines
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addss %xmm4, %xmm0			; SSE41-NEXT: addss %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f32_zero:			; AVX1-SLOW-LABEL: test_v4f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32_zero:			; AVX1-FAST-LABEL: test_v4f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32_zero:			; AVX2-LABEL: test_v4f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float -0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 37 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f32_zero:			; AVX1-SLOW-LABEL: test_v8f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32_zero:			; AVX1-FAST-LABEL: test_v8f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32_zero:			; AVX2-LABEL: test_v8f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float -0.0, <8 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float -0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]
	; SSE41-NEXT: addss %xmm3, %xmm0			; SSE41-NEXT: addss %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f32_zero:			; AVX1-SLOW-LABEL: test_v16f32_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm2
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX1-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f32_zero:			; AVX1-FAST-LABEL: test_v16f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm2			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm2
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-FAST-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX1-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f32_zero:			; AVX2-LABEL: test_v16f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm2, %xmm2			; AVX2-NEXT: vaddss %xmm0, %xmm2, %xmm2
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float -0.0, <16 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float -0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 37 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]
	; SSE41-NEXT: addss %xmm3, %xmm0			; SSE41-NEXT: addss %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vaddss %xmm0, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vaddss %xmm0, %xmm2, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.vector.reduce.fadd.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1,1]
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	Show All 11 Lines
	; SSE-NEXT: addsd %xmm4, %xmm0			; SSE-NEXT: addsd %xmm4, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1,1]
	; SSE-NEXT: addsd %xmm4, %xmm0			; SSE-NEXT: addsd %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addsd %xmm7, %xmm0			; SSE41-NEXT: addsd %xmm7, %xmm0
	; SSE41-NEXT: addsd {{[0-9]+}}(%rsp), %xmm0			; SSE41-NEXT: addsd {{[0-9]+}}(%rsp), %xmm0
	; SSE41-NEXT: addsd {{[0-9]+}}(%rsp), %xmm0			; SSE41-NEXT: addsd {{[0-9]+}}(%rsp), %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm5, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm5, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm4[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm4[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm4, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm4, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_zero:			; SSE-LABEL: test_v2f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f64_zero:			; AVX1-SLOW-LABEL: test_v2f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f64_zero:			; AVX1-FAST-LABEL: test_v2f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f64_zero:			; AVX2-LABEL: test_v2f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double -0.0, <2 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double -0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm2			; SSE-NEXT: movapd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f64_zero:			; AVX1-SLOW-LABEL: test_v4f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64_zero:			; AVX1-FAST-LABEL: test_v4f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64_zero:			; AVX2-LABEL: test_v4f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX2-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double -0.0, <4 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double -0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	Show All 10 Lines
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: addsd %xmm3, %xmm0			; SSE-NEXT: addsd %xmm3, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: addsd %xmm3, %xmm0			; SSE-NEXT: addsd %xmm3, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f64_zero:			; AVX1-SLOW-LABEL: test_v8f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm2			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm2
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f64_zero:			; AVX1-FAST-LABEL: test_v8f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm2			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm2
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f64_zero:			; AVX2-LABEL: test_v8f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX2-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double -0.0, <8 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double -0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	Show All 22 Lines
	; SSE-NEXT: addsd %xmm6, %xmm0			; SSE-NEXT: addsd %xmm6, %xmm0
	; SSE-NEXT: addsd %xmm7, %xmm0			; SSE-NEXT: addsd %xmm7, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]
	; SSE-NEXT: addsd %xmm7, %xmm0			; SSE-NEXT: addsd %xmm7, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f64_zero:			; AVX1-SLOW-LABEL: test_v16f64_zero:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm4, %xmm0, %xmm4			; AVX1-SLOW-NEXT: vaddsd %xmm4, %xmm0, %xmm4
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm4, %xmm4			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm4, %xmm4
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm4, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm4, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm4, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm4, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-SLOW-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f64_zero:			; AVX1-FAST-LABEL: test_v16f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm4			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm4
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm4, %xmm4			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm4, %xmm4
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm4, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm0, %xmm4, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm4, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm4, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-FAST-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f64_zero:			; AVX2-LABEL: test_v16f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm4, %xmm0, %xmm4			; AVX2-NEXT: vaddsd %xmm4, %xmm0, %xmm4
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vaddsd %xmm0, %xmm4, %xmm4			; AVX2-NEXT: vaddsd %xmm0, %xmm4, %xmm4
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vaddsd %xmm0, %xmm4, %xmm0			; AVX2-NEXT: vaddsd %xmm0, %xmm4, %xmm0
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm4, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX2-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm2			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm2
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double -0.0, <16 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double -0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE-NEXT: addsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE-NEXT: addsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	Show All 9 Lines
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: addsd %xmm3, %xmm0			; SSE-NEXT: addsd %xmm3, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: addsd %xmm3, %xmm0			; SSE-NEXT: addsd %xmm3, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	Show All 21 Lines
	; SSE-NEXT: addsd %xmm6, %xmm0			; SSE-NEXT: addsd %xmm6, %xmm0
	; SSE-NEXT: addsd %xmm7, %xmm0			; SSE-NEXT: addsd %xmm7, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]
	; SSE-NEXT: addsd %xmm7, %xmm0			; SSE-NEXT: addsd %xmm7, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm4			; AVX-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm4
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vaddsd %xmm0, %xmm4, %xmm4			; AVX-NEXT: vaddsd %xmm0, %xmm4, %xmm4
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vaddsd %xmm0, %xmm4, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm4, %xmm0
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX512-NEXT: vaddsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm2			; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm2, %xmm0
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.vector.reduce.fadd.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.vector.reduce.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.vector.reduce.fadd.f32.v8f32(float, <8 x float>)
	declare float @llvm.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.vector.reduce.fadd.f32.v16f32(float, <16 x float>)

	declare double @llvm.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.vector.reduce.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.vector.reduce.fadd.f64.v4f64(double, <4 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v8f64(double, <8 x double>)			declare double @llvm.vector.reduce.fadd.f64.v8f64(double, <8 x double>)
	declare double @llvm.vector.reduce.fadd.f64.v16f64(double, <16 x double>)			declare double @llvm.vector.reduce.fadd.f64.v16f64(double, <16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmax-fmin-fast.ll

	Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: maxps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmax.v4f32(<4 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmax.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmin.v8f32(<8 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmin.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmax.v16f32(<16 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmax.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	;			;

	define double @test_v2f64(<2 x double> %a0) {			define double @test_v2f64(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(<4 x double> %a0) {			define double @test_v4f64(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE-NEXT: maxpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmax.v4f64(<4 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmax.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE-NEXT: minpd %xmm3, %xmm1
	; SSE-NEXT: minpd %xmm2, %xmm0			; SSE-NEXT: minpd %xmm2, %xmm0
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE-NEXT: minpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmin.v8f64(<8 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmin.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.vector.reduce.fmin.v2f32(<2 x float>)			declare float @llvm.vector.reduce.fmin.v2f32(<2 x float>)
	declare float @llvm.vector.reduce.fmax.v4f32(<4 x float>)			declare float @llvm.vector.reduce.fmax.v4f32(<4 x float>)
	declare float @llvm.vector.reduce.fmin.v8f32(<8 x float>)			declare float @llvm.vector.reduce.fmin.v8f32(<8 x float>)
	declare float @llvm.vector.reduce.fmax.v16f32(<16 x float>)			declare float @llvm.vector.reduce.fmax.v16f32(<16 x float>)

	declare double @llvm.vector.reduce.fmin.v2f64(<2 x double>)			declare double @llvm.vector.reduce.fmin.v2f64(<2 x double>)
	declare double @llvm.vector.reduce.fmax.v4f64(<4 x double>)			declare double @llvm.vector.reduce.fmax.v4f64(<4 x double>)
	declare double @llvm.vector.reduce.fmin.v8f64(<8 x double>)			declare double @llvm.vector.reduce.fmin.v8f64(<8 x double>)
	declare double @llvm.vector.reduce.fmax.v16f64(<16 x double>)			declare double @llvm.vector.reduce.fmax.v16f64(<16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: maxps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmax.v4f32(<4 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmax.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmax.v8f32(<8 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmax.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmax.v16f32(<16 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmax.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	;			;

	define double @test_v2f64(<2 x double> %a0) {			define double @test_v2f64(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v2f64(<2 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v3f64(<3 x double> %a0) {			define double @test_v3f64(<3 x double> %a0) {
	; SSE2-LABEL: test_v3f64:			; SSE2-LABEL: test_v3f64:
	Show All 13 Lines
	; SSE41-NEXT: maxpd %xmm2, %xmm0			; SSE41-NEXT: maxpd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: maxsd %xmm1, %xmm0			; SSE41-NEXT: maxsd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v3f64:			; AVX-LABEL: test_v3f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v3f64:			; AVX512-LABEL: test_v3f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmaxsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v3f64(<3 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v3f64(<3 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(<4 x double> %a0) {			define double @test_v4f64(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE-NEXT: maxpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v4f64(<4 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: maxpd %xmm3, %xmm1			; SSE-NEXT: maxpd %xmm3, %xmm1
	; SSE-NEXT: maxpd %xmm2, %xmm0			; SSE-NEXT: maxpd %xmm2, %xmm0
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE-NEXT: maxpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v8f64(<8 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	▲ Show 20 Lines • Show All 109 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-fmax.ll

	Show First 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v3f32:			; AVX-LABEL: test_v3f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2			; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v3f32:			; AVX512-LABEL: test_v3f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm0, %xmm1, %xmm2			; AVX512-NEXT: vmaxss %xmm0, %xmm1, %xmm2
	; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxss %xmm2, %xmm1, %xmm0			; AVX512-NEXT: vmaxss %xmm2, %xmm1, %xmm0
	; AVX512-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmax.v3f32(<3 x float> %a0)			%1 = call float @llvm.vector.reduce.fmax.v3f32(<3 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: andps %xmm0, %xmm1			; SSE41-NEXT: andps %xmm0, %xmm1
	; SSE41-NEXT: orps %xmm3, %xmm1			; SSE41-NEXT: orps %xmm3, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm0, %xmm3, %xmm4			; AVX-NEXT: vmaxss %xmm0, %xmm3, %xmm4
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0			; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vmaxss %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmaxss %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
	; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm0, %xmm3, %xmm4			; AVX512-NEXT: vmaxss %xmm0, %xmm3, %xmm4
	; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}			; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}
	; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1			; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1
	; AVX512-NEXT: vmaxss %xmm4, %xmm2, %xmm0			; AVX512-NEXT: vmaxss %xmm4, %xmm2, %xmm0
	; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: andps %xmm2, %xmm0			; SSE41-NEXT: andps %xmm2, %xmm0
	; SSE41-NEXT: orps %xmm3, %xmm0			; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm0, %xmm7, %xmm8			; AVX-NEXT: vmaxss %xmm0, %xmm7, %xmm8
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm8, %xmm0			; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm8, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm7			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm7
	; AVX-NEXT: vmaxss %xmm0, %xmm6, %xmm0			; AVX-NEXT: vmaxss %xmm0, %xmm6, %xmm0
	; AVX-NEXT: vblendvps %xmm7, %xmm6, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm7, %xmm6, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm6			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm6
	Show All 13 Lines
	; AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8f32:			; AVX512BW-LABEL: test_v8f32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vmaxss %xmm0, %xmm7, %xmm8			; AVX512BW-NEXT: vmaxss %xmm0, %xmm7, %xmm8
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}			; AVX512BW-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm8, %xmm8, %k1			; AVX512BW-NEXT: vcmpunordss %xmm8, %xmm8, %k1
	; AVX512BW-NEXT: vmaxss %xmm8, %xmm6, %xmm0			; AVX512BW-NEXT: vmaxss %xmm8, %xmm6, %xmm0
	; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	Show All 13 Lines
	; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v8f32:			; AVX512VL-LABEL: test_v8f32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vmaxss %xmm0, %xmm7, %xmm8			; AVX512VL-NEXT: vmaxss %xmm0, %xmm7, %xmm8
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}			; AVX512VL-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm8, %xmm8, %k1			; AVX512VL-NEXT: vcmpunordss %xmm8, %xmm8, %k1
	; AVX512VL-NEXT: vmaxss %xmm8, %xmm6, %xmm0			; AVX512VL-NEXT: vmaxss %xmm8, %xmm6, %xmm0
	; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vmaxps %ymm0, %ymm1, %ymm2			; AVX-NEXT: vmaxps %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2			; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16f32:			; AVX512BW-LABEL: test_v16f32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vmaxss %xmm0, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm0, %xmm2, %xmm3
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm2			; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vmaxss %xmm2, %xmm0, %xmm2			; AVX512BW-NEXT: vmaxss %xmm2, %xmm0, %xmm2
	; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2			; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2			; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm0			; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm0
	; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v16f32:			; AVX512VL-LABEL: test_v16f32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3			; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6			; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm6[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm6[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm6[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm7 = xmm6[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm8 = xmm6[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm8 = xmm6[1,1,3,3]
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm9			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm9
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm10 = xmm9[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm10 = xmm9[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm11 = xmm9[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm11 = xmm9[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm12 = xmm9[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm12 = xmm9[1,1,3,3]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm13 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm13 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm14 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm14 = xmm0[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm15 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm15 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vmaxss %xmm0, %xmm15, %xmm16			; AVX512VL-NEXT: vmaxss %xmm0, %xmm15, %xmm16
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovss %xmm15, %xmm16, %xmm16 {%k1}			; AVX512VL-NEXT: vmovss %xmm15, %xmm16, %xmm16 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm16, %xmm16, %k1			; AVX512VL-NEXT: vcmpunordss %xmm16, %xmm16, %k1
	; AVX512VL-NEXT: vmaxss %xmm16, %xmm14, %xmm0			; AVX512VL-NEXT: vmaxss %xmm16, %xmm14, %xmm0
	; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; SSE-NEXT: maxsd %xmm0, %xmm2			; SSE-NEXT: maxsd %xmm0, %xmm2
	; SSE-NEXT: andnpd %xmm2, %xmm1			; SSE-NEXT: andnpd %xmm2, %xmm1
	; SSE-NEXT: orpd %xmm3, %xmm1			; SSE-NEXT: orpd %xmm3, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0			; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm1			; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm1
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vmovapd %xmm1, %xmm0			; AVX512-NEXT: vmovapd %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmax.v2f64(<2 x double> %a0)			%1 = call double @llvm.vector.reduce.fmax.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}
	Show All 33 Lines
	; SSE41-NEXT: maxsd %xmm2, %xmm1			; SSE41-NEXT: maxsd %xmm2, %xmm1
	; SSE41-NEXT: andnpd %xmm1, %xmm0			; SSE41-NEXT: andnpd %xmm1, %xmm0
	; SSE41-NEXT: orpd %xmm3, %xmm0			; SSE41-NEXT: orpd %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm0, %xmm3, %xmm4			; AVX-NEXT: vmaxsd %xmm0, %xmm3, %xmm4
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0			; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1
	; AVX-NEXT: vmaxsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm0, %xmm3, %xmm4			; AVX512-NEXT: vmaxsd %xmm0, %xmm3, %xmm4
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}			; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1			; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1
	; AVX512-NEXT: vmaxsd %xmm4, %xmm1, %xmm0			; AVX512-NEXT: vmaxsd %xmm4, %xmm1, %xmm0
	; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm0
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: orpd %xmm3, %xmm0			; SSE41-NEXT: orpd %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2			; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8f64:			; AVX512BW-LABEL: test_v8f64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512BW-NEXT: vmaxsd %xmm0, %xmm7, %xmm8			; AVX512BW-NEXT: vmaxsd %xmm0, %xmm7, %xmm8
	; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}			; AVX512BW-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512BW-NEXT: vcmpunordsd %xmm8, %xmm8, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm8, %xmm8, %k1
	; AVX512BW-NEXT: vmaxsd %xmm8, %xmm5, %xmm0			; AVX512BW-NEXT: vmaxsd %xmm8, %xmm5, %xmm0
	; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmaxsd %xmm0, %xmm6, %xmm0			; AVX512BW-NEXT: vmaxsd %xmm0, %xmm6, %xmm0
	Show All 11 Lines
	; AVX512BW-NEXT: vmaxsd %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v8f64:			; AVX512VL-LABEL: test_v8f64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512VL-NEXT: vmaxsd %xmm0, %xmm7, %xmm8			; AVX512VL-NEXT: vmaxsd %xmm0, %xmm7, %xmm8
	; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}			; AVX512VL-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512VL-NEXT: vcmpunordsd %xmm8, %xmm8, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm8, %xmm8, %k1
	; AVX512VL-NEXT: vmaxsd %xmm8, %xmm5, %xmm0			; AVX512VL-NEXT: vmaxsd %xmm8, %xmm5, %xmm0
	; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmaxsd %xmm0, %xmm6, %xmm0			; AVX512VL-NEXT: vmaxsd %xmm0, %xmm6, %xmm0
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0
	; AVX-NEXT: vmaxpd %ymm1, %ymm3, %ymm2			; AVX-NEXT: vmaxpd %ymm1, %ymm3, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1			; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1
	; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1			; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1
	; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2			; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmaxpd %zmm0, %zmm1, %zmm2			; AVX512-NEXT: vmaxpd %zmm0, %zmm1, %zmm2
	; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1			; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1
	; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}			; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm2[1,0]
	; AVX512-NEXT: vmaxsd %xmm2, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm2, %xmm0, %xmm1
	; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1			; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0			; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 11 Lines

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: minss %xmm0, %xmm1			; SSE41-NEXT: minss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v3f32:			; AVX-LABEL: test_v3f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v3f32:			; AVX512-LABEL: test_v3f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vminss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vminss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmin.v3f32(<3 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmin.v3f32(<3 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	Show All 12 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: minps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmin.v4f32(<4 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmin.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmin.v8f32(<8 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmin.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vminps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.vector.reduce.fmin.v16f32(<16 x float> %a0)			%1 = call nnan float @llvm.vector.reduce.fmin.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	;			;

	define double @test_v2f64(<2 x double> %a0) {			define double @test_v2f64(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(<4 x double> %a0) {			define double @test_v4f64(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE-NEXT: minpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmin.v4f64(<4 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmin.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE-NEXT: minpd %xmm3, %xmm1
	; SSE-NEXT: minpd %xmm2, %xmm0			; SSE-NEXT: minpd %xmm2, %xmm0
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE-NEXT: minpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmin.v8f64(<8 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmin.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vminpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vminpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	▲ Show 20 Lines • Show All 110 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-fmin.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: andps %xmm0, %xmm1			; SSE41-NEXT: andps %xmm0, %xmm1
	; SSE41-NEXT: orps %xmm3, %xmm1			; SSE41-NEXT: orps %xmm3, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm0, %xmm3, %xmm4			; AVX-NEXT: vminss %xmm0, %xmm3, %xmm4
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0			; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vminss %xmm0, %xmm2, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
	; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm0, %xmm3, %xmm4			; AVX512-NEXT: vminss %xmm0, %xmm3, %xmm4
	; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}			; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}
	; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1			; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1
	; AVX512-NEXT: vminss %xmm4, %xmm2, %xmm0			; AVX512-NEXT: vminss %xmm4, %xmm2, %xmm0
	; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: andps %xmm2, %xmm0			; SSE41-NEXT: andps %xmm2, %xmm0
	; SSE41-NEXT: orps %xmm3, %xmm0			; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm0, %xmm7, %xmm8			; AVX-NEXT: vminss %xmm0, %xmm7, %xmm8
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm8, %xmm0			; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm8, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm7			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm7
	; AVX-NEXT: vminss %xmm0, %xmm6, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm6, %xmm0
	; AVX-NEXT: vblendvps %xmm7, %xmm6, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm7, %xmm6, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm6			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm6
	Show All 13 Lines
	; AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8f32:			; AVX512BW-LABEL: test_v8f32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vminss %xmm0, %xmm7, %xmm8			; AVX512BW-NEXT: vminss %xmm0, %xmm7, %xmm8
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}			; AVX512BW-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm8, %xmm8, %k1			; AVX512BW-NEXT: vcmpunordss %xmm8, %xmm8, %k1
	; AVX512BW-NEXT: vminss %xmm8, %xmm6, %xmm0			; AVX512BW-NEXT: vminss %xmm8, %xmm6, %xmm0
	; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	Show All 13 Lines
	; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v8f32:			; AVX512VL-LABEL: test_v8f32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vminss %xmm0, %xmm7, %xmm8			; AVX512VL-NEXT: vminss %xmm0, %xmm7, %xmm8
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}			; AVX512VL-NEXT: vmovss %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm8, %xmm8, %k1			; AVX512VL-NEXT: vcmpunordss %xmm8, %xmm8, %k1
	; AVX512VL-NEXT: vminss %xmm8, %xmm6, %xmm0			; AVX512VL-NEXT: vminss %xmm8, %xmm6, %xmm0
	; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vminps %ymm0, %ymm1, %ymm2			; AVX-NEXT: vminps %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm0, %xmm1, %xmm2			; AVX-NEXT: vminss %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1			; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16f32:			; AVX512BW-LABEL: test_v16f32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vminss %xmm0, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm0, %xmm2, %xmm3
	; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3			; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
	; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
	; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm2			; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vminss %xmm2, %xmm0, %xmm2			; AVX512BW-NEXT: vminss %xmm2, %xmm0, %xmm2
	; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2			; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2			; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2
	; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]			; AVX512BW-NEXT: vshufps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1			; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
	; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm0			; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm0
	; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v16f32:			; AVX512VL-LABEL: test_v16f32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3			; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm1 = xmm3[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6			; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm6[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm5 = xmm6[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm6[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm7 = xmm6[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm8 = xmm6[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm8 = xmm6[1,1,3,3]
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm9			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm9
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm10 = xmm9[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm10 = xmm9[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm11 = xmm9[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm11 = xmm9[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm12 = xmm9[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm12 = xmm9[1,1,3,3]
	; AVX512VL-NEXT: vshufps {{.*#+}} xmm13 = xmm0[3,3,3,3]			; AVX512VL-NEXT: vshufps {{.*#+}} xmm13 = xmm0[3,3,3,3]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm14 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm14 = xmm0[1,0]
	; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm15 = xmm0[1,1,3,3]			; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm15 = xmm0[1,1,3,3]
	; AVX512VL-NEXT: vminss %xmm0, %xmm15, %xmm16			; AVX512VL-NEXT: vminss %xmm0, %xmm15, %xmm16
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovss %xmm15, %xmm16, %xmm16 {%k1}			; AVX512VL-NEXT: vmovss %xmm15, %xmm16, %xmm16 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm16, %xmm16, %k1			; AVX512VL-NEXT: vcmpunordss %xmm16, %xmm16, %k1
	; AVX512VL-NEXT: vminss %xmm16, %xmm14, %xmm0			; AVX512VL-NEXT: vminss %xmm16, %xmm14, %xmm0
	; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; SSE-NEXT: minsd %xmm0, %xmm2			; SSE-NEXT: minsd %xmm0, %xmm2
	; SSE-NEXT: andnpd %xmm2, %xmm1			; SSE-NEXT: andnpd %xmm2, %xmm1
	; SSE-NEXT: orpd %xmm3, %xmm1			; SSE-NEXT: orpd %xmm3, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0			; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm1			; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm1
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vmovapd %xmm1, %xmm0			; AVX512-NEXT: vmovapd %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)			%1 = call double @llvm.vector.reduce.fmin.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}
	Show All 36 Lines
	; SSE41-NEXT: andpd %xmm2, %xmm3			; SSE41-NEXT: andpd %xmm2, %xmm3
	; SSE41-NEXT: minsd %xmm1, %xmm2			; SSE41-NEXT: minsd %xmm1, %xmm2
	; SSE41-NEXT: andnpd %xmm2, %xmm0			; SSE41-NEXT: andnpd %xmm2, %xmm0
	; SSE41-NEXT: orpd %xmm3, %xmm0			; SSE41-NEXT: orpd %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v3f64:			; AVX-LABEL: test_v3f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v3f64:			; AVX512-LABEL: test_v3f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm0, %xmm1, %xmm2			; AVX512-NEXT: vminsd %xmm0, %xmm1, %xmm2
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovsd %xmm1, %xmm2, %xmm2 {%k1}			; AVX512-NEXT: vmovsd %xmm1, %xmm2, %xmm2 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1			; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm0			; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm0
	; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 37 Lines
	; SSE41-NEXT: minsd %xmm2, %xmm1			; SSE41-NEXT: minsd %xmm2, %xmm1
	; SSE41-NEXT: andnpd %xmm1, %xmm0			; SSE41-NEXT: andnpd %xmm1, %xmm0
	; SSE41-NEXT: orpd %xmm3, %xmm0			; SSE41-NEXT: orpd %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm0, %xmm3, %xmm4			; AVX-NEXT: vminsd %xmm0, %xmm3, %xmm4
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0			; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1
	; AVX-NEXT: vminsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm0, %xmm3, %xmm4			; AVX512-NEXT: vminsd %xmm0, %xmm3, %xmm4
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}			; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1			; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1
	; AVX512-NEXT: vminsd %xmm4, %xmm1, %xmm0			; AVX512-NEXT: vminsd %xmm4, %xmm1, %xmm0
	; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm0
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: orpd %xmm3, %xmm0			; SSE41-NEXT: orpd %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2			; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8f64:			; AVX512BW-LABEL: test_v8f64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]			; AVX512BW-NEXT: vshufpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512BW-NEXT: vminsd %xmm0, %xmm7, %xmm8			; AVX512BW-NEXT: vminsd %xmm0, %xmm7, %xmm8
	; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}			; AVX512BW-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512BW-NEXT: vcmpunordsd %xmm8, %xmm8, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm8, %xmm8, %k1
	; AVX512BW-NEXT: vminsd %xmm8, %xmm5, %xmm0			; AVX512BW-NEXT: vminsd %xmm8, %xmm5, %xmm0
	; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512BW-NEXT: vminsd %xmm0, %xmm6, %xmm0			; AVX512BW-NEXT: vminsd %xmm0, %xmm6, %xmm0
	Show All 11 Lines
	; AVX512BW-NEXT: vminsd %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vminsd %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}			; AVX512BW-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VL-LABEL: test_v8f64:			; AVX512VL-LABEL: test_v8f64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]			; AVX512VL-NEXT: vshufpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512VL-NEXT: vminsd %xmm0, %xmm7, %xmm8			; AVX512VL-NEXT: vminsd %xmm0, %xmm7, %xmm8
	; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}			; AVX512VL-NEXT: vmovsd %xmm7, %xmm8, %xmm8 {%k1}
	; AVX512VL-NEXT: vcmpunordsd %xmm8, %xmm8, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm8, %xmm8, %k1
	; AVX512VL-NEXT: vminsd %xmm8, %xmm5, %xmm0			; AVX512VL-NEXT: vminsd %xmm8, %xmm5, %xmm0
	; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}			; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
	; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1			; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
	; AVX512VL-NEXT: vminsd %xmm0, %xmm6, %xmm0			; AVX512VL-NEXT: vminsd %xmm0, %xmm6, %xmm0
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0
	; AVX-NEXT: vminpd %ymm1, %ymm3, %ymm2			; AVX-NEXT: vminpd %ymm1, %ymm3, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1			; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1
	; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1			; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1
	; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2			; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3			; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
	; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1			; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2			; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vminpd %zmm0, %zmm1, %zmm2			; AVX512-NEXT: vminpd %zmm0, %zmm1, %zmm2
	; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1			; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1
	; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}			; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm2[1,0]
	; AVX512-NEXT: vminsd %xmm2, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm2, %xmm0, %xmm1
	; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1			; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0			; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
	; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1			; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}			; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)			%1 = call double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 11 Lines

llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show First 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm1			; SSE41-NEXT: mulss %xmm2, %xmm1
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}
	Show All 21 Lines
	; SSE41-NEXT: mulss %xmm2, %xmm1			; SSE41-NEXT: mulss %xmm2, %xmm1
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	Show All 27 Lines
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_zero:			; AVX-LABEL: test_v4f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 18 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	Show All 24 Lines
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm2			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: mulsd %xmm1, %xmm2			; SSE-NEXT: mulsd %xmm1, %xmm2
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm2			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: mulsd %xmm1, %xmm2			; SSE-NEXT: mulsd %xmm1, %xmm2
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 9 Lines
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 15 Lines
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm2			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm2
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_zero:			; SSE-LABEL: test_v2f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_zero:			; AVX-LABEL: test_v2f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	Show All 13 Lines
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.vector.reduce.fmul.f32.v2f32(float, <2 x float>)			declare float @llvm.vector.reduce.fmul.f32.v2f32(float, <2 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.vector.reduce.fmul.f32.v4f32(float, <4 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v8f32(float, <8 x float>)			declare float @llvm.vector.reduce.fmul.f32.v8f32(float, <8 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v16f32(float, <16 x float>)			declare float @llvm.vector.reduce.fmul.f32.v16f32(float, <16 x float>)

	declare double @llvm.vector.reduce.fmul.f64.v2f64(double, <2 x double>)			declare double @llvm.vector.reduce.fmul.f64.v2f64(double, <2 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v4f64(double, <4 x double>)			declare double @llvm.vector.reduce.fmul.f64.v4f64(double, <4 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v8f64(double, <8 x double>)			declare double @llvm.vector.reduce.fmul.f64.v8f64(double, <8 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v16f64(double, <16 x double>)			declare double @llvm.vector.reduce.fmul.f64.v16f64(double, <16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmul.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	Show All 40 Lines
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: mulss %xmm4, %xmm0			; SSE41-NEXT: mulss %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm2[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_one:			; AVX-LABEL: test_v4f32_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_one:			; AVX512-LABEL: test_v4f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 37 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_one:			; AVX-LABEL: test_v8f32_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_one:			; AVX512-LABEL: test_v8f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]
	; SSE41-NEXT: mulss %xmm3, %xmm0			; SSE41-NEXT: mulss %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_one:			; AVX-LABEL: test_v16f32_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm2			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_one:			; AVX512-LABEL: test_v16f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 37 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]			; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,3,3,3]
	; SSE41-NEXT: mulss %xmm3, %xmm0			; SSE41-NEXT: mulss %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm2[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.vector.reduce.fmul.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1,1]
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	Show All 11 Lines
	; SSE-NEXT: mulsd %xmm4, %xmm0			; SSE-NEXT: mulsd %xmm4, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1,1]
	; SSE-NEXT: mulsd %xmm4, %xmm0			; SSE-NEXT: mulsd %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: mulsd %xmm7, %xmm0			; SSE41-NEXT: mulsd %xmm7, %xmm0
	; SSE41-NEXT: mulsd {{[0-9]+}}(%rsp), %xmm0			; SSE41-NEXT: mulsd {{[0-9]+}}(%rsp), %xmm0
	; SSE41-NEXT: mulsd {{[0-9]+}}(%rsp), %xmm0			; SSE41-NEXT: mulsd {{[0-9]+}}(%rsp), %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm5, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm5, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm4[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm4[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm4, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm4, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_one(<2 x double> %a0) {			define double @test_v2f64_one(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_one:			; SSE-LABEL: test_v2f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_one:			; AVX-LABEL: test_v2f64_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_one:			; AVX512-LABEL: test_v2f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_one(<4 x double> %a0) {			define double @test_v4f64_one(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_one:			; SSE-LABEL: test_v4f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm2			; SSE-NEXT: movapd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_one:			; AVX-LABEL: test_v4f64_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_one:			; AVX512-LABEL: test_v4f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_one(<8 x double> %a0) {			define double @test_v8f64_one(<8 x double> %a0) {
	Show All 10 Lines
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: mulsd %xmm3, %xmm0			; SSE-NEXT: mulsd %xmm3, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: mulsd %xmm3, %xmm0			; SSE-NEXT: mulsd %xmm3, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_one:			; AVX-LABEL: test_v8f64_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm2			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm2			; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_one:			; AVX512-LABEL: test_v8f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_one(<16 x double> %a0) {			define double @test_v16f64_one(<16 x double> %a0) {
	Show All 22 Lines
	; SSE-NEXT: mulsd %xmm6, %xmm0			; SSE-NEXT: mulsd %xmm6, %xmm0
	; SSE-NEXT: mulsd %xmm7, %xmm0			; SSE-NEXT: mulsd %xmm7, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]
	; SSE-NEXT: mulsd %xmm7, %xmm0			; SSE-NEXT: mulsd %xmm7, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_one:			; AVX-LABEL: test_v16f64_one:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm4			; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm4
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm4			; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm4
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm0
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_one:			; AVX512-LABEL: test_v16f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm2			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm2
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm0
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE-NEXT: mulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE-NEXT: mulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	Show All 9 Lines
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: mulsd %xmm3, %xmm0			; SSE-NEXT: mulsd %xmm3, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1,1]
	; SSE-NEXT: mulsd %xmm3, %xmm0			; SSE-NEXT: mulsd %xmm3, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm2			; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm2
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	Show All 21 Lines
	; SSE-NEXT: mulsd %xmm6, %xmm0			; SSE-NEXT: mulsd %xmm6, %xmm0
	; SSE-NEXT: mulsd %xmm7, %xmm0			; SSE-NEXT: mulsd %xmm7, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1,1]
	; SSE-NEXT: mulsd %xmm7, %xmm0			; SSE-NEXT: mulsd %xmm7, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm0[1,0]
	; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm4			; AVX-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm4
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm4			; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm4
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm4, %xmm0
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm4 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm4, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm2[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm3[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm3[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2			; AVX512-NEXT: vmulsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm3 = xmm3[1,0]
	; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm2			; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm2
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm2, %xmm0
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2			; AVX512-NEXT: vextractf32x4 $2, %zmm1, %xmm2
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vshufpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.vector.reduce.fmul.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.vector.reduce.fmul.f32.v2f32(float, <2 x float>)			declare float @llvm.vector.reduce.fmul.f32.v2f32(float, <2 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.vector.reduce.fmul.f32.v4f32(float, <4 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v8f32(float, <8 x float>)			declare float @llvm.vector.reduce.fmul.f32.v8f32(float, <8 x float>)
	declare float @llvm.vector.reduce.fmul.f32.v16f32(float, <16 x float>)			declare float @llvm.vector.reduce.fmul.f32.v16f32(float, <16 x float>)

	declare double @llvm.vector.reduce.fmul.f64.v2f64(double, <2 x double>)			declare double @llvm.vector.reduce.fmul.f64.v2f64(double, <2 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v4f64(double, <4 x double>)			declare double @llvm.vector.reduce.fmul.f64.v4f64(double, <4 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v8f64(double, <8 x double>)			declare double @llvm.vector.reduce.fmul.f64.v8f64(double, <8 x double>)
	declare double @llvm.vector.reduce.fmul.f64.v16f64(double, <16 x double>)			declare double @llvm.vector.reduce.fmul.f64.v16f64(double, <16 x double>)

llvm/test/CodeGen/X86/vector-shuffle-128-v2.ll

	Show First 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	define <2 x double> @shuffle_v2f64_10(<2 x double> %a, <2 x double> %b) {			define <2 x double> @shuffle_v2f64_10(<2 x double> %a, <2 x double> %b) {
	; SSE-LABEL: shuffle_v2f64_10:			; SSE-LABEL: shuffle_v2f64_10:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v2f64_10:			; AVX-LABEL: shuffle_v2f64_10:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq

	%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 1, i32 0>			%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 1, i32 0>
	ret <2 x double> %shuffle			ret <2 x double> %shuffle
	}			}
	define <2 x double> @shuffle_v2f64_11(<2 x double> %a, <2 x double> %b) {			define <2 x double> @shuffle_v2f64_11(<2 x double> %a, <2 x double> %b) {
	; SSE-LABEL: shuffle_v2f64_11:			; SSE-LABEL: shuffle_v2f64_11:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v2f64_11:			; AVX-LABEL: shuffle_v2f64_11:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 1, i32 1>			%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 1, i32 1>
	ret <2 x double> %shuffle			ret <2 x double> %shuffle
	}			}
	define <2 x double> @shuffle_v2f64_22(<2 x double> %a, <2 x double> %b) {			define <2 x double> @shuffle_v2f64_22(<2 x double> %a, <2 x double> %b) {
	; SSE2-LABEL: shuffle_v2f64_22:			; SSE2-LABEL: shuffle_v2f64_22:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	Show All 26 Lines
	; SSE-LABEL: shuffle_v2f64_32:			; SSE-LABEL: shuffle_v2f64_32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3],xmm1[0,1]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3],xmm1[0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v2f64_32:			; AVX-LABEL: shuffle_v2f64_32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq

	%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 2>			%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 2>
	ret <2 x double> %shuffle			ret <2 x double> %shuffle
	}			}
	define <2 x double> @shuffle_v2f64_33(<2 x double> %a, <2 x double> %b) {			define <2 x double> @shuffle_v2f64_33(<2 x double> %a, <2 x double> %b) {
	; SSE-LABEL: shuffle_v2f64_33:			; SSE-LABEL: shuffle_v2f64_33:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v2f64_33:			; AVX-LABEL: shuffle_v2f64_33:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm1[1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 3>			%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 3>
	ret <2 x double> %shuffle			ret <2 x double> %shuffle
	}			}
	define <2 x double> @shuffle_v2f64_03(<2 x double> %a, <2 x double> %b) {			define <2 x double> @shuffle_v2f64_03(<2 x double> %a, <2 x double> %b) {
	; SSE2-LABEL: shuffle_v2f64_03:			; SSE2-LABEL: shuffle_v2f64_03:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; SSE-LABEL: shuffle_v2f64_3u:			; SSE-LABEL: shuffle_v2f64_3u:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v2f64_3u:			; AVX-LABEL: shuffle_v2f64_3u:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 undef>			%shuffle = shufflevector <2 x double> %a, <2 x double> %b, <2 x i32> <i32 3, i32 undef>
	ret <2 x double> %shuffle			ret <2 x double> %shuffle
	}			}

	define <2 x i64> @shuffle_v2i64_02(<2 x i64> %a, <2 x i64> %b) {			define <2 x i64> @shuffle_v2i64_02(<2 x i64> %a, <2 x i64> %b) {
	; SSE-LABEL: shuffle_v2i64_02:			; SSE-LABEL: shuffle_v2i64_02:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 1,024 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v4.ll

Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 3, i32 0, i32 0>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 3, i32 0, i32 0>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1000(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1000(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_1000:		; AVX1-LABEL: shuffle_v4f64_1000:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4f64_1000:		; AVX2-LABEL: shuffle_v4f64_1000:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,0,0,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,0,0,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4f64_1000:		; AVX512VL-LABEL: shuffle_v4f64_1000:
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x double> %tmp0, <4 x double> %tmp1, <4 x i32> <i32 2, i32 2, i32 2, i32 2>		%shuffle = shufflevector <4 x double> %tmp0, <4 x double> %tmp1, <4 x i32> <i32 2, i32 2, i32 2, i32 2>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_2233(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_2233(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_2233:		; AVX1-LABEL: shuffle_v4f64_2233:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,3,3]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4f64_2233:		; AVX2-LABEL: shuffle_v4f64_2233:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,2,3,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,2,3,3]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4f64_2233:		; AVX512VL-LABEL: shuffle_v4f64_2233:
Show All 24 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_3210(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_3210(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_3210:		; AVX1-LABEL: shuffle_v4f64_3210:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4f64_3210:		; AVX2-LABEL: shuffle_v4f64_3210:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4f64_3210:		; AVX512VL-LABEL: shuffle_v4f64_3210:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]		; AVX512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 1, i32 0>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_0023(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_0023(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_0023:		; ALL-LABEL: shuffle_v4f64_0023:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,2,3]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,2,3]
; ALL-NEXT: retq		; ALL-NEXT: retq

%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 0, i32 2, i32 3>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 0, i32 2, i32 3>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_0022(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_0022(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_0022:		; ALL-LABEL: shuffle_v4f64_0022:
Show All 12 Lines	; ALL-NEXT: retq
%a = load <4 x double>, ptr %ptr		%a = load <4 x double>, ptr %ptr
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 0, i32 2, i32 2>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 0, i32 2, i32 2>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1032(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1032(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_1032:		; ALL-LABEL: shuffle_v4f64_1032:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 3, i32 2>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1133(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1133(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_1133:		; ALL-LABEL: shuffle_v4f64_1133:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,3,3]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,3,3]
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 1, i32 3, i32 3>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 1, i32 3, i32 3>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1023(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1023(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_1023:		; ALL-LABEL: shuffle_v4f64_1023:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,3]
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 2, i32 3>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 2, i32 3>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1022(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1022(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_1022:		; ALL-LABEL: shuffle_v4f64_1022:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 2, i32 2>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 2, i32 2>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_0213(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_0213(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_0213:		; AVX1-LABEL: shuffle_v4f64_0213:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1054(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1054(<4 x double> %a, <4 x double> %b) {
; AVX1OR2-LABEL: shuffle_v4f64_1054:		; AVX1OR2-LABEL: shuffle_v4f64_1054:
; AVX1OR2: # %bb.0:		; AVX1OR2: # %bb.0:
; AVX1OR2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1OR2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1OR2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1OR2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1OR2-NEXT: retq		; AVX1OR2-NEXT: retq
;		;
; AVX512VL-SLOW-LABEL: shuffle_v4f64_1054:		; AVX512VL-SLOW-LABEL: shuffle_v4f64_1054:
; AVX512VL-SLOW: # %bb.0:		; AVX512VL-SLOW: # %bb.0:
; AVX512VL-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512VL-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512VL-SLOW-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-SLOW-NEXT: retq		; AVX512VL-SLOW-NEXT: retq
;		;
; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_1054:		; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_1054:
; AVX512VL-FAST-ALL: # %bb.0:		; AVX512VL-FAST-ALL: # %bb.0:
; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [1,0,5,4]		; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [1,0,5,4]
; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0		; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0
; AVX512VL-FAST-ALL-NEXT: retq		; AVX512VL-FAST-ALL-NEXT: retq
;		;
; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_1054:		; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_1054:
; AVX512VL-FAST-PERLANE: # %bb.0:		; AVX512VL-FAST-PERLANE: # %bb.0:
; AVX512VL-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512VL-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512VL-FAST-PERLANE-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-FAST-PERLANE-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-FAST-PERLANE-NEXT: retq		; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 5, i32 4>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 5, i32 4>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_3254(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_3254(<4 x double> %a, <4 x double> %b) {
; AVX1OR2-LABEL: shuffle_v4f64_3254:		; AVX1OR2-LABEL: shuffle_v4f64_3254:
; AVX1OR2: # %bb.0:		; AVX1OR2: # %bb.0:
; AVX1OR2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]		; AVX1OR2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]
; AVX1OR2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1OR2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1OR2-NEXT: retq		; AVX1OR2-NEXT: retq
;		;
; AVX512VL-SLOW-LABEL: shuffle_v4f64_3254:		; AVX512VL-SLOW-LABEL: shuffle_v4f64_3254:
; AVX512VL-SLOW: # %bb.0:		; AVX512VL-SLOW: # %bb.0:
; AVX512VL-SLOW-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]		; AVX512VL-SLOW-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]
; AVX512VL-SLOW-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-SLOW-NEXT: retq		; AVX512VL-SLOW-NEXT: retq
;		;
; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_3254:		; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_3254:
; AVX512VL-FAST-ALL: # %bb.0:		; AVX512VL-FAST-ALL: # %bb.0:
; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [3,2,5,4]		; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [3,2,5,4]
; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0		; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0
; AVX512VL-FAST-ALL-NEXT: retq		; AVX512VL-FAST-ALL-NEXT: retq
;		;
; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_3254:		; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_3254:
; AVX512VL-FAST-PERLANE: # %bb.0:		; AVX512VL-FAST-PERLANE: # %bb.0:
; AVX512VL-FAST-PERLANE-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]		; AVX512VL-FAST-PERLANE-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]
; AVX512VL-FAST-PERLANE-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-FAST-PERLANE-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-FAST-PERLANE-NEXT: retq		; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 5, i32 4>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 5, i32 4>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_3276(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_3276(<4 x double> %a, <4 x double> %b) {
; AVX1OR2-LABEL: shuffle_v4f64_3276:		; AVX1OR2-LABEL: shuffle_v4f64_3276:
; AVX1OR2: # %bb.0:		; AVX1OR2: # %bb.0:
; AVX1OR2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]		; AVX1OR2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
; AVX1OR2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1OR2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1OR2-NEXT: retq		; AVX1OR2-NEXT: retq
;		;
; AVX512VL-SLOW-LABEL: shuffle_v4f64_3276:		; AVX512VL-SLOW-LABEL: shuffle_v4f64_3276:
; AVX512VL-SLOW: # %bb.0:		; AVX512VL-SLOW: # %bb.0:
; AVX512VL-SLOW-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]		; AVX512VL-SLOW-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
; AVX512VL-SLOW-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-SLOW-NEXT: retq		; AVX512VL-SLOW-NEXT: retq
;		;
; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_3276:		; AVX512VL-FAST-ALL-LABEL: shuffle_v4f64_3276:
; AVX512VL-FAST-ALL: # %bb.0:		; AVX512VL-FAST-ALL: # %bb.0:
; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [3,2,7,6]		; AVX512VL-FAST-ALL-NEXT: vmovapd {{.*#+}} ymm2 = [3,2,7,6]
; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0		; AVX512VL-FAST-ALL-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0
; AVX512VL-FAST-ALL-NEXT: retq		; AVX512VL-FAST-ALL-NEXT: retq
;		;
; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_3276:		; AVX512VL-FAST-PERLANE-LABEL: shuffle_v4f64_3276:
; AVX512VL-FAST-PERLANE: # %bb.0:		; AVX512VL-FAST-PERLANE: # %bb.0:
; AVX512VL-FAST-PERLANE-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]		; AVX512VL-FAST-PERLANE-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
; AVX512VL-FAST-PERLANE-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-FAST-PERLANE-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-FAST-PERLANE-NEXT: retq		; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 7, i32 6>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 2, i32 7, i32 6>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_1076(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_1076(<4 x double> %a, <4 x double> %b) {
; AVX1OR2-LABEL: shuffle_v4f64_1076:		; AVX1OR2-LABEL: shuffle_v4f64_1076:
; AVX1OR2: # %bb.0:		; AVX1OR2: # %bb.0:
; AVX1OR2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]		; AVX1OR2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
; AVX1OR2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1OR2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1OR2-NEXT: retq		; AVX1OR2-NEXT: retq
;		;
; AVX512VL-SLOW-LABEL: shuffle_v4f64_1076:		; AVX512VL-SLOW-LABEL: shuffle_v4f64_1076:
; AVX512VL-SLOW: # %bb.0:		; AVX512VL-SLOW: # %bb.0:
; AVX512VL-SLOW-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]		; AVX512VL-SLOW-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
; AVX512VL-SLOW-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX512VL-SLOW-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX512VL-SLOW-NEXT: retq		; AVX512VL-SLOW-NEXT: retq
;		;
; AVX512VL-FAST-LABEL: shuffle_v4f64_1076:		; AVX512VL-FAST-LABEL: shuffle_v4f64_1076:
; AVX512VL-FAST: # %bb.0:		; AVX512VL-FAST: # %bb.0:
; AVX512VL-FAST-NEXT: vmovapd {{.*#+}} ymm2 = [1,0,7,6]		; AVX512VL-FAST-NEXT: vmovapd {{.*#+}} ymm2 = [1,0,7,6]
; AVX512VL-FAST-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0		; AVX512VL-FAST-NEXT: vpermt2pd %ymm1, %ymm2, %ymm0
; AVX512VL-FAST-NEXT: retq		; AVX512VL-FAST-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 7, i32 6>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 7, i32 6>
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 5, i32 undef, i32 undef>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 5, i32 undef, i32 undef>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_11uu(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_11uu(<4 x double> %a, <4 x double> %b) {
; ALL-LABEL: shuffle_v4f64_11uu:		; ALL-LABEL: shuffle_v4f64_11uu:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]		; ALL-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
; ALL-NEXT: retq		; ALL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 1, i32 undef, i32 undef>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 1, i32 undef, i32 undef>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_22uu(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_22uu(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_22uu:		; AVX1-LABEL: shuffle_v4f64_22uu:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
Show All 13 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>		%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>
ret <4 x double> %shuffle		ret <4 x double> %shuffle
}		}

define <4 x double> @shuffle_v4f64_3333(<4 x double> %a, <4 x double> %b) {		define <4 x double> @shuffle_v4f64_3333(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: shuffle_v4f64_3333:		; AVX1-LABEL: shuffle_v4f64_3333:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,3,3]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4f64_3333:		; AVX2-LABEL: shuffle_v4f64_3333:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4f64_3333:		; AVX512VL-LABEL: shuffle_v4f64_3333:
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
ret <4 x double> %3		ret <4 x double> %3
}		}

define <4 x double> @shuffle_v4f64_1032_v2f64(<2 x double> %a, <2 x double> %b) {		define <4 x double> @shuffle_v4f64_1032_v2f64(<2 x double> %a, <2 x double> %b) {
; ALL-LABEL: shuffle_v4f64_1032_v2f64:		; ALL-LABEL: shuffle_v4f64_1032_v2f64:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; ALL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; ALL-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; ALL-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%2 = shufflevector <2 x double> %b, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%2 = shufflevector <2 x double> %b, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%3 = shufflevector <2 x double> %1, <2 x double> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%3 = shufflevector <2 x double> %1, <2 x double> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x double> %3		ret <4 x double> %3
}		}

;PR34359		;PR34359
▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 0, i32 3, i32 0, i32 0>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 0, i32 3, i32 0, i32 0>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_1000(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_1000(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_1000:		; AVX1-LABEL: shuffle_v4i64_1000:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_1000:		; AVX2-LABEL: shuffle_v4i64_1000:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,0,0,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,0,0,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4i64_1000:		; AVX512VL-LABEL: shuffle_v4i64_1000:
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_3210(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_3210(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_3210:		; AVX1-LABEL: shuffle_v4i64_3210:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_3210:		; AVX2-LABEL: shuffle_v4i64_3210:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4i64_3210:		; AVX512VL-LABEL: shuffle_v4i64_3210:
▲ Show 20 Lines • Show All 264 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 2, i32 5, i32 1>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 2, i32 5, i32 1>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_1054(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_1054(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_1054:		; AVX1-LABEL: shuffle_v4i64_1054:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_1054:		; AVX2-LABEL: shuffle_v4i64_1054:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]		; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
Show All 17 Lines	; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 0, i32 5, i32 4>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 0, i32 5, i32 4>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_3254(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_3254(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_3254:		; AVX1-LABEL: shuffle_v4i64_3254:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[0,1]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_3254:		; AVX2-LABEL: shuffle_v4i64_3254:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]		; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
Show All 17 Lines	; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 2, i32 5, i32 4>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 2, i32 5, i32 4>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_3276(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_3276(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_3276:		; AVX1-LABEL: shuffle_v4i64_3276:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_3276:		; AVX2-LABEL: shuffle_v4i64_3276:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]		; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]		; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
Show All 17 Lines	; AVX512VL-FAST-PERLANE-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 2, i32 7, i32 6>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 2, i32 7, i32 6>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_1076(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_1076(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_1076:		; AVX1-LABEL: shuffle_v4i64_1076:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]		; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_1076:		; AVX2-LABEL: shuffle_v4i64_1076:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]		; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]		; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
▲ Show 20 Lines • Show All 180 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>
ret <4 x i64> %shuffle		ret <4 x i64> %shuffle
}		}

define <4 x i64> @shuffle_v4i64_3333(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_3333(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_3333:		; AVX1-LABEL: shuffle_v4i64_3333:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,3,3]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_3333:		; AVX2-LABEL: shuffle_v4i64_3333:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4i64_3333:		; AVX512VL-LABEL: shuffle_v4i64_3333:
▲ Show 20 Lines • Show All 714 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

	Show First 20 Lines • Show All 2,607 Lines • ▼ Show 20 Lines
	}			}

	define <8 x i32> @shuffle_v8i32_6caa87e5(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_6caa87e5(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_6caa87e5:			; AVX1-LABEL: shuffle_v8i32_6caa87e5:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
	; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm2[0,0],ymm1[2,2],ymm2[4,4],ymm1[6,6]			; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm2[0,0],ymm1[2,2],ymm2[4,4],ymm1[6,6]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: shuffle_v8i32_6caa87e5:			; AVX2-SLOW-LABEL: shuffle_v8i32_6caa87e5:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,1,3,2]			; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,1,3,2]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,0,2,2,4,4,6,6]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,0,2,2,4,4,6,6]
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,1,0,3]			; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,1,0,3]
	▲ Show 20 Lines • Show All 607 Lines • ▼ Show 20 Lines
	define <8 x i32> @shuffle_v8i32_0dcd3f14(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_0dcd3f14(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_0dcd3f14:			; AVX1-LABEL: shuffle_v8i32_0dcd3f14:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3]			; AVX1-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,1,1,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[3,1,1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,2]			; AVX1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5],ymm0[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5],ymm0[6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_0dcd3f14:			; AVX2-LABEL: shuffle_v8i32_0dcd3f14:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <0,u,u,u,3,u,1,4>			; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <0,u,u,u,3,u,1,4>
	; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,2,3,3]			; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,2,3,3]
	▲ Show 20 Lines • Show All 607 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-512-v16.ll

	Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%shuffle = shufflevector <16 x float> %a, <16 x float> %b, <16 x i32><i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7, i32 9, i32 9, i32 11, i32 11, i32 13, i32 13, i32 15, i32 15>			%shuffle = shufflevector <16 x float> %a, <16 x float> %b, <16 x i32><i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7, i32 9, i32 9, i32 11, i32 11, i32 13, i32 13, i32 15, i32 15>
	ret <16 x float> %shuffle			ret <16 x float> %shuffle
	}			}

	define <16 x float> @shuffle_v16f32_00_01_00_01_06_07_06_07_08_09_10_11_12_13_12_13(<16 x float> %a, <16 x float> %b) {			define <16 x float> @shuffle_v16f32_00_01_00_01_06_07_06_07_08_09_10_11_12_13_12_13(<16 x float> %a, <16 x float> %b) {
	; ALL-LABEL: shuffle_v16f32_00_01_00_01_06_07_06_07_08_09_10_11_12_13_12_13:			; ALL-LABEL: shuffle_v16f32_00_01_00_01_06_07_06_07_08_09_10_11_12_13_12_13:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,0,3,3,4,5,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,0,3,3,4,5,6,6]
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%shuffle = shufflevector <16 x float> %a, <16 x float> %b, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 6, i32 7, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 12, i32 13>			%shuffle = shufflevector <16 x float> %a, <16 x float> %b, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 6, i32 7, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 12, i32 13>
	ret <16 x float> %shuffle			ret <16 x float> %shuffle
	}			}

	define <16 x float> @shuffle_v16f32_00_00_02_00_04_04_06_04_08_08_10_08_12_12_14_12(<16 x float> %a, <16 x float> %b) {			define <16 x float> @shuffle_v16f32_00_00_02_00_04_04_06_04_08_08_10_08_12_12_14_12(<16 x float> %a, <16 x float> %b) {
	; ALL-LABEL: shuffle_v16f32_00_00_02_00_04_04_06_04_08_08_10_08_12_12_14_12:			; ALL-LABEL: shuffle_v16f32_00_00_02_00_04_04_06_04_08_08_10_08_12_12_14_12:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	▲ Show 20 Lines • Show All 753 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-512-v8.ll

	Show First 20 Lines • Show All 447 Lines • ▼ Show 20 Lines
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 7, i32 6, i32 5, i32 4>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 7, i32 6, i32 5, i32 4>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_00234467(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_00234467(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_00234467:			; ALL-LABEL: shuffle_v8f64_00234467:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,0,2,3,4,4,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,0,2,3,4,4,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 4, i32 4, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 3, i32 4, i32 4, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_00224466(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_00224466(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_00224466:			; ALL-LABEL: shuffle_v8f64_00224466:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vmovddup {{.*#+}} zmm0 = zmm0[0,0,2,2,4,4,6,6]			; ALL-NEXT: vmovddup {{.*#+}} zmm0 = zmm0[0,0,2,2,4,4,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_10325476(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_10325476(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_10325476:			; ALL-LABEL: shuffle_v8f64_10325476:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,0,3,2,5,4,7,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,0,3,2,5,4,7,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 5, i32 4, i32 7, i32 6>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 5, i32 4, i32 7, i32 6>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_11335577(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_11335577(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_11335577:			; ALL-LABEL: shuffle_v8f64_11335577:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,1,3,3,5,5,7,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,1,3,3,5,5,7,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_10235467(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_10235467(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_10235467:			; ALL-LABEL: shuffle_v8f64_10235467:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,0,2,3,5,4,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,0,2,3,5,4,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_10225466(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_10225466(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_10225466:			; ALL-LABEL: shuffle_v8f64_10225466:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,0,2,2,5,4,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,0,2,2,5,4,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 2, i32 2, i32 5, i32 4, i32 6, i32 6>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 2, i32 2, i32 5, i32 4, i32 6, i32 6>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_00015444(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_00015444(<8 x double> %a, <8 x double> %b) {
	; AVX512F-LABEL: shuffle_v8f64_00015444:			; AVX512F-LABEL: shuffle_v8f64_00015444:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 6, i32 6, i32 4, i32 4>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 6, i32 6, i32 4, i32 4>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_10324567(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_10324567(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_10324567:			; ALL-LABEL: shuffle_v8f64_10324567:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,0,3,2,4,5,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,0,3,2,4,5,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 4, i32 5, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 4, i32 5, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_11334567(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_11334567(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_11334567:			; ALL-LABEL: shuffle_v8f64_11334567:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,1,3,3,4,5,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,1,3,3,4,5,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 4, i32 5, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_01235467(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_01235467(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_01235467:			; ALL-LABEL: shuffle_v8f64_01235467:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,1,2,3,5,4,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,1,2,3,5,4,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_01235466(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_01235466(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_01235466:			; ALL-LABEL: shuffle_v8f64_01235466:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,1,2,3,5,4,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,1,2,3,5,4,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 6>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 5, i32 4, i32 6, i32 6>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_002u6u44(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_002u6u44(<8 x double> %a, <8 x double> %b) {
	; AVX512F-LABEL: shuffle_v8f64_002u6u44:			; AVX512F-LABEL: shuffle_v8f64_002u6u44:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	Show All 24 Lines
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 undef, i32 undef, i32 6, i32 6, i32 undef, i32 undef>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 0, i32 undef, i32 undef, i32 6, i32 6, i32 undef, i32 undef>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_103245uu(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_103245uu(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_103245uu:			; ALL-LABEL: shuffle_v8f64_103245uu:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,0,3,2,4,5,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,0,3,2,4,5,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 4, i32 5, i32 undef, i32 undef>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 4, i32 5, i32 undef, i32 undef>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_1133uu67(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_1133uu67(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_1133uu67:			; ALL-LABEL: shuffle_v8f64_1133uu67:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[1,1,3,3,4,4,6,7]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[1,1,3,3,4,4,6,7]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 undef, i32 undef, i32 6, i32 7>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 undef, i32 undef, i32 6, i32 7>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_0uu354uu(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_0uu354uu(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_0uu354uu:			; ALL-LABEL: shuffle_v8f64_0uu354uu:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,0,2,3,5,4,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,0,2,3,5,4,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 undef, i32 undef, i32 3, i32 5, i32 4, i32 undef, i32 undef>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 0, i32 undef, i32 undef, i32 3, i32 5, i32 4, i32 undef, i32 undef>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_uuu3uu66(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_uuu3uu66(<8 x double> %a, <8 x double> %b) {
	; ALL-LABEL: shuffle_v8f64_uuu3uu66:			; ALL-LABEL: shuffle_v8f64_uuu3uu66:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vpermilpd {{.*#+}} zmm0 = zmm0[0,0,2,3,4,4,6,6]			; ALL-NEXT: vshufpd {{.*#+}} zmm0 = zmm0[0,0,2,3,4,4,6,6]
	; ALL-NEXT: ret{{[l\|q]}}			; ALL-NEXT: ret{{[l\|q]}}
	%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 3, i32 undef, i32 undef, i32 6, i32 6>			%shuffle = shufflevector <8 x double> %a, <8 x double> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 3, i32 undef, i32 undef, i32 6, i32 6>
	ret <8 x double> %shuffle			ret <8 x double> %shuffle
	}			}

	define <8 x double> @shuffle_v8f64_c348cda0(<8 x double> %a, <8 x double> %b) {			define <8 x double> @shuffle_v8f64_c348cda0(<8 x double> %a, <8 x double> %b) {
	; AVX512F-LABEL: shuffle_v8f64_c348cda0:			; AVX512F-LABEL: shuffle_v8f64_c348cda0:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 1,516 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining-avx.ll

Show First 20 Lines • Show All 433 Lines • ▼ Show 20 Lines

define void @PR48908(<4 x double> %v0, <4 x double> %v1, <4 x double> %v2, ptr noalias %out0, ptr noalias %out1, ptr noalias %out2) {		define void @PR48908(<4 x double> %v0, <4 x double> %v1, <4 x double> %v2, ptr noalias %out0, ptr noalias %out1, ptr noalias %out2) {
; X86-AVX1-LABEL: PR48908:		; X86-AVX1-LABEL: PR48908:
; X86-AVX1: # %bb.0:		; X86-AVX1: # %bb.0:
; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3		; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3
; X86-AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,1,2,2]		; X86-AVX1-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,1,2,2]
; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]		; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]
; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm5		; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm5
; X86-AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm5[1],ymm4[0],ymm5[2],ymm4[3]		; X86-AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm5[1],ymm4[0],ymm5[2],ymm4[3]
; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm5		; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm5
; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm3[2,3,0,1]		; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm3[2,3,0,1]
; X86-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0],ymm3[1],ymm5[2],ymm3[3]		; X86-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0],ymm3[1],ymm5[2],ymm3[3]
; X86-AVX1-NEXT: vmovapd %ymm3, (%edx)		; X86-AVX1-NEXT: vmovapd %ymm3, (%edx)
; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm4[2,3,0,1]		; X86-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm4[2,3,0,1]
Show All 10 Lines
;		;
; X86-AVX2-LABEL: PR48908:		; X86-AVX2-LABEL: PR48908:
; X86-AVX2: # %bb.0:		; X86-AVX2: # %bb.0:
; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3		; X86-AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3
; X86-AVX2-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]		; X86-AVX2-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]
; X86-AVX2-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]		; X86-AVX2-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
; X86-AVX2-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[0,1],ymm2[0,1]		; X86-AVX2-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[0,1],ymm2[0,1]
; X86-AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[0,2,2,1]		; X86-AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[0,2,2,1]
; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0],ymm3[1],ymm6[2],ymm3[3]		; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0],ymm3[1],ymm6[2],ymm3[3]
; X86-AVX2-NEXT: vmovapd %ymm3, (%edx)		; X86-AVX2-NEXT: vmovapd %ymm3, (%edx)
; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0,1],ymm0[2,3]		; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0,1],ymm0[2,3]
; X86-AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm4[0,3,2,0]		; X86-AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm4[0,3,2,0]
; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm4[1],ymm3[2],ymm4[3]		; X86-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm4[1],ymm3[2],ymm4[3]
; X86-AVX2-NEXT: vmovapd %ymm3, (%ecx)		; X86-AVX2-NEXT: vmovapd %ymm3, (%ecx)
Show All 29 Lines
; X86-AVX512-NEXT: vpermi2pd %zmm3, %zmm2, %zmm0		; X86-AVX512-NEXT: vpermi2pd %zmm3, %zmm2, %zmm0
; X86-AVX512-NEXT: vmovapd %ymm0, (%eax)		; X86-AVX512-NEXT: vmovapd %ymm0, (%eax)
; X86-AVX512-NEXT: vzeroupper		; X86-AVX512-NEXT: vzeroupper
; X86-AVX512-NEXT: retl		; X86-AVX512-NEXT: retl
;		;
; X64-AVX1-LABEL: PR48908:		; X64-AVX1-LABEL: PR48908:
; X64-AVX1: # %bb.0:		; X64-AVX1: # %bb.0:
; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3		; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3
; X64-AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = ymm3[0,1,2,2]		; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm3 = ymm3[0,1,2,2]
; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]		; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]
; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm5		; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm5
; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm5[1],ymm4[0],ymm5[2],ymm4[3]		; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm4 = ymm5[1],ymm4[0],ymm5[2],ymm4[3]
; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm5		; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm5
; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm3[2,3,0,1]		; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm3[2,3,0,1]
; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0],ymm3[1],ymm5[2],ymm3[3]		; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0],ymm3[1],ymm5[2],ymm3[3]
; X64-AVX1-NEXT: vmovapd %ymm3, (%rdi)		; X64-AVX1-NEXT: vmovapd %ymm3, (%rdi)
; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm4[2,3,0,1]		; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm4[2,3,0,1]
; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm4 = ymm4[0,1],ymm0[2,3]		; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm4 = ymm4[0,1],ymm0[2,3]
; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3]		; X64-AVX1-NEXT: vblendpd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3]
; X64-AVX1-NEXT: vmovapd %ymm3, (%rsi)		; X64-AVX1-NEXT: vmovapd %ymm3, (%rsi)
; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]		; X64-AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm2[2,3],ymm1[2,3]
; X64-AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm2[1],ymm0[3],ymm2[3]		; X64-AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm2[1],ymm0[3],ymm2[3]
; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[0],ymm1[3],ymm0[3]		; X64-AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm1[0],ymm0[0],ymm1[3],ymm0[3]
; X64-AVX1-NEXT: vmovapd %ymm0, (%rdx)		; X64-AVX1-NEXT: vmovapd %ymm0, (%rdx)
; X64-AVX1-NEXT: vzeroupper		; X64-AVX1-NEXT: vzeroupper
; X64-AVX1-NEXT: retq		; X64-AVX1-NEXT: retq
;		;
; X64-AVX2-LABEL: PR48908:		; X64-AVX2-LABEL: PR48908:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3		; X64-AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm3
; X64-AVX2-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]		; X64-AVX2-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm1[2,3],ymm2[0,1]
; X64-AVX2-NEXT: vpermilpd {{.*#+}} xmm5 = xmm1[1,0]		; X64-AVX2-NEXT: vshufpd {{.*#+}} xmm5 = xmm1[1,0]
; X64-AVX2-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[0,1],ymm2[0,1]		; X64-AVX2-NEXT: vperm2f128 {{.*#+}} ymm6 = ymm0[0,1],ymm2[0,1]
; X64-AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[0,2,2,1]		; X64-AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[0,2,2,1]
; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0],ymm3[1],ymm6[2],ymm3[3]		; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm6[0],ymm3[1],ymm6[2],ymm3[3]
; X64-AVX2-NEXT: vmovapd %ymm3, (%rdi)		; X64-AVX2-NEXT: vmovapd %ymm3, (%rdi)
; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0,1],ymm0[2,3]		; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm5[0,1],ymm0[2,3]
; X64-AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm4[0,3,2,0]		; X64-AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm4[0,3,2,0]
; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm4[1],ymm3[2],ymm4[3]		; X64-AVX2-NEXT: vblendpd {{.*#+}} ymm3 = ymm3[0],ymm4[1],ymm3[2],ymm4[3]
; X64-AVX2-NEXT: vmovapd %ymm3, (%rsi)		; X64-AVX2-NEXT: vmovapd %ymm3, (%rsi)
Show All 39 Lines	; X64-AVX512-NEXT: retq
ret void		ret void
}		}

define <4 x i64> @concat_self_v4i64(<2 x i64> %x) {		define <4 x i64> @concat_self_v4i64(<2 x i64> %x) {
; AVX1-LABEL: concat_self_v4i64:		; AVX1-LABEL: concat_self_v4i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,3,3]
; AVX1-NEXT: ret{{[l\|q]}}		; AVX1-NEXT: ret{{[l\|q]}}
;		;
; AVX2-LABEL: concat_self_v4i64:		; AVX2-LABEL: concat_self_v4i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,0,1,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,0,1,1]
; AVX2-NEXT: ret{{[l\|q]}}		; AVX2-NEXT: ret{{[l\|q]}}
;		;
▲ Show 20 Lines • Show All 153 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining-xop.ll

	Show First 20 Lines • Show All 131 Lines • ▼ Show 20 Lines

	define <4 x double> @demandedelts_vpermil2pd256_as_shufpd(<4 x double> %a0, <4 x double> %a1, i64 %a2) {			define <4 x double> @demandedelts_vpermil2pd256_as_shufpd(<4 x double> %a0, <4 x double> %a1, i64 %a2) {
	; X86-LABEL: demandedelts_vpermil2pd256_as_shufpd:			; X86-LABEL: demandedelts_vpermil2pd256_as_shufpd:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; X86-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; X86-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],mem[0]			; X86-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],mem[0]
	; X86-NEXT: vinsertf128 $1, {{\.?LCPI[0-9]+_[0-9]+}}, %ymm2, %ymm2			; X86-NEXT: vinsertf128 $1, {{\.?LCPI[0-9]+_[0-9]+}}, %ymm2, %ymm2
	; X86-NEXT: vpermil2pd $0, %ymm2, %ymm1, %ymm0, %ymm0			; X86-NEXT: vpermil2pd $0, %ymm2, %ymm1, %ymm0, %ymm0
	; X86-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,3]			; X86-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,3]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-AVX-LABEL: demandedelts_vpermil2pd256_as_shufpd:			; X64-AVX-LABEL: demandedelts_vpermil2pd256_as_shufpd:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vpermil2pd {{.*#+}} ymm0 = ymm1[0,0],ymm0[3],ymm1[3]			; X64-AVX-NEXT: vpermil2pd {{.*#+}} ymm0 = ymm1[0,0],ymm0[3],ymm1[3]
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX2-LABEL: demandedelts_vpermil2pd256_as_shufpd:			; X64-AVX2-LABEL: demandedelts_vpermil2pd256_as_shufpd:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[3],ymm1[3]			; X64-AVX2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[3],ymm1[3]
	; X64-AVX2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,2,3]			; X64-AVX2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1,1,2,3]
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	%res0 = insertelement <4 x i64> <i64 0, i64 4, i64 2, i64 7>, i64 %a2, i32 0			%res0 = insertelement <4 x i64> <i64 0, i64 4, i64 2, i64 7>, i64 %a2, i32 0
	%res1 = call <4 x double> @llvm.x86.xop.vpermil2pd.256(<4 x double> %a0, <4 x double> %a1, <4 x i64> %res0, i8 0)			%res1 = call <4 x double> @llvm.x86.xop.vpermil2pd.256(<4 x double> %a0, <4 x double> %a1, <4 x i64> %res0, i8 0)
	%res2 = shufflevector <4 x double> %res1, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 3>			%res2 = shufflevector <4 x double> %res1, <4 x double> undef, <4 x i32> <i32 1, i32 1, i32 2, i32 3>
	ret <4 x double> %res2			ret <4 x double> %res2
	}			}

	define <16 x i8> @combine_vpperm_identity(<16 x i8> %a0, <16 x i8> %a1) {			define <16 x i8> @combine_vpperm_identity(<16 x i8> %a0, <16 x i8> %a1) {
	▲ Show 20 Lines • Show All 238 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 2,229 Lines • ▼ Show 20 Lines
	define <4 x float> @combine_undef_input_test9(<4 x float> %a) {			define <4 x float> @combine_undef_input_test9(<4 x float> %a) {
	; SSE-LABEL: combine_undef_input_test9:			; SSE-LABEL: combine_undef_input_test9:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_undef_input_test9:			; AVX-LABEL: combine_undef_input_test9:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>			%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>
	%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 6, i32 7, i32 0, i32 1>			%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 6, i32 7, i32 0, i32 1>
	ret <4 x float> %2			ret <4 x float> %2
	}			}

	define <4 x float> @combine_undef_input_test10(<4 x float> %a) {			define <4 x float> @combine_undef_input_test10(<4 x float> %a) {
	; CHECK-LABEL: combine_undef_input_test10:			; CHECK-LABEL: combine_undef_input_test10:
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	define <4 x float> @combine_undef_input_test19(<4 x float> %a) {			define <4 x float> @combine_undef_input_test19(<4 x float> %a) {
	; SSE-LABEL: combine_undef_input_test19:			; SSE-LABEL: combine_undef_input_test19:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_undef_input_test19:			; AVX-LABEL: combine_undef_input_test19:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX-NEXT: vshufpd {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>			%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>
	%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 2, i32 3, i32 4, i32 5>			%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 2, i32 3, i32 4, i32 5>
	ret <4 x float> %2			ret <4 x float> %2
	}			}

	define <4 x float> @combine_undef_input_test20(<4 x float> %a) {			define <4 x float> @combine_undef_input_test20(<4 x float> %a) {
	; CHECK-LABEL: combine_undef_input_test20:			; CHECK-LABEL: combine_undef_input_test20:
	▲ Show 20 Lines • Show All 1,125 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/x86-interleaved-access.ll

Show First 20 Lines • Show All 1,619 Lines • ▼ Show 20 Lines
store <256 x i8> %interleaved, ptr %p		store <256 x i8> %interleaved, ptr %p
ret void		ret void
}		}

define void @splat2_v4f64_load_store(ptr %s, ptr %d) nounwind {		define void @splat2_v4f64_load_store(ptr %s, ptr %d) nounwind {
; AVX1-LABEL: splat2_v4f64_load_store:		; AVX1-LABEL: splat2_v4f64_load_store:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]		; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,3,3]
; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]		; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)		; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)
; AVX1-NEXT: vmovupd %ymm1, (%rsi)		; AVX1-NEXT: vmovupd %ymm1, (%rsi)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splat2_v4f64_load_store:		; AVX2-LABEL: splat2_v4f64_load_store:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovups (%rdi), %ymm0		; AVX2-NEXT: vmovups (%rdi), %ymm0
Show All 18 Lines	; AVX512-NEXT: retq
store <8 x double> %r, ptr %d, align 8		store <8 x double> %r, ptr %d, align 8
ret void		ret void
}		}

define void @splat2_v4i64_load_store(ptr %s, ptr %d) nounwind {		define void @splat2_v4i64_load_store(ptr %s, ptr %d) nounwind {
; AVX1-LABEL: splat2_v4i64_load_store:		; AVX1-LABEL: splat2_v4i64_load_store:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]		; AVX1-NEXT: vperm2f128 $51, (%rdi), %ymm0, %ymm0 # ymm0 = mem[2,3,2,3]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0,0,3,3]
; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]		; AVX1-NEXT: vbroadcastf128 (%rdi), %ymm1 # ymm1 = mem[0,1,0,1]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[0,0,3,3]		; AVX1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[0,0,3,3]
; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)		; AVX1-NEXT: vmovupd %ymm0, 32(%rsi)
; AVX1-NEXT: vmovupd %ymm1, (%rsi)		; AVX1-NEXT: vmovupd %ymm1, (%rsi)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splat2_v4i64_load_store:		; AVX2-LABEL: splat2_v4i64_load_store:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovups (%rdi), %ymm0		; AVX2-NEXT: vmovups (%rdi), %ymm0
▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mappingClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 516150

llvm/lib/Target/X86/X86FixupInstTuning.cpp

llvm/test/CodeGen/X86/avx-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/avx-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/avx-intrinsics-x86.ll

llvm/test/CodeGen/X86/avx-vbroadcast.ll

llvm/test/CodeGen/X86/avx512-cvt.ll

llvm/test/CodeGen/X86/avx512-hadd-hsub.ll

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/avx512-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512-shuffles/in_lane_permute.ll

llvm/test/CodeGen/X86/avx512fp16-mov.ll

llvm/test/CodeGen/X86/avx512fp16-mscatter.ll

llvm/test/CodeGen/X86/avx512vl-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/combine-and.ll

llvm/test/CodeGen/X86/complex-fastmath.ll

llvm/test/CodeGen/X86/copy-low-subvec-elt-to-high-subvec-elt.ll

llvm/test/CodeGen/X86/extract-concat.ll

llvm/test/CodeGen/X86/fmaddsub-combine.ll

llvm/test/CodeGen/X86/fmf-reduction.ll

llvm/test/CodeGen/X86/haddsub-2.ll

llvm/test/CodeGen/X86/haddsub-3.ll

llvm/test/CodeGen/X86/haddsub-broadcast.ll

llvm/test/CodeGen/X86/haddsub-shuf.ll

llvm/test/CodeGen/X86/haddsub-undef.ll

llvm/test/CodeGen/X86/haddsub.ll

llvm/test/CodeGen/X86/half.ll

llvm/test/CodeGen/X86/horizontal-reduce-fadd.ll

llvm/test/CodeGen/X86/horizontal-sum.ll

llvm/test/CodeGen/X86/known-signbits-vector.ll

llvm/test/CodeGen/X86/load-partial-dot-product.ll

llvm/test/CodeGen/X86/matrix-multiply.ll

llvm/test/CodeGen/X86/oddshuffles.ll

llvm/test/CodeGen/X86/pr40730.ll

llvm/test/CodeGen/X86/scalar-int-to-fp.ll

llvm/test/CodeGen/X86/scalarize-fp.ll

llvm/test/CodeGen/X86/shuffle-of-splat-multiuses.ll

llvm/test/CodeGen/X86/sse-scalar-fp-arith.ll

llvm/test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/sse3-avx-addsub-2.ll

llvm/test/CodeGen/X86/tuning-shuffle-permilpd-avx512.ll

llvm/test/CodeGen/X86/tuning-shuffle-permilpd.ll

llvm/test/CodeGen/X86/vec-strict-fptoint-128.ll

llvm/test/CodeGen/X86/vec-strict-fptoint-256.ll

llvm/test/CodeGen/X86/vec-strict-fptoint-512.ll

llvm/test/CodeGen/X86/vec_fp_to_int.ll

llvm/test/CodeGen/X86/vector-half-conversions.ll

llvm/test/CodeGen/X86/vector-interleave.ll

llvm/test/CodeGen/X86/vector-interleaved-load-i32-stride-5.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-4.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-5.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-7.ll

llvm/test/CodeGen/X86/vector-narrow-binop.ll

llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll

llvm/test/CodeGen/X86/vector-reduce-fadd.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-fmin-fast.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmax.ll

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmin.ll

llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll

llvm/test/CodeGen/X86/vector-reduce-fmul.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v2.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v4.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

llvm/test/CodeGen/X86/vector-shuffle-512-v16.ll

llvm/test/CodeGen/X86/vector-shuffle-512-v8.ll

llvm/test/CodeGen/X86/vector-shuffle-combining-avx.ll

llvm/test/CodeGen/X86/vector-shuffle-combining-xop.ll

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

llvm/test/CodeGen/X86/x86-interleaved-access.ll

[X86] X86FixupInstTunings - add VPERMILPDri -> VSHUFPDrri mapping
ClosedPublic