This is an archive of the discontinued LLVM Phabricator instance.

[x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32-byte load
ClosedPublic

Authored by spatel on Jun 6 2017, 6:43 AM.

Download Raw Diff

Details

Reviewers

craig.topper
efriedma
RKSimon
zvi

Commits

rGdcbfbb11d985: [x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32…
rL305171: [x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32…

Summary

I was looking closer at the x86 test diffs in D33866, and the first change seems like it shouldn't happen in the first place. So this patch is trying to resolve that.

Using Agner's tables and AMD docs, vperm2f128 and vinsertf128 have identical timing for any given CPU model, so we should be able to interchange those without affecting perf. But as we can see in some of the diffs here, using vperm2f128 allows load folding, so we should take that opportunity to reduce code size and register pressure.

A secondary advantage is making AVX1 and AVX2 codegen more similar. Given that vperm2f128 was introduced with AVX1, we should be using it in all of the same situations that we would with AVX2. If there's some reason that an AVX1 CPU would not want to use this instruction, I think that should be fixed up in a later pass.

Diff Detail

Event Timeline

spatel created this revision.Jun 6 2017, 6:43 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptJun 6 2017, 6:43 AM

RKSimon added inline comments.Jun 6 2017, 7:14 AM

test/CodeGen/X86/avx-vperm2x128.ll
55	I wonder what's preventing this from using VBROADCASTF128 ?

spatel added inline comments.Jun 6 2017, 7:24 AM

test/CodeGen/X86/avx-vperm2x128.ll
55	I think it's just that we don't have the code to do the load shrinking + address offset. Ie, this is a 32-byte load even though we're only using half of it.

spatel added inline comments.Jun 6 2017, 7:44 AM

test/CodeGen/X86/avx-vperm2x128.ll
55	On 2nd thought, it's more likely because we don't recognize this as a splat because we didn't see the "canWidenShuffleElements()" opportunity. Ie, these are 32-bit elts, so the mask isn't a simple splat.

LGTM.

Looking at lowerV2X128VectorShuffle, shuffle combining will have a much easier time if we keep to 256-bit vectors (blends / X86ISD::VPERM2X128) as much as possible - subvector extract/insert chains makes combining really tricky - and this dealing with memory cases looks like a good first step.

This revision is now accepted and ready to land.Jun 10 2017, 9:39 AM

A couple of notes for reference:

There's another potential case for trying harder to recognize a splat mask in PR32007:

https://bugs.llvm.org/show_bug.cgi?id=32007

I looked at adding a VPERM2X128 case to combineTargetShuffle() that would turn this into X86ISD::SUBV_BROADCAST. It actually produced the expected vbroadcastf128 instruction, but I'm not sure how that matched because I didn't do anything to shrink the loaded value (!).

Closed by commit rL305171: [x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32… (authored by spatel). · Explain WhyJun 11 2017, 2:19 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

22 lines

test/

CodeGen/

X86/

avx-vperm2x128.ll

20 lines

x86-interleaved-access.ll

44 lines

Diff 101552

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 11,977 Lines • ▼ Show 20 Lines	static SDValue lowerV2X128VectorShuffle(const SDLoc &DL, MVT VT, SDValue V1,

// If either input operand is a zero vector, use VPERM2X128 because its mask		// If either input operand is a zero vector, use VPERM2X128 because its mask
// allows us to replace the zero input with an implicit zero.		// allows us to replace the zero input with an implicit zero.
if (!IsV1Zero && !IsV2Zero) {		if (!IsV1Zero && !IsV2Zero) {
// Check for patterns which can be matched with a single insert of a 128-bit		// Check for patterns which can be matched with a single insert of a 128-bit
// subvector.		// subvector.
bool OnlyUsesV1 = isShuffleEquivalent(V1, V2, Mask, {0, 1, 0, 1});		bool OnlyUsesV1 = isShuffleEquivalent(V1, V2, Mask, {0, 1, 0, 1});
if (OnlyUsesV1 \|\| isShuffleEquivalent(V1, V2, Mask, {0, 1, 4, 5})) {		if (OnlyUsesV1 \|\| isShuffleEquivalent(V1, V2, Mask, {0, 1, 4, 5})) {
// With AVX2 we should use VPERMQ/VPERMPD to allow memory folding.		// With AVX2, use VPERMQ/VPERMPD to allow memory folding.
if (Subtarget.hasAVX2() && V2.isUndef())		if (Subtarget.hasAVX2() && V2.isUndef())
return SDValue();		return SDValue();

		// With AVX1, use vperm2f128 (below) to allow load folding. Otherwise,
		// this will likely become vinsertf128 which can't fold a 256-bit memop.
		if (!isa<LoadSDNode>(peekThroughBitcasts(V1))) {
MVT SubVT = MVT::getVectorVT(VT.getVectorElementType(),		MVT SubVT = MVT::getVectorVT(VT.getVectorElementType(),
VT.getVectorNumElements() / 2);		VT.getVectorNumElements() / 2);
SDValue LoV = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, SubVT, V1,		SDValue LoV = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, SubVT, V1,
DAG.getIntPtrConstant(0, DL));		DAG.getIntPtrConstant(0, DL));
SDValue HiV = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, SubVT,		SDValue HiV = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, SubVT,
OnlyUsesV1 ? V1 : V2,		OnlyUsesV1 ? V1 : V2,
DAG.getIntPtrConstant(0, DL));		DAG.getIntPtrConstant(0, DL));
return DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, LoV, HiV);		return DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, LoV, HiV);
}		}
}		}
		}

// Otherwise form a 128-bit permutation. After accounting for undefs,		// Otherwise form a 128-bit permutation. After accounting for undefs,
// convert the 64-bit shuffle mask selection values into 128-bit		// convert the 64-bit shuffle mask selection values into 128-bit
// selection bits by dividing the indexes by 2 and shifting into positions		// selection bits by dividing the indexes by 2 and shifting into positions
// defined by a vperm2*128 instruction's immediate control byte.		// defined by a vperm2*128 instruction's immediate control byte.

// The immediate permute control byte looks like this:		// The immediate permute control byte looks like this:
// [1:0] - select 128 bits from sources for low half of destination		// [1:0] - select 128 bits from sources for low half of destination
▲ Show 20 Lines • Show All 24,193 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-vperm2x128.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[0,1,0,1]		; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[0,1,0,1]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
entry:		entry:
%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>		%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
ret <8 x float> %shuffle		ret <8 x float> %shuffle
}		}

define <8 x float> @shuffle_v8f32_01230123_mem(<8 x float>* %pa, <8 x float>* %pb) nounwind uwtable readnone ssp {		define <8 x float> @shuffle_v8f32_01230123_mem(<8 x float>* %pa, <8 x float>* %pb) nounwind uwtable readnone ssp {
; AVX1-LABEL: shuffle_v8f32_01230123_mem:		; ALL-LABEL: shuffle_v8f32_01230123_mem:
; AVX1: ## BB#0: ## %entry		; ALL: ## BB#0: ## %entry
; AVX1-NEXT: vmovaps (%rdi), %ymm0		; ALL-NEXT: vperm2f128 {{.*#+}} ymm0 = mem[0,1,0,1]
		RKSimonUnsubmitted Not Done Reply Inline Actions I wonder what's preventing this from using VBROADCASTF128 ? RKSimon: I wonder what's preventing this from using VBROADCASTF128 ?
		spatelAuthorUnsubmitted Not Done Reply Inline Actions I think it's just that we don't have the code to do the load shrinking + address offset. Ie, this is a 32-byte load even though we're only using half of it. spatel: I think it's just that we don't have the code to do the load shrinking + address offset. Ie…
		spatelAuthorUnsubmitted Not Done Reply Inline Actions On 2nd thought, it's more likely because we don't recognize this as a splat because we didn't see the "canWidenShuffleElements()" opportunity. Ie, these are 32-bit elts, so the mask isn't a simple splat. spatel: On 2nd thought, it's more likely because we don't recognize this as a splat because we didn't…
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; ALL-NEXT: retq
; AVX1-NEXT: retq
;
; AVX2-LABEL: shuffle_v8f32_01230123_mem:
; AVX2: ## BB#0: ## %entry
; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = mem[0,1,0,1]
; AVX2-NEXT: retq
entry:		entry:
%a = load <8 x float>, <8 x float>* %pa		%a = load <8 x float>, <8 x float>* %pa
%b = load <8 x float>, <8 x float>* %pb		%b = load <8 x float>, <8 x float>* %pb
%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>		%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
ret <8 x float> %shuffle		ret <8 x float> %shuffle
}		}

define <8 x float> @shuffle_v8f32_45674567(<8 x float> %a, <8 x float> %b) nounwind uwtable readnone ssp {		define <8 x float> @shuffle_v8f32_45674567(<8 x float> %a, <8 x float> %b) nounwind uwtable readnone ssp {
▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines	entry:
%shuffle = shufflevector <16 x i16> %a2, <16 x i16> %b, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%shuffle = shufflevector <16 x i16> %a2, <16 x i16> %b, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <16 x i16> %shuffle		ret <16 x i16> %shuffle
}		}

define <16 x i16> @shuffle_v16i16_4501_mem(<16 x i16>* %a, <16 x i16>* %b) nounwind uwtable readnone ssp {		define <16 x i16> @shuffle_v16i16_4501_mem(<16 x i16>* %a, <16 x i16>* %b) nounwind uwtable readnone ssp {
; AVX1-LABEL: shuffle_v16i16_4501_mem:		; AVX1-LABEL: shuffle_v16i16_4501_mem:
; AVX1: ## BB#0: ## %entry		; AVX1: ## BB#0: ## %entry
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vmovaps (%rsi), %ymm1
; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = mem[0,1],ymm0[0,1]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v16i16_4501_mem:		; AVX2-LABEL: shuffle_v16i16_4501_mem:
; AVX2: ## BB#0: ## %entry		; AVX2: ## BB#0: ## %entry
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vmovdqa (%rsi), %ymm1
; AVX2-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = mem[0,1],ymm0[0,1]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
entry:		entry:
%c = load <16 x i16>, <16 x i16>* %a		%c = load <16 x i16>, <16 x i16>* %a
%d = load <16 x i16>, <16 x i16>* %b		%d = load <16 x i16>, <16 x i16>* %b
%c2 = add <16 x i16> %c, <i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1>		%c2 = add <16 x i16> %c, <i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1>
%shuffle = shufflevector <16 x i16> %c2, <16 x i16> %d, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%shuffle = shufflevector <16 x i16> %c2, <16 x i16> %d, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <16 x i16> %shuffle		ret <16 x i16> %shuffle
}		}
▲ Show 20 Lines • Show All 436 Lines • Show Last 20 Lines

test/CodeGen/X86/x86-interleaved-access.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1			; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx2 < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2			; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx2 < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2

	define <4 x double> @load_factorf64_4(<16 x double>* %ptr) {			define <4 x double> @load_factorf64_4(<16 x double>* %ptr) {
	; AVX-LABEL: load_factorf64_4:			; AVX-LABEL: load_factorf64_4:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vmovupd (%rdi), %ymm0			; AVX-NEXT: vmovupd (%rdi), %ymm0
	; AVX-NEXT: vmovupd 32(%rdi), %ymm1			; AVX-NEXT: vmovupd 32(%rdi), %ymm1
	; AVX-NEXT: vmovupd 64(%rdi), %ymm2			; AVX-NEXT: vmovupd 64(%rdi), %ymm2
	; AVX-NEXT: vmovupd 96(%rdi), %ymm3			; AVX-NEXT: vmovupd 96(%rdi), %ymm3
	; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4			; AVX-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
	; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5			; AVX-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
	; AVX-NEXT: vhaddpd %ymm5, %ymm4, %ymm4			; AVX-NEXT: vhaddpd %ymm5, %ymm4, %ymm4
	; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]			; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]			; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
	; AVX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]			; AVX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX-NEXT: vaddpd %ymm2, %ymm4, %ymm2			; AVX-NEXT: vaddpd %ymm2, %ymm4, %ymm2
	; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]			; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
	; AVX-NEXT: vaddpd %ymm0, %ymm2, %ymm0			; AVX-NEXT: vaddpd %ymm0, %ymm2, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	Show All 10 Lines

	define <4 x double> @load_factorf64_2(<16 x double>* %ptr) {			define <4 x double> @load_factorf64_2(<16 x double>* %ptr) {
	; AVX-LABEL: load_factorf64_2:			; AVX-LABEL: load_factorf64_2:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vmovupd (%rdi), %ymm0			; AVX-NEXT: vmovupd (%rdi), %ymm0
	; AVX-NEXT: vmovupd 32(%rdi), %ymm1			; AVX-NEXT: vmovupd 32(%rdi), %ymm1
	; AVX-NEXT: vmovupd 64(%rdi), %ymm2			; AVX-NEXT: vmovupd 64(%rdi), %ymm2
	; AVX-NEXT: vmovupd 96(%rdi), %ymm3			; AVX-NEXT: vmovupd 96(%rdi), %ymm3
	; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4			; AVX-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
	; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5			; AVX-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
	; AVX-NEXT: vunpcklpd {{.*#+}} ymm4 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]			; AVX-NEXT: vunpcklpd {{.*#+}} ymm4 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]
	; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]			; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]			; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
	; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]			; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
	; AVX-NEXT: vmulpd %ymm0, %ymm4, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm4, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16			%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16
	%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>			%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
	%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>			%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
	%mul = fmul <4 x double> %strided.v0, %strided.v3			%mul = fmul <4 x double> %strided.v0, %strided.v3
	ret <4 x double> %mul			ret <4 x double> %mul
	}			}

	define <4 x double> @load_factorf64_1(<16 x double>* %ptr) {			define <4 x double> @load_factorf64_1(<16 x double>* %ptr) {
	; AVX1-LABEL: load_factorf64_1:			; AVX-LABEL: load_factorf64_1:
	; AVX1: # BB#0:			; AVX: # BB#0:
	; AVX1-NEXT: vmovups (%rdi), %ymm0			; AVX-NEXT: vmovupd (%rdi), %ymm0
	; AVX1-NEXT: vmovups 32(%rdi), %ymm1			; AVX-NEXT: vmovupd 32(%rdi), %ymm1
	; AVX1-NEXT: vinsertf128 $1, 64(%rdi), %ymm0, %ymm0			; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[0,1],mem[0,1]
	; AVX1-NEXT: vinsertf128 $1, 96(%rdi), %ymm1, %ymm1			; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[0,1],mem[0,1]
	; AVX1-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]			; AVX-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX1-NEXT: vmulpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: load_factorf64_1:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovupd (%rdi), %ymm0
	; AVX2-NEXT: vmovupd 32(%rdi), %ymm1
	; AVX2-NEXT: vinsertf128 $1, 64(%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vinsertf128 $1, 96(%rdi), %ymm1, %ymm1
	; AVX2-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX2-NEXT: vmulpd %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: retq
	%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16			%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16
	%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>			%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
	%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>			%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
	%mul = fmul <4 x double> %strided.v0, %strided.v3			%mul = fmul <4 x double> %strided.v0, %strided.v3
	ret <4 x double> %mul			ret <4 x double> %mul
	}			}

	define <4 x i64> @load_factori64_4(<16 x i64>* %ptr) {			define <4 x i64> @load_factori64_4(<16 x i64>* %ptr) {
	; AVX1-LABEL: load_factori64_4:			; AVX1-LABEL: load_factori64_4:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovupd (%rdi), %ymm0			; AVX1-NEXT: vmovupd (%rdi), %ymm0
	; AVX1-NEXT: vmovupd 32(%rdi), %ymm1			; AVX1-NEXT: vmovupd 32(%rdi), %ymm1
	; AVX1-NEXT: vmovupd 64(%rdi), %ymm2			; AVX1-NEXT: vmovupd 64(%rdi), %ymm2
	; AVX1-NEXT: vmovupd 96(%rdi), %ymm3			; AVX1-NEXT: vmovupd 96(%rdi), %ymm3
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
	; AVX1-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]			; AVX1-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]
	; AVX1-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]			; AVX1-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX1-NEXT: vunpckhpd {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]			; AVX1-NEXT: vunpckhpd {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
	; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]			; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	Show All 9 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_factori64_4:			; AVX2-LABEL: load_factori64_4:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqu (%rdi), %ymm0			; AVX2-NEXT: vmovdqu (%rdi), %ymm0
	; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1			; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1
	; AVX2-NEXT: vmovdqu 64(%rdi), %ymm2			; AVX2-NEXT: vmovdqu 64(%rdi), %ymm2
	; AVX2-NEXT: vmovdqu 96(%rdi), %ymm3			; AVX2-NEXT: vmovdqu 96(%rdi), %ymm3
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm4			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm5			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
	; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]			; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
	; AVX2-NEXT: vpaddq %ymm3, %ymm4, %ymm3			; AVX2-NEXT: vpaddq %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]			; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
	; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
	Show All 12 Lines