Diff 370078

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,660 Lines • ▼ Show 20 Lines	static SDValue lowerShuffleAsByteRotateAndPermute(
// Check if the ranges are small enough to rotate from either direction.		// Check if the ranges are small enough to rotate from either direction.
if (Range2.second < Range1.first)		if (Range2.second < Range1.first)
return RotateAndPermute(V1, V2, Range1.first, 0);		return RotateAndPermute(V1, V2, Range1.first, 0);
if (Range1.second < Range2.first)		if (Range1.second < Range2.first)
return RotateAndPermute(V2, V1, Range2.first, NumElts);		return RotateAndPermute(V2, V1, Range2.first, NumElts);
return SDValue();		return SDValue();
}		}

		static bool isBroadcastShuffleMask(ArrayRef<int> Mask) {
		return isUndefOrEqual(Mask, 0);
		}

		static bool isNoopOrBroadcastShuffleMask(ArrayRef<int> Mask) {
		return isNoopShuffleMask(Mask) \|\| isBroadcastShuffleMask(Mask);
		}

/// Generic routine to decompose a shuffle and blend into independent		/// Generic routine to decompose a shuffle and blend into independent
/// blends and permutes.		/// blends and permutes.
///		///
/// This matches the extremely common pattern for handling combined		/// This matches the extremely common pattern for handling combined
/// shuffle+blend operations on newer X86 ISAs where we have very fast blend		/// shuffle+blend operations on newer X86 ISAs where we have very fast blend
/// operations. It will try to pick the best arrangement of shuffles and		/// operations. It will try to pick the best arrangement of shuffles and
/// blends. For vXi8/vXi16 shuffles we may use unpack instead of blend.		/// blends. For vXi8/vXi16 shuffles we may use unpack instead of blend.
static SDValue lowerShuffleAsDecomposedShuffleMerge(		static SDValue lowerShuffleAsDecomposedShuffleMerge(
Show All 17 Lines	if (M >= 0 && M < NumElts) {
IsAlternating &= (i & 1) == 0;		IsAlternating &= (i & 1) == 0;
} else if (M >= NumElts) {		} else if (M >= NumElts) {
V2Mask[i] = M - NumElts;		V2Mask[i] = M - NumElts;
FinalMask[i] = i + NumElts;		FinalMask[i] = i + NumElts;
IsAlternating &= (i & 1) == 1;		IsAlternating &= (i & 1) == 1;
}		}
}		}

		// If we effectively only demand the 0'th element of \p Input, and not only
		RKSimonUnsubmitted Done Reply Inline Actions At least a summary comment would be useful. RKSimon: At least a summary comment would be useful.
		// as 0'th element, then broadcast said input,
		RKSimonUnsubmitted Not Done Reply Inline Actions Instead of passing Input by reference - why not return it? It just makes it look messy imo. RKSimon: Instead of passing Input by reference - why not return it? It just makes it look messy imo.
		lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Note that we also modify `InputMask` - we turn it into an identity mask. lebedev.ri: Note that we also modify `InputMask` - we turn it into an identity mask.
		// and change \p InputMask to be a no-op (identity) mask.
		RKSimonUnsubmitted Not Done Reply Inline Actions can this comment reduce to 2 lines? it doesn't seem to be 80col RKSimon: can this comment reduce to 2 lines? it doesn't seem to be 80col
		lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions All my commits are clang-formatted, so this did fit within 80-col limit. Is this better? lebedev.ri: All my commits are clang-formatted, so this did fit within 80-col limit. Is this better?
		auto canonicalizeBroadcastableInput = [DL, VT, &Subtarget,
		&DAG](SDValue &Input,
		MutableArrayRef<int> InputMask) {
		unsigned EltSizeInBits = Input.getScalarValueSizeInBits();
		if (!Subtarget.hasAVX2() &&
		RKSimonUnsubmitted Done Reply Inline Actions Would it be better to assert(isBroadcastShuffleMask(InputMask)) ? The isNoopOrBroadcastShuffleMask checks below should ensure it no? RKSimon: Would it be better to assert(isBroadcastShuffleMask(InputMask)) ? The…
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Sure, that can work now. lebedev.ri: Sure, that can work now.
		(!Subtarget.hasAVX() \|\| EltSizeInBits < 32 \|\| !MayFoldLoad(Input)))
		RKSimonUnsubmitted Done Reply Inline Actions Why not just create a X86ISD::VBROADCAST node? This code is AVX only and we have isel patterns that handle AVX1 cases where load folding fails. RKSimon: Why not just create a X86ISD::VBROADCAST node? This code is AVX only and we have isel patterns…
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Oh, hmm. I have not considered that, and that changes the results somewhat... lebedev.ri: Oh, hmm. I have not considered that, and that changes the results somewhat...
		return;
		if (isNoopShuffleMask(InputMask))
		return;
		assert(isBroadcastShuffleMask(InputMask) &&
		"Expected to demand only the 0'th element.");
		Input = DAG.getNode(X86ISD::VBROADCAST, DL, VT, Input);
		for (auto I : enumerate(InputMask)) {
		int &InputMaskElt = I.value();
		if (InputMaskElt >= 0)
		InputMaskElt = I.index();
		}
		};

		// Currently, we may need to produce one shuffle per input, and blend results.
		// It is possible that the shuffle for one of the inputs is already a no-op.
		// See if we can simplify non-no-op shuffles into broadcasts,
		// which we consider to be strictly better than an arbitrary shuffle.
		if (isNoopOrBroadcastShuffleMask(V1Mask) &&
		isNoopOrBroadcastShuffleMask(V2Mask)) {
		canonicalizeBroadcastableInput(V1, V1Mask);
		canonicalizeBroadcastableInput(V2, V2Mask);
		}

// Try to lower with the simpler initial blend/unpack/rotate strategies unless		// Try to lower with the simpler initial blend/unpack/rotate strategies unless
// one of the input shuffles would be a no-op. We prefer to shuffle inputs as		// one of the input shuffles would be a no-op. We prefer to shuffle inputs as
// the shuffle may be able to fold with a load or other benefit. However, when		// the shuffle may be able to fold with a load or other benefit. However, when
// we'll have to do 2x as many shuffles in order to achieve this, a 2-input		// we'll have to do 2x as many shuffles in order to achieve this, a 2-input
// pre-shuffle first is a better strategy.		// pre-shuffle first is a better strategy.
if (!isNoopShuffleMask(V1Mask) && !isNoopShuffleMask(V2Mask)) {		if (!isNoopShuffleMask(V1Mask) && !isNoopShuffleMask(V2Mask)) {
// Only prefer immediate blends to unpack/rotate.		// Only prefer immediate blends to unpack/rotate.
if (SDValue BlendPerm = lowerShuffleAsBlendAndPermute(DL, VT, V1, V2, Mask,		if (SDValue BlendPerm = lowerShuffleAsBlendAndPermute(DL, VT, V1, V2, Mask,
▲ Show 20 Lines • Show All 40,931 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/copy-low-subvec-elt-to-high-subvec-elt.ll

Show First 20 Lines • Show All 278 Lines • ▼ Show 20 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <4 x i64> %x, <4 x i64> poison, <4 x i32> <i32 0, i32 0, i32 2, i32 0>		%r = shufflevector <4 x i64> %x, <4 x i64> poison, <4 x i32> <i32 0, i32 0, i32 2, i32 0>
ret <4 x i64> %r		ret <4 x i64> %r
}		}

define <4 x i64> @vec256_eltty_i64_source_subvec_0_target_subvec_mask_3_binary(<4 x i64> %x, <4 x i64> %y) nounwind {		define <4 x i64> @vec256_eltty_i64_source_subvec_0_target_subvec_mask_3_binary(<4 x i64> %x, <4 x i64> %y) nounwind {
; CHECK-LABEL: vec256_eltty_i64_source_subvec_0_target_subvec_mask_3_binary:		; CHECK-LABEL: vec256_eltty_i64_source_subvec_0_target_subvec_mask_3_binary:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vbroadcastsd %xmm1, %ymm1		; CHECK-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,1,0,1]
lebedev.riAuthorUnsubmitted Done Reply Inline Actions This regression is being fixed by D108411. lebedev.ri: This regression is being fixed by D108411.
; CHECK-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; CHECK-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <4 x i64> %x, <4 x i64> %y, <4 x i32> <i32 0, i32 4, i32 2, i32 4>		%r = shufflevector <4 x i64> %x, <4 x i64> %y, <4 x i32> <i32 0, i32 4, i32 2, i32 4>
ret <4 x i64> %r		ret <4 x i64> %r
}		}

define <4 x i64> @vec256_eltty_i64_source_subvec_1_target_subvec_mask_1_unary(<4 x i64> %x) nounwind {		define <4 x i64> @vec256_eltty_i64_source_subvec_1_target_subvec_mask_1_unary(<4 x i64> %x) nounwind {
; CHECK-LABEL: vec256_eltty_i64_source_subvec_1_target_subvec_mask_1_unary:		; CHECK-LABEL: vec256_eltty_i64_source_subvec_1_target_subvec_mask_1_unary:
▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 0, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>		%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 0, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_1_binary(<32 x i8> %x, <32 x i8> %y) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_1_binary(<32 x i8> %x, <32 x i8> %y) nounwind {
; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_1_binary:		; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_1_binary:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]		; CHECK-NEXT: vpbroadcastb %xmm1, %ymm1
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 32, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>		%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 32, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_unary(<32 x i8> %x) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_unary(<32 x i8> %x) nounwind {
; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_unary:		; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_unary:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpbroadcastb %xmm0, %ymm1		; CHECK-NEXT: vpbroadcastb %xmm0, %ymm1
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]
; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 0>		%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 0>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_binary(<32 x i8> %x, <32 x i8> %y) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_binary(<32 x i8> %x, <32 x i8> %y) nounwind {
; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_binary:		; CHECK-LABEL: vec256_eltty_i8_source_subvec_0_target_subvec_mask_2_binary:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]		; CHECK-NEXT: vpbroadcastb %xmm1, %ymm1
; CHECK-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]
; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 32>		%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 32>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_3_unary(<32 x i8> %x) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_0_target_subvec_mask_3_unary(<32 x i8> %x) nounwind {
Show All 19 Lines	; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 32, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 32>		%r = shufflevector <32 x i8> %x, <32 x i8> %y, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 32, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 32>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_unary(<32 x i8> %x) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_unary(<32 x i8> %x) nounwind {
; CHECK-LABEL: vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_unary:		; CHECK-LABEL: vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_unary:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1		; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
; CHECK-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]		; CHECK-NEXT: vpbroadcastb %xmm1, %ymm1
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; CHECK-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 16, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>		%r = shufflevector <32 x i8> %x, <32 x i8> poison, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 16, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
ret <32 x i8> %r		ret <32 x i8> %r
}		}

define <32 x i8> @vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_binary(<32 x i8> %x, <32 x i8> %y) nounwind {		define <32 x i8> @vec256_eltty_i8_source_subvec_1_target_subvec_mask_1_binary(<32 x i8> %x, <32 x i8> %y) nounwind {
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/horizontal-sum.ll

	Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-NEXT: vphaddd %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-SLOW-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vphaddd %xmm2, %xmm2, %xmm1			; AVX2-SLOW-NEXT: vphaddd %xmm2, %xmm2, %xmm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]
	; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,3]
	; AVX2-SLOW-NEXT: vphaddd %xmm3, %xmm3, %xmm1			; AVX2-SLOW-NEXT: vphaddd %xmm3, %xmm3, %xmm1
	; AVX2-SLOW-NEXT: vpbroadcastd %xmm1, %xmm2			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]
	; AVX2-SLOW-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]			; AVX2-SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: pair_sum_v4i32_v4i32:			; AVX2-FAST-LABEL: pair_sum_v4i32_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm2, %xmm2			; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0			; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vphaddd %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vphaddd %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	▲ Show 20 Lines • Show All 296 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-NEXT: vpbroadcastq %xmm1, %ymm1			; AVX2-SLOW-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: pair_sum_v8i32_v4i32:			; AVX2-FAST-LABEL: pair_sum_v8i32_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0			; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm1			; AVX2-FAST-NEXT: vphaddd %xmm4, %xmm4, %xmm1
	; AVX2-FAST-NEXT: vphaddd %xmm4, %xmm4, %xmm4			; AVX2-FAST-NEXT: vphaddd %xmm5, %xmm5, %xmm4
	; AVX2-FAST-NEXT: vphaddd %xmm5, %xmm5, %xmm5
	; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm2, %xmm2			; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm4[0,3]			; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm3 = xmm2[0,2],xmm1[0,3]
	; AVX2-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm5[0]			; AVX2-FAST-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,3],xmm4[1,3]			; AVX2-FAST-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm1[1,3]
	; AVX2-FAST-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1,2],xmm5[3]			; AVX2-FAST-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX2-FAST-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX2-FAST-NEXT: vpaddd %xmm1, %xmm3, %xmm1
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vphaddd %xmm7, %xmm6, %xmm2			; AVX2-FAST-NEXT: vphaddd %xmm7, %xmm6, %xmm1
	; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm2, %xmm1			; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm1, %xmm1
	; AVX2-FAST-NEXT: vpbroadcastq %xmm1, %ymm1			; AVX2-FAST-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]			; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	%9 = shufflevector <4 x i32> %0, <4 x i32> poison, <2 x i32> <i32 0, i32 2>			%9 = shufflevector <4 x i32> %0, <4 x i32> poison, <2 x i32> <i32 0, i32 2>
	%10 = shufflevector <4 x i32> %0, <4 x i32> poison, <2 x i32> <i32 1, i32 3>			%10 = shufflevector <4 x i32> %0, <4 x i32> poison, <2 x i32> <i32 1, i32 3>
	%11 = add <2 x i32> %9, %10			%11 = add <2 x i32> %9, %10
	%12 = shufflevector <2 x i32> %11, <2 x i32> poison, <2 x i32> <i32 1, i32 undef>			%12 = shufflevector <2 x i32> %11, <2 x i32> poison, <2 x i32> <i32 1, i32 undef>
	%13 = add <2 x i32> %11, %12			%13 = add <2 x i32> %11, %12
	▲ Show 20 Lines • Show All 264 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[1,1,1,1]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[1,1,1,1]
	; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm4[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm4[0],xmm1[0]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[3,3,3,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[3,3,3,3]
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
	; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm1 = xmm5[0,1],xmm2[2,3]			; AVX2-SLOW-NEXT: vpbroadcastd %xmm3, %xmm4
	; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX2-SLOW-NEXT: vpbroadcastq %xmm3, %xmm5
	; AVX2-SLOW-NEXT: vpbroadcastq %xmm3, %xmm1			; AVX2-SLOW-NEXT: vpaddd %xmm4, %xmm5, %xmm4
	; AVX2-SLOW-NEXT: vpbroadcastd %xmm3, %xmm2			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[2,2,2,2]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[2,2,2,2]
	; AVX2-SLOW-NEXT: vpaddd %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1,2],xmm4[3]
	; AVX2-SLOW-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3]
	; AVX2-SLOW-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]			; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm2, %xmm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: sequential_sum_v4i32_v4i32:			; AVX2-FAST-LABEL: sequential_sum_v4i32_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm4			; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm4
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
	; AVX2-FAST-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX2-FAST-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-FAST-NEXT: vphaddd %xmm2, %xmm2, %xmm1			; AVX2-FAST-NEXT: vphaddd %xmm2, %xmm2, %xmm1
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm4[0],xmm1[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm4[0],xmm1[0]
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[3,3,3,3]			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[3,3,3,3]
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm4[0]
				; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3]
				; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm3, %xmm4
				; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,2,2,2]
				; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1,2],xmm5[3]
				; AVX2-FAST-NEXT: vpbroadcastd %xmm4, %xmm4
				; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1,2],xmm4[3]
				; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3]
	; AVX2-FAST-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX2-FAST-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm1 = xmm5[0,1],xmm2[2,3]			; AVX2-FAST-NEXT: vpaddd %xmm0, %xmm2, %xmm0
	; AVX2-FAST-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX2-FAST-NEXT: vphaddd %xmm3, %xmm3, %xmm1
	; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,2,2,2]
	; AVX2-FAST-NEXT: vpbroadcastd %xmm1, %xmm1
	; AVX2-FAST-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX2-FAST-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX2-FAST-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	%5 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 0, i32 4>			%5 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 0, i32 4>
	%6 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 1, i32 5>			%6 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 1, i32 5>
	%7 = add <2 x i32> %5, %6			%7 = add <2 x i32> %5, %6
	%8 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 2, i32 6>			%8 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 2, i32 6>
	%9 = add <2 x i32> %8, %7			%9 = add <2 x i32> %8, %7
	%10 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 3, i32 7>			%10 = shufflevector <4 x i32> %0, <4 x i32> %1, <2 x i32> <i32 3, i32 7>
	%11 = add <2 x i32> %10, %9			%11 = add <2 x i32> %10, %9
	▲ Show 20 Lines • Show All 288 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,3,2,3]			; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,3,2,3]
	; SSSE3-FAST-NEXT: paddd %xmm2, %xmm1			; SSSE3-FAST-NEXT: paddd %xmm2, %xmm1
	; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]
	; SSSE3-FAST-NEXT: paddd %xmm3, %xmm2			; SSSE3-FAST-NEXT: paddd %xmm3, %xmm2
	; SSSE3-FAST-NEXT: phaddd %xmm2, %xmm1			; SSSE3-FAST-NEXT: phaddd %xmm2, %xmm1
	; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: reduction_sum_v4i32_v4i32:			; AVX1-SLOW-LABEL: reduction_sum_v4i32_v4i32:
	; AVX-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,2,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,1,1]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,1,1]
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[2,3,2,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[2,3,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm5, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vpaddd %xmm5, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,1,1]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,1,1]
	; AVX-SLOW-NEXT: vpunpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]			; AVX1-SLOW-NEXT: vpunpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[2,3,2,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[2,3,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm5, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vpaddd %xmm5, %xmm2, %xmm2
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[1,1,1,1]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[1,1,1,1]
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[2,3,2,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[2,3,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm6, %xmm3, %xmm3			; AVX1-SLOW-NEXT: vpaddd %xmm6, %xmm3, %xmm3
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[1,1,1,1]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[1,1,1,1]
	; AVX-SLOW-NEXT: vpunpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]			; AVX1-SLOW-NEXT: vpunpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
	; AVX-SLOW-NEXT: vpunpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; AVX1-SLOW-NEXT: vpunpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; AVX-SLOW-NEXT: vpaddd %xmm5, %xmm2, %xmm2			; AVX1-SLOW-NEXT: vpaddd %xmm5, %xmm2, %xmm2
	; AVX-SLOW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX1-SLOW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: reduction_sum_v4i32_v4i32:			; AVX-FAST-LABEL: reduction_sum_v4i32_v4i32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,2,3]			; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,2,3]
	; AVX-FAST-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; AVX-FAST-NEXT: vpaddd %xmm4, %xmm0, %xmm0
	; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,2,3]			; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,2,3]
	; AVX-FAST-NEXT: vpaddd %xmm4, %xmm1, %xmm1			; AVX-FAST-NEXT: vpaddd %xmm4, %xmm1, %xmm1
	; AVX-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[2,3,2,3]			; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[2,3,2,3]
	; AVX-FAST-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX-FAST-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]
	; AVX-FAST-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX-FAST-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX-FAST-NEXT: vphaddd %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vphaddd %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
				;
				; AVX2-SLOW-LABEL: reduction_sum_v4i32_v4i32:
				; AVX2-SLOW: # %bb.0:
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,1,1]
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[2,3,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm5, %xmm1, %xmm1
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[2,3,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm5, %xmm2, %xmm2
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,3,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm5, %xmm3, %xmm3
				; AVX2-SLOW-NEXT: vpunpckldq {{.*#+}} xmm5 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
				; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm4 = xmm4[0],xmm1[1],xmm4[2,3]
				; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3]
				; AVX2-SLOW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; AVX2-SLOW-NEXT: vpbroadcastd %xmm3, %xmm1
				; AVX2-SLOW-NEXT: vpbroadcastd %xmm2, %xmm2
				; AVX2-SLOW-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
				; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm4, %xmm0, %xmm0
				; AVX2-SLOW-NEXT: retq
	%5 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %0)			%5 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %0)
	%6 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %1)			%6 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %1)
	%7 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %2)			%7 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %2)
	%8 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %3)			%8 = call i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32> %3)
	%9 = insertelement <4 x i32> undef, i32 %5, i32 0			%9 = insertelement <4 x i32> undef, i32 %5, i32 0
	%10 = insertelement <4 x i32> %9, i32 %6, i32 1			%10 = insertelement <4 x i32> %9, i32 %6, i32 1
	%11 = insertelement <4 x i32> %10, i32 %7, i32 2			%11 = insertelement <4 x i32> %10, i32 %7, i32 2
	%12 = insertelement <4 x i32> %11, i32 %8, i32 3			%12 = insertelement <4 x i32> %11, i32 %8, i32 3
	ret <4 x i32> %12			ret <4 x i32> %12
	}			}
	declare i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32>)			declare i32 @llvm.vector.reduce.add.i32.v4i32(<4 x i32>)

This is an archive of the discontinued LLVM Phabricator instance.

[X86] lowerShuffleAsDecomposedShuffleMerge(): if both inputs are broadcastable/identities, canonicalize broadcasts as such
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 370078

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/copy-low-subvec-elt-to-high-subvec-elt.ll

llvm/test/CodeGen/X86/horizontal-sum.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] lowerShuffleAsDecomposedShuffleMerge(): if both inputs are broadcastable/identities, canonicalize broadcasts as suchClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 370078

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/copy-low-subvec-elt-to-high-subvec-elt.ll

llvm/test/CodeGen/X86/horizontal-sum.ll

[X86] lowerShuffleAsDecomposedShuffleMerge(): if both inputs are broadcastable/identities, canonicalize broadcasts as such
ClosedPublic