This is an archive of the discontinued LLVM Phabricator instance.

[SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions.
ClosedPublic

Authored by ABataev on Mar 13 2023, 2:44 PM.

Download Raw Diff

Details

Reviewers

RKSimon
vdmitrie

Commits

rG641939baa928: [SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions.

Summary

After merging main part of the gather/buildvector code, CreateShuffle
lambda can removed and ShuffleBuilder add functions can be used instead.
Also, part of the code from CreateShuffle migrated to createShuffle of
the BaseShuffleAnalysis::createShuffle function for better code emission.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

ABataev created this revision.Mar 13 2023, 2:44 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 13 2023, 2:44 PM

Herald added subscribers: vporpo, hiraditya. · View Herald Transcript

ABataev requested review of this revision.Mar 13 2023, 2:44 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 13 2023, 2:44 PM

Herald added a subscriber: • pcwang-thead. · View Herald Transcript

Harbormaster completed remote builds in B219174: Diff 504849.Mar 13 2023, 5:15 PM

This revision is now accepted and ready to land.Mar 13 2023, 6:18 PM

Closed by commit rG641939baa928: [SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions. (authored by ABataev). · Explain WhyMar 14 2023, 10:20 AM

This revision was automatically updated to reflect the committed changes.

ABataev added a commit: rG641939baa928: [SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions..

Hi Alexey,

This change causes incorrectly generated code or a crash in some cases. See an example below.

target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-unknown-linux-gnu"

define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>, i64 0
  %3 = mul i32 %1, %2
  %4 = mul i32 0, 0
  %5 = sub i32 %3, %4
  %6 = mul i32 0, 0
  %7 = mul i32 0, %1
  %8 = add i32 %6, %7
  store i32 %5, ptr null, align 16
  store i32 %8, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 1), align 2
  %9 = extractelement <16 x i32> zeroinitializer, i64 0
  %10 = mul i32 %9, 0
  %11 = extractelement <16 x i32> zeroinitializer, i64 0
  %12 = mul i32 0, 0
  %13 = sub i32 %10, %12
  %14 = mul i32 0, %0
  %15 = mul i32 0, 0
  %16 = add i32 %14, %15
  store i32 %13, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 2), align 4
  store i32 %16, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 3), align 2
  %17 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %18 = mul i32 %17, 0
  %19 = mul i32 0, 0
  %20 = sub i32 %18, %19
  %21 = extractelement <16 x i32> zeroinitializer, i64 1
  %22 = mul i32 %21, %0
  %23 = mul i32 0, %17
  %24 = add i32 %22, %23
  store i32 %20, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 4), align 8
  store i32 %24, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 5), align 2
  %25 = mul i32 0, %11
  %26 = extractelement <16 x i32> zeroinitializer, i64 0
  %27 = mul i32 0, 0
  %28 = sub i32 %25, %27
  %29 = mul i32 0, 0
  %30 = mul i32 %26, 0
  %31 = add i32 %29, %30
  store i32 %28, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 6), align 4
  store i32 %31, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 7), align 2
  ret i32 0
}

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
opt: .../llvm/include/llvm/ADT/SmallVector.h:298: const T& llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::operator[](llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type) const [with T = int; <template-parameter-1-2> = void; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::const_reference = const int&; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type = long unsigned int]: Assertion `idx < size()' failed.
PLEASE submit a bug report to https://github.com/llvm/llvm-project/issues/ and include the crash backtrace.
Stack dump:
0.	Program arguments: opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...

If this change (and the following ones) is reverted the code is correctly vectorized.

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...
define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) #0 {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %3 = insertelement <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %2, i32 5
  %4 = mul <8 x i32> zeroinitializer, %3
  %5 = insertelement <8 x i32> <i32 poison, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %1, i32 0
  %6 = insertelement <8 x i32> %5, i32 %0, i32 5
  %7 = shufflevector <8 x i32> %6, <8 x i32> %3, <8 x i32> <i32 undef, i32 0, i32 undef, i32 5, i32 13, i32 undef, i32 undef, i32 undef>
  %8 = shufflevector <8 x i32> <i32 1, i32 undef, i32 0, i32 undef, i32 undef, i32 0, i32 0, i32 0>, <8 x i32> %7, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 12, i32 5, i32 6, i32 7>
  %9 = mul <8 x i32> %6, %8
  %10 = sub <8 x i32> %9, %4
  %11 = add <8 x i32> %9, %4
  %12 = shufflevector <8 x i32> %10, <8 x i32> %11, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 4, i32 13, i32 6, i32 15>
  store <8 x i32> %12, ptr null, align 16
  ret i32 0
}

In D145988#4231925, @ikelarev wrote:

Hi Alexey,

This change causes incorrectly generated code or a crash in some cases. See an example below.

target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-unknown-linux-gnu"

define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>, i64 0
  %3 = mul i32 %1, %2
  %4 = mul i32 0, 0
  %5 = sub i32 %3, %4
  %6 = mul i32 0, 0
  %7 = mul i32 0, %1
  %8 = add i32 %6, %7
  store i32 %5, ptr null, align 16
  store i32 %8, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 1), align 2
  %9 = extractelement <16 x i32> zeroinitializer, i64 0
  %10 = mul i32 %9, 0
  %11 = extractelement <16 x i32> zeroinitializer, i64 0
  %12 = mul i32 0, 0
  %13 = sub i32 %10, %12
  %14 = mul i32 0, %0
  %15 = mul i32 0, 0
  %16 = add i32 %14, %15
  store i32 %13, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 2), align 4
  store i32 %16, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 3), align 2
  %17 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %18 = mul i32 %17, 0
  %19 = mul i32 0, 0
  %20 = sub i32 %18, %19
  %21 = extractelement <16 x i32> zeroinitializer, i64 1
  %22 = mul i32 %21, %0
  %23 = mul i32 0, %17
  %24 = add i32 %22, %23
  store i32 %20, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 4), align 8
  store i32 %24, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 5), align 2
  %25 = mul i32 0, %11
  %26 = extractelement <16 x i32> zeroinitializer, i64 0
  %27 = mul i32 0, 0
  %28 = sub i32 %25, %27
  %29 = mul i32 0, 0
  %30 = mul i32 %26, 0
  %31 = add i32 %29, %30
  store i32 %28, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 6), align 4
  store i32 %31, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 7), align 2
  ret i32 0
}

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
opt: .../llvm/include/llvm/ADT/SmallVector.h:298: const T& llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::operator[](llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type) const [with T = int; <template-parameter-1-2> = void; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::const_reference = const int&; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type = long unsigned int]: Assertion `idx < size()' failed.
PLEASE submit a bug report to https://github.com/llvm/llvm-project/issues/ and include the crash backtrace.
Stack dump:
0.	Program arguments: opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...

If this change (and the following ones) is reverted the code is correctly vectorized.

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...
define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) #0 {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %3 = insertelement <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %2, i32 5
  %4 = mul <8 x i32> zeroinitializer, %3
  %5 = insertelement <8 x i32> <i32 poison, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %1, i32 0
  %6 = insertelement <8 x i32> %5, i32 %0, i32 5
  %7 = shufflevector <8 x i32> %6, <8 x i32> %3, <8 x i32> <i32 undef, i32 0, i32 undef, i32 5, i32 13, i32 undef, i32 undef, i32 undef>
  %8 = shufflevector <8 x i32> <i32 1, i32 undef, i32 0, i32 undef, i32 undef, i32 0, i32 0, i32 0>, <8 x i32> %7, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 12, i32 5, i32 6, i32 7>
  %9 = mul <8 x i32> %6, %8
  %10 = sub <8 x i32> %9, %4
  %11 = add <8 x i32> %9, %4
  %12 = shufflevector <8 x i32> %10, <8 x i32> %11, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 4, i32 13, i32 6, i32 15>
  store <8 x i32> %12, ptr null, align 16
  ret i32 0
}

Thanks for the report, will check it tomorrow.

In D145988#4231925, @ikelarev wrote:

Hi Alexey,

This change causes incorrectly generated code or a crash in some cases. See an example below.

target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-unknown-linux-gnu"

define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>, i64 0
  %3 = mul i32 %1, %2
  %4 = mul i32 0, 0
  %5 = sub i32 %3, %4
  %6 = mul i32 0, 0
  %7 = mul i32 0, %1
  %8 = add i32 %6, %7
  store i32 %5, ptr null, align 16
  store i32 %8, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 1), align 2
  %9 = extractelement <16 x i32> zeroinitializer, i64 0
  %10 = mul i32 %9, 0
  %11 = extractelement <16 x i32> zeroinitializer, i64 0
  %12 = mul i32 0, 0
  %13 = sub i32 %10, %12
  %14 = mul i32 0, %0
  %15 = mul i32 0, 0
  %16 = add i32 %14, %15
  store i32 %13, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 2), align 4
  store i32 %16, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 3), align 2
  %17 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %18 = mul i32 %17, 0
  %19 = mul i32 0, 0
  %20 = sub i32 %18, %19
  %21 = extractelement <16 x i32> zeroinitializer, i64 1
  %22 = mul i32 %21, %0
  %23 = mul i32 0, %17
  %24 = add i32 %22, %23
  store i32 %20, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 4), align 8
  store i32 %24, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 5), align 2
  %25 = mul i32 0, %11
  %26 = extractelement <16 x i32> zeroinitializer, i64 0
  %27 = mul i32 0, 0
  %28 = sub i32 %25, %27
  %29 = mul i32 0, 0
  %30 = mul i32 %26, 0
  %31 = add i32 %29, %30
  store i32 %28, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 6), align 4
  store i32 %31, ptr getelementptr inbounds ([9 x i32], ptr null, i64 0, i64 7), align 2
  ret i32 0
}

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
opt: .../llvm/include/llvm/ADT/SmallVector.h:298: const T& llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::operator[](llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type) const [with T = int; <template-parameter-1-2> = void; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::const_reference = const int&; llvm::SmallVectorTemplateCommon<T, <template-parameter-1-2> >::size_type = long unsigned int]: Assertion `idx < size()' failed.
PLEASE submit a bug report to https://github.com/llvm/llvm-project/issues/ and include the crash backtrace.
Stack dump:
0.	Program arguments: opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...

If this change (and the following ones) is reverted the code is correctly vectorized.

$ opt test.ll -passes=slp-vectorizer -mattr=+avx512f -S
...
define i32 @main(<16 x i32> %bc47.i, <16 x i32> %bc) #0 {
entry:
  %0 = extractelement <16 x i32> %bc47.i, i64 0
  %1 = extractelement <16 x i32> %bc, i64 0
  %2 = extractelement <16 x i32> <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>, i64 0
  %3 = insertelement <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %2, i32 5
  %4 = mul <8 x i32> zeroinitializer, %3
  %5 = insertelement <8 x i32> <i32 poison, i32 0, i32 0, i32 0, i32 0, i32 poison, i32 0, i32 0>, i32 %1, i32 0
  %6 = insertelement <8 x i32> %5, i32 %0, i32 5
  %7 = shufflevector <8 x i32> %6, <8 x i32> %3, <8 x i32> <i32 undef, i32 0, i32 undef, i32 5, i32 13, i32 undef, i32 undef, i32 undef>
  %8 = shufflevector <8 x i32> <i32 1, i32 undef, i32 0, i32 undef, i32 undef, i32 0, i32 0, i32 0>, <8 x i32> %7, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 12, i32 5, i32 6, i32 7>
  %9 = mul <8 x i32> %6, %8
  %10 = sub <8 x i32> %9, %4
  %11 = add <8 x i32> %9, %4
  %12 = shufflevector <8 x i32> %10, <8 x i32> %11, <8 x i32> <i32 0, i32 9, i32 2, i32 11, i32 4, i32 13, i32 6, i32 15>
  store <8 x i32> %12, ptr null, align 16
  ret i32 0
}

Must be fixed in 9255124a0713f1fe57e553c4266380a7087a61c6

Revision Contents

Path

Size

llvm/

lib/

Transforms/

Vectorize/

SLPVectorizer.cpp

84 lines

test/

Transforms/

SLPVectorizer/

AArch64/

vectorize-free-extracts-inserts.ll

9 lines

X86/

PR39774.ll

2 lines

buildvector-nodes-dependency.ll

2 lines

entries-different-vf.ll

15 lines

gather-extractelements-different-bbs.ll

17 lines

lookahead.ll

26 lines

reduction-logical.ll

19 lines

vect-gather-same-nodes.ll

9 lines

Diff 505158

llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,623 Lines • ▼ Show 20 Lines	while (auto *SV = dyn_cast<ShuffleVectorInst>(Op)) {
combineMasks(LocalVF, ShuffleMask, Mask);		combineMasks(LocalVF, ShuffleMask, Mask);
Mask.swap(ShuffleMask);		Mask.swap(ShuffleMask);
if (IsOp2Undef)		if (IsOp2Undef)
Op = SV->getOperand(0);		Op = SV->getOperand(0);
else		else
Op = SV->getOperand(1);		Op = SV->getOperand(1);
}		}
if (auto *OpTy = dyn_cast<FixedVectorType>(Op->getType());		if (auto *OpTy = dyn_cast<FixedVectorType>(Op->getType());
!OpTy \|\| !isIdentityMask(Mask, OpTy, SinglePermute)) {		!OpTy \|\| !isIdentityMask(Mask, OpTy, SinglePermute) \|\|
		ShuffleVectorInst::isZeroEltSplatMask(Mask)) {
if (IdentityOp) {		if (IdentityOp) {
V = IdentityOp;		V = IdentityOp;
assert(Mask.size() == IdentityMask.size() &&		assert(Mask.size() == IdentityMask.size() &&
"Expected masks of same sizes.");		"Expected masks of same sizes.");
// Clear known poison elements.		// Clear known poison elements.
for (auto [I, Idx] : enumerate(Mask))		for (auto [I, Idx] : enumerate(Mask))
if (Idx == UndefMaskElem)		if (Idx == UndefMaskElem)
IdentityMask[I] = UndefMaskElem;		IdentityMask[I] = UndefMaskElem;
Show All 15 Lines	protected:

/// Smart shuffle instruction emission, walks through shuffles trees and		/// Smart shuffle instruction emission, walks through shuffles trees and
/// tries to find the best matching vector for the actual shuffle		/// tries to find the best matching vector for the actual shuffle
/// instruction.		/// instruction.
template <typename ShuffleBuilderTy>		template <typename ShuffleBuilderTy>
static Value createShuffle(Value V1, Value *V2, ArrayRef<int> Mask,		static Value createShuffle(Value V1, Value *V2, ArrayRef<int> Mask,
ShuffleBuilderTy &Builder) {		ShuffleBuilderTy &Builder) {
assert(V1 && "Expected at least one vector value.");		assert(V1 && "Expected at least one vector value.");
		if (V2)
		Builder.resizeToMatch(V1, V2);
int VF = Mask.size();		int VF = Mask.size();
if (auto *FTy = dyn_cast<FixedVectorType>(V1->getType()))		if (auto *FTy = dyn_cast<FixedVectorType>(V1->getType()))
VF = FTy->getNumElements();		VF = FTy->getNumElements();
if (V2 &&		if (V2 &&
!isUndefVector(V2, buildUseMask(VF, Mask, UseMask::SecondArg)).all()) {		!isUndefVector(V2, buildUseMask(VF, Mask, UseMask::SecondArg)).all()) {
// Peek through shuffles.		// Peek through shuffles.
Value *Op1 = V1;		Value *Op1 = V1;
Value *Op2 = V2;		Value *Op2 = V2;
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	if (V2 &&
.getKnownMinValue());		.getKnownMinValue());
for (int I = 0, E = Mask.size(); I < E; ++I) {		for (int I = 0, E = Mask.size(); I < E; ++I) {
if (CombinedMask2[I] != UndefMaskElem) {		if (CombinedMask2[I] != UndefMaskElem) {
assert(CombinedMask1[I] == UndefMaskElem &&		assert(CombinedMask1[I] == UndefMaskElem &&
"Expected undefined mask element");		"Expected undefined mask element");
CombinedMask1[I] = CombinedMask2[I] + (Op1 == Op2 ? 0 : VF);		CombinedMask1[I] = CombinedMask2[I] + (Op1 == Op2 ? 0 : VF);
}		}
}		}
		const int Limit = CombinedMask1.size() * 2;
		if (Op1 == Op2 && Limit == 2 * VF &&
		all_of(CombinedMask1, [=](int Idx) { return Idx < Limit; }) &&
		(ShuffleVectorInst::isIdentityMask(CombinedMask1) \|\|
		(ShuffleVectorInst::isZeroEltSplatMask(CombinedMask1) &&
		isa<ShuffleVectorInst>(Op1) &&
		cast<ShuffleVectorInst>(Op1)->getShuffleMask() ==
		ArrayRef(CombinedMask1))))
		return Op1;
return Builder.createShuffleVector(		return Builder.createShuffleVector(
Op1, Op1 == Op2 ? PoisonValue::get(Op1->getType()) : Op2,		Op1, Op1 == Op2 ? PoisonValue::get(Op1->getType()) : Op2,
CombinedMask1);		CombinedMask1);
}		}
if (isa<PoisonValue>(V1))		if (isa<PoisonValue>(V1))
return PoisonValue::get(FixedVectorType::get(		return PoisonValue::get(FixedVectorType::get(
cast<VectorType>(V1->getType())->getElementType(), Mask.size()));		cast<VectorType>(V1->getType())->getElementType(), Mask.size()));
SmallVector<int> NewMask(Mask.begin(), Mask.end());		SmallVector<int> NewMask(Mask.begin(), Mask.end());
▲ Show 20 Lines • Show All 2,530 Lines • ▼ Show 20 Lines	for (int I = 0, Sz = Mask.size(); I < Sz; ++I) {
continue;		continue;
auto *EI = cast<ExtractElementInst>(E->Scalars[I]);		auto *EI = cast<ExtractElementInst>(E->Scalars[I]);
VecBase = EI->getVectorOperand();		VecBase = EI->getVectorOperand();
// TODO: EI can be erased, if all its users are vectorized. But need to		// TODO: EI can be erased, if all its users are vectorized. But need to
// emit shuffles for such extractelement instructions.		// emit shuffles for such extractelement instructions.
}		}
return VecBase;		return VecBase;
};		};
auto CreateShuffle = [&](Value V1, Value V2, ArrayRef<int> Mask) {
unsigned VF1 = cast<FixedVectorType>(V1->getType())->getNumElements();
unsigned VF2 = cast<FixedVectorType>(V2->getType())->getNumElements();
unsigned VF = std::max(VF1, VF2);
if (VF1 != VF2) {
SmallVector<int> ExtMask(VF, UndefMaskElem);
std::iota(ExtMask.begin(), std::next(ExtMask.begin(), std::min(VF1, VF2)),
0);
if (VF1 < VF2) {
V1 = Builder.CreateShuffleVector(V1, ExtMask);
if (auto *I = dyn_cast<Instruction>(V1)) {
GatherShuffleExtractSeq.insert(I);
CSEBlocks.insert(I->getParent());
}
} else {
V2 = Builder.CreateShuffleVector(V2, ExtMask);
if (auto *I = dyn_cast<Instruction>(V2)) {
GatherShuffleExtractSeq.insert(I);
CSEBlocks.insert(I->getParent());
}
}
}
const int Limit = Mask.size() * 2;
if (V1 == V2 && Mask.size() == VF &&
all_of(Mask, [=](int Idx) { return Idx < Limit; }) &&
(ShuffleVectorInst::isIdentityMask(Mask) \|\|
(ShuffleVectorInst::isZeroEltSplatMask(Mask) &&
isa<ShuffleVectorInst>(V1) &&
cast<ShuffleVectorInst>(V1)->getShuffleMask() == Mask)))
return V1;
Value *Vec = V1 == V2 ? Builder.CreateShuffleVector(V1, Mask)
: Builder.CreateShuffleVector(V1, V2, Mask);
if (auto *I = dyn_cast<Instruction>(Vec)) {
GatherShuffleExtractSeq.insert(I);
CSEBlocks.insert(I->getParent());
}
return Vec;
};
auto NeedToDelay = [=](const TreeEntry *E,		auto NeedToDelay = [=](const TreeEntry *E,
ArrayRef<const TreeEntry > Deps) -> Value {		ArrayRef<const TreeEntry > Deps) -> Value {
// No need to delay emission if all deps are ready.		// No need to delay emission if all deps are ready.
if (all_of(Deps, [](const TreeEntry *TE) { return TE->VectorizedValue; }))		if (all_of(Deps, [](const TreeEntry *TE) { return TE->VectorizedValue; }))
return nullptr;		return nullptr;
// Postpone gather emission, will be emitted after the end of the		// Postpone gather emission, will be emitted after the end of the
// process to keep correct order.		// process to keep correct order.
auto *VecTy = FixedVectorType::get(E->Scalars.front()->getType(),		auto *VecTy = FixedVectorType::get(E->Scalars.front()->getType(),
▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	if (ExtractShuffle) {
Vec1 = EI->getVectorOperand();		Vec1 = EI->getVectorOperand();
} else if (Vec1 != EI->getVectorOperand()) {		} else if (Vec1 != EI->getVectorOperand()) {
assert((!Vec2 \|\| Vec2 == EI->getVectorOperand()) &&		assert((!Vec2 \|\| Vec2 == EI->getVectorOperand()) &&
"Expected only 1 or 2 vectors shuffle.");		"Expected only 1 or 2 vectors shuffle.");
Vec2 = EI->getVectorOperand();		Vec2 = EI->getVectorOperand();
}		}
}		}
if (Vec2)		if (Vec2)
Vec1 = CreateShuffle(Vec1, Vec2, ExtractMask);		ShuffleBuilder.add(Vec1, Vec2, ExtractMask);
else if (Vec1)		else if (Vec1)
Vec1 = CreateShuffle(Vec1, Vec1, ExtractMask);		ShuffleBuilder.add(Vec1, ExtractMask);
else		else
Vec1 = PoisonValue::get(		ShuffleBuilder.add(PoisonValue::get(FixedVectorType::get(
FixedVectorType::get(ScalarTy, GatheredScalars.size()));		ScalarTy, GatheredScalars.size())),
		ExtractMask);
}		}
if (GatherShuffle) {		if (GatherShuffle) {
Vec = CreateShuffle(Entries.front()->VectorizedValue,		if (Entries.size() == 1)
		ShuffleBuilder.add(Entries.front()->VectorizedValue, Mask);
		else
		ShuffleBuilder.add(Entries.front()->VectorizedValue,
Entries.back()->VectorizedValue, Mask);		Entries.back()->VectorizedValue, Mask);
VF = Mask.size();
if (Vec1) {
// Build final mask.
for (auto [I, Idx] : enumerate(Mask)) {
if (ExtractMask[I] != UndefMaskElem)
Idx = I;
else if (Idx != UndefMaskElem)
Idx = I + VF;
}
Vec = CreateShuffle(Vec1, Vec, Mask);
}
} else {
Vec = Vec1;
}		}
} else if (!allConstant(E->Scalars)) {		} else if (!allConstant(E->Scalars)) {
// TODO: remove this code once able to combine shuffled vectors and build		// TODO: remove this code once able to combine shuffled vectors and build
// vector elements.		// vector elements.
copy(E->Scalars, GatheredScalars.begin());		copy(E->Scalars, GatheredScalars.begin());
// For splats with can emit broadcasts instead of gathers, so try to find		// For splats with can emit broadcasts instead of gathers, so try to find
// such sequences.		// such sequences.
bool IsSplat = isSplat(GatheredScalars) &&		bool IsSplat = isSplat(GatheredScalars) &&
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	if (NumNonConsts == 1) {
if (isa<UndefValue>(GatheredScalars[I]))		if (isa<UndefValue>(GatheredScalars[I]))
GatheredScalars[I] = PoisonValue::get(ScalarTy);		GatheredScalars[I] = PoisonValue::get(ScalarTy);
});		});
NeedFreeze = true;		NeedFreeze = true;
}		}
}		}
// Gather unique scalars and all constants.		// Gather unique scalars and all constants.
Vec = gather(GatheredScalars);		Vec = gather(GatheredScalars);
		ShuffleBuilder.add(Vec, ReuseMask);
} else {		} else {
// Gather all constants.		// Gather all constants.
Vec = gather(E->Scalars);		Vec = gather(E->Scalars);
		ShuffleBuilder.add(Vec, ReuseMask);
}		}

ShuffleBuilder.add(Vec, ReuseMask);
Vec = ShuffleBuilder.finalize(E->ReuseShuffleIndices);		Vec = ShuffleBuilder.finalize(E->ReuseShuffleIndices);
if (NeedFreeze)		if (NeedFreeze)
Vec = Builder.CreateFreeze(Vec);		Vec = Builder.CreateFreeze(Vec);
return Vec;		return Vec;
}		}

Value BoUpSLP::vectorizeTree(TreeEntry E) {		Value BoUpSLP::vectorizeTree(TreeEntry E) {
IRBuilder<>::InsertPointGuard Guard(Builder);		IRBuilder<>::InsertPointGuard Guard(Builder);
▲ Show 20 Lines • Show All 4,985 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/AArch64/vectorize-free-extracts-inserts.ll

	Show First 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[V_1:%.]] = load <9 x double>, ptr [[PTR_1:%.]], align 8			; CHECK-NEXT: [[V_1:%.]] = load <9 x double>, ptr [[PTR_1:%.]], align 8
	; CHECK-NEXT: [[V1_LANE_0:%.*]] = extractelement <9 x double> [[V_1]], i32 0			; CHECK-NEXT: [[V1_LANE_0:%.*]] = extractelement <9 x double> [[V_1]], i32 0
	; CHECK-NEXT: [[V1_LANE_1:%.*]] = extractelement <9 x double> [[V_1]], i32 1			; CHECK-NEXT: [[V1_LANE_1:%.*]] = extractelement <9 x double> [[V_1]], i32 1
	; CHECK-NEXT: [[V1_LANE_2:%.*]] = extractelement <9 x double> [[V_1]], i32 2			; CHECK-NEXT: [[V1_LANE_2:%.*]] = extractelement <9 x double> [[V_1]], i32 2
	; CHECK-NEXT: [[V1_LANE_3:%.*]] = extractelement <9 x double> [[V_1]], i32 3			; CHECK-NEXT: [[V1_LANE_3:%.*]] = extractelement <9 x double> [[V_1]], i32 3
	; CHECK-NEXT: [[V_2:%.]] = load <4 x double>, ptr [[PTR_2:%.]], align 16			; CHECK-NEXT: [[V_2:%.]] = load <4 x double>, ptr [[PTR_2:%.]], align 16
	; CHECK-NEXT: [[V2_LANE_1:%.*]] = extractelement <4 x double> [[V_2]], i32 1			; CHECK-NEXT: [[V2_LANE_1:%.*]] = extractelement <4 x double> [[V_2]], i32 1
	; CHECK-NEXT: [[TMP0:%.*]] = shufflevector <9 x double> [[V_1]], <9 x double> poison, <4 x i32> <i32 2, i32 3, i32 0, i32 1>			; CHECK-NEXT: [[TMP0:%.*]] = shufflevector <9 x double> [[V_1]], <9 x double> poison, <4 x i32> <i32 2, i32 3, i32 0, i32 1>
	; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> [[V_2]], <4 x double> poison, <2 x i32> <i32 2, i32 0>			; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> [[V_2]], <4 x double> poison, <4 x i32> <i32 2, i32 2, i32 2, i32 0>
	; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <4 x double> [[V_2]], <4 x double> poison, <4 x i32> <i32 2, i32 2, i32 2, i32 0>			; CHECK-NEXT: [[TMP2:%.*]] = fmul <4 x double> [[TMP0]], [[TMP1]]
	; CHECK-NEXT: [[TMP3:%.*]] = fmul <4 x double> [[TMP0]], [[TMP2]]			; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <4 x double> [[TMP2]], <4 x double> poison, <9 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[TMP4:%.*]] = shufflevector <4 x double> [[TMP3]], <4 x double> poison, <9 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: call void @use(double [[V1_LANE_0]])			; CHECK-NEXT: call void @use(double [[V1_LANE_0]])
	; CHECK-NEXT: call void @use(double [[V1_LANE_1]])			; CHECK-NEXT: call void @use(double [[V1_LANE_1]])
	; CHECK-NEXT: call void @use(double [[V1_LANE_2]])			; CHECK-NEXT: call void @use(double [[V1_LANE_2]])
	; CHECK-NEXT: call void @use(double [[V1_LANE_3]])			; CHECK-NEXT: call void @use(double [[V1_LANE_3]])
	; CHECK-NEXT: store <9 x double> [[TMP4]], ptr [[PTR_1]], align 8			; CHECK-NEXT: store <9 x double> [[TMP3]], ptr [[PTR_1]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	bb:			bb:
	%v.1 = load <9 x double>, ptr %ptr.1, align 8			%v.1 = load <9 x double>, ptr %ptr.1, align 8
	%v1.lane.0 = extractelement <9 x double> %v.1, i32 0			%v1.lane.0 = extractelement <9 x double> %v.1, i32 0
	%v1.lane.1 = extractelement <9 x double> %v.1, i32 1			%v1.lane.1 = extractelement <9 x double> %v.1, i32 1
	%v1.lane.2 = extractelement <9 x double> %v.1, i32 2			%v1.lane.2 = extractelement <9 x double> %v.1, i32 2
	%v1.lane.3 = extractelement <9 x double> %v.1, i32 3			%v1.lane.3 = extractelement <9 x double> %v.1, i32 3
	▲ Show 20 Lines • Show All 334 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/PR39774.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -passes=slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux-gnu -mcpu=skylake -slp-threshold=-4 \| FileCheck %s --check-prefix=CHECK			; RUN: opt -passes=slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux-gnu -mcpu=skylake -slp-threshold=-4 \| FileCheck %s --check-prefix=CHECK
	; RUN: opt -passes=slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux-gnu -mcpu=skylake -slp-threshold=-4 -slp-min-tree-size=5 \| FileCheck %s --check-prefix=FORCE_REDUCTION			; RUN: opt -passes=slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux-gnu -mcpu=skylake -slp-threshold=-4 -slp-min-tree-size=5 \| FileCheck %s --check-prefix=FORCE_REDUCTION

	define void @Test(i32) {			define void @Test(i32) {
	; CHECK-LABEL: @Test(			; CHECK-LABEL: @Test(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br label [[LOOP:%.*]]			; CHECK-NEXT: br label [[LOOP:%.*]]
	; CHECK: loop:			; CHECK: loop:
	; CHECK-NEXT: [[TMP1:%.]] = phi <2 x i32> [ [[TMP9:%.]], [[LOOP]] ], [ zeroinitializer, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[TMP1:%.]] = phi <2 x i32> [ [[TMP9:%.]], [[LOOP]] ], [ zeroinitializer, [[ENTRY:%.*]] ]
	; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	; CHECK-NEXT: [[TMP3:%.*]] = add <8 x i32> [[TMP2]], <i32 0, i32 55, i32 285, i32 1240, i32 1496, i32 8555, i32 12529, i32 13685>			; CHECK-NEXT: [[TMP3:%.*]] = add <8 x i32> [[TMP2]], <i32 0, i32 55, i32 285, i32 1240, i32 1496, i32 8555, i32 12529, i32 13685>
	; CHECK-NEXT: [[TMP4:%.*]] = call i32 @llvm.vector.reduce.and.v8i32(<8 x i32> [[TMP3]])			; CHECK-NEXT: [[TMP4:%.*]] = call i32 @llvm.vector.reduce.and.v8i32(<8 x i32> [[TMP3]])
	; CHECK-NEXT: [[OP_RDX:%.]] = and i32 [[TMP0:%.]], [[TMP4]]			; CHECK-NEXT: [[OP_RDX:%.]] = and i32 [[TMP0:%.]], [[TMP4]]
	; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x i32> <i32 poison, i32 14910>, i32 [[OP_RDX]], i32 0			; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x i32> <i32 poison, i32 14910>, i32 [[OP_RDX]], i32 0
	; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <8 x i32> [[TMP2]], <8 x i32> poison, <2 x i32> <i32 1, i32 1>			; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <2 x i32> <i32 1, i32 1>
	; CHECK-NEXT: [[TMP7:%.*]] = and <2 x i32> [[TMP5]], [[TMP6]]			; CHECK-NEXT: [[TMP7:%.*]] = and <2 x i32> [[TMP5]], [[TMP6]]
	; CHECK-NEXT: [[TMP8:%.*]] = add <2 x i32> [[TMP5]], [[TMP6]]			; CHECK-NEXT: [[TMP8:%.*]] = add <2 x i32> [[TMP5]], [[TMP6]]
	; CHECK-NEXT: [[TMP9]] = shufflevector <2 x i32> [[TMP7]], <2 x i32> [[TMP8]], <2 x i32> <i32 0, i32 3>			; CHECK-NEXT: [[TMP9]] = shufflevector <2 x i32> [[TMP7]], <2 x i32> [[TMP8]], <2 x i32> <i32 0, i32 3>
	; CHECK-NEXT: br label [[LOOP]]			; CHECK-NEXT: br label [[LOOP]]
	;			;
	; FORCE_REDUCTION-LABEL: @Test(			; FORCE_REDUCTION-LABEL: @Test(
	; FORCE_REDUCTION-NEXT: entry:			; FORCE_REDUCTION-NEXT: entry:
	; FORCE_REDUCTION-NEXT: br label [[LOOP:%.*]]			; FORCE_REDUCTION-NEXT: br label [[LOOP:%.*]]
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/buildvector-nodes-dependency.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 2			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 2
	; RUN: opt -passes=slp-vectorizer -S -mtriple=x86_64 < %s \| FileCheck %s			; RUN: opt -passes=slp-vectorizer -S -mtriple=x86_64 < %s \| FileCheck %s

	define double @test() {			define double @test() {
	; CHECK-LABEL: define double @test() {			; CHECK-LABEL: define double @test() {
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.*]] = load double, ptr null, align 8			; CHECK-NEXT: [[TMP0:%.*]] = load double, ptr null, align 8
	; CHECK-NEXT: br label [[COND_TRUE:%.*]]			; CHECK-NEXT: br label [[COND_TRUE:%.*]]
	; CHECK: cond.true:			; CHECK: cond.true:
	; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> <double 0.000000e+00, double poison>, double [[TMP0]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> <double 0.000000e+00, double poison>, double [[TMP0]], i32 1
	; CHECK-NEXT: [[TMP2:%.*]] = fmul <2 x double> zeroinitializer, [[TMP1]]			; CHECK-NEXT: [[TMP2:%.*]] = fmul <2 x double> zeroinitializer, [[TMP1]]
	; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 1>			; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 1>
	; CHECK-NEXT: [[TMP4:%.*]] = fmul <2 x double> [[TMP3]], zeroinitializer			; CHECK-NEXT: [[TMP4:%.*]] = fmul <2 x double> [[TMP3]], zeroinitializer
	; CHECK-NEXT: [[TMP5:%.*]] = fmul <2 x double> [[TMP3]], zeroinitializer			; CHECK-NEXT: [[TMP5:%.*]] = fmul <2 x double> [[TMP3]], zeroinitializer
	; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <2 x double> [[TMP2]], <2 x double> [[TMP3]], <2 x i32> <i32 0, i32 2>			; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <2 x double> [[TMP2]], <2 x double> [[TMP1]], <2 x i32> <i32 0, i32 3>
	; CHECK-NEXT: [[TMP7:%.*]] = fmul <2 x double> [[TMP6]], zeroinitializer			; CHECK-NEXT: [[TMP7:%.*]] = fmul <2 x double> [[TMP6]], zeroinitializer
	; CHECK-NEXT: [[TMP8:%.*]] = fsub <2 x double> [[TMP7]], zeroinitializer			; CHECK-NEXT: [[TMP8:%.*]] = fsub <2 x double> [[TMP7]], zeroinitializer
	; CHECK-NEXT: [[TMP9:%.*]] = fmul <2 x double> [[TMP7]], zeroinitializer			; CHECK-NEXT: [[TMP9:%.*]] = fmul <2 x double> [[TMP7]], zeroinitializer
	; CHECK-NEXT: [[TMP10:%.*]] = shufflevector <2 x double> [[TMP8]], <2 x double> [[TMP9]], <2 x i32> <i32 0, i32 3>			; CHECK-NEXT: [[TMP10:%.*]] = shufflevector <2 x double> [[TMP8]], <2 x double> [[TMP9]], <2 x i32> <i32 0, i32 3>
	; CHECK-NEXT: [[TMP11:%.*]] = fadd <2 x double> zeroinitializer, [[TMP10]]			; CHECK-NEXT: [[TMP11:%.*]] = fadd <2 x double> zeroinitializer, [[TMP10]]
	; CHECK-NEXT: [[TMP12:%.*]] = fmul <2 x double> zeroinitializer, [[TMP10]]			; CHECK-NEXT: [[TMP12:%.*]] = fmul <2 x double> zeroinitializer, [[TMP10]]
	; CHECK-NEXT: [[TMP13:%.*]] = shufflevector <2 x double> [[TMP11]], <2 x double> [[TMP12]], <2 x i32> <i32 0, i32 3>			; CHECK-NEXT: [[TMP13:%.*]] = shufflevector <2 x double> [[TMP11]], <2 x double> [[TMP12]], <2 x i32> <i32 0, i32 3>
	; CHECK-NEXT: [[TMP14:%.*]] = fsub <2 x double> [[TMP13]], [[TMP2]]			; CHECK-NEXT: [[TMP14:%.*]] = fsub <2 x double> [[TMP13]], [[TMP2]]
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/entries-different-vf.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 2			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 2
	; RUN: opt --passes=slp-vectorizer -mtriple=x86_64-unknown-linux-gnu -mcpu=icelake-server -S < %s \| FileCheck %s			; RUN: opt --passes=slp-vectorizer -mtriple=x86_64-unknown-linux-gnu -mcpu=icelake-server -S < %s \| FileCheck %s

	define i1 @test() {			define i1 @test() {
	; CHECK-LABEL: define i1 @test			; CHECK-LABEL: define i1 @test
	; CHECK-SAME: () #[[ATTR0:[0-9]+]] {			; CHECK-SAME: () #[[ATTR0:[0-9]+]] {
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.*]] = shl i64 0, 0			; CHECK-NEXT: [[TMP0:%.*]] = shl i64 0, 0
	; CHECK-NEXT: [[TMP1:%.*]] = insertelement <8 x i64> <i64 poison, i64 poison, i64 0, i64 poison, i64 0, i64 0, i64 0, i64 0>, i64 [[TMP0]], i32 0			; CHECK-NEXT: [[TMP1:%.*]] = insertelement <8 x i64> <i64 poison, i64 poison, i64 0, i64 poison, i64 0, i64 0, i64 0, i64 0>, i64 [[TMP0]], i32 0
	; CHECK-NEXT: [[TMP2:%.*]] = insertelement <8 x i64> [[TMP1]], i64 0, i32 1			; CHECK-NEXT: [[TMP2:%.*]] = insertelement <8 x i64> [[TMP1]], i64 0, i32 1
	; CHECK-NEXT: [[TMP3:%.*]] = insertelement <8 x i64> [[TMP2]], i64 0, i32 3			; CHECK-NEXT: [[TMP3:%.*]] = insertelement <8 x i64> [[TMP2]], i64 0, i32 3
	; CHECK-NEXT: [[TMP4:%.*]] = shufflevector <8 x i64> [[TMP3]], <8 x i64> poison, <4 x i32> <i32 3, i32 undef, i32 1, i32 0>			; CHECK-NEXT: [[TMP4:%.*]] = shufflevector <8 x i64> [[TMP3]], <8 x i64> poison, <4 x i32> <i32 3, i32 undef, i32 1, i32 0>
	; CHECK-NEXT: [[TMP5:%.*]] = shufflevector <4 x i64> <i64 undef, i64 0, i64 undef, i64 undef>, <4 x i64> [[TMP4]], <4 x i32> <i32 4, i32 1, i32 6, i32 7>			; CHECK-NEXT: [[TMP5:%.*]] = shufflevector <8 x i64> <i64 undef, i64 0, i64 undef, i64 undef, i64 undef, i64 undef, i64 undef, i64 undef>, <8 x i64> [[TMP3]], <8 x i32> <i32 11, i32 11, i32 11, i32 1, i32 9, i32 9, i32 1, i32 8>
	; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <4 x i64> [[TMP5]], <4 x i64> poison, <8 x i32> <i32 0, i32 0, i32 0, i32 1, i32 2, i32 2, i32 1, i32 3>			; CHECK-NEXT: [[TMP6:%.*]] = or <8 x i64> [[TMP3]], [[TMP5]]
	; CHECK-NEXT: [[TMP7:%.*]] = or <8 x i64> [[TMP3]], [[TMP6]]			; CHECK-NEXT: [[TMP7:%.*]] = sub <8 x i64> [[TMP3]], [[TMP5]]
	; CHECK-NEXT: [[TMP8:%.*]] = sub <8 x i64> [[TMP3]], [[TMP6]]			; CHECK-NEXT: [[TMP8:%.*]] = shufflevector <8 x i64> [[TMP6]], <8 x i64> [[TMP7]], <8 x i32> <i32 0, i32 1, i32 2, i32 11, i32 12, i32 5, i32 6, i32 7>
	; CHECK-NEXT: [[TMP9:%.*]] = shufflevector <8 x i64> [[TMP7]], <8 x i64> [[TMP8]], <8 x i32> <i32 0, i32 1, i32 2, i32 11, i32 12, i32 5, i32 6, i32 7>			; CHECK-NEXT: [[TMP9:%.*]] = icmp ult <8 x i64> [[TMP8]], zeroinitializer
	; CHECK-NEXT: [[TMP10:%.*]] = icmp ult <8 x i64> [[TMP9]], zeroinitializer			; CHECK-NEXT: [[TMP10:%.*]] = call i1 @llvm.vector.reduce.or.v8i1(<8 x i1> [[TMP9]])
	; CHECK-NEXT: [[TMP11:%.*]] = call i1 @llvm.vector.reduce.or.v8i1(<8 x i1> [[TMP10]])			; CHECK-NEXT: ret i1 [[TMP10]]
	; CHECK-NEXT: ret i1 [[TMP11]]
	;			;
	entry:			entry:
	%0 = shl i64 0, 0			%0 = shl i64 0, 0
	%1 = add i64 0, 0			%1 = add i64 0, 0
	%2 = add i64 0, 0			%2 = add i64 0, 0
	%3 = or i64 %2, %1			%3 = or i64 %2, %1
	%cmp750 = icmp ult i64 %3, 0			%cmp750 = icmp ult i64 %3, 0
	%4 = or i64 %0, %1			%4 = or i64 %0, %1
	Show All 23 Lines

llvm/test/Transforms/SLPVectorizer/X86/gather-extractelements-different-bbs.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -S -passes=slp-vectorizer -mtriple=x86_64-unknown-linux -mattr="-avx512pf,+avx512f,+avx512bw" -slp-threshold=-100 -slp-min-tree-size=0 < %s \| FileCheck %s			; RUN: opt -S -passes=slp-vectorizer -mtriple=x86_64-unknown-linux -mattr="-avx512pf,+avx512f,+avx512bw" -slp-threshold=-100 -slp-min-tree-size=0 < %s \| FileCheck %s

	define i32 @foo(i32 %a) {			define i32 @foo(i32 %a) {
	; CHECK-LABEL: @foo(			; CHECK-LABEL: @foo(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x i32> <i32 0, i32 poison>, i32 [[A:%.]], i32 1			; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x i32> <i32 0, i32 poison>, i32 [[A:%.]], i32 1
	; CHECK-NEXT: [[TMP1:%.*]] = sub nsw <2 x i32> zeroinitializer, [[TMP0]]			; CHECK-NEXT: [[TMP1:%.*]] = sub nsw <2 x i32> zeroinitializer, [[TMP0]]
	; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <4 x i32> <i32 0, i32 0, i32 0, i32 1>			; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <4 x i32> <i32 0, i32 0, i32 0, i32 1>
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x i32> [[TMP2]], i32 0			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x i32> [[TMP2]], i32 0
	; CHECK-NEXT: br i1 false, label [[BB5:%.]], label [[BB1:%.]]			; CHECK-NEXT: br i1 false, label [[BB5:%.]], label [[BB1:%.]]
	; CHECK: bb1:			; CHECK: bb1:
	; CHECK-NEXT: [[TMP4:%.*]] = shufflevector <4 x i32> [[TMP2]], <4 x i32> poison, <2 x i32> <i32 0, i32 3>			; CHECK-NEXT: [[TMP4:%.*]] = mul <2 x i32> [[TMP1]], <i32 3, i32 1>
	; CHECK-NEXT: [[TMP5:%.*]] = mul <2 x i32> [[TMP4]], <i32 3, i32 1>			; CHECK-NEXT: [[TMP5:%.*]] = extractelement <2 x i32> [[TMP4]], i32 0
	; CHECK-NEXT: [[TMP6:%.*]] = extractelement <2 x i32> [[TMP5]], i32 0			; CHECK-NEXT: [[TMP6:%.*]] = extractelement <2 x i32> [[TMP4]], i32 1
	; CHECK-NEXT: [[TMP7:%.*]] = extractelement <2 x i32> [[TMP5]], i32 1			; CHECK-NEXT: [[OP_RDX10:%.*]] = add i32 [[TMP5]], [[TMP6]]
	; CHECK-NEXT: [[OP_RDX10:%.*]] = add i32 [[TMP6]], [[TMP7]]
	; CHECK-NEXT: [[OP_RDX11:%.*]] = add i32 [[OP_RDX10]], 0			; CHECK-NEXT: [[OP_RDX11:%.*]] = add i32 [[OP_RDX10]], 0
	; CHECK-NEXT: br label [[BB3:%.*]]			; CHECK-NEXT: br label [[BB3:%.*]]
	; CHECK: bb2:			; CHECK: bb2:
	; CHECK-NEXT: br label [[BB3]]			; CHECK-NEXT: br label [[BB3]]
	; CHECK: bb3:			; CHECK: bb3:
	; CHECK-NEXT: [[P1:%.]] = phi i32 [ [[OP_RDX11]], [[BB1]] ], [ 0, [[BB2:%.]] ]			; CHECK-NEXT: [[P1:%.]] = phi i32 [ [[OP_RDX11]], [[BB1]] ], [ 0, [[BB2:%.]] ]
	; CHECK-NEXT: ret i32 0			; CHECK-NEXT: ret i32 0
	; CHECK: bb4:			; CHECK: bb4:
	; CHECK-NEXT: [[TMP8:%.*]] = shufflevector <4 x i32> [[TMP2]], <4 x i32> poison, <4 x i32> zeroinitializer			; CHECK-NEXT: [[TMP7:%.*]] = shufflevector <2 x i32> [[TMP1]], <2 x i32> poison, <4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP9:%.*]] = add <4 x i32> [[TMP2]], [[TMP8]]			; CHECK-NEXT: [[TMP8:%.*]] = add <4 x i32> [[TMP2]], [[TMP7]]
	; CHECK-NEXT: [[TMP10:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> [[TMP9]])			; CHECK-NEXT: [[TMP9:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> [[TMP8]])
	; CHECK-NEXT: [[OP_RDX8:%.*]] = add i32 [[TMP10]], 0			; CHECK-NEXT: [[OP_RDX8:%.*]] = add i32 [[TMP9]], 0
	; CHECK-NEXT: [[OP_RDX9:%.*]] = add i32 [[OP_RDX8]], [[TMP3]]			; CHECK-NEXT: [[OP_RDX9:%.*]] = add i32 [[OP_RDX8]], [[TMP3]]
	; CHECK-NEXT: ret i32 [[OP_RDX9]]			; CHECK-NEXT: ret i32 [[OP_RDX9]]
	; CHECK: bb5:			; CHECK: bb5:
	; CHECK-NEXT: br label [[BB4:%.*]]			; CHECK-NEXT: br label [[BB4:%.*]]
	;			;
	entry:			entry:
	%0 = sub nsw i32 0, %a			%0 = sub nsw i32 0, %a
	%local = sub nsw i32 0, 0			%local = sub nsw i32 0, 0
	Show All 37 Lines

llvm/test/Transforms/SLPVectorizer/X86/lookahead.ll

	Show First 20 Lines • Show All 637 Lines • ▼ Show 20 Lines
	; 2-wide splat loads in x86 use a single instruction so they are quite cheap.			; 2-wide splat loads in x86 use a single instruction so they are quite cheap.
	define double @splat_loads(ptr %array1, ptr %array2, ptr %ptrA, ptr %ptrB) {			define double @splat_loads(ptr %array1, ptr %array2, ptr %ptrA, ptr %ptrB) {
	; SSE-LABEL: @splat_loads(			; SSE-LABEL: @splat_loads(
	; SSE-NEXT: entry:			; SSE-NEXT: entry:
	; SSE-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8			; SSE-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8
	; SSE-NEXT: [[TMP1:%.]] = load <2 x double>, ptr [[ARRAY2:%.]], align 8			; SSE-NEXT: [[TMP1:%.]] = load <2 x double>, ptr [[ARRAY2:%.]], align 8
	; SSE-NEXT: [[TMP2:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 0>			; SSE-NEXT: [[TMP2:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 0>
	; SSE-NEXT: [[TMP3:%.*]] = fmul <2 x double> [[TMP0]], [[TMP2]]			; SSE-NEXT: [[TMP3:%.*]] = fmul <2 x double> [[TMP0]], [[TMP2]]
	; SSE-NEXT: [[TMP4:%.*]] = shufflevector <2 x double> [[TMP2]], <2 x double> poison, <2 x i32> <i32 1, i32 0>			; SSE-NEXT: [[TMP4:%.*]] = fmul <2 x double> [[TMP0]], [[TMP1]]
	; SSE-NEXT: [[TMP5:%.*]] = fmul <2 x double> [[TMP0]], [[TMP4]]			; SSE-NEXT: [[TMP5:%.*]] = fadd <2 x double> [[TMP3]], [[TMP4]]
	; SSE-NEXT: [[TMP6:%.*]] = fadd <2 x double> [[TMP3]], [[TMP5]]			; SSE-NEXT: [[TMP6:%.*]] = extractelement <2 x double> [[TMP5]], i32 0
	; SSE-NEXT: [[TMP7:%.*]] = extractelement <2 x double> [[TMP6]], i32 0			; SSE-NEXT: [[TMP7:%.*]] = extractelement <2 x double> [[TMP5]], i32 1
	; SSE-NEXT: [[TMP8:%.*]] = extractelement <2 x double> [[TMP6]], i32 1			; SSE-NEXT: [[ADD3:%.*]] = fadd double [[TMP6]], [[TMP7]]
	; SSE-NEXT: [[ADD3:%.*]] = fadd double [[TMP7]], [[TMP8]]
	; SSE-NEXT: ret double [[ADD3]]			; SSE-NEXT: ret double [[ADD3]]
	;			;
	; AVX-LABEL: @splat_loads(			; AVX-LABEL: @splat_loads(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[GEP_2_1:%.]] = getelementptr inbounds double, ptr [[ARRAY2:%.]], i64 1			; AVX-NEXT: [[GEP_2_1:%.]] = getelementptr inbounds double, ptr [[ARRAY2:%.]], i64 1
	; AVX-NEXT: [[LD_2_0:%.*]] = load double, ptr [[ARRAY2]], align 8			; AVX-NEXT: [[LD_2_0:%.*]] = load double, ptr [[ARRAY2]], align 8
	; AVX-NEXT: [[LD_2_1:%.*]] = load double, ptr [[GEP_2_1]], align 8			; AVX-NEXT: [[LD_2_1:%.*]] = load double, ptr [[GEP_2_1]], align 8
	; AVX-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8			; AVX-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8
	Show All 35 Lines
	; Same as splat_loads() but the splat load has internal uses in the slp graph.			; Same as splat_loads() but the splat load has internal uses in the slp graph.
	define double @splat_loads_with_internal_uses(ptr %array1, ptr %array2, ptr %ptrA, ptr %ptrB) {			define double @splat_loads_with_internal_uses(ptr %array1, ptr %array2, ptr %ptrA, ptr %ptrB) {
	; SSE-LABEL: @splat_loads_with_internal_uses(			; SSE-LABEL: @splat_loads_with_internal_uses(
	; SSE-NEXT: entry:			; SSE-NEXT: entry:
	; SSE-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8			; SSE-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8
	; SSE-NEXT: [[TMP1:%.]] = load <2 x double>, ptr [[ARRAY2:%.]], align 8			; SSE-NEXT: [[TMP1:%.]] = load <2 x double>, ptr [[ARRAY2:%.]], align 8
	; SSE-NEXT: [[TMP2:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 0>			; SSE-NEXT: [[TMP2:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> <i32 1, i32 0>
	; SSE-NEXT: [[TMP3:%.*]] = fmul <2 x double> [[TMP0]], [[TMP2]]			; SSE-NEXT: [[TMP3:%.*]] = fmul <2 x double> [[TMP0]], [[TMP2]]
	; SSE-NEXT: [[TMP4:%.*]] = shufflevector <2 x double> [[TMP2]], <2 x double> poison, <2 x i32> <i32 1, i32 0>			; SSE-NEXT: [[TMP4:%.*]] = fmul <2 x double> [[TMP0]], [[TMP1]]
	; SSE-NEXT: [[TMP5:%.*]] = fmul <2 x double> [[TMP0]], [[TMP4]]			; SSE-NEXT: [[TMP5:%.*]] = fadd <2 x double> [[TMP3]], [[TMP4]]
	; SSE-NEXT: [[TMP6:%.*]] = fadd <2 x double> [[TMP3]], [[TMP5]]			; SSE-NEXT: [[TMP6:%.*]] = shufflevector <2 x double> [[TMP1]], <2 x double> poison, <2 x i32> zeroinitializer
	; SSE-NEXT: [[TMP7:%.*]] = shufflevector <2 x double> [[TMP2]], <2 x double> poison, <2 x i32> <i32 1, i32 1>			; SSE-NEXT: [[TMP7:%.*]] = fsub <2 x double> [[TMP5]], [[TMP6]]
	; SSE-NEXT: [[TMP8:%.*]] = fsub <2 x double> [[TMP6]], [[TMP7]]			; SSE-NEXT: [[TMP8:%.*]] = extractelement <2 x double> [[TMP7]], i32 0
	; SSE-NEXT: [[TMP9:%.*]] = extractelement <2 x double> [[TMP8]], i32 0			; SSE-NEXT: [[TMP9:%.*]] = extractelement <2 x double> [[TMP7]], i32 1
	; SSE-NEXT: [[TMP10:%.*]] = extractelement <2 x double> [[TMP8]], i32 1			; SSE-NEXT: [[RES:%.*]] = fadd double [[TMP8]], [[TMP9]]
	; SSE-NEXT: [[RES:%.*]] = fadd double [[TMP9]], [[TMP10]]
	; SSE-NEXT: ret double [[RES]]			; SSE-NEXT: ret double [[RES]]
	;			;
	; AVX-LABEL: @splat_loads_with_internal_uses(			; AVX-LABEL: @splat_loads_with_internal_uses(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[GEP_2_1:%.]] = getelementptr inbounds double, ptr [[ARRAY2:%.]], i64 1			; AVX-NEXT: [[GEP_2_1:%.]] = getelementptr inbounds double, ptr [[ARRAY2:%.]], i64 1
	; AVX-NEXT: [[LD_2_0:%.*]] = load double, ptr [[ARRAY2]], align 8			; AVX-NEXT: [[LD_2_0:%.*]] = load double, ptr [[ARRAY2]], align 8
	; AVX-NEXT: [[LD_2_1:%.*]] = load double, ptr [[GEP_2_1]], align 8			; AVX-NEXT: [[LD_2_1:%.*]] = load double, ptr [[GEP_2_1]], align 8
	; AVX-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8			; AVX-NEXT: [[TMP0:%.]] = load <2 x double>, ptr [[ARRAY1:%.]], align 8
	Show All 39 Lines

llvm/test/Transforms/SLPVectorizer/X86/reduction-logical.ll

	Show First 20 Lines • Show All 327 Lines • ▼ Show 20 Lines
	}			}

	define i1 @logical_and_icmp_clamp_v8i32(<8 x i32> %x, <8 x i32> %y) {			define i1 @logical_and_icmp_clamp_v8i32(<8 x i32> %x, <8 x i32> %y) {
	; CHECK-LABEL: @logical_and_icmp_clamp_v8i32(			; CHECK-LABEL: @logical_and_icmp_clamp_v8i32(
	; CHECK-NEXT: [[Y0:%.]] = extractelement <8 x i32> [[Y:%.]], i32 0			; CHECK-NEXT: [[Y0:%.]] = extractelement <8 x i32> [[Y:%.]], i32 0
	; CHECK-NEXT: [[Y1:%.*]] = extractelement <8 x i32> [[Y]], i32 1			; CHECK-NEXT: [[Y1:%.*]] = extractelement <8 x i32> [[Y]], i32 1
	; CHECK-NEXT: [[Y2:%.*]] = extractelement <8 x i32> [[Y]], i32 2			; CHECK-NEXT: [[Y2:%.*]] = extractelement <8 x i32> [[Y]], i32 2
	; CHECK-NEXT: [[Y3:%.*]] = extractelement <8 x i32> [[Y]], i32 3			; CHECK-NEXT: [[Y3:%.*]] = extractelement <8 x i32> [[Y]], i32 3
	; CHECK-NEXT: [[TMP1:%.]] = shufflevector <8 x i32> [[X:%.]], <8 x i32> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			; CHECK-NEXT: [[TMP1:%.]] = shufflevector <8 x i32> [[X:%.]], <8 x i32> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <8 x i32> [[X]], <8 x i32> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			; CHECK-NEXT: [[TMP2:%.*]] = insertelement <8 x i32> <i32 42, i32 42, i32 42, i32 42, i32 poison, i32 poison, i32 poison, i32 poison>, i32 [[Y0]], i32 4
	; CHECK-NEXT: [[TMP3:%.*]] = insertelement <8 x i32> <i32 42, i32 42, i32 42, i32 42, i32 poison, i32 poison, i32 poison, i32 poison>, i32 [[Y0]], i32 4			; CHECK-NEXT: [[TMP3:%.*]] = insertelement <8 x i32> [[TMP2]], i32 [[Y1]], i32 5
	; CHECK-NEXT: [[TMP4:%.*]] = insertelement <8 x i32> [[TMP3]], i32 [[Y1]], i32 5			; CHECK-NEXT: [[TMP4:%.*]] = insertelement <8 x i32> [[TMP3]], i32 [[Y2]], i32 6
	; CHECK-NEXT: [[TMP5:%.*]] = insertelement <8 x i32> [[TMP4]], i32 [[Y2]], i32 6			; CHECK-NEXT: [[TMP5:%.*]] = insertelement <8 x i32> [[TMP4]], i32 [[Y3]], i32 7
	; CHECK-NEXT: [[TMP6:%.*]] = insertelement <8 x i32> [[TMP5]], i32 [[Y3]], i32 7			; CHECK-NEXT: [[TMP6:%.*]] = icmp slt <8 x i32> [[TMP1]], [[TMP5]]
	; CHECK-NEXT: [[TMP7:%.*]] = icmp slt <8 x i32> [[TMP2]], [[TMP6]]			; CHECK-NEXT: [[TMP7:%.*]] = freeze <8 x i1> [[TMP6]]
	; CHECK-NEXT: [[TMP8:%.*]] = freeze <8 x i1> [[TMP7]]			; CHECK-NEXT: [[TMP8:%.*]] = call i1 @llvm.vector.reduce.and.v8i1(<8 x i1> [[TMP7]])
	; CHECK-NEXT: [[TMP9:%.*]] = call i1 @llvm.vector.reduce.and.v8i1(<8 x i1> [[TMP8]])			; CHECK-NEXT: ret i1 [[TMP8]]
	; CHECK-NEXT: ret i1 [[TMP9]]
	;			;
	%x0 = extractelement <8 x i32> %x, i32 0			%x0 = extractelement <8 x i32> %x, i32 0
	%x1 = extractelement <8 x i32> %x, i32 1			%x1 = extractelement <8 x i32> %x, i32 1
	%x2 = extractelement <8 x i32> %x, i32 2			%x2 = extractelement <8 x i32> %x, i32 2
	%x3 = extractelement <8 x i32> %x, i32 3			%x3 = extractelement <8 x i32> %x, i32 3
	%y0 = extractelement <8 x i32> %y, i32 0			%y0 = extractelement <8 x i32> %y, i32 0
	%y1 = extractelement <8 x i32> %y, i32 1			%y1 = extractelement <8 x i32> %y, i32 1
	%y2 = extractelement <8 x i32> %y, i32 2			%y2 = extractelement <8 x i32> %y, i32 2
	▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/vect-gather-same-nodes.ll

	Show All 12 Lines
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[TMP3:%.*]] = load float, ptr null, align 4			; CHECK-NEXT: [[TMP3:%.*]] = load float, ptr null, align 4
	; CHECK-NEXT: [[TMP4:%.]] = load <2 x float>, ptr [[A:%.]], align 4			; CHECK-NEXT: [[TMP4:%.]] = load <2 x float>, ptr [[A:%.]], align 4
	; CHECK-NEXT: [[TMP5:%.*]] = shufflevector <2 x float> [[TMP4]], <2 x float> poison, <4 x i32> <i32 0, i32 1, i32 0, i32 1>			; CHECK-NEXT: [[TMP5:%.*]] = shufflevector <2 x float> [[TMP4]], <2 x float> poison, <4 x i32> <i32 0, i32 1, i32 0, i32 1>
	; CHECK-NEXT: [[TMP6:%.*]] = insertelement <4 x float> [[TMP2]], float [[TMP0]], i32 3			; CHECK-NEXT: [[TMP6:%.*]] = insertelement <4 x float> [[TMP2]], float [[TMP0]], i32 3
	; CHECK-NEXT: [[TMP7:%.*]] = insertelement <4 x float> [[TMP6]], float [[TMP3]], i32 2			; CHECK-NEXT: [[TMP7:%.*]] = insertelement <4 x float> [[TMP6]], float [[TMP3]], i32 2
	; CHECK-NEXT: [[TMP8:%.*]] = fmul <4 x float> [[TMP5]], [[TMP7]]			; CHECK-NEXT: [[TMP8:%.*]] = fmul <4 x float> [[TMP5]], [[TMP7]]
	; CHECK-NEXT: [[TMP9:%.*]] = shufflevector <4 x float> [[TMP8]], <4 x float> poison, <4 x i32> <i32 1, i32 2, i32 3, i32 0>			; CHECK-NEXT: [[TMP9:%.*]] = shufflevector <4 x float> [[TMP8]], <4 x float> poison, <4 x i32> <i32 1, i32 2, i32 3, i32 0>
	; CHECK-NEXT: [[TMP10:%.*]] = shufflevector <4 x float> [[TMP5]], <4 x float> poison, <2 x i32> <i32 0, i32 1>			; CHECK-NEXT: [[TMP10:%.*]] = fmul <4 x float> [[TMP5]], zeroinitializer
	; CHECK-NEXT: [[TMP11:%.*]] = fmul <4 x float> [[TMP5]], zeroinitializer			; CHECK-NEXT: [[TMP11:%.*]] = fadd <4 x float> [[TMP9]], [[TMP10]]
	; CHECK-NEXT: [[TMP12:%.*]] = fadd <4 x float> [[TMP9]], [[TMP11]]			; CHECK-NEXT: [[TMP12:%.*]] = fadd <4 x float> [[TMP11]], zeroinitializer
	; CHECK-NEXT: [[TMP13:%.*]] = fadd <4 x float> [[TMP12]], zeroinitializer			; CHECK-NEXT: store <4 x float> [[TMP12]], ptr [[RESULT]], align 4
	; CHECK-NEXT: store <4 x float> [[TMP13]], ptr [[RESULT]], align 4
	; CHECK-NEXT: br label [[FOR_BODY]]			; CHECK-NEXT: br label [[FOR_BODY]]
	;			;
	entry:			entry:
	%result = alloca [4 x [4 x float]], i32 0, align 4			%result = alloca [4 x [4 x float]], i32 0, align 4
	%arrayidx11 = getelementptr [4 x [4 x float]], ptr %b, i64 0, i64 1			%arrayidx11 = getelementptr [4 x [4 x float]], ptr %b, i64 0, i64 1
	%0 = load float, ptr %arrayidx11, align 4			%0 = load float, ptr %arrayidx11, align 4
	%1 = load float, ptr null, align 4			%1 = load float, ptr null, align 4
	%arrayidx120 = getelementptr [4 x float], ptr %b, i64 0, i64 3			%arrayidx120 = getelementptr [4 x float], ptr %b, i64 0, i64 3
	Show All 33 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 505158

llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp

llvm/test/Transforms/SLPVectorizer/AArch64/vectorize-free-extracts-inserts.ll

llvm/test/Transforms/SLPVectorizer/X86/PR39774.ll

llvm/test/Transforms/SLPVectorizer/X86/buildvector-nodes-dependency.ll

llvm/test/Transforms/SLPVectorizer/X86/entries-different-vf.ll

llvm/test/Transforms/SLPVectorizer/X86/gather-extractelements-different-bbs.ll

llvm/test/Transforms/SLPVectorizer/X86/lookahead.ll

llvm/test/Transforms/SLPVectorizer/X86/reduction-logical.ll

llvm/test/Transforms/SLPVectorizer/X86/vect-gather-same-nodes.ll

[SLP]Remove CreateShuffle lambda and reuse ShuffleBuilder functions.
ClosedPublic