This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
7/11
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
avx-insertelt.ll
-
avx2-masked-gather.ll
8/13
avx512-insert-extract.ll
-
avx512-masked-memop-64-32.ll
2/2
insertelement-shuffle.ll
-
load-partial.ll
-
masked_expandload.ll
4
masked_gather.ll
-
masked_gather_scatter.ll
1/1
masked_load.ll
-
oddsubvector.ll
-
pr29112.ll
-
sse-insertelt-from-mem.ll
-
sse-insertelt.ll
-
vector-shuffle-avx512.ll
-
vector-shuffle-combining.ll
1
vselect.ll

Differential D105390

[X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend (PR50971)
ClosedPublic

Authored by lebedev.ri on Jul 3 2021, 1:07 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
spatel
efriedma

Commits

rG2078c4ecfda8: [X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend…

Summary

Broadcast is not worse than extract+insert of subvector.
https://godbolt.org/z/aPq98G6Yh

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	3,520 ms	x64 debian > libarcher.critical::critical.c
	3,220 ms	x64 debian > libarcher.parallel::parallel-simple2.c
	3,530 ms	x64 debian > libarcher.races::critical-unrelated.c
	3,270 ms	x64 debian > libarcher.races::lock-nested-unrelated.c
	3,490 ms	x64 debian > libarcher.races::lock-unrelated.c
		View Full Test Results (15 Failed)

Event Timeline

lebedev.ri created this revision.Jul 3 2021, 1:07 AM

Herald added subscribers: pengfei, hiraditya. · View Herald TranscriptJul 3 2021, 1:07 AM

lebedev.ri requested review of this revision.Jul 3 2021, 1:07 AM

Harbormaster completed remote builds in B112315: Diff 356331.Jul 3 2021, 1:46 AM

I think the premise is sound, but creating variable shuffle/blend masks isn't great - its also uncovering a number of other poor codegen issues that need addressing.

llvm/lib/Target/X86/X86ISelLowering.cpp
19038	Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of broadcasts, so casts are fine
llvm/test/CodeGen/X86/avx512-insert-extract.ll
13	Is it really worth loading a variable shuffle mask?
llvm/test/CodeGen/X86/insertelement-shuffle.ll
44	Any idea whats going on here?
llvm/test/CodeGen/X86/masked_load.ll
5649	This definitely looks like a regression

In D105390#2856736, @RKSimon wrote:

I think the premise is sound, but creating variable shuffle/blend masks isn't great - its also uncovering a number of other poor codegen issues that need addressing.

My main question is, presumably we only want to do this iff that is the only insertion into that 128-bit-wide subreg?

Addressing review notes:

Allow i32/i64 for AVX (just pretend they are f32/f64)
Only allow YMM vectors, disallow ZMM vectors
Disallow i8 even if we can handle it - we have to load mask

Add broadcast(extract_vector_elt(x, 0)) -> broadcast(x) fold, to address one more regression.

llvm/test/CodeGen/X86/insertelement-shuffle.ll

Optimized legalized selection DAG: %bb.0 'insert_subvector_512:'
SelectionDAG has 24 nodes:
  t0: ch = EntryToken
      t6: v4i64,ch = CopyFromReg t0, Register:v4i64 %2
                t2: i32,ch = CopyFromReg t0, Register:i32 %0
              t41: v4i32 = scalar_to_vector t2
              t4: i32,ch = CopyFromReg t0, Register:i32 %1
            t43: v4i32 = insert_vector_elt t41, t4, Constant:i64<1>
          t35: v2i64 = bitcast t43
        t36: i64 = extract_vector_elt t35, Constant:i64<0>
      t47: v4i64 = X86ISD::VBROADCAST t36
    t45: v4i64 = X86ISD::BLENDI t6, t47, TargetConstant:i8<4>
  t26: ch,glue = CopyToReg t0, Register:v4i64 $ymm0, t45
    t8: v4i64,ch = CopyFromReg t0, Register:v4i64 %3
  t28: ch,glue = CopyToReg t26, Register:v4i64 $ymm1, t8, t26:1
  t29: ch = X86ISD::RET_FLAG t28, TargetConstant:i32<0>, Register:v4i64 $ymm0, Register:v4i64 $ymm1, t28:1

We were missing broadcast(extract_vector_elt(x, 0)) -> broadcast(x) fold.

Harbormaster completed remote builds in B112338: Diff 356355.Jul 3 2021, 1:49 PM

Actually, AVX1 has no from-register broadcasts, only 32/64-bit from-memory broadcasts.
Not sure why i thought otherwise.

Harbormaster completed remote builds in B112349: Diff 356370.Jul 4 2021, 1:44 AM

RKSimon added inline comments.Jul 5 2021, 9:01 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19035	Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style guide.
19041	Use MayFoldLoad?
37722	We might need a legal type check on Src.getOperand(0) before introducing a target opcode?

Addressing nits.

Harbormaster completed remote builds in B112454: Diff 356515.Jul 5 2021, 10:07 AM

craig.topper added inline comments.Jul 6 2021, 10:24 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19045	X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector.

Addressing review nit.

craig.topper added inline comments.Jul 6 2021, 11:32 AM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Is this really better? I assume this what we get for an AVX2 target too. Not just KNL?

Harbormaster completed remote builds in B112660: Diff 356778.Jul 6 2021, 11:47 AM

lebedev.ri added inline comments.Jul 6 2021, 12:32 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll

690–707

Multi-insert case does seem questionable, yes. We could improve this via:

define <16 x i16> @src(<16 x i16> %x, i16 %y, i16* %ptr) {
  %val = load i16, i16* %ptr
  %r1 = insertelement <16 x i16> %x, i16 %val, i32 1
  %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
  ret <16 x i16> %r2
}
define <16 x i16> @tgt(<16 x i16> %x, i16 %y, i16* %ptr) {
  %val = load i16, i16* %ptr
  %r1 = insertelement <16 x i16> undef, i16 %val, i32 1
  %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
  %r3 = select <16 x i1> <i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <16 x i16> %x, <16 x i16> %r2
  ret <16 x i16> %r3
}

then we get

        .text
        .file   "test.ll"
        .globl  src                             # -- Begin function src
        .p2align        4, 0x90
        .type   src,@function
src:                                    # @src
        .cfi_startproc
# %bb.0:
        vpbroadcastw    (%rsi), %xmm1
        vpblendw        $2, %xmm1, %xmm0, %xmm1         # xmm1 = xmm0[0],xmm1[1],xmm0[2,3,4,5,6,7]
        vmovd   %edi, %xmm2
        vpbroadcastw    %xmm2, %ymm2
        vpblendw        $2, %ymm2, %ymm0, %ymm0         # ymm0 = ymm0[0],ymm2[1],ymm0[2,3,4,5,6,7,8],ymm2[9],ymm0[10,11,12,13,14,15]
        vpblendd        $240, %ymm0, %ymm1, %ymm0       # ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
        retq
.Lfunc_end0:
        .size   src, .Lfunc_end0-src
        .cfi_endproc
                                        # -- End function
        .globl  tgt                             # -- Begin function tgt
        .p2align        4, 0x90
        .type   tgt,@function
tgt:                                    # @tgt
        .cfi_startproc
# %bb.0:
        vpbroadcastw    (%rsi), %xmm1
        vmovd   %edi, %xmm2
        vpslld  $16, %xmm2, %xmm2
        vinserti128     $1, %xmm2, %ymm1, %ymm1
        vpblendw        $2, %ymm1, %ymm0, %ymm0         # ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
        retq
.Lfunc_end1:
        .size   tgt, .Lfunc_end1-tgt
        .cfi_endproc
                                        # -- End function
        .section        ".note.GNU-stack","",@progbits

lebedev.ri added inline comments.Jul 6 2021, 3:09 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	... something like D105514, but clearly that is also not as straight-forward. Thoughts?

craig.topper added inline comments.Jul 7 2021, 12:23 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast and 2 blends. But it turns out vpinsrw is slower than I realized on Haswell.
706	vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got on avx2 would be better. That's probably a separate issue in shuffle lowering/combining.
820	Again, I'd expect 2 blends to be better.

lebedev.ri marked an inline comment as done.Jul 7 2021, 12:32 PM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing this for lower subvector too?
706	Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess.

ping

RKSimon added inline comments.Jul 13 2021, 5:29 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
37724	do we get any changes in current tests if we pull this out as a preliminary patch?
llvm/test/CodeGen/X86/avx512-insert-extract.ll
706	The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off.

lebedev.ri marked an inline comment as done.Jul 13 2021, 5:30 AM

lebedev.ri added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
37724	Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate patch :/

RKSimon added inline comments.Jul 19 2021, 7:46 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical broadcasts?

lebedev.ri marked an inline comment as done.Jul 19 2021, 7:53 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/masked_gather.ll
1420	I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what would expect it to look like?

RKSimon added inline comments.Jul 19 2021, 9:28 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The IR looks like the gep is splatting the element 3 of the pointer array to every gather address.

lebedev.ri added inline comments.Jul 19 2021, 10:06 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are scalarized by `Scalarize Masked Memory Intrinsics (scalarize-masked-mem-intrin)` pass, which is a codegen pass, I'm not sure how we could do that in DAGCombine, since we only have a single bb at a time, and we don't have any heavy-lifting passes this late.

Is this waiting on some changes from my side?

Do we have any test coverage of repeated insertions of the same scalar into different elements? Either same subvector or different subvectors.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Did you have any luck testing broadcasts into lower subvector?

RKSimon mentioned this in rG15b883f45771: [X86][AVX] Adjust AllowBWIVPERMV3 tolerance to account for….Jul 25 2021, 6:06 AM

RKSimon added inline comments.Jul 25 2021, 6:23 AM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
706	rG15b883f45771 should address this

Rebased.

lebedev.ri marked 3 inline comments as done.Jul 25 2021, 6:59 AM

lebedev.ri marked an inline comment as done.Jul 25 2021, 7:21 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	I briefly looked at the test changes without high-subvector limitation, and the test changes aren't really obviously better, so i'm not really planning on touching that here.

In D105390#2902908, @RKSimon wrote:

Do we have any test coverage of repeated insertions of the same scalar into different elements? Either same subvector or different subvectors.

We do now, added to avx-insertelt.ll.

Harbormaster completed remote builds in B116073: Diff 361507.Jul 25 2021, 8:13 AM

RKSimon added inline comments.Jul 25 2021, 8:28 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19041	Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast.

Generalize profitability check somewhat.

llvm/lib/Target/X86/X86ISelLowering.cpp
19041	How about now?

Fixup check prefixes in vselect.ll

Also accept insertions into non-low part of YMM.
I don't know if the code is better, but if it is worse,
then we also need to filter out YMM ops in the multi-use check.

Harbormaster completed remote builds in B116087: Diff 361525.Jul 25 2021, 12:50 PM

lebedev.ri added a comment.Jul 26 2021, 6:22 AM

This comment was removed by lebedev.ri.

(sorry, wrong patch)

RKSimon added inline comments.Jul 27 2021, 2:23 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19008	It might be easier to read if you pull this out into a helper function/lamdba
llvm/test/CodeGen/X86/vselect.ll
617	whats going on here?

@RKSimon thank you for taking a look!
Thinking about it more, i am not okay with following https://reviews.llvm.org/D105390#inline-1016171
Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast. suggestion.
While that clearly results in improvements mostly, not all additional changes are wins per-se.
This is counter-productive. The relaxation is clearly separable from the existing diff.
I see no reason why it must be done at once.

I'm interested in looking into that later, but at the same time
i'm perfectly okay with not proceeding with this patch at all.
Thanks.

Harbormaster completed remote builds in B116454: Diff 362063.Jul 27 2021, 11:05 AM

lebedev.ri mentioned this in D107009: [WIP][X86] combineX86ShuffleChain(): canonicalize mask elts picking from splats.Jul 28 2021, 3:35 PM

bump

lebedev.ri mentioned this in rGf819e4c7d0f6: [X86] combineX86ShuffleChain(): canonicalize mask elts picking from splats.Aug 4 2021, 6:55 AM

Rebased, NFC.

Harbormaster completed remote builds in B117906: Diff 364102.Aug 4 2021, 7:59 AM

bump

Sorry for the delay - I'm happy for this to go in as a first step, are you intending to continue investigating multiple insertions?

llvm/lib/Target/X86/X86ISelLowering.cpp
19044	EltSizeInBits >= 32 ?

This revision is now accepted and ready to land.Aug 17 2021, 8:06 AM

In D105390#2949468, @RKSimon wrote:

Sorry for the delay - I'm happy for this to go in as a first step,

Thank you for the review!

are you intending to continue investigating multiple insertions?

I would like to look further into this, but right now i'm not sure what would be the best way to deal with those cases.

This revision was landed with ongoing or failed builds.Aug 17 2021, 8:45 AM

Closed by commit rG2078c4ecfda8: [X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend… (authored by lebedev.ri). · Explain Why

This revision was automatically updated to reflect the committed changes.

lebedev.ri added a commit: rG2078c4ecfda8: [X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend….

@lebedev.ri Are you looking at the https://bugs.llvm.org/show_bug.cgi?id=51615 regression due to this patch?

In D105390#2966823, @RKSimon wrote:

@lebedev.ri Are you looking at the https://bugs.llvm.org/show_bug.cgi?id=51615 regression due to this patch?

Yes, looking into this now.

lebedev.ri mentioned this in D108757: [X86][Codegen] PR51615: don't replace wide volatile load with narrow broadcast-from-memory.Aug 26 2021, 4:07 AM

lebedev.ri mentioned this in rGa8125bf4a869: [X86][Codegen] PR51615: don't replace wide volatile load with narrow broadcast….Aug 26 2021, 8:47 AM

lebedev.ri mentioned this in D108821: [Codegen][X86] EltsFromConsecutiveLoads(): if only have AVX1, ensure that the "load" is actually foldable (PR51615).Aug 27 2021, 7:48 AM

lebedev.ri mentioned this in rG6734018041e4: [Codegen][X86] EltsFromConsecutiveLoads(): if only have AVX1, ensure that the….Aug 27 2021, 10:27 AM

yubing mentioned this in D109348: [X86][AVX] Prohibit creating X86ISD::VBROADCAST(128->256) when it is AVX in combineConcatVectorOps.Sep 7 2021, 2:24 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

44 lines

test/

CodeGen/

X86/

avx-insertelt.ll

199 lines

avx2-masked-gather.ll

61 lines

avx512-insert-extract.ll

198 lines

avx512-masked-memop-64-32.ll

19 lines

insertelement-shuffle.ll

13 lines

load-partial.ll

20 lines

masked_expandload.ll

308 lines

masked_gather.ll

124 lines

masked_gather_scatter.ll

98 lines

masked_load.ll

245 lines

oddsubvector.ll

12 lines

pr29112.ll

57 lines

sse-insertelt-from-mem.ll

35 lines

sse-insertelt.ll

68 lines

vector-shuffle-avx512.ll

22 lines

vector-shuffle-combining.ll

9 lines

vselect.ll

41 lines

Diff 361525

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 18,974 Lines • ▼ Show 20 Lines	if ((IsZeroElt \|\| IsAllOnesElt) && Subtarget.hasSSE41() &&
SmallVector<int, 8> BlendMask;		SmallVector<int, 8> BlendMask;
for (unsigned i = 0; i != NumElts; ++i)		for (unsigned i = 0; i != NumElts; ++i)
BlendMask.push_back(i == IdxVal ? i + NumElts : i);		BlendMask.push_back(i == IdxVal ? i + NumElts : i);
SDValue CstVector = IsZeroElt ? getZeroVector(VT, Subtarget, DAG, dl)		SDValue CstVector = IsZeroElt ? getZeroVector(VT, Subtarget, DAG, dl)
: getOnesVector(VT, DAG, dl);		: getOnesVector(VT, DAG, dl);
return DAG.getVectorShuffle(VT, dl, N0, CstVector, BlendMask);		return DAG.getVectorShuffle(VT, dl, N0, CstVector, BlendMask);
}		}

		unsigned NumEltsIn128 = 128 / EltSizeInBits;
		assert(isPowerOf2_32(NumEltsIn128) &&
		"Vectors will always have power-of-two number of elements.");

		// If we have broadcast support for the given scalar type,
		// and it is profitable to do (either if we are inserting into the high part
		// of an YMM register, or the scalar has other uses, and all of them produce
		// a vector), then prefer the broadcast+blend sequence.
		if (((Subtarget.hasAVX2() && EltSizeInBits != 8) \|\|
		(Subtarget.hasAVX() && (EltSizeInBits == 32 \|\| EltSizeInBits == 64) &&
		ISD::isNormalLoad(N1.getNode()))) &&
		(N1->hasOneUse() ? (!VT.is128BitVector() && IdxVal >= NumEltsIn128)
		: all_of(N1->uses(), [](llvm::SDNode *U) {
		switch (U->getOpcode()) {
		case ISD::INSERT_VECTOR_ELT:
		case ISD::BUILD_VECTOR:
		case ISD::SCALAR_TO_VECTOR:
		case ISD::SPLAT_VECTOR:
		case X86ISD::VBROADCAST:
		case X86ISD::PINSRB:
		case X86ISD::PINSRW:
		case X86ISD::INSERTPS:
		case X86ISD::INSERTQI:
		return true;
		default:
		return false;
		RKSimonUnsubmitted Not Done Reply Inline Actions It might be easier to read if you pull this out into a helper function/lamdba RKSimon: It might be easier to read if you pull this out into a helper function/lamdba
		}
		}))) {
		SDValue N1SplatVec = DAG.getSplatBuildVector(VT, dl, N1);
		SmallVector<int, 8> BlendMask;
		for (unsigned i = 0; i != NumElts; ++i)
		Lint: Pre-merge checks Inline Actions clang-tidy: warning: invalid case style for variable 'i' [readability-identifier-naming] not useful Lint: Pre-merge checks: clang-tidy: warning: invalid case style for variable 'i' [readability-identifier-naming]…
		BlendMask.push_back(i == IdxVal ? i + NumElts : i);
		return DAG.getVectorShuffle(VT, dl, N0, N1SplatVec, BlendMask);
		}

// If the vector is wider than 128 bits, extract the 128-bit subvector, insert		// If the vector is wider than 128 bits, extract the 128-bit subvector, insert
// into that, and then insert the subvector back into the result.		// into that, and then insert the subvector back into the result.
if (VT.is256BitVector() \|\| VT.is512BitVector()) {		if (VT.is256BitVector() \|\| VT.is512BitVector()) {
// With a 256-bit vector, we can insert into the zero element efficiently		// With a 256-bit vector, we can insert into the zero element efficiently
// using a blend if we have AVX or AVX2 and the right data type.		// using a blend if we have AVX or AVX2 and the right data type.
if (VT.is256BitVector() && IdxVal == 0) {		if (VT.is256BitVector() && IdxVal == 0) {
// TODO: It is worthwhile to cast integer to floating point and back		// TODO: It is worthwhile to cast integer to floating point and back
// and incur a domain crossing penalty if that's what we'll end up		// and incur a domain crossing penalty if that's what we'll end up
// doing anyway after extracting to a 128-bit vector.		// doing anyway after extracting to a 128-bit vector.
if ((Subtarget.hasAVX() && (EltVT == MVT::f64 \|\| EltVT == MVT::f32)) \|\|		if ((Subtarget.hasAVX() && (EltVT == MVT::f64 \|\| EltVT == MVT::f32)) \|\|
(Subtarget.hasAVX2() && EltVT == MVT::i32)) {		(Subtarget.hasAVX2() && EltVT == MVT::i32)) {
SDValue N1Vec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, N1);		SDValue N1Vec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, N1);
return DAG.getNode(X86ISD::BLENDI, dl, VT, N0, N1Vec,		return DAG.getNode(X86ISD::BLENDI, dl, VT, N0, N1Vec,
DAG.getTargetConstant(1, dl, MVT::i8));		DAG.getTargetConstant(1, dl, MVT::i8));
}		}
}		}

// Get the desired 128-bit vector chunk.		// Get the desired 128-bit vector chunk.
		RKSimonUnsubmitted Done Reply Inline Actions Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style guide. RKSimon: Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style…
SDValue V = extract128BitVector(N0, IdxVal, DAG, dl);		SDValue V = extract128BitVector(N0, IdxVal, DAG, dl);

// Insert the element into the desired chunk.		// Insert the element into the desired chunk.
		RKSimonUnsubmitted Done Reply Inline Actions Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of broadcasts, so casts are fine RKSimon: Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of…
unsigned NumEltsIn128 = 128 / EltSizeInBits;
assert(isPowerOf2_32(NumEltsIn128));
// Since NumEltsIn128 is a power of 2 we can use mask instead of modulo.		// Since NumEltsIn128 is a power of 2 we can use mask instead of modulo.
unsigned IdxIn128 = IdxVal & (NumEltsIn128 - 1);		unsigned IdxIn128 = IdxVal & (NumEltsIn128 - 1);

		RKSimonUnsubmitted Done Reply Inline Actions Use MayFoldLoad? RKSimon: Use MayFoldLoad?
		RKSimonUnsubmitted Not Done Reply Inline Actions Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast. RKSimon: Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is…
		lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions How about now? lebedev.ri: How about now?
V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, V.getValueType(), V, N1,		V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, V.getValueType(), V, N1,
DAG.getIntPtrConstant(IdxIn128, dl));		DAG.getIntPtrConstant(IdxIn128, dl));

		RKSimonUnsubmitted Not Done Reply Inline Actions EltSizeInBits >= 32 ? RKSimon: EltSizeInBits >= 32 ?
// Insert the changed part back into the bigger vector		// Insert the changed part back into the bigger vector
		craig.topperUnsubmitted Done Reply Inline Actions X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector. craig.topper: X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector.
return insert128BitVector(N0, V, IdxVal, DAG, dl);		return insert128BitVector(N0, V, IdxVal, DAG, dl);
}		}
assert(VT.is128BitVector() && "Only 128-bit vector types should be left!");		assert(VT.is128BitVector() && "Only 128-bit vector types should be left!");

// This will be just movd/movq/movss/movsd.		// This will be just movd/movq/movss/movsd.
if (IdxVal == 0 && ISD::isBuildVectorAllZeros(N0.getNode())) {		if (IdxVal == 0 && ISD::isBuildVectorAllZeros(N0.getNode())) {
if (EltVT == MVT::i32 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64 \|\|		if (EltVT == MVT::i32 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64 \|\|
EltVT == MVT::i64) {		EltVT == MVT::i64) {
▲ Show 20 Lines • Show All 18,657 Lines • ▼ Show 20 Lines	case X86ISD::VBROADCAST: {
if (SrcVT.getSizeInBits() > 128)		if (SrcVT.getSizeInBits() > 128)
return DAG.getNode(X86ISD::VBROADCAST, DL, VT,		return DAG.getNode(X86ISD::VBROADCAST, DL, VT,
extract128BitVector(Src, 0, DAG, DL));		extract128BitVector(Src, 0, DAG, DL));

// broadcast(scalar_to_vector(x)) -> broadcast(x).		// broadcast(scalar_to_vector(x)) -> broadcast(x).
if (Src.getOpcode() == ISD::SCALAR_TO_VECTOR)		if (Src.getOpcode() == ISD::SCALAR_TO_VECTOR)
return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));		return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));

		// broadcast(extract_vector_elt(x, 0)) -> broadcast(x).
		if (Src.getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
		isNullConstant(Src.getOperand(1)) &&
		DAG.getTargetLoweringInfo().isTypeLegal(
		RKSimonUnsubmitted Done Reply Inline Actions We might need a legal type check on Src.getOperand(0) before introducing a target opcode? RKSimon: We might need a legal type check on Src.getOperand(0) before introducing a target opcode?
		Src.getOperand(0).getValueType()))
		return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));
		RKSimonUnsubmitted Done Reply Inline Actions do we get any changes in current tests if we pull this out as a preliminary patch? RKSimon: do we get any changes in current tests if we pull this out as a preliminary patch?
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate patch :/ lebedev.ri: Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate…

// Share broadcast with the longest vector and extract low subvector (free).		// Share broadcast with the longest vector and extract low subvector (free).
// Ensure the same SDValue from the SDNode use is being used.		// Ensure the same SDValue from the SDNode use is being used.
for (SDNode *User : Src->uses())		for (SDNode *User : Src->uses())
if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&		if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&
Src == User->getOperand(0) &&		Src == User->getOperand(0) &&
User->getValueSizeInBits(0).getFixedSize() >		User->getValueSizeInBits(0).getFixedSize() >
VT.getFixedSizeInBits()) {		VT.getFixedSizeInBits()) {
return extractSubVector(SDValue(User, 0), 0, DAG, DL,		return extractSubVector(SDValue(User, 0), 0, DAG, DL,
▲ Show 20 Lines • Show All 14,854 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-insertelt.ll

	Show First 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 0			%i0 = insertelement <4 x i64> %x, i64 %s, i32 0
	ret <4 x i64> %i0			ret <4 x i64> %i0
	}			}

	; 0'th element of high subvector insertion into an AVX register.			; 0'th element of high subvector insertion into an AVX register.

	define <8 x float> @insert_f32_firstelt_of_high_subvector(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_firstelt_of_high_subvector(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_firstelt_of_high_subvector:			; AVX-LABEL: insert_f32_firstelt_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm2[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm2[1,2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_firstelt_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 4			%i0 = insertelement <8 x float> %x, float %s, i32 4
	ret <8 x float> %i0			ret <8 x float> %i0
	}			}

	define <4 x double> @insert_f64_firstelt_of_high_subvector(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_firstelt_of_high_subvector(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_firstelt_of_high_subvector:			; AVX-LABEL: insert_f64_firstelt_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_firstelt_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 2			%i0 = insertelement <4 x double> %x, double %s, i32 2
	ret <4 x double> %i0			ret <4 x double> %i0
	}			}

	define <32 x i8> @insert_i8_firstelt_of_high_subvector(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_firstelt_of_high_subvector(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_firstelt_of_high_subvector:			; AVX-LABEL: insert_i8_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	Show All 16 Lines
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i16_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]
				; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 8			%i0 = insertelement <16 x i16> %x, i16 %s, i32 8
	ret <16 x i16> %i0			ret <16 x i16> %i0
	}			}

	define <8 x i32> @insert_i32_firstelt_of_high_subvector(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_firstelt_of_high_subvector(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_firstelt_of_high_subvector:			; AVX-LABEL: insert_i32_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i32_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 4			%i0 = insertelement <8 x i32> %x, i32 %s, i32 4
	ret <8 x i32> %i0			ret <8 x i32> %i0
	}			}

	define <4 x i64> @insert_i64_firstelt_of_high_subvector(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_firstelt_of_high_subvector(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_firstelt_of_high_subvector:			; AVX-LABEL: insert_i64_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i64_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 2			%i0 = insertelement <4 x i64> %x, i64 %s, i32 2
	ret <4 x i64> %i0			ret <4 x i64> %i0
	}			}

	; element insertion into 0'th element of both subvectors			; element insertion into 0'th element of both subvectors

	define <8 x float> @insert_f32_firstelts(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_firstelts(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_firstelts:			; AVX-LABEL: insert_f32_firstelts:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0],xmm0[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0],xmm0[1,2,3]
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_firstelts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4],ymm0[5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 0			%i0 = insertelement <8 x float> %x, float %s, i32 0
	%i1 = insertelement <8 x float> %i0, float %s, i32 4			%i1 = insertelement <8 x float> %i0, float %s, i32 4
	ret <8 x float> %i1			ret <8 x float> %i1
	}			}

	define <4 x double> @insert_f64_firstelts(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_firstelts(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_firstelts:			; AVX-LABEL: insert_f64_firstelts:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_firstelts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm1[1],ymm0[1],ymm1[3],ymm0[3]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 0			%i0 = insertelement <4 x double> %x, double %s, i32 0
	%i1 = insertelement <4 x double> %i0, double %s, i32 2			%i1 = insertelement <4 x double> %i0, double %s, i32 2
	ret <4 x double> %i1			ret <4 x double> %i1
	}			}

	define <32 x i8> @insert_i8_firstelts(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_firstelts(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_firstelts:			; AVX-LABEL: insert_i8_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	Show All 21 Lines
	; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_firstelts:			; AVX2-LABEL: insert_i16_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 0			%i0 = insertelement <16 x i16> %x, i16 %s, i32 0
	%i1 = insertelement <16 x i16> %i0, i16 %s, i32 8			%i1 = insertelement <16 x i16> %i0, i16 %s, i32 8
	ret <16 x i16> %i1			ret <16 x i16> %i1
	}			}

	define <8 x i32> @insert_i32_firstelts(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_firstelts(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_firstelts:			; AVX-LABEL: insert_i32_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_firstelts:			; AVX2-LABEL: insert_i32_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovd %edi, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 0			%i0 = insertelement <8 x i32> %x, i32 %s, i32 0
	%i1 = insertelement <8 x i32> %i0, i32 %s, i32 4			%i1 = insertelement <8 x i32> %i0, i32 %s, i32 4
	ret <8 x i32> %i1			ret <8 x i32> %i1
	}			}

	define <4 x i64> @insert_i64_firstelts(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_firstelts(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_firstelts:			; AVX-LABEL: insert_i64_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_firstelts:			; AVX2-LABEL: insert_i64_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm0 = ymm1[1],ymm0[1],ymm1[3],ymm0[3]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 0			%i0 = insertelement <4 x i64> %x, i64 %s, i32 0
	%i1 = insertelement <4 x i64> %i0, i64 %s, i32 2			%i1 = insertelement <4 x i64> %i0, i64 %s, i32 2
	ret <4 x i64> %i1			ret <4 x i64> %i1
	}			}

	; element insertion into two elements of high subvector			; element insertion into two elements of high subvector

	define <8 x float> @insert_f32_two_elts_of_high_subvector(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_two_elts_of_high_subvector(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_two_elts_of_high_subvector:			; AVX-LABEL: insert_f32_two_elts_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_two_elts_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 4			%i0 = insertelement <8 x float> %x, float %s, i32 4
	%i1 = insertelement <8 x float> %i0, float %s, i32 5			%i1 = insertelement <8 x float> %i0, float %s, i32 5
	ret <8 x float> %i1			ret <8 x float> %i1
	}			}

	define <4 x double> @insert_f64_two_elts_of_high_subvector(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_two_elts_of_high_subvector(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_two_elts_of_high_subvector:			; AVX-LABEL: insert_f64_two_elts_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]			; AVX-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_two_elts_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 2			%i0 = insertelement <4 x double> %x, double %s, i32 2
	%i1 = insertelement <4 x double> %i0, double %s, i32 3			%i1 = insertelement <4 x double> %i0, double %s, i32 3
	ret <4 x double> %i1			ret <4 x double> %i1
	}			}

	define <32 x i8> @insert_i8_two_elts_of_high_subvector(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_two_elts_of_high_subvector(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_two_elts_of_high_subvector:			; AVX-LABEL: insert_i8_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	Show All 21 Lines
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i16_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
	; AVX2-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 8			%i0 = insertelement <16 x i16> %x, i16 %s, i32 8
	%i1 = insertelement <16 x i16> %i0, i16 %s, i32 9			%i1 = insertelement <16 x i16> %i0, i16 %s, i32 9
	ret <16 x i16> %i1			ret <16 x i16> %i1
	}			}

	define <8 x i32> @insert_i32_two_elts_of_high_subvector(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_two_elts_of_high_subvector(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_two_elts_of_high_subvector:			; AVX-LABEL: insert_i32_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i32_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 4			%i0 = insertelement <8 x i32> %x, i32 %s, i32 4
	%i1 = insertelement <8 x i32> %i0, i32 %s, i32 5			%i1 = insertelement <8 x i32> %i0, i32 %s, i32 5
	ret <8 x i32> %i1			ret <8 x i32> %i1
	}			}

	define <4 x i64> @insert_i64_two_elts_of_high_subvector(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_two_elts_of_high_subvector(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_two_elts_of_high_subvector:			; AVX-LABEL: insert_i64_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i64_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 2			%i0 = insertelement <4 x i64> %x, i64 %s, i32 2
	%i1 = insertelement <4 x i64> %i0, i64 %s, i32 3			%i1 = insertelement <4 x i64> %i0, i64 %s, i32 3
	ret <4 x i64> %i1			ret <4 x i64> %i1
	}			}

	; element insertion into two elements of low subvector			; element insertion into two elements of low subvector

	define <8 x float> @insert_f32_two_elts_of_low_subvector(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_two_elts_of_low_subvector(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_two_elts_of_low_subvector:			; AVX-LABEL: insert_f32_two_elts_of_low_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]
	; ALL-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_two_elts_of_low_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 0			%i0 = insertelement <8 x float> %x, float %s, i32 0
	%i1 = insertelement <8 x float> %i0, float %s, i32 1			%i1 = insertelement <8 x float> %i0, float %s, i32 1
	ret <8 x float> %i1			ret <8 x float> %i1
	}			}

	define <4 x double> @insert_f64_two_elts_of_low_subvector(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_two_elts_of_low_subvector(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_two_elts_of_low_subvector:			; ALL-LABEL: insert_f64_two_elts_of_low_subvector:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	Show All 29 Lines
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1
	; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_two_elts_of_low_subvector:			; AVX2-LABEL: insert_i16_two_elts_of_low_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm1, %xmm1
				; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 0			%i0 = insertelement <16 x i16> %x, i16 %s, i32 0
	%i1 = insertelement <16 x i16> %i0, i16 %s, i32 1			%i1 = insertelement <16 x i16> %i0, i16 %s, i32 1
	ret <16 x i16> %i1			ret <16 x i16> %i1
	}			}

	define <8 x i32> @insert_i32_two_elts_of_low_subvector(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_two_elts_of_low_subvector(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_two_elts_of_low_subvector:			; AVX-LABEL: insert_i32_two_elts_of_low_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1
	; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_two_elts_of_low_subvector:			; AVX2-LABEL: insert_i32_two_elts_of_low_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovd %edi, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]			; AVX2-NEXT: vpbroadcastd %xmm1, %xmm1
	; AVX2-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5,6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 0			%i0 = insertelement <8 x i32> %x, i32 %s, i32 0
	%i1 = insertelement <8 x i32> %i0, i32 %s, i32 1			%i1 = insertelement <8 x i32> %i0, i32 %s, i32 1
	ret <8 x i32> %i1			ret <8 x i32> %i1
	}			}

	define <4 x i64> @insert_i64_two_elts_of_low_subvector(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_two_elts_of_low_subvector(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_two_elts_of_low_subvector:			; AVX-LABEL: insert_i64_two_elts_of_low_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1
	; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_two_elts_of_low_subvector:			; AVX2-LABEL: insert_i64_two_elts_of_low_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 0			%i0 = insertelement <4 x i64> %x, i64 %s, i32 0
	%i1 = insertelement <4 x i64> %i0, i64 %s, i32 1			%i1 = insertelement <4 x i64> %i0, i64 %s, i32 1
	ret <4 x i64> %i1			ret <4 x i64> %i1
	}			}

llvm/test/CodeGen/X86/avx2-masked-gather.ll

	Show First 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm0			; NOGATHER-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm0
	; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; NOGATHER-NEXT: .LBB6_8: # %else8			; NOGATHER-NEXT: .LBB6_8: # %else8
	; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0			; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0
	; NOGATHER-NEXT: testb $16, %al			; NOGATHER-NEXT: testb $16, %al
	; NOGATHER-NEXT: je .LBB6_10			; NOGATHER-NEXT: je .LBB6_10
	; NOGATHER-NEXT: # %bb.9: # %cond.load10			; NOGATHER-NEXT: # %bb.9: # %cond.load10
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $0, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB6_10: # %else11			; NOGATHER-NEXT: .LBB6_10: # %else11
	; NOGATHER-NEXT: testb $32, %al			; NOGATHER-NEXT: testb $32, %al
	; NOGATHER-NEXT: je .LBB6_12			; NOGATHER-NEXT: je .LBB6_12
	; NOGATHER-NEXT: # %bb.11: # %cond.load13			; NOGATHER-NEXT: # %bb.11: # %cond.load13
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $1, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB6_12: # %else14			; NOGATHER-NEXT: .LBB6_12: # %else14
	; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0			; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0
	; NOGATHER-NEXT: testb $64, %al			; NOGATHER-NEXT: testb $64, %al
	; NOGATHER-NEXT: jne .LBB6_13			; NOGATHER-NEXT: jne .LBB6_13
	; NOGATHER-NEXT: # %bb.14: # %else17			; NOGATHER-NEXT: # %bb.14: # %else17
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: jne .LBB6_15			; NOGATHER-NEXT: jne .LBB6_15
	; NOGATHER-NEXT: .LBB6_16: # %else20			; NOGATHER-NEXT: .LBB6_16: # %else20
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB6_13: # %cond.load16			; NOGATHER-NEXT: .LBB6_13: # %cond.load16
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $2, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: je .LBB6_16			; NOGATHER-NEXT: je .LBB6_16
	; NOGATHER-NEXT: .LBB6_15: # %cond.load19			; NOGATHER-NEXT: .LBB6_15: # %cond.load19
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastss (%rax), %ymm0
	; NOGATHER-NEXT: vpinsrd $3, (%rax), %xmm0, %xmm0			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm0[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <8 x i32>, <8 x i32>* %ptr			%ld = load <8 x i32>, <8 x i32>* %ptr
	%res = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ld, i32 0, <8 x i1> %masks, <8 x i32> %passthro)			%res = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ld, i32 0, <8 x i1> %masks, <8 x i32> %passthro)
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],mem[0]			; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],mem[0]
	; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; NOGATHER-NEXT: .LBB7_8: # %else8			; NOGATHER-NEXT: .LBB7_8: # %else8
	; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0			; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0
	; NOGATHER-NEXT: testb $16, %al			; NOGATHER-NEXT: testb $16, %al
	; NOGATHER-NEXT: je .LBB7_10			; NOGATHER-NEXT: je .LBB7_10
	; NOGATHER-NEXT: # %bb.9: # %cond.load10			; NOGATHER-NEXT: # %bb.9: # %cond.load10
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; NOGATHER-NEXT: vblendps {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB7_10: # %else11			; NOGATHER-NEXT: .LBB7_10: # %else11
	; NOGATHER-NEXT: testb $32, %al			; NOGATHER-NEXT: testb $32, %al
	; NOGATHER-NEXT: je .LBB7_12			; NOGATHER-NEXT: je .LBB7_12
	; NOGATHER-NEXT: # %bb.11: # %cond.load13			; NOGATHER-NEXT: # %bb.11: # %cond.load13
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB7_12: # %else14			; NOGATHER-NEXT: .LBB7_12: # %else14
	; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0			; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0
	; NOGATHER-NEXT: testb $64, %al			; NOGATHER-NEXT: testb $64, %al
	; NOGATHER-NEXT: jne .LBB7_13			; NOGATHER-NEXT: jne .LBB7_13
	; NOGATHER-NEXT: # %bb.14: # %else17			; NOGATHER-NEXT: # %bb.14: # %else17
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: jne .LBB7_15			; NOGATHER-NEXT: jne .LBB7_15
	; NOGATHER-NEXT: .LBB7_16: # %else20			; NOGATHER-NEXT: .LBB7_16: # %else20
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB7_13: # %cond.load16			; NOGATHER-NEXT: .LBB7_13: # %cond.load16
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: je .LBB7_16			; NOGATHER-NEXT: je .LBB7_16
	; NOGATHER-NEXT: .LBB7_15: # %cond.load19			; NOGATHER-NEXT: .LBB7_15: # %cond.load19
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastss (%rax), %ymm0
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm0[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <8 x float>, <8 x float>* %ptr			%ld = load <8 x float>, <8 x float>* %ptr
	%res = call <8 x float> @llvm.masked.gather.v8float(<8 x float*> %ld, i32 0, <8 x i1> %masks, <8 x float> %passthro)			%res = call <8 x float> @llvm.masked.gather.v8float(<8 x float*> %ld, i32 0, <8 x i1> %masks, <8 x float> %passthro)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: # %bb.6: # %else5			; NOGATHER-NEXT: # %bb.6: # %else5
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: jne .LBB8_7			; NOGATHER-NEXT: jne .LBB8_7
	; NOGATHER-NEXT: .LBB8_8: # %else8			; NOGATHER-NEXT: .LBB8_8: # %else8
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB8_5: # %cond.load4			; NOGATHER-NEXT: .LBB8_5: # %cond.load4
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastsd (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrq $0, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: je .LBB8_8			; NOGATHER-NEXT: je .LBB8_8
	; NOGATHER-NEXT: .LBB8_7: # %cond.load7			; NOGATHER-NEXT: .LBB8_7: # %cond.load7
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastsd (%rax), %ymm0
	; NOGATHER-NEXT: vpinsrq $1, (%rax), %xmm0, %xmm0			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm0[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <4 x i64>, <4 x i64>* %ptr			%ld = load <4 x i64>, <4 x i64>* %ptr
	%res = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %ld, i32 0, <4 x i1> %masks, <4 x i64> %passthro)			%res = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %ld, i32 0, <4 x i1> %masks, <4 x i64> %passthro)
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}

	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: # %bb.6: # %else5			; NOGATHER-NEXT: # %bb.6: # %else5
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: jne .LBB9_7			; NOGATHER-NEXT: jne .LBB9_7
	; NOGATHER-NEXT: .LBB9_8: # %else8			; NOGATHER-NEXT: .LBB9_8: # %else8
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB9_5: # %cond.load4			; NOGATHER-NEXT: .LBB9_5: # %cond.load4
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastsd (%rcx), %ymm2
	; NOGATHER-NEXT: vmovlps {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: je .LBB9_8			; NOGATHER-NEXT: je .LBB9_8
	; NOGATHER-NEXT: .LBB9_7: # %cond.load7			; NOGATHER-NEXT: .LBB9_7: # %cond.load7
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastsd (%rax), %ymm0
	; NOGATHER-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm0[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <4 x double>, <4 x double>* %ptr			%ld = load <4 x double>, <4 x double>* %ptr
	%res = call <4 x double> @llvm.masked.gather.v4double(<4 x double*> %ld, i32 0, <4 x i1> %masks, <4 x double> %passthro)			%res = call <4 x double> @llvm.masked.gather.v4double(<4 x double*> %ld, i32 0, <4 x i1> %masks, <4 x double> %passthro)
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	▲ Show 20 Lines • Show All 119 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-insert-extract.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f \| FileCheck --check-prefixes=CHECK,KNL %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f \| FileCheck --check-prefixes=CHECK,KNL %s
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq \| FileCheck --check-prefixes=CHECK,SKX %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq \| FileCheck --check-prefixes=CHECK,SKX %s
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq,+avx512vbmi \| FileCheck --check-prefixes=CHECK,SKX %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq,+avx512vbmi \| FileCheck --check-prefixes=CHECK,SKX %s

	define <16 x float> @test1(<16 x float> %x, float* %br, float %y) nounwind {			define <16 x float> @test1(<16 x float> %x, float* %br, float %y) nounwind {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm0[0],mem[0],xmm0[2,3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm0[0],mem[0],xmm0[2,3]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2			; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2
	; CHECK-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; CHECK-NEXT: vbroadcastss %xmm1, %zmm1
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]			; CHECK-NEXT: vmovaps {{.*#+}} zmm0 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,30,15]
	; CHECK-NEXT: vinsertf32x4 $3, %xmm0, %zmm2, %zmm0			; CHECK-NEXT: vpermi2ps %zmm1, %zmm2, %zmm0
				RKSimonUnsubmitted Done Reply Inline Actions Is it really worth loading a variable shuffle mask? RKSimon: Is it really worth loading a variable shuffle mask?
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%rrr = load float, float* %br			%rrr = load float, float* %br
	%rrr2 = insertelement <16 x float> %x, float %rrr, i32 1			%rrr2 = insertelement <16 x float> %x, float %rrr, i32 1
	%rrr3 = insertelement <16 x float> %rrr2, float %y, i32 14			%rrr3 = insertelement <16 x float> %rrr2, float %y, i32 14
	ret <16 x float> %rrr3			ret <16 x float> %rrr3
	}			}

	define <8 x double> @test2(<8 x double> %x, double* %br, double %y) nounwind {			define <8 x double> @test2(<8 x double> %x, double* %br, double %y) nounwind {
	; CHECK-LABEL: test2:			; KNL-LABEL: test2:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vmovhps {{.*#+}} xmm2 = xmm0[0,1],mem[0,1]			; KNL-NEXT: vmovhpd {{.*#+}} xmm2 = xmm0[0],mem[0]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2			; KNL-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm0
	; CHECK-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; KNL-NEXT: movb $64, %al
	; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinsertf32x4 $3, %xmm0, %zmm2, %zmm0			; KNL-NEXT: vbroadcastsd %xmm1, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: test2:
				; SKX: ## %bb.0:
				; SKX-NEXT: vmovhpd {{.*#+}} xmm2 = xmm0[0],mem[0]
				; SKX-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm0
				; SKX-NEXT: movb $64, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vbroadcastsd %xmm1, %zmm0 {%k1}
				; SKX-NEXT: retq
	%rrr = load double, double* %br			%rrr = load double, double* %br
	%rrr2 = insertelement <8 x double> %x, double %rrr, i32 1			%rrr2 = insertelement <8 x double> %x, double %rrr, i32 1
	%rrr3 = insertelement <8 x double> %rrr2, double %y, i32 6			%rrr3 = insertelement <8 x double> %rrr2, double %y, i32 6
	ret <8 x double> %rrr3			ret <8 x double> %rrr3
	}			}

	define <16 x float> @test3(<16 x float> %x) nounwind {			define <16 x float> @test3(<16 x float> %x) nounwind {
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	▲ Show 20 Lines • Show All 492 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r1 = extractelement <16 x i8> %x, i32 1			%r1 = extractelement <16 x i8> %x, i32 1
	%r2 = extractelement <16 x i8> %x, i32 3			%r2 = extractelement <16 x i8> %x, i32 3
	store i8 %r2, i8* %dst, align 1			store i8 %r2, i8* %dst, align 1
	ret i8 %r1			ret i8 %r1
	}			}

	define <8 x i64> @insert_v8i64(<8 x i64> %x, i64 %y , i64* %ptr) {			define <8 x i64> @insert_v8i64(<8 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v8i64:			; KNL-LABEL: insert_v8i64:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: movb $8, %al
	; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vpbroadcastq %rdi, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v8i64:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movb $8, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastq %rdi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <8 x i64> %x, i64 %val, i32 1			%r1 = insertelement <8 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3			%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3
	ret <8 x i64> %r2			ret <8 x i64> %r2
	}			}

	define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {			define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v4i64:			; KNL-LABEL: insert_v4i64:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0			; KNL-NEXT: vmovq %rdi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastq %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v4i64:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastq %rdi, %ymm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
				; SKX-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <4 x i64> %x, i64 %val, i32 1			%r1 = insertelement <4 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3			%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3
	ret <4 x i64> %r2			ret <4 x i64> %r2
	}			}

	define <2 x i64> @insert_v2i64(<2 x i64> %x, i64 %y , i64* %ptr) {			define <2 x i64> @insert_v2i64(<2 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v2i64:			; CHECK-LABEL: insert_v2i64:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; CHECK-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <2 x i64> %x, i64 %val, i32 1			%r1 = insertelement <2 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <2 x i64> %r1, i64 %y, i32 0			%r2 = insertelement <2 x i64> %r1, i64 %y, i32 0
	ret <2 x i64> %r2			ret <2 x i64> %r2
	}			}

	define <16 x i32> @insert_v16i32(<16 x i32> %x, i32 %y, i32* %ptr) {			define <16 x i32> @insert_v16i32(<16 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v16i32:			; KNL-LABEL: insert_v16i32:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: movw $32, %ax
	; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vpbroadcastd %edi, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v16i32:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movw $32, %ax
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastd %edi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <16 x i32> %x, i32 %val, i32 1			%r1 = insertelement <16 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5			%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5
	ret <16 x i32> %r2			ret <16 x i32> %r2
	}			}

	define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {			define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v8i32:			; KNL-LABEL: insert_v8i32:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastd %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm1[5],ymm0[6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v8i32:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastd %edi, %ymm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm1[5],ymm0[6,7]
				; SKX-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <8 x i32> %x, i32 %val, i32 1			%r1 = insertelement <8 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5			%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5
	ret <8 x i32> %r2			ret <8 x i32> %r2
	}			}

	define <4 x i32> @insert_v4i32(<4 x i32> %x, i32 %y, i32* %ptr) {			define <4 x i32> @insert_v4i32(<4 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v4i32:			; CHECK-LABEL: insert_v4i32:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <4 x i32> %x, i32 %val, i32 1			%r1 = insertelement <4 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3			%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3
	ret <4 x i32> %r2			ret <4 x i32> %r2
	}			}

	define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {			define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v32i16:			; KNL-LABEL: insert_v32i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm0
	; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vpbroadcastw %xmm0, %ymm0
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; CHECK-NEXT: retq			; KNL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v32i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movl $512, %eax ## imm = 0x200
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastw %edi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i16, i16* %ptr			%val = load i16, i16* %ptr
	%r1 = insertelement <32 x i16> %x, i16 %val, i32 1			%r1 = insertelement <32 x i16> %x, i16 %val, i32 1
	%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9			%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9
	ret <32 x i16> %r2			ret <32 x i16> %r2
	}			}

	define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {			define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v16i16:			; KNL-LABEL: insert_v16i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastw %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
				; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v16i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastw %edi, %ymm1
				; SKX-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				craig.topperUnsubmitted Done Reply Inline Actions vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got on avx2 would be better. That's probably a separate issue in shuffle lowering/combining. craig.topper: vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got…
				lebedev.riAuthorUnsubmitted Done Reply Inline Actions Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess. lebedev.ri: Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess.
				RKSimonUnsubmitted Done Reply Inline Actions The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off. RKSimon: The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off.
				RKSimonUnsubmitted Done Reply Inline Actions rG15b883f45771 should address this RKSimon: rG15b883f45771 should address this
				; SKX-NEXT: retq
				craig.topperUnsubmitted Not Done Reply Inline Actions Is this really better? I assume this what we get for an AVX2 target too. Not just KNL? craig.topper: Is this really better? I assume this what we get for an AVX2 target too. Not just KNL?
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Multi-insert case does seem questionable, yes. We could improve this via: define <16 x i16> @src(<16 x i16> %x, i16 %y, i16* %ptr) { %val = load i16, i16* %ptr %r1 = insertelement <16 x i16> %x, i16 %val, i32 1 %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9 ret <16 x i16> %r2 } define <16 x i16> @tgt(<16 x i16> %x, i16 %y, i16* %ptr) { %val = load i16, i16* %ptr %r1 = insertelement <16 x i16> undef, i16 %val, i32 1 %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9 %r3 = select <16 x i1> <i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <16 x i16> %x, <16 x i16> %r2 ret <16 x i16> %r3 } then we get .text .file "test.ll" .globl src # -- Begin function src .p2align 4, 0x90 .type src,@function src: # @src .cfi_startproc # %bb.0: vpbroadcastw (%rsi), %xmm1 vpblendw $2, %xmm1, %xmm0, %xmm1 # xmm1 = xmm0[0],xmm1[1],xmm0[2,3,4,5,6,7] vmovd %edi, %xmm2 vpbroadcastw %xmm2, %ymm2 vpblendw $2, %ymm2, %ymm0, %ymm0 # ymm0 = ymm0[0],ymm2[1],ymm0[2,3,4,5,6,7,8],ymm2[9],ymm0[10,11,12,13,14,15] vpblendd $240, %ymm0, %ymm1, %ymm0 # ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7] retq .Lfunc_end0: .size src, .Lfunc_end0-src .cfi_endproc # -- End function .globl tgt # -- Begin function tgt .p2align 4, 0x90 .type tgt,@function tgt: # @tgt .cfi_startproc # %bb.0: vpbroadcastw (%rsi), %xmm1 vmovd %edi, %xmm2 vpslld $16, %xmm2, %xmm2 vinserti128 $1, %xmm2, %ymm1, %ymm1 vpblendw $2, %ymm1, %ymm0, %ymm0 # ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15] retq .Lfunc_end1: .size tgt, .Lfunc_end1-tgt .cfi_endproc # -- End function .section ".note.GNU-stack","",@progbits lebedev.ri: Multi-insert case does seem questionable, yes. We could improve this via: ``` define <16 x i16>…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions ... something like D105514, but clearly that is also not as straight-forward. Thoughts? lebedev.ri: ... something like D105514, but clearly that is also not as straight-forward. Thoughts?
				craig.topperUnsubmitted Not Done Reply Inline Actions I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast and 2 blends. But it turns out vpinsrw is slower than I realized on Haswell. craig.topper: I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing this for lower subvector too? lebedev.ri: Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing…
				RKSimonUnsubmitted Done Reply Inline Actions Did you have any luck testing broadcasts into lower subvector? RKSimon: Did you have any luck testing broadcasts into lower subvector?
				lebedev.riAuthorUnsubmitted Done Reply Inline Actions I briefly looked at the test changes without high-subvector limitation, and the test changes aren't really obviously better, so i'm not really planning on touching that here. lebedev.ri: I briefly looked at the test changes without high-subvector limitation, and the test changes…
	%val = load i16, i16* %ptr			%val = load i16, i16* %ptr
	%r1 = insertelement <16 x i16> %x, i16 %val, i32 1			%r1 = insertelement <16 x i16> %x, i16 %val, i32 1
	%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9			%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
	ret <16 x i16> %r2			ret <16 x i16> %r2
	}			}

	define <8 x i16> @insert_v8i16(<8 x i16> %x, i16 %y, i16* %ptr) {			define <8 x i16> @insert_v8i16(<8 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v8i16:			; CHECK-LABEL: insert_v8i16:
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[2,3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[2,3]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm1, %zmm0, %zmm0			; CHECK-NEXT: vinsertf32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = insertelement <16 x float> %x, float %y, i32 1			%r = insertelement <16 x float> %x, float %y, i32 1
	ret <16 x float> %r			ret <16 x float> %r
	}			}

	define <16 x i16> @test_insert_128_v16i16(<16 x i16> %x, i16 %y) {			define <16 x i16> @test_insert_128_v16i16(<16 x i16> %x, i16 %y) {
	; CHECK-LABEL: test_insert_128_v16i16:			; KNL-LABEL: test_insert_128_v16i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vpinsrw $2, %edi, %xmm1, %xmm1			; KNL-NEXT: vpbroadcastw %xmm1, %ymm1
	; CHECK-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: test_insert_128_v16i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpbroadcastw %edi, %ymm1
				; SKX-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				craig.topperUnsubmitted Done Reply Inline Actions Again, I'd expect 2 blends to be better. craig.topper: Again, I'd expect 2 blends to be better.
				; SKX-NEXT: retq
	%r = insertelement <16 x i16> %x, i16 %y, i32 10			%r = insertelement <16 x i16> %x, i16 %y, i32 10
	ret <16 x i16> %r			ret <16 x i16> %r
	}			}

	define <32 x i8> @test_insert_128_v32i8(<32 x i8> %x, i8 %y) {			define <32 x i8> @test_insert_128_v32i8(<32 x i8> %x, i8 %y) {
	; CHECK-LABEL: test_insert_128_v32i8:			; CHECK-LABEL: test_insert_128_v32i8:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 1,514 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-masked-memop-64-32.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> %val, <8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false>)			call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> %val, <8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false>)
	ret void			ret void
	}			}

	define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {			define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {
	;			;
	; AVX512-LABEL: load_one_mask_bit_set5:			; AVX512F-LABEL: load_one_mask_bit_set5:
	; AVX512: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512F-NEXT: movb $-128, %al
	; AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; AVX512F-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512F-NEXT: retq
				;
				; SKX-LABEL: load_one_mask_bit_set5:
				; SKX: ## %bb.0:
				; SKX-NEXT: movb $-128, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; SKX-NEXT: retq
	%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)			%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	declare <16 x i32> @llvm.masked.load.v16i32.p0v16i32(<16 x i32>*, i32, <16 x i1>, <16 x i32>)			declare <16 x i32> @llvm.masked.load.v16i32.p0v16i32(<16 x i32>*, i32, <16 x i1>, <16 x i32>)
	declare void @llvm.masked.store.v16i32.p0v16i32(<16 x i32>, <16 x i32>*, i32, <16 x i1>)			declare void @llvm.masked.store.v16i32.p0v16i32(<16 x i32>, <16 x i32>*, i32, <16 x i1>)
	declare void @llvm.masked.store.v16f32.p0v16f32(<16 x float>, <16 x float>*, i32, <16 x i1>)			declare void @llvm.masked.store.v16f32.p0v16f32(<16 x float>, <16 x float>*, i32, <16 x i1>)
	declare <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float>*, i32, <16 x i1>, <16 x float>)			declare <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float>*, i32, <16 x i1>, <16 x float>)
	▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-shuffle.ll

Show All 24 Lines	; X64-NEXT: retq
%bc = bitcast <2 x i16> %ins2 to float		%bc = bitcast <2 x i16> %ins2 to float
%ins3 = insertelement <8 x float> %v, float %bc, i32 1		%ins3 = insertelement <8 x float> %v, float %bc, i32 1
ret <8 x float> %ins3		ret <8 x float> %ins3
}		}

define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {		define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {
; X86_AVX256-LABEL: insert_subvector_512:		; X86_AVX256-LABEL: insert_subvector_512:
; X86_AVX256: # %bb.0:		; X86_AVX256: # %bb.0:
; X86_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2		; X86_AVX256-NEXT: vbroadcastss {{[0-9]+}}(%esp), %ymm2
; X86_AVX256-NEXT: vpinsrd $0, {{[0-9]+}}(%esp), %xmm2, %xmm2		; X86_AVX256-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
; X86_AVX256-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm2, %xmm2		; X86_AVX256-NEXT: vbroadcastss {{[0-9]+}}(%esp), %ymm2
; X86_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0		; X86_AVX256-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5],ymm0[6,7]
; X86_AVX256-NEXT: retl		; X86_AVX256-NEXT: retl
;		;
; X64_AVX256-LABEL: insert_subvector_512:		; X64_AVX256-LABEL: insert_subvector_512:
; X64_AVX256: # %bb.0:		; X64_AVX256: # %bb.0:
; X64_AVX256-NEXT: vmovd %edi, %xmm2		; X64_AVX256-NEXT: vmovd %edi, %xmm2
; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2		; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2
; X64_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm3		; X64_AVX256-NEXT: vpbroadcastq %xmm2, %ymm2
; X64_AVX256-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3]		; X64_AVX256-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
		RKSimonUnsubmitted Done Reply Inline Actions Any idea whats going on here? RKSimon: Any idea whats going on here?
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Optimized legalized selection DAG: %bb.0 'insert_subvector_512:' SelectionDAG has 24 nodes: t0: ch = EntryToken t6: v4i64,ch = CopyFromReg t0, Register:v4i64 %2 t2: i32,ch = CopyFromReg t0, Register:i32 %0 t41: v4i32 = scalar_to_vector t2 t4: i32,ch = CopyFromReg t0, Register:i32 %1 t43: v4i32 = insert_vector_elt t41, t4, Constant:i64<1> t35: v2i64 = bitcast t43 t36: i64 = extract_vector_elt t35, Constant:i64<0> t47: v4i64 = X86ISD::VBROADCAST t36 t45: v4i64 = X86ISD::BLENDI t6, t47, TargetConstant:i8<4> t26: ch,glue = CopyToReg t0, Register:v4i64 $ymm0, t45 t8: v4i64,ch = CopyFromReg t0, Register:v4i64 %3 t28: ch,glue = CopyToReg t26, Register:v4i64 $ymm1, t8, t26:1 t29: ch = X86ISD::RET_FLAG t28, TargetConstant:i32<0>, Register:v4i64 $ymm0, Register:v4i64 $ymm1, t28:1 We were missing `broadcast(extract_vector_elt(x, 0)) -> broadcast(x)` fold. lebedev.ri: ``` Optimized legalized selection DAG: %bb.0 'insert_subvector_512:' SelectionDAG has 24 nodes…
; X64_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
; X64_AVX256-NEXT: retq		; X64_AVX256-NEXT: retq
;		;
; X86_AVX512-LABEL: insert_subvector_512:		; X86_AVX512-LABEL: insert_subvector_512:
; X86_AVX512: # %bb.0:		; X86_AVX512: # %bb.0:
; X86_AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; X86_AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; X86_AVX512-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,1,0,8,0,3,0,4,0,5,0,6,0,7,0]		; X86_AVX512-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,1,0,8,0,3,0,4,0,5,0,6,0,7,0]
; X86_AVX512-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; X86_AVX512-NEXT: vpermt2q %zmm1, %zmm2, %zmm0
; X86_AVX512-NEXT: retl		; X86_AVX512-NEXT: retl
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/load-partial.ll

	Show All 35 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: movups (%rdi), %xmm0			; SSE-NEXT: movups (%rdi), %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_float4_float3_0122:			; AVX-LABEL: load_float4_float3_0122:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX-NEXT: vbroadcastss 8(%rdi), %xmm0
	; AVX-NEXT: vmovups (%rdi), %xmm1			; AVX-NEXT: vblendps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%p0 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 0			%p0 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 0
	%p1 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 1			%p1 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 1
	%p2 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2			%p2 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2
	%ld0 = load float, float* %p0, align 4			%ld0 = load float, float* %p0, align 4
	%ld1 = load float, float* %p1, align 4			%ld1 = load float, float* %p1, align 4
	%ld2 = load float, float* %p2, align 4			%ld2 = load float, float* %p2, align 4
	%r0 = insertelement <4 x float> undef, float %ld0, i32 0			%r0 = insertelement <4 x float> undef, float %ld0, i32 0
	Show All 30 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: movups (%rdi), %xmm0			; SSE-NEXT: movups (%rdi), %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_float8_float3_0122:			; AVX-LABEL: load_float8_float3_0122:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX-NEXT: vbroadcastss 8(%rdi), %xmm0
	; AVX-NEXT: vmovups (%rdi), %xmm1			; AVX-NEXT: vblendps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%p0 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 0			%p0 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 0
	%p1 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 1			%p1 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 1
	%p2 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2			%p2 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2
	%ld0 = load float, float* %p0, align 4			%ld0 = load float, float* %p0, align 4
	%ld1 = load float, float* %p1, align 4			%ld1 = load float, float* %p1, align 4
	%ld2 = load float, float* %p2, align 4			%ld2 = load float, float* %p2, align 4
	%r0 = insertelement <8 x float> undef, float %ld0, i32 0			%r0 = insertelement <8 x float> undef, float %ld0, i32 0
	Show All 30 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_float4_float3_as_float2_float_0122:			; AVX-LABEL: load_float4_float3_as_float2_float_0122:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX-NEXT: vbroadcastss 8(%rdi), %xmm0
	; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX-NEXT: vmovlps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%2 = bitcast <4 x float>* %0 to <2 x float>*			%2 = bitcast <4 x float>* %0 to <2 x float>*
	%3 = load <2 x float>, <2 x float>* %2, align 4			%3 = load <2 x float>, <2 x float>* %2, align 4
	%4 = extractelement <2 x float> %3, i32 0			%4 = extractelement <2 x float> %3, i32 0
	%5 = insertelement <4 x float> undef, float %4, i32 0			%5 = insertelement <4 x float> undef, float %4, i32 0
	%6 = extractelement <2 x float> %3, i32 1			%6 = extractelement <2 x float> %3, i32 1
	%7 = insertelement <4 x float> %5, float %6, i32 1			%7 = insertelement <4 x float> %5, float %6, i32 1
	%8 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2			%8 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2
	Show All 36 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: movaps (%rdi), %xmm0			; SSE-NEXT: movaps (%rdi), %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_float4_float3_trunc_0122:			; AVX-LABEL: load_float4_float3_trunc_0122:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX-NEXT: vbroadcastss 8(%rdi), %xmm0
	; AVX-NEXT: vmovaps (%rdi), %xmm1			; AVX-NEXT: vblendps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0,0]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%2 = bitcast <4 x float>* %0 to i64*			%2 = bitcast <4 x float>* %0 to i64*
	%3 = load i64, i64* %2, align 16			%3 = load i64, i64* %2, align 16
	%4 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2			%4 = getelementptr inbounds <4 x float>, <4 x float>* %0, i64 0, i64 2
	%5 = bitcast float* %4 to i64*			%5 = bitcast float* %4 to i64*
	%6 = load i64, i64* %5, align 8			%6 = load i64, i64* %5, align 8
	%7 = trunc i64 %3 to i32			%7 = trunc i64 %3 to i32
	%8 = bitcast i32 %7 to float			%8 = bitcast i32 %7 to float
	▲ Show 20 Lines • Show All 185 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_expandload.ll

	Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB1_4			; AVX1-NEXT: je LBB1_4
	; AVX1-NEXT: LBB1_3: ## %cond.load1			; AVX1-NEXT: LBB1_3: ## %cond.load1
	; AVX1-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]			; AVX1-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]
	; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB1_6			; AVX1-NEXT: je LBB1_6
	; AVX1-NEXT: LBB1_5: ## %cond.load5			; AVX1-NEXT: LBB1_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX1-NEXT: vmovlpd (%rdi), %xmm1, %xmm1 ## xmm1 = mem[0],xmm1[1]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB1_8			; AVX1-NEXT: je LBB1_8
	; AVX1-NEXT: LBB1_7: ## %cond.load9			; AVX1-NEXT: LBB1_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm1 ## xmm1 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v4f64_v4i64:			; AVX2-LABEL: expandload_v4f64_v4i64:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpeqq %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpcmpeqq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vmovmskpd %ymm1, %eax			; AVX2-NEXT: vmovmskpd %ymm1, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	Show All 17 Lines
	; AVX2-NEXT: je LBB1_4			; AVX2-NEXT: je LBB1_4
	; AVX2-NEXT: LBB1_3: ## %cond.load1			; AVX2-NEXT: LBB1_3: ## %cond.load1
	; AVX2-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]			; AVX2-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]
	; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB1_6			; AVX2-NEXT: je LBB1_6
	; AVX2-NEXT: LBB1_5: ## %cond.load5			; AVX2-NEXT: LBB1_5: ## %cond.load5
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX2-NEXT: vmovlpd (%rdi), %xmm1, %xmm1 ## xmm1 = mem[0],xmm1[1]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB1_8			; AVX2-NEXT: je LBB1_8
	; AVX2-NEXT: LBB1_7: ## %cond.load9			; AVX2-NEXT: LBB1_7: ## %cond.load9
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX2-NEXT: vmovhpd (%rdi), %xmm1, %xmm1 ## xmm1 = xmm1[0],mem[0]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v4f64_v4i64:			; AVX512F-LABEL: expandload_v4f64_v4i64:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: ## kill: def $ymm1 killed $ymm1 def $zmm1			; AVX512F-NEXT: ## kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512F-NEXT: ## kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: ## kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vptestnmq %zmm1, %zmm1, %k0			; AVX512F-NEXT: vptestnmq %zmm1, %zmm1, %k0
	; AVX512F-NEXT: kshiftlw $12, %k0, %k0			; AVX512F-NEXT: kshiftlw $12, %k0, %k0
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB2_4			; AVX1-NEXT: je LBB2_4
	; AVX1-NEXT: LBB2_3: ## %cond.load1			; AVX1-NEXT: LBB2_3: ## %cond.load1
	; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB2_6			; AVX1-NEXT: je LBB2_6
	; AVX1-NEXT: LBB2_5: ## %cond.load5			; AVX1-NEXT: LBB2_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB2_8			; AVX1-NEXT: je LBB2_8
	; AVX1-NEXT: LBB2_7: ## %cond.load9			; AVX1-NEXT: LBB2_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB2_10			; AVX1-NEXT: je LBB2_10
	; AVX1-NEXT: LBB2_9: ## %cond.load13			; AVX1-NEXT: LBB2_9: ## %cond.load13
	; AVX1-NEXT: vmovsd (%rdi), %xmm2 ## xmm2 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm2 ## xmm2 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB2_12			; AVX1-NEXT: je LBB2_12
	; AVX1-NEXT: LBB2_11: ## %cond.load17			; AVX1-NEXT: LBB2_11: ## %cond.load17
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB2_14			; AVX1-NEXT: je LBB2_14
	; AVX1-NEXT: LBB2_13: ## %cond.load21			; AVX1-NEXT: LBB2_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB2_16			; AVX1-NEXT: je LBB2_16
	; AVX1-NEXT: LBB2_15: ## %cond.load25			; AVX1-NEXT: LBB2_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v8f64_v8i1:			; AVX2-LABEL: expandload_v8f64_v8i1:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsllw $15, %xmm2, %xmm2			; AVX2-NEXT: vpsllw $15, %xmm2, %xmm2
	; AVX2-NEXT: vpacksswb %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpacksswb %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpmovmskb %xmm2, %eax			; AVX2-NEXT: vpmovmskb %xmm2, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	Show All 29 Lines
	; AVX2-NEXT: je LBB2_4			; AVX2-NEXT: je LBB2_4
	; AVX2-NEXT: LBB2_3: ## %cond.load1			; AVX2-NEXT: LBB2_3: ## %cond.load1
	; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB2_6			; AVX2-NEXT: je LBB2_6
	; AVX2-NEXT: LBB2_5: ## %cond.load5			; AVX2-NEXT: LBB2_5: ## %cond.load5
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB2_8			; AVX2-NEXT: je LBB2_8
	; AVX2-NEXT: LBB2_7: ## %cond.load9			; AVX2-NEXT: LBB2_7: ## %cond.load9
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB2_10			; AVX2-NEXT: je LBB2_10
	; AVX2-NEXT: LBB2_9: ## %cond.load13			; AVX2-NEXT: LBB2_9: ## %cond.load13
	; AVX2-NEXT: vmovq (%rdi), %xmm2 ## xmm2 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm2 ## xmm2 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB2_12			; AVX2-NEXT: je LBB2_12
	; AVX2-NEXT: LBB2_11: ## %cond.load17			; AVX2-NEXT: LBB2_11: ## %cond.load17
	; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB2_14			; AVX2-NEXT: je LBB2_14
	; AVX2-NEXT: LBB2_13: ## %cond.load21			; AVX2-NEXT: LBB2_13: ## %cond.load21
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB2_16			; AVX2-NEXT: je LBB2_16
	; AVX2-NEXT: LBB2_15: ## %cond.load25			; AVX2-NEXT: LBB2_15: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v8f64_v8i1:			; AVX512F-LABEL: expandload_v8f64_v8i1:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpmovsxwq %xmm1, %zmm1			; AVX512F-NEXT: vpmovsxwq %xmm1, %zmm1
	; AVX512F-NEXT: vpsllq $63, %zmm1, %zmm1			; AVX512F-NEXT: vpsllq $63, %zmm1, %zmm1
	; AVX512F-NEXT: vptestmq %zmm1, %zmm1, %k1			; AVX512F-NEXT: vptestmq %zmm1, %zmm1, %k1
	; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k1}			; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k1}
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB3_4			; AVX1-NEXT: je LBB3_4
	; AVX1-NEXT: LBB3_3: ## %cond.load1			; AVX1-NEXT: LBB3_3: ## %cond.load1
	; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB3_6			; AVX1-NEXT: je LBB3_6
	; AVX1-NEXT: LBB3_5: ## %cond.load5			; AVX1-NEXT: LBB3_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB3_8			; AVX1-NEXT: je LBB3_8
	; AVX1-NEXT: LBB3_7: ## %cond.load9			; AVX1-NEXT: LBB3_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB3_10			; AVX1-NEXT: je LBB3_10
	; AVX1-NEXT: LBB3_9: ## %cond.load13			; AVX1-NEXT: LBB3_9: ## %cond.load13
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB3_12			; AVX1-NEXT: je LBB3_12
	; AVX1-NEXT: LBB3_11: ## %cond.load17			; AVX1-NEXT: LBB3_11: ## %cond.load17
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB3_14			; AVX1-NEXT: je LBB3_14
	; AVX1-NEXT: LBB3_13: ## %cond.load21			; AVX1-NEXT: LBB3_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4,5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB3_16			; AVX1-NEXT: je LBB3_16
	; AVX1-NEXT: LBB3_15: ## %cond.load25			; AVX1-NEXT: LBB3_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $256, %eax ## imm = 0x100			; AVX1-NEXT: testl $256, %eax ## imm = 0x100
	; AVX1-NEXT: je LBB3_18			; AVX1-NEXT: je LBB3_18
	; AVX1-NEXT: LBB3_17: ## %cond.load29			; AVX1-NEXT: LBB3_17: ## %cond.load29
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $512, %eax ## imm = 0x200			; AVX1-NEXT: testl $512, %eax ## imm = 0x200
	; AVX1-NEXT: je LBB3_20			; AVX1-NEXT: je LBB3_20
	; AVX1-NEXT: LBB3_19: ## %cond.load33			; AVX1-NEXT: LBB3_19: ## %cond.load33
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $1024, %eax ## imm = 0x400			; AVX1-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX1-NEXT: je LBB3_22			; AVX1-NEXT: je LBB3_22
	; AVX1-NEXT: LBB3_21: ## %cond.load37			; AVX1-NEXT: LBB3_21: ## %cond.load37
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $2048, %eax ## imm = 0x800			; AVX1-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX1-NEXT: je LBB3_24			; AVX1-NEXT: je LBB3_24
	; AVX1-NEXT: LBB3_23: ## %cond.load41			; AVX1-NEXT: LBB3_23: ## %cond.load41
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX1-NEXT: je LBB3_26			; AVX1-NEXT: je LBB3_26
	; AVX1-NEXT: LBB3_25: ## %cond.load45			; AVX1-NEXT: LBB3_25: ## %cond.load45
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX1-NEXT: je LBB3_28			; AVX1-NEXT: je LBB3_28
	; AVX1-NEXT: LBB3_27: ## %cond.load49			; AVX1-NEXT: LBB3_27: ## %cond.load49
	; AVX1-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX1-NEXT: je LBB3_30			; AVX1-NEXT: je LBB3_30
	; AVX1-NEXT: LBB3_29: ## %cond.load53			; AVX1-NEXT: LBB3_29: ## %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX1-NEXT: je LBB3_32			; AVX1-NEXT: je LBB3_32
	; AVX1-NEXT: LBB3_31: ## %cond.load57			; AVX1-NEXT: LBB3_31: ## %cond.load57
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v16f64_v16i32:			; AVX2-LABEL: expandload_v16f64_v16i32:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm6, %xmm6, %xmm6			; AVX2-NEXT: vpxor %xmm6, %xmm6, %xmm6
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm4, %ymm4
	; AVX2-NEXT: vpackssdw %ymm5, %ymm4, %ymm4			; AVX2-NEXT: vpackssdw %ymm5, %ymm4, %ymm4
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: je LBB3_4			; AVX2-NEXT: je LBB3_4
	; AVX2-NEXT: LBB3_3: ## %cond.load1			; AVX2-NEXT: LBB3_3: ## %cond.load1
	; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB3_6			; AVX2-NEXT: je LBB3_6
	; AVX2-NEXT: LBB3_5: ## %cond.load5			; AVX2-NEXT: LBB3_5: ## %cond.load5
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB3_8			; AVX2-NEXT: je LBB3_8
	; AVX2-NEXT: LBB3_7: ## %cond.load9			; AVX2-NEXT: LBB3_7: ## %cond.load9
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB3_10			; AVX2-NEXT: je LBB3_10
	; AVX2-NEXT: LBB3_9: ## %cond.load13			; AVX2-NEXT: LBB3_9: ## %cond.load13
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB3_12			; AVX2-NEXT: je LBB3_12
	; AVX2-NEXT: LBB3_11: ## %cond.load17			; AVX2-NEXT: LBB3_11: ## %cond.load17
	; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB3_14			; AVX2-NEXT: je LBB3_14
	; AVX2-NEXT: LBB3_13: ## %cond.load21			; AVX2-NEXT: LBB3_13: ## %cond.load21
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4,5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB3_16			; AVX2-NEXT: je LBB3_16
	; AVX2-NEXT: LBB3_15: ## %cond.load25			; AVX2-NEXT: LBB3_15: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB3_18			; AVX2-NEXT: je LBB3_18
	; AVX2-NEXT: LBB3_17: ## %cond.load29			; AVX2-NEXT: LBB3_17: ## %cond.load29
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	; AVX2-NEXT: je LBB3_20			; AVX2-NEXT: je LBB3_20
	; AVX2-NEXT: LBB3_19: ## %cond.load33			; AVX2-NEXT: LBB3_19: ## %cond.load33
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $1024, %eax ## imm = 0x400			; AVX2-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX2-NEXT: je LBB3_22			; AVX2-NEXT: je LBB3_22
	; AVX2-NEXT: LBB3_21: ## %cond.load37			; AVX2-NEXT: LBB3_21: ## %cond.load37
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $2048, %eax ## imm = 0x800			; AVX2-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX2-NEXT: je LBB3_24			; AVX2-NEXT: je LBB3_24
	; AVX2-NEXT: LBB3_23: ## %cond.load41			; AVX2-NEXT: LBB3_23: ## %cond.load41
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB3_26			; AVX2-NEXT: je LBB3_26
	; AVX2-NEXT: LBB3_25: ## %cond.load45			; AVX2-NEXT: LBB3_25: ## %cond.load45
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB3_28			; AVX2-NEXT: je LBB3_28
	; AVX2-NEXT: LBB3_27: ## %cond.load49			; AVX2-NEXT: LBB3_27: ## %cond.load49
	; AVX2-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB3_30			; AVX2-NEXT: je LBB3_30
	; AVX2-NEXT: LBB3_29: ## %cond.load53			; AVX2-NEXT: LBB3_29: ## %cond.load53
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB3_32			; AVX2-NEXT: je LBB3_32
	; AVX2-NEXT: LBB3_31: ## %cond.load57			; AVX2-NEXT: LBB3_31: ## %cond.load57
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v16f64_v16i32:			; AVX512F-LABEL: expandload_v16f64_v16i32:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-NEXT: vptestnmd %zmm3, %zmm3, %k1			; AVX512F-NEXT: vptestnmd %zmm3, %zmm3, %k1
	; AVX512F-NEXT: vptestnmd %zmm2, %zmm2, %k2			; AVX512F-NEXT: vptestnmd %zmm2, %zmm2, %k2
	; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k2}			; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k2}
	▲ Show 20 Lines • Show All 1,150 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB8_8			; AVX1-NEXT: je LBB8_8
	; AVX1-NEXT: LBB8_7: ## %cond.load9			; AVX1-NEXT: LBB8_7: ## %cond.load9
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB8_10			; AVX1-NEXT: je LBB8_10
	; AVX1-NEXT: LBB8_9: ## %cond.load13			; AVX1-NEXT: LBB8_9: ## %cond.load13
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4],ymm0[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB8_12			; AVX1-NEXT: je LBB8_12
	; AVX1-NEXT: LBB8_11: ## %cond.load17			; AVX1-NEXT: LBB8_11: ## %cond.load17
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB8_14			; AVX1-NEXT: je LBB8_14
	; AVX1-NEXT: LBB8_13: ## %cond.load21			; AVX1-NEXT: LBB8_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6],ymm0[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB8_16			; AVX1-NEXT: je LBB8_16
	; AVX1-NEXT: LBB8_15: ## %cond.load25			; AVX1-NEXT: LBB8_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $256, %eax ## imm = 0x100			; AVX1-NEXT: testl $256, %eax ## imm = 0x100
	; AVX1-NEXT: je LBB8_18			; AVX1-NEXT: je LBB8_18
	; AVX1-NEXT: LBB8_17: ## %cond.load29			; AVX1-NEXT: LBB8_17: ## %cond.load29
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $512, %eax ## imm = 0x200			; AVX1-NEXT: testl $512, %eax ## imm = 0x200
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_24			; AVX1-NEXT: je LBB8_24
	; AVX1-NEXT: LBB8_23: ## %cond.load41			; AVX1-NEXT: LBB8_23: ## %cond.load41
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX1-NEXT: je LBB8_26			; AVX1-NEXT: je LBB8_26
	; AVX1-NEXT: LBB8_25: ## %cond.load45			; AVX1-NEXT: LBB8_25: ## %cond.load45
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4],ymm1[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX1-NEXT: je LBB8_28			; AVX1-NEXT: je LBB8_28
	; AVX1-NEXT: LBB8_27: ## %cond.load49			; AVX1-NEXT: LBB8_27: ## %cond.load49
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm4[5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX1-NEXT: je LBB8_30			; AVX1-NEXT: je LBB8_30
	; AVX1-NEXT: LBB8_29: ## %cond.load53			; AVX1-NEXT: LBB8_29: ## %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6],ymm1[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX1-NEXT: je LBB8_32			; AVX1-NEXT: je LBB8_32
	; AVX1-NEXT: LBB8_31: ## %cond.load57			; AVX1-NEXT: LBB8_31: ## %cond.load57
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX1-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX1-NEXT: je LBB8_34			; AVX1-NEXT: je LBB8_34
	; AVX1-NEXT: LBB8_33: ## %cond.load61			; AVX1-NEXT: LBB8_33: ## %cond.load61
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX1-NEXT: testl $131072, %eax ## imm = 0x20000
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_40			; AVX1-NEXT: je LBB8_40
	; AVX1-NEXT: LBB8_39: ## %cond.load73			; AVX1-NEXT: LBB8_39: ## %cond.load73
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $1048576, %eax ## imm = 0x100000			; AVX1-NEXT: testl $1048576, %eax ## imm = 0x100000
	; AVX1-NEXT: je LBB8_42			; AVX1-NEXT: je LBB8_42
	; AVX1-NEXT: LBB8_41: ## %cond.load77			; AVX1-NEXT: LBB8_41: ## %cond.load77
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4],ymm2[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $2097152, %eax ## imm = 0x200000			; AVX1-NEXT: testl $2097152, %eax ## imm = 0x200000
	; AVX1-NEXT: je LBB8_44			; AVX1-NEXT: je LBB8_44
	; AVX1-NEXT: LBB8_43: ## %cond.load81			; AVX1-NEXT: LBB8_43: ## %cond.load81
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm4[5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $4194304, %eax ## imm = 0x400000			; AVX1-NEXT: testl $4194304, %eax ## imm = 0x400000
	; AVX1-NEXT: je LBB8_46			; AVX1-NEXT: je LBB8_46
	; AVX1-NEXT: LBB8_45: ## %cond.load85			; AVX1-NEXT: LBB8_45: ## %cond.load85
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6],ymm2[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $8388608, %eax ## imm = 0x800000			; AVX1-NEXT: testl $8388608, %eax ## imm = 0x800000
	; AVX1-NEXT: je LBB8_48			; AVX1-NEXT: je LBB8_48
	; AVX1-NEXT: LBB8_47: ## %cond.load89			; AVX1-NEXT: LBB8_47: ## %cond.load89
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $16777216, %eax ## imm = 0x1000000			; AVX1-NEXT: testl $16777216, %eax ## imm = 0x1000000
	; AVX1-NEXT: je LBB8_50			; AVX1-NEXT: je LBB8_50
	; AVX1-NEXT: LBB8_49: ## %cond.load93			; AVX1-NEXT: LBB8_49: ## %cond.load93
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $33554432, %eax ## imm = 0x2000000			; AVX1-NEXT: testl $33554432, %eax ## imm = 0x2000000
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_56			; AVX1-NEXT: je LBB8_56
	; AVX1-NEXT: LBB8_55: ## %cond.load105			; AVX1-NEXT: LBB8_55: ## %cond.load105
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $268435456, %eax ## imm = 0x10000000			; AVX1-NEXT: testl $268435456, %eax ## imm = 0x10000000
	; AVX1-NEXT: je LBB8_58			; AVX1-NEXT: je LBB8_58
	; AVX1-NEXT: LBB8_57: ## %cond.load109			; AVX1-NEXT: LBB8_57: ## %cond.load109
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $536870912, %eax ## imm = 0x20000000			; AVX1-NEXT: testl $536870912, %eax ## imm = 0x20000000
	; AVX1-NEXT: je LBB8_60			; AVX1-NEXT: je LBB8_60
	; AVX1-NEXT: LBB8_59: ## %cond.load113			; AVX1-NEXT: LBB8_59: ## %cond.load113
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $1073741824, %eax ## imm = 0x40000000			; AVX1-NEXT: testl $1073741824, %eax ## imm = 0x40000000
	; AVX1-NEXT: je LBB8_62			; AVX1-NEXT: je LBB8_62
	; AVX1-NEXT: LBB8_61: ## %cond.load117			; AVX1-NEXT: LBB8_61: ## %cond.load117
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $-2147483648, %eax ## imm = 0x80000000			; AVX1-NEXT: testl $-2147483648, %eax ## imm = 0x80000000
	; AVX1-NEXT: je LBB8_64			; AVX1-NEXT: je LBB8_64
	; AVX1-NEXT: LBB8_63: ## %cond.load121			; AVX1-NEXT: LBB8_63: ## %cond.load121
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v32f32_v32i32:			; AVX2-LABEL: expandload_v32f32_v32i32:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm8, %xmm8, %xmm8			; AVX2-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; AVX2-NEXT: vpcmpeqd %ymm7, %ymm8, %ymm7			; AVX2-NEXT: vpcmpeqd %ymm7, %ymm8, %ymm7
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm8, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm8, %ymm6
	; AVX2-NEXT: vpackssdw %ymm7, %ymm6, %ymm6			; AVX2-NEXT: vpackssdw %ymm7, %ymm6, %ymm6
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: je LBB8_8			; AVX2-NEXT: je LBB8_8
	; AVX2-NEXT: LBB8_7: ## %cond.load9			; AVX2-NEXT: LBB8_7: ## %cond.load9
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB8_10			; AVX2-NEXT: je LBB8_10
	; AVX2-NEXT: LBB8_9: ## %cond.load13			; AVX2-NEXT: LBB8_9: ## %cond.load13
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4],ymm0[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB8_12			; AVX2-NEXT: je LBB8_12
	; AVX2-NEXT: LBB8_11: ## %cond.load17			; AVX2-NEXT: LBB8_11: ## %cond.load17
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5],ymm0[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB8_14			; AVX2-NEXT: je LBB8_14
	; AVX2-NEXT: LBB8_13: ## %cond.load21			; AVX2-NEXT: LBB8_13: ## %cond.load21
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6],ymm0[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB8_16			; AVX2-NEXT: je LBB8_16
	; AVX2-NEXT: LBB8_15: ## %cond.load25			; AVX2-NEXT: LBB8_15: ## %cond.load25
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB8_18			; AVX2-NEXT: je LBB8_18
	; AVX2-NEXT: LBB8_17: ## %cond.load29			; AVX2-NEXT: LBB8_17: ## %cond.load29
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_24			; AVX2-NEXT: je LBB8_24
	; AVX2-NEXT: LBB8_23: ## %cond.load41			; AVX2-NEXT: LBB8_23: ## %cond.load41
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB8_26			; AVX2-NEXT: je LBB8_26
	; AVX2-NEXT: LBB8_25: ## %cond.load45			; AVX2-NEXT: LBB8_25: ## %cond.load45
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4],ymm1[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB8_28			; AVX2-NEXT: je LBB8_28
	; AVX2-NEXT: LBB8_27: ## %cond.load49			; AVX2-NEXT: LBB8_27: ## %cond.load49
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm4[5],ymm1[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB8_30			; AVX2-NEXT: je LBB8_30
	; AVX2-NEXT: LBB8_29: ## %cond.load53			; AVX2-NEXT: LBB8_29: ## %cond.load53
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6],ymm1[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB8_32			; AVX2-NEXT: je LBB8_32
	; AVX2-NEXT: LBB8_31: ## %cond.load57			; AVX2-NEXT: LBB8_31: ## %cond.load57
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX2-NEXT: je LBB8_34			; AVX2-NEXT: je LBB8_34
	; AVX2-NEXT: LBB8_33: ## %cond.load61			; AVX2-NEXT: LBB8_33: ## %cond.load61
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_40			; AVX2-NEXT: je LBB8_40
	; AVX2-NEXT: LBB8_39: ## %cond.load73			; AVX2-NEXT: LBB8_39: ## %cond.load73
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $1048576, %eax ## imm = 0x100000			; AVX2-NEXT: testl $1048576, %eax ## imm = 0x100000
	; AVX2-NEXT: je LBB8_42			; AVX2-NEXT: je LBB8_42
	; AVX2-NEXT: LBB8_41: ## %cond.load77			; AVX2-NEXT: LBB8_41: ## %cond.load77
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4],ymm2[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $2097152, %eax ## imm = 0x200000			; AVX2-NEXT: testl $2097152, %eax ## imm = 0x200000
	; AVX2-NEXT: je LBB8_44			; AVX2-NEXT: je LBB8_44
	; AVX2-NEXT: LBB8_43: ## %cond.load81			; AVX2-NEXT: LBB8_43: ## %cond.load81
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm4[5],ymm2[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $4194304, %eax ## imm = 0x400000			; AVX2-NEXT: testl $4194304, %eax ## imm = 0x400000
	; AVX2-NEXT: je LBB8_46			; AVX2-NEXT: je LBB8_46
	; AVX2-NEXT: LBB8_45: ## %cond.load85			; AVX2-NEXT: LBB8_45: ## %cond.load85
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6],ymm2[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $8388608, %eax ## imm = 0x800000			; AVX2-NEXT: testl $8388608, %eax ## imm = 0x800000
	; AVX2-NEXT: je LBB8_48			; AVX2-NEXT: je LBB8_48
	; AVX2-NEXT: LBB8_47: ## %cond.load89			; AVX2-NEXT: LBB8_47: ## %cond.load89
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $16777216, %eax ## imm = 0x1000000			; AVX2-NEXT: testl $16777216, %eax ## imm = 0x1000000
	; AVX2-NEXT: je LBB8_50			; AVX2-NEXT: je LBB8_50
	; AVX2-NEXT: LBB8_49: ## %cond.load93			; AVX2-NEXT: LBB8_49: ## %cond.load93
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $33554432, %eax ## imm = 0x2000000			; AVX2-NEXT: testl $33554432, %eax ## imm = 0x2000000
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_56			; AVX2-NEXT: je LBB8_56
	; AVX2-NEXT: LBB8_55: ## %cond.load105			; AVX2-NEXT: LBB8_55: ## %cond.load105
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $268435456, %eax ## imm = 0x10000000			; AVX2-NEXT: testl $268435456, %eax ## imm = 0x10000000
	; AVX2-NEXT: je LBB8_58			; AVX2-NEXT: je LBB8_58
	; AVX2-NEXT: LBB8_57: ## %cond.load109			; AVX2-NEXT: LBB8_57: ## %cond.load109
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $536870912, %eax ## imm = 0x20000000			; AVX2-NEXT: testl $536870912, %eax ## imm = 0x20000000
	; AVX2-NEXT: je LBB8_60			; AVX2-NEXT: je LBB8_60
	; AVX2-NEXT: LBB8_59: ## %cond.load113			; AVX2-NEXT: LBB8_59: ## %cond.load113
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $1073741824, %eax ## imm = 0x40000000			; AVX2-NEXT: testl $1073741824, %eax ## imm = 0x40000000
	; AVX2-NEXT: je LBB8_62			; AVX2-NEXT: je LBB8_62
	; AVX2-NEXT: LBB8_61: ## %cond.load117			; AVX2-NEXT: LBB8_61: ## %cond.load117
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $-2147483648, %eax ## imm = 0x80000000			; AVX2-NEXT: testl $-2147483648, %eax ## imm = 0x80000000
	; AVX2-NEXT: je LBB8_64			; AVX2-NEXT: je LBB8_64
	; AVX2-NEXT: LBB8_63: ## %cond.load121			; AVX2-NEXT: LBB8_63: ## %cond.load121
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: expandload_v32f32_v32i32:			; AVX512-LABEL: expandload_v32f32_v32i32:
	; AVX512: ## %bb.0:			; AVX512: ## %bb.0:
	; AVX512-NEXT: vptestnmd %zmm3, %zmm3, %k2			; AVX512-NEXT: vptestnmd %zmm3, %zmm3, %k2
	; AVX512-NEXT: vptestnmd %zmm2, %zmm2, %k1			; AVX512-NEXT: vptestnmd %zmm2, %zmm2, %k1
	; AVX512-NEXT: kmovw %k1, %eax			; AVX512-NEXT: kmovw %k1, %eax
	; AVX512-NEXT: movl %eax, %ecx			; AVX512-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 1,509 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_gather.ll

	Show First 20 Lines • Show All 1,353 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: jne .LBB4_11			; AVX1-NEXT: jne .LBB4_11
	; AVX1-NEXT: .LBB4_12: # %else14			; AVX1-NEXT: .LBB4_12: # %else14
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: jne .LBB4_13			; AVX1-NEXT: jne .LBB4_13
	; AVX1-NEXT: .LBB4_14: # %else17			; AVX1-NEXT: .LBB4_14: # %else17
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_16			; AVX1-NEXT: je .LBB4_16
	; AVX1-NEXT: .LBB4_15: # %cond.load19			; AVX1-NEXT: .LBB4_15: # %cond.load19
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_16: # %else20			; AVX1-NEXT: .LBB4_16: # %else20
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: vmovmskps %ymm3, %eax			; AVX1-NEXT: vmovmskps %ymm3, %eax
	; AVX1-NEXT: testb $1, %al			; AVX1-NEXT: testb $1, %al
	; AVX1-NEXT: # implicit-def: $ymm3			; AVX1-NEXT: # implicit-def: $ymm3
	; AVX1-NEXT: jne .LBB4_17			; AVX1-NEXT: jne .LBB4_17
	; AVX1-NEXT: # %bb.18: # %else26			; AVX1-NEXT: # %bb.18: # %else26
	Show All 13 Lines
	; AVX1-NEXT: jne .LBB4_27			; AVX1-NEXT: jne .LBB4_27
	; AVX1-NEXT: .LBB4_28: # %else51			; AVX1-NEXT: .LBB4_28: # %else51
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: jne .LBB4_29			; AVX1-NEXT: jne .LBB4_29
	; AVX1-NEXT: .LBB4_30: # %else56			; AVX1-NEXT: .LBB4_30: # %else56
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_32			; AVX1-NEXT: je .LBB4_32
	; AVX1-NEXT: .LBB4_31: # %cond.load58			; AVX1-NEXT: .LBB4_31: # %cond.load58
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: .LBB4_32: # %else61			; AVX1-NEXT: .LBB4_32: # %else61
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vmovmskps %ymm0, %eax			; AVX1-NEXT: vmovmskps %ymm0, %eax
	; AVX1-NEXT: testb $1, %al			; AVX1-NEXT: testb $1, %al
	; AVX1-NEXT: # implicit-def: $ymm0			; AVX1-NEXT: # implicit-def: $ymm0
	; AVX1-NEXT: jne .LBB4_33			; AVX1-NEXT: jne .LBB4_33
	; AVX1-NEXT: # %bb.34: # %else67			; AVX1-NEXT: # %bb.34: # %else67
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: jne .LBB4_35			; AVX1-NEXT: jne .LBB4_35
	; AVX1-NEXT: .LBB4_36: # %else72			; AVX1-NEXT: .LBB4_36: # %else72
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: jne .LBB4_37			; AVX1-NEXT: jne .LBB4_37
	; AVX1-NEXT: .LBB4_38: # %else77			; AVX1-NEXT: .LBB4_38: # %else77
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: jne .LBB4_39			; AVX1-NEXT: jne .LBB4_39
	; AVX1-NEXT: .LBB4_40: # %else82			; AVX1-NEXT: .LBB4_40: # %else82
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_42			; AVX1-NEXT: je .LBB4_42
	; AVX1-NEXT: .LBB4_41: # %cond.load84			; AVX1-NEXT: .LBB4_41: # %cond.load84
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm2
	; AVX1-NEXT: vpinsrd $0, c+28(%rip), %xmm2, %xmm2			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
				RKSimonUnsubmitted Not Done Reply Inline Actions Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical broadcasts? RKSimon: Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what would expect it to look like? lebedev.ri: I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what…
				RKSimonUnsubmitted Not Done Reply Inline Actions Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The IR looks like the gep is splatting the element 3 of the pointer array to every gather address. RKSimon: Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are scalarized by `Scalarize Masked Memory Intrinsics (scalarize-masked-mem-intrin)` pass, which is a codegen pass, I'm not sure how we could do that in DAGCombine, since we only have a single bb at a time, and we don't have any heavy-lifting passes this late. lebedev.ri: Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are…
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_42: # %else87			; AVX1-NEXT: .LBB4_42: # %else87
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_44			; AVX1-NEXT: je .LBB4_44
	; AVX1-NEXT: # %bb.43: # %cond.load89			; AVX1-NEXT: # %bb.43: # %cond.load89
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm3[5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_44: # %else92			; AVX1-NEXT: .LBB4_44: # %else92
	; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_46			; AVX1-NEXT: je .LBB4_46
	; AVX1-NEXT: # %bb.45: # %cond.load94			; AVX1-NEXT: # %bb.45: # %cond.load94
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6],ymm0[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_46: # %else97			; AVX1-NEXT: .LBB4_46: # %else97
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_48			; AVX1-NEXT: je .LBB4_48
	; AVX1-NEXT: # %bb.47: # %cond.load99			; AVX1-NEXT: # %bb.47: # %cond.load99
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm2
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm2			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_48: # %else102			; AVX1-NEXT: .LBB4_48: # %else102
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	; AVX1-NEXT: .LBB4_1: # %cond.load			; AVX1-NEXT: .LBB4_1: # %cond.load
	Show All 11 Lines
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je .LBB4_8			; AVX1-NEXT: je .LBB4_8
	; AVX1-NEXT: .LBB4_7: # %cond.load7			; AVX1-NEXT: .LBB4_7: # %cond.load7
	; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm3			; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm3
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_10			; AVX1-NEXT: je .LBB4_10
	; AVX1-NEXT: .LBB4_9: # %cond.load10			; AVX1-NEXT: .LBB4_9: # %cond.load10
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $0, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4],ymm1[5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_12			; AVX1-NEXT: je .LBB4_12
	; AVX1-NEXT: .LBB4_11: # %cond.load13			; AVX1-NEXT: .LBB4_11: # %cond.load13
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $1, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm3[5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_14			; AVX1-NEXT: je .LBB4_14
	; AVX1-NEXT: .LBB4_13: # %cond.load16			; AVX1-NEXT: .LBB4_13: # %cond.load16
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $2, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm3[6],ymm1[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: jne .LBB4_15			; AVX1-NEXT: jne .LBB4_15
	; AVX1-NEXT: jmp .LBB4_16			; AVX1-NEXT: jmp .LBB4_16
	; AVX1-NEXT: .LBB4_17: # %cond.load23			; AVX1-NEXT: .LBB4_17: # %cond.load23
	; AVX1-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: je .LBB4_20			; AVX1-NEXT: je .LBB4_20
	; AVX1-NEXT: .LBB4_19: # %cond.load28			; AVX1-NEXT: .LBB4_19: # %cond.load28
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je .LBB4_22			; AVX1-NEXT: je .LBB4_22
	; AVX1-NEXT: .LBB4_21: # %cond.load33			; AVX1-NEXT: .LBB4_21: # %cond.load33
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je .LBB4_24			; AVX1-NEXT: je .LBB4_24
	; AVX1-NEXT: .LBB4_23: # %cond.load38			; AVX1-NEXT: .LBB4_23: # %cond.load38
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_26			; AVX1-NEXT: je .LBB4_26
	; AVX1-NEXT: .LBB4_25: # %cond.load43			; AVX1-NEXT: .LBB4_25: # %cond.load43
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $0, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_28			; AVX1-NEXT: je .LBB4_28
	; AVX1-NEXT: .LBB4_27: # %cond.load48			; AVX1-NEXT: .LBB4_27: # %cond.load48
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_30			; AVX1-NEXT: je .LBB4_30
	; AVX1-NEXT: .LBB4_29: # %cond.load53			; AVX1-NEXT: .LBB4_29: # %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: jne .LBB4_31			; AVX1-NEXT: jne .LBB4_31
	; AVX1-NEXT: jmp .LBB4_32			; AVX1-NEXT: jmp .LBB4_32
	; AVX1-NEXT: .LBB4_33: # %cond.load64			; AVX1-NEXT: .LBB4_33: # %cond.load64
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: je .LBB4_36			; AVX1-NEXT: je .LBB4_36
	; AVX1-NEXT: .LBB4_35: # %cond.load69			; AVX1-NEXT: .LBB4_35: # %cond.load69
	Show All 38 Lines
	; AVX2-NEXT: jne .LBB4_11			; AVX2-NEXT: jne .LBB4_11
	; AVX2-NEXT: .LBB4_12: # %else14			; AVX2-NEXT: .LBB4_12: # %else14
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_13			; AVX2-NEXT: jne .LBB4_13
	; AVX2-NEXT: .LBB4_14: # %else17			; AVX2-NEXT: .LBB4_14: # %else17
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_16			; AVX2-NEXT: je .LBB4_16
	; AVX2-NEXT: .LBB4_15: # %cond.load19			; AVX2-NEXT: .LBB4_15: # %cond.load19
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: .LBB4_16: # %else20			; AVX2-NEXT: .LBB4_16: # %else20
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vmovmskps %ymm2, %eax			; AVX2-NEXT: vmovmskps %ymm2, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: # implicit-def: $ymm2			; AVX2-NEXT: # implicit-def: $ymm2
	; AVX2-NEXT: jne .LBB4_17			; AVX2-NEXT: jne .LBB4_17
	; AVX2-NEXT: # %bb.18: # %else26			; AVX2-NEXT: # %bb.18: # %else26
	Show All 13 Lines
	; AVX2-NEXT: jne .LBB4_27			; AVX2-NEXT: jne .LBB4_27
	; AVX2-NEXT: .LBB4_28: # %else51			; AVX2-NEXT: .LBB4_28: # %else51
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_29			; AVX2-NEXT: jne .LBB4_29
	; AVX2-NEXT: .LBB4_30: # %else56			; AVX2-NEXT: .LBB4_30: # %else56
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_32			; AVX2-NEXT: je .LBB4_32
	; AVX2-NEXT: .LBB4_31: # %cond.load58			; AVX2-NEXT: .LBB4_31: # %cond.load58
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm3[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: .LBB4_32: # %else61			; AVX2-NEXT: .LBB4_32: # %else61
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vmovmskps %ymm0, %eax			; AVX2-NEXT: vmovmskps %ymm0, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: # implicit-def: $ymm0			; AVX2-NEXT: # implicit-def: $ymm0
	; AVX2-NEXT: jne .LBB4_33			; AVX2-NEXT: jne .LBB4_33
	; AVX2-NEXT: # %bb.34: # %else67			; AVX2-NEXT: # %bb.34: # %else67
	Show All 10 Lines
	; AVX2-NEXT: jne .LBB4_41			; AVX2-NEXT: jne .LBB4_41
	; AVX2-NEXT: .LBB4_42: # %else87			; AVX2-NEXT: .LBB4_42: # %else87
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: jne .LBB4_43			; AVX2-NEXT: jne .LBB4_43
	; AVX2-NEXT: .LBB4_44: # %else92			; AVX2-NEXT: .LBB4_44: # %else92
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_46			; AVX2-NEXT: je .LBB4_46
	; AVX2-NEXT: .LBB4_45: # %cond.load94			; AVX2-NEXT: .LBB4_45: # %cond.load94
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6],ymm0[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: .LBB4_46: # %else97			; AVX2-NEXT: .LBB4_46: # %else97
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_48			; AVX2-NEXT: je .LBB4_48
	; AVX2-NEXT: # %bb.47: # %cond.load99			; AVX2-NEXT: # %bb.47: # %cond.load99
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: .LBB4_48: # %else102			; AVX2-NEXT: .LBB4_48: # %else102
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	; AVX2-NEXT: .LBB4_1: # %cond.load			; AVX2-NEXT: .LBB4_1: # %cond.load
	; AVX2-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_4			; AVX2-NEXT: je .LBB4_4
	; AVX2-NEXT: .LBB4_3: # %cond.load1			; AVX2-NEXT: .LBB4_3: # %cond.load1
	; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_6			; AVX2-NEXT: je .LBB4_6
	; AVX2-NEXT: .LBB4_5: # %cond.load4			; AVX2-NEXT: .LBB4_5: # %cond.load4
	; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_8			; AVX2-NEXT: je .LBB4_8
	; AVX2-NEXT: .LBB4_7: # %cond.load7			; AVX2-NEXT: .LBB4_7: # %cond.load7
	; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_10			; AVX2-NEXT: je .LBB4_10
	; AVX2-NEXT: .LBB4_9: # %cond.load10			; AVX2-NEXT: .LBB4_9: # %cond.load10
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $0, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_12			; AVX2-NEXT: je .LBB4_12
	; AVX2-NEXT: .LBB4_11: # %cond.load13			; AVX2-NEXT: .LBB4_11: # %cond.load13
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_14			; AVX2-NEXT: je .LBB4_14
	; AVX2-NEXT: .LBB4_13: # %cond.load16			; AVX2-NEXT: .LBB4_13: # %cond.load16
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: jne .LBB4_15			; AVX2-NEXT: jne .LBB4_15
	; AVX2-NEXT: jmp .LBB4_16			; AVX2-NEXT: jmp .LBB4_16
	; AVX2-NEXT: .LBB4_17: # %cond.load23			; AVX2-NEXT: .LBB4_17: # %cond.load23
	; AVX2-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_20			; AVX2-NEXT: je .LBB4_20
	; AVX2-NEXT: .LBB4_19: # %cond.load28			; AVX2-NEXT: .LBB4_19: # %cond.load28
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_22			; AVX2-NEXT: je .LBB4_22
	; AVX2-NEXT: .LBB4_21: # %cond.load33			; AVX2-NEXT: .LBB4_21: # %cond.load33
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_24			; AVX2-NEXT: je .LBB4_24
	; AVX2-NEXT: .LBB4_23: # %cond.load38			; AVX2-NEXT: .LBB4_23: # %cond.load38
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_26			; AVX2-NEXT: je .LBB4_26
	; AVX2-NEXT: .LBB4_25: # %cond.load43			; AVX2-NEXT: .LBB4_25: # %cond.load43
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $0, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4],ymm2[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_28			; AVX2-NEXT: je .LBB4_28
	; AVX2-NEXT: .LBB4_27: # %cond.load48			; AVX2-NEXT: .LBB4_27: # %cond.load48
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm3[5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_30			; AVX2-NEXT: je .LBB4_30
	; AVX2-NEXT: .LBB4_29: # %cond.load53			; AVX2-NEXT: .LBB4_29: # %cond.load53
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: jne .LBB4_31			; AVX2-NEXT: jne .LBB4_31
	; AVX2-NEXT: jmp .LBB4_32			; AVX2-NEXT: jmp .LBB4_32
	; AVX2-NEXT: .LBB4_33: # %cond.load64			; AVX2-NEXT: .LBB4_33: # %cond.load64
	; AVX2-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_36			; AVX2-NEXT: je .LBB4_36
	; AVX2-NEXT: .LBB4_35: # %cond.load69			; AVX2-NEXT: .LBB4_35: # %cond.load69
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_38			; AVX2-NEXT: je .LBB4_38
	; AVX2-NEXT: .LBB4_37: # %cond.load74			; AVX2-NEXT: .LBB4_37: # %cond.load74
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_40			; AVX2-NEXT: je .LBB4_40
	; AVX2-NEXT: .LBB4_39: # %cond.load79			; AVX2-NEXT: .LBB4_39: # %cond.load79
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_42			; AVX2-NEXT: je .LBB4_42
	; AVX2-NEXT: .LBB4_41: # %cond.load84			; AVX2-NEXT: .LBB4_41: # %cond.load84
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $0, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4],ymm0[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_44			; AVX2-NEXT: je .LBB4_44
	; AVX2-NEXT: .LBB4_43: # %cond.load89			; AVX2-NEXT: .LBB4_43: # %cond.load89
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm3[5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_45			; AVX2-NEXT: jne .LBB4_45
	; AVX2-NEXT: jmp .LBB4_46			; AVX2-NEXT: jmp .LBB4_46
	;			;
	; AVX512F-LABEL: gather_v8i32_v8i32:			; AVX512F-LABEL: gather_v8i32_v8i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	Show All 40 Lines

llvm/test/CodeGen/X86/masked_gather_scatter.ll

	Show First 20 Lines • Show All 959 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: # %bb.6: # %else5			; KNL_64-NEXT: # %bb.6: # %else5
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB15_7			; KNL_64-NEXT: jne .LBB15_7
	; KNL_64-NEXT: .LBB15_8: # %else8			; KNL_64-NEXT: .LBB15_8: # %else8
	; KNL_64-NEXT: vmovdqa %ymm2, %ymm0			; KNL_64-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	; KNL_64-NEXT: .LBB15_5: # %cond.load4			; KNL_64-NEXT: .LBB15_5: # %cond.load4
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm2, %xmm1			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm1
	; KNL_64-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5],ymm2[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm2
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB15_8			; KNL_64-NEXT: je .LBB15_8
	; KNL_64-NEXT: .LBB15_7: # %cond.load7			; KNL_64-NEXT: .LBB15_7: # %cond.load7
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rax			; KNL_64-NEXT: vpextrq $1, %xmm0, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm2, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm0
	; KNL_64-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm0[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm2
	; KNL_64-NEXT: vmovdqa %ymm2, %ymm0			; KNL_64-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test16:			; KNL_32-LABEL: test16:
	; KNL_32: # %bb.0:			; KNL_32: # %bb.0:
	; KNL_32-NEXT: vpslld $31, %xmm1, %xmm1			; KNL_32-NEXT: vpslld $31, %xmm1, %xmm1
	; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k0			; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k0
	; KNL_32-NEXT: vpslld $3, %xmm0, %xmm0			; KNL_32-NEXT: vpslld $3, %xmm0, %xmm0
	Show All 23 Lines
	; KNL_32-NEXT: .LBB15_3: # %cond.load1			; KNL_32-NEXT: .LBB15_3: # %cond.load1
	; KNL_32-NEXT: vpextrd $1, %xmm0, %ecx			; KNL_32-NEXT: vpextrd $1, %xmm0, %ecx
	; KNL_32-NEXT: vmovhps {{.*#+}} xmm1 = xmm2[0,1],mem[0,1]			; KNL_32-NEXT: vmovhps {{.*#+}} xmm1 = xmm2[0,1],mem[0,1]
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]
	; KNL_32-NEXT: testb $4, %al			; KNL_32-NEXT: testb $4, %al
	; KNL_32-NEXT: je .LBB15_6			; KNL_32-NEXT: je .LBB15_6
	; KNL_32-NEXT: .LBB15_5: # %cond.load4			; KNL_32-NEXT: .LBB15_5: # %cond.load4
	; KNL_32-NEXT: vpextrd $2, %xmm0, %ecx			; KNL_32-NEXT: vpextrd $2, %xmm0, %ecx
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm1			; KNL_32-NEXT: vpbroadcastq (%ecx), %ymm1
	; KNL_32-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5],ymm2[6,7]
	; KNL_32-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm2
	; KNL_32-NEXT: testb $8, %al			; KNL_32-NEXT: testb $8, %al
	; KNL_32-NEXT: je .LBB15_8			; KNL_32-NEXT: je .LBB15_8
	; KNL_32-NEXT: .LBB15_7: # %cond.load7			; KNL_32-NEXT: .LBB15_7: # %cond.load7
	; KNL_32-NEXT: vpextrd $3, %xmm0, %eax			; KNL_32-NEXT: vpextrd $3, %xmm0, %eax
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm0			; KNL_32-NEXT: vpbroadcastq (%eax), %ymm0
	; KNL_32-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm0[6,7]
	; KNL_32-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm2
	; KNL_32-NEXT: vmovdqa %ymm2, %ymm0			; KNL_32-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpslld $31, %xmm1, %xmm1			; SKX-NEXT: vpslld $31, %xmm1, %xmm1
	; SKX-NEXT: vpmovd2m %xmm1, %k1			; SKX-NEXT: vpmovd2m %xmm1, %k1
	; SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %ymm2 {%k1}			; SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %ymm2 {%k1}
	▲ Show 20 Lines • Show All 2,180 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm1, %xmm2			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm1, %xmm2
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; KNL_64-NEXT: .LBB42_4: # %else2			; KNL_64-NEXT: .LBB42_4: # %else2
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_64-NEXT: vextracti128 $1, %ymm0, %xmm2
	; KNL_64-NEXT: je .LBB42_6			; KNL_64-NEXT: je .LBB42_6
	; KNL_64-NEXT: # %bb.5: # %cond.load4			; KNL_64-NEXT: # %bb.5: # %cond.load4
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm1, %xmm3			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm3
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm3, %xmm3			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5],ymm1[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; KNL_64-NEXT: .LBB42_6: # %else5			; KNL_64-NEXT: .LBB42_6: # %else5
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_8			; KNL_64-NEXT: je .LBB42_8
	; KNL_64-NEXT: # %bb.7: # %cond.load7			; KNL_64-NEXT: # %bb.7: # %cond.load7
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm1, %xmm3			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm3
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm3, %xmm3			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm3[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; KNL_64-NEXT: .LBB42_8: # %else8			; KNL_64-NEXT: .LBB42_8: # %else8
	; KNL_64-NEXT: kmovw %k0, %eax			; KNL_64-NEXT: kmovw %k0, %eax
	; KNL_64-NEXT: testb $1, %al			; KNL_64-NEXT: testb $1, %al
	; KNL_64-NEXT: # implicit-def: $ymm3			; KNL_64-NEXT: # implicit-def: $ymm3
	; KNL_64-NEXT: jne .LBB42_9			; KNL_64-NEXT: jne .LBB42_9
	; KNL_64-NEXT: # %bb.10: # %else15			; KNL_64-NEXT: # %bb.10: # %else15
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: jne .LBB42_11			; KNL_64-NEXT: jne .LBB42_11
	; KNL_64-NEXT: .LBB42_12: # %else21			; KNL_64-NEXT: .LBB42_12: # %else21
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: jne .LBB42_13			; KNL_64-NEXT: jne .LBB42_13
	; KNL_64-NEXT: .LBB42_14: # %else27			; KNL_64-NEXT: .LBB42_14: # %else27
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_16			; KNL_64-NEXT: je .LBB42_16
	; KNL_64-NEXT: .LBB42_15: # %cond.load29			; KNL_64-NEXT: .LBB42_15: # %cond.load29
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm3, %xmm4			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm4
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm4, %xmm4			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; KNL_64-NEXT: .LBB42_16: # %else33			; KNL_64-NEXT: .LBB42_16: # %else33
	; KNL_64-NEXT: kmovw %k0, %eax			; KNL_64-NEXT: kmovw %k0, %eax
	; KNL_64-NEXT: testb $1, %al			; KNL_64-NEXT: testb $1, %al
	; KNL_64-NEXT: # implicit-def: $ymm4			; KNL_64-NEXT: # implicit-def: $ymm4
	; KNL_64-NEXT: jne .LBB42_17			; KNL_64-NEXT: jne .LBB42_17
	; KNL_64-NEXT: # %bb.18: # %else40			; KNL_64-NEXT: # %bb.18: # %else40
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: jne .LBB42_19			; KNL_64-NEXT: jne .LBB42_19
	; KNL_64-NEXT: .LBB42_20: # %else46			; KNL_64-NEXT: .LBB42_20: # %else46
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: jne .LBB42_21			; KNL_64-NEXT: jne .LBB42_21
	; KNL_64-NEXT: .LBB42_22: # %else52			; KNL_64-NEXT: .LBB42_22: # %else52
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_24			; KNL_64-NEXT: je .LBB42_24
	; KNL_64-NEXT: .LBB42_23: # %cond.load54			; KNL_64-NEXT: .LBB42_23: # %cond.load54
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm4, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm0
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm0, %xmm0			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1,2,3,4,5],ymm0[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm4
	; KNL_64-NEXT: .LBB42_24: # %else58			; KNL_64-NEXT: .LBB42_24: # %else58
	; KNL_64-NEXT: vpaddq %ymm3, %ymm1, %ymm0			; KNL_64-NEXT: vpaddq %ymm3, %ymm1, %ymm0
	; KNL_64-NEXT: vpaddq %ymm4, %ymm0, %ymm0			; KNL_64-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	; KNL_64-NEXT: .LBB42_9: # %cond.load11			; KNL_64-NEXT: .LBB42_9: # %cond.load11
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; KNL_64-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: je .LBB42_12			; KNL_64-NEXT: je .LBB42_12
	; KNL_64-NEXT: .LBB42_11: # %cond.load17			; KNL_64-NEXT: .LBB42_11: # %cond.load17
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx			; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm3, %xmm4			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm3, %xmm4
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: je .LBB42_14			; KNL_64-NEXT: je .LBB42_14
	; KNL_64-NEXT: .LBB42_13: # %cond.load23			; KNL_64-NEXT: .LBB42_13: # %cond.load23
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm3, %xmm4			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm4
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm4, %xmm4			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB42_15			; KNL_64-NEXT: jne .LBB42_15
	; KNL_64-NEXT: jmp .LBB42_16			; KNL_64-NEXT: jmp .LBB42_16
	; KNL_64-NEXT: .LBB42_17: # %cond.load36			; KNL_64-NEXT: .LBB42_17: # %cond.load36
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero			; KNL_64-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: je .LBB42_20			; KNL_64-NEXT: je .LBB42_20
	; KNL_64-NEXT: .LBB42_19: # %cond.load42			; KNL_64-NEXT: .LBB42_19: # %cond.load42
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx			; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm4, %xmm0			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm4, %xmm0
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm0[0,1,2,3],ymm4[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm0[0,1,2,3],ymm4[4,5,6,7]
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: je .LBB42_22			; KNL_64-NEXT: je .LBB42_22
	; KNL_64-NEXT: .LBB42_21: # %cond.load48			; KNL_64-NEXT: .LBB42_21: # %cond.load48
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm4, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm0
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm0, %xmm0			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1,2,3],ymm0[4,5],ymm4[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm4
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB42_23			; KNL_64-NEXT: jne .LBB42_23
	; KNL_64-NEXT: jmp .LBB42_24			; KNL_64-NEXT: jmp .LBB42_24
	;			;
	; KNL_32-LABEL: test_pr28312:			; KNL_32-LABEL: test_pr28312:
	; KNL_32: # %bb.0:			; KNL_32: # %bb.0:
	; KNL_32-NEXT: pushl %ebp			; KNL_32-NEXT: pushl %ebp
	; KNL_32-NEXT: .cfi_def_cfa_offset 8			; KNL_32-NEXT: .cfi_def_cfa_offset 8
	Show All 23 Lines
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm1, %xmm2			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm1, %xmm2
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; KNL_32-NEXT: .LBB42_4: # %else2			; KNL_32-NEXT: .LBB42_4: # %else2
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: vpextrd $2, %xmm0, %edx			; KNL_32-NEXT: vpextrd $2, %xmm0, %edx
	; KNL_32-NEXT: je .LBB42_6			; KNL_32-NEXT: je .LBB42_6
	; KNL_32-NEXT: # %bb.5: # %cond.load4			; KNL_32-NEXT: # %bb.5: # %cond.load4
	; KNL_32-NEXT: vextracti128 $1, %ymm1, %xmm2			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm2
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; KNL_32-NEXT: .LBB42_6: # %else5			; KNL_32-NEXT: .LBB42_6: # %else5
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: vpextrd $3, %xmm0, %esi			; KNL_32-NEXT: vpextrd $3, %xmm0, %esi
	; KNL_32-NEXT: je .LBB42_8			; KNL_32-NEXT: je .LBB42_8
	; KNL_32-NEXT: # %bb.7: # %cond.load7			; KNL_32-NEXT: # %bb.7: # %cond.load7
	; KNL_32-NEXT: vextracti128 $1, %ymm1, %xmm0			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm0
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm0, %xmm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm0, %xmm0			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm1
	; KNL_32-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3,4,5,6],ymm1[7]
	; KNL_32-NEXT: .LBB42_8: # %else8			; KNL_32-NEXT: .LBB42_8: # %else8
	; KNL_32-NEXT: kmovw %k0, %ebx			; KNL_32-NEXT: kmovw %k0, %ebx
	; KNL_32-NEXT: testb $1, %bl			; KNL_32-NEXT: testb $1, %bl
	; KNL_32-NEXT: # implicit-def: $ymm0			; KNL_32-NEXT: # implicit-def: $ymm0
	; KNL_32-NEXT: jne .LBB42_9			; KNL_32-NEXT: jne .LBB42_9
	; KNL_32-NEXT: # %bb.10: # %else15			; KNL_32-NEXT: # %bb.10: # %else15
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: jne .LBB42_11			; KNL_32-NEXT: jne .LBB42_11
	; KNL_32-NEXT: .LBB42_12: # %else21			; KNL_32-NEXT: .LBB42_12: # %else21
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: jne .LBB42_13			; KNL_32-NEXT: jne .LBB42_13
	; KNL_32-NEXT: .LBB42_14: # %else27			; KNL_32-NEXT: .LBB42_14: # %else27
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: je .LBB42_16			; KNL_32-NEXT: je .LBB42_16
	; KNL_32-NEXT: .LBB42_15: # %cond.load29			; KNL_32-NEXT: .LBB42_15: # %cond.load29
	; KNL_32-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm2
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6],ymm0[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; KNL_32-NEXT: .LBB42_16: # %else33			; KNL_32-NEXT: .LBB42_16: # %else33
	; KNL_32-NEXT: kmovw %k0, %ebx			; KNL_32-NEXT: kmovw %k0, %ebx
	; KNL_32-NEXT: testb $1, %bl			; KNL_32-NEXT: testb $1, %bl
	; KNL_32-NEXT: # implicit-def: $ymm2			; KNL_32-NEXT: # implicit-def: $ymm2
	; KNL_32-NEXT: jne .LBB42_17			; KNL_32-NEXT: jne .LBB42_17
	; KNL_32-NEXT: # %bb.18: # %else40			; KNL_32-NEXT: # %bb.18: # %else40
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: jne .LBB42_19			; KNL_32-NEXT: jne .LBB42_19
	; KNL_32-NEXT: .LBB42_20: # %else46			; KNL_32-NEXT: .LBB42_20: # %else46
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: jne .LBB42_21			; KNL_32-NEXT: jne .LBB42_21
	; KNL_32-NEXT: .LBB42_22: # %else52			; KNL_32-NEXT: .LBB42_22: # %else52
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: je .LBB42_24			; KNL_32-NEXT: je .LBB42_24
	; KNL_32-NEXT: .LBB42_23: # %cond.load54			; KNL_32-NEXT: .LBB42_23: # %cond.load54
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm3			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm3
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm3, %xmm3			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm3[6],ymm2[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm3, %xmm3			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm3
	; KNL_32-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm3[7]
	; KNL_32-NEXT: .LBB42_24: # %else58			; KNL_32-NEXT: .LBB42_24: # %else58
	; KNL_32-NEXT: vpaddq %ymm0, %ymm1, %ymm0			; KNL_32-NEXT: vpaddq %ymm0, %ymm1, %ymm0
	; KNL_32-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; KNL_32-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; KNL_32-NEXT: leal -8(%ebp), %esp			; KNL_32-NEXT: leal -8(%ebp), %esp
	; KNL_32-NEXT: popl %esi			; KNL_32-NEXT: popl %esi
	; KNL_32-NEXT: popl %ebx			; KNL_32-NEXT: popl %ebx
	; KNL_32-NEXT: popl %ebp			; KNL_32-NEXT: popl %ebp
	; KNL_32-NEXT: .cfi_def_cfa %esp, 4			; KNL_32-NEXT: .cfi_def_cfa %esp, 4
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	; KNL_32-NEXT: .LBB42_9: # %cond.load11			; KNL_32-NEXT: .LBB42_9: # %cond.load11
	; KNL_32-NEXT: .cfi_def_cfa %ebp, 8			; KNL_32-NEXT: .cfi_def_cfa %ebp, 8
	; KNL_32-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; KNL_32-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: je .LBB42_12			; KNL_32-NEXT: je .LBB42_12
	; KNL_32-NEXT: .LBB42_11: # %cond.load17			; KNL_32-NEXT: .LBB42_11: # %cond.load17
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm0, %xmm2			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm0, %xmm2
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: je .LBB42_14			; KNL_32-NEXT: je .LBB42_14
	; KNL_32-NEXT: .LBB42_13: # %cond.load23			; KNL_32-NEXT: .LBB42_13: # %cond.load23
	; KNL_32-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm2
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5],ymm0[6,7]
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: jne .LBB42_15			; KNL_32-NEXT: jne .LBB42_15
	; KNL_32-NEXT: jmp .LBB42_16			; KNL_32-NEXT: jmp .LBB42_16
	; KNL_32-NEXT: .LBB42_17: # %cond.load36			; KNL_32-NEXT: .LBB42_17: # %cond.load36
	; KNL_32-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; KNL_32-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: je .LBB42_20			; KNL_32-NEXT: je .LBB42_20
	; KNL_32-NEXT: .LBB42_19: # %cond.load42			; KNL_32-NEXT: .LBB42_19: # %cond.load42
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm2, %xmm3			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm2, %xmm3
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm3, %xmm3			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm3, %xmm3
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: je .LBB42_22			; KNL_32-NEXT: je .LBB42_22
	; KNL_32-NEXT: .LBB42_21: # %cond.load48			; KNL_32-NEXT: .LBB42_21: # %cond.load48
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm3			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm3
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm3, %xmm3			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4],ymm2[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm3, %xmm3			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm3
	; KNL_32-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm3[5],ymm2[6,7]
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: jne .LBB42_23			; KNL_32-NEXT: jne .LBB42_23
	; KNL_32-NEXT: jmp .LBB42_24			; KNL_32-NEXT: jmp .LBB42_24
	;			;
	; SKX-LABEL: test_pr28312:			; SKX-LABEL: test_pr28312:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpslld $31, %xmm1, %xmm1			; SKX-NEXT: vpslld $31, %xmm1, %xmm1
	; SKX-NEXT: vpmovd2m %xmm1, %k1			; SKX-NEXT: vpmovd2m %xmm1, %k1
	▲ Show 20 Lines • Show All 1,503 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_load.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,457 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB22_16			; AVX2-NEXT: je LBB22_16
	; AVX2-NEXT: LBB22_15: ## %cond.load19			; AVX2-NEXT: LBB22_15: ## %cond.load19
	; AVX2-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX2-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB22_18			; AVX2-NEXT: je LBB22_18
	; AVX2-NEXT: LBB22_17: ## %cond.load22			; AVX2-NEXT: LBB22_17: ## %cond.load22
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	; AVX2-NEXT: je LBB22_20			; AVX2-NEXT: je LBB22_20
	; AVX2-NEXT: LBB22_19: ## %cond.load25			; AVX2-NEXT: LBB22_19: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $1024, %eax ## imm = 0x400			; AVX2-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX2-NEXT: je LBB22_22			; AVX2-NEXT: je LBB22_22
	; AVX2-NEXT: LBB22_21: ## %cond.load28			; AVX2-NEXT: LBB22_21: ## %cond.load28
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $2048, %eax ## imm = 0x800			; AVX2-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX2-NEXT: je LBB22_24			; AVX2-NEXT: je LBB22_24
	; AVX2-NEXT: LBB22_23: ## %cond.load31			; AVX2-NEXT: LBB22_23: ## %cond.load31
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB22_26			; AVX2-NEXT: je LBB22_26
	; AVX2-NEXT: LBB22_25: ## %cond.load34			; AVX2-NEXT: LBB22_25: ## %cond.load34
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB22_28			; AVX2-NEXT: je LBB22_28
	; AVX2-NEXT: LBB22_27: ## %cond.load37			; AVX2-NEXT: LBB22_27: ## %cond.load37
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB22_30			; AVX2-NEXT: je LBB22_30
	; AVX2-NEXT: LBB22_29: ## %cond.load40			; AVX2-NEXT: LBB22_29: ## %cond.load40
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB22_32			; AVX2-NEXT: je LBB22_32
	; AVX2-NEXT: LBB22_31: ## %cond.load43			; AVX2-NEXT: LBB22_31: ## %cond.load43
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vmovdqa %ymm1, %ymm0			; AVX2-NEXT: vmovdqa %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_v16i16_v16i16:			; AVX512F-LABEL: load_v16i16_v16i16:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0			; AVX512F-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0			; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: testb $-128, %al			; AVX512F-NEXT: testb $-128, %al
	; AVX512F-NEXT: je LBB22_16			; AVX512F-NEXT: je LBB22_16
	; AVX512F-NEXT: LBB22_15: ## %cond.load19			; AVX512F-NEXT: LBB22_15: ## %cond.load19
	; AVX512F-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX512F-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512F-NEXT: testl $256, %eax ## imm = 0x100			; AVX512F-NEXT: testl $256, %eax ## imm = 0x100
	; AVX512F-NEXT: je LBB22_18			; AVX512F-NEXT: je LBB22_18
	; AVX512F-NEXT: LBB22_17: ## %cond.load22			; AVX512F-NEXT: LBB22_17: ## %cond.load22
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $512, %eax ## imm = 0x200			; AVX512F-NEXT: testl $512, %eax ## imm = 0x200
	; AVX512F-NEXT: je LBB22_20			; AVX512F-NEXT: je LBB22_20
	; AVX512F-NEXT: LBB22_19: ## %cond.load25			; AVX512F-NEXT: LBB22_19: ## %cond.load25
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $1024, %eax ## imm = 0x400			; AVX512F-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX512F-NEXT: je LBB22_22			; AVX512F-NEXT: je LBB22_22
	; AVX512F-NEXT: LBB22_21: ## %cond.load28			; AVX512F-NEXT: LBB22_21: ## %cond.load28
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $2048, %eax ## imm = 0x800			; AVX512F-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX512F-NEXT: je LBB22_24			; AVX512F-NEXT: je LBB22_24
	; AVX512F-NEXT: LBB22_23: ## %cond.load31			; AVX512F-NEXT: LBB22_23: ## %cond.load31
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX512F-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX512F-NEXT: je LBB22_26			; AVX512F-NEXT: je LBB22_26
	; AVX512F-NEXT: LBB22_25: ## %cond.load34			; AVX512F-NEXT: LBB22_25: ## %cond.load34
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX512F-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX512F-NEXT: je LBB22_28			; AVX512F-NEXT: je LBB22_28
	; AVX512F-NEXT: LBB22_27: ## %cond.load37			; AVX512F-NEXT: LBB22_27: ## %cond.load37
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX512F-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX512F-NEXT: je LBB22_30			; AVX512F-NEXT: je LBB22_30
	; AVX512F-NEXT: LBB22_29: ## %cond.load40			; AVX512F-NEXT: LBB22_29: ## %cond.load40
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX512F-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX512F-NEXT: je LBB22_32			; AVX512F-NEXT: je LBB22_32
	; AVX512F-NEXT: LBB22_31: ## %cond.load43			; AVX512F-NEXT: LBB22_31: ## %cond.load43
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: vmovdqa %ymm1, %ymm0			; AVX512F-NEXT: vmovdqa %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: load_v16i16_v16i16:			; AVX512VLDQ-LABEL: load_v16i16_v16i16:
	; AVX512VLDQ: ## %bb.0:			; AVX512VLDQ: ## %bb.0:
	; AVX512VLDQ-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512VLDQ-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512VLDQ-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0			; AVX512VLDQ-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; AVX512VLDQ-NEXT: vpmovsxwd %ymm0, %zmm0			; AVX512VLDQ-NEXT: vpmovsxwd %ymm0, %zmm0
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX512VLDQ-NEXT: testb $-128, %al			; AVX512VLDQ-NEXT: testb $-128, %al
	; AVX512VLDQ-NEXT: je LBB22_16			; AVX512VLDQ-NEXT: je LBB22_16
	; AVX512VLDQ-NEXT: LBB22_15: ## %cond.load19			; AVX512VLDQ-NEXT: LBB22_15: ## %cond.load19
	; AVX512VLDQ-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX512VLDQ-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $256, %eax ## imm = 0x100			; AVX512VLDQ-NEXT: testl $256, %eax ## imm = 0x100
	; AVX512VLDQ-NEXT: je LBB22_18			; AVX512VLDQ-NEXT: je LBB22_18
	; AVX512VLDQ-NEXT: LBB22_17: ## %cond.load22			; AVX512VLDQ-NEXT: LBB22_17: ## %cond.load22
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $512, %eax ## imm = 0x200			; AVX512VLDQ-NEXT: testl $512, %eax ## imm = 0x200
	; AVX512VLDQ-NEXT: je LBB22_20			; AVX512VLDQ-NEXT: je LBB22_20
	; AVX512VLDQ-NEXT: LBB22_19: ## %cond.load25			; AVX512VLDQ-NEXT: LBB22_19: ## %cond.load25
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $1024, %eax ## imm = 0x400			; AVX512VLDQ-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX512VLDQ-NEXT: je LBB22_22			; AVX512VLDQ-NEXT: je LBB22_22
	; AVX512VLDQ-NEXT: LBB22_21: ## %cond.load28			; AVX512VLDQ-NEXT: LBB22_21: ## %cond.load28
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $2048, %eax ## imm = 0x800			; AVX512VLDQ-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX512VLDQ-NEXT: je LBB22_24			; AVX512VLDQ-NEXT: je LBB22_24
	; AVX512VLDQ-NEXT: LBB22_23: ## %cond.load31			; AVX512VLDQ-NEXT: LBB22_23: ## %cond.load31
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX512VLDQ-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX512VLDQ-NEXT: je LBB22_26			; AVX512VLDQ-NEXT: je LBB22_26
	; AVX512VLDQ-NEXT: LBB22_25: ## %cond.load34			; AVX512VLDQ-NEXT: LBB22_25: ## %cond.load34
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX512VLDQ-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX512VLDQ-NEXT: je LBB22_28			; AVX512VLDQ-NEXT: je LBB22_28
	; AVX512VLDQ-NEXT: LBB22_27: ## %cond.load37			; AVX512VLDQ-NEXT: LBB22_27: ## %cond.load37
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX512VLDQ-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX512VLDQ-NEXT: je LBB22_30			; AVX512VLDQ-NEXT: je LBB22_30
	; AVX512VLDQ-NEXT: LBB22_29: ## %cond.load40			; AVX512VLDQ-NEXT: LBB22_29: ## %cond.load40
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX512VLDQ-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX512VLDQ-NEXT: je LBB22_32			; AVX512VLDQ-NEXT: je LBB22_32
	; AVX512VLDQ-NEXT: LBB22_31: ## %cond.load43			; AVX512VLDQ-NEXT: LBB22_31: ## %cond.load43
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: vmovdqa %ymm1, %ymm0			; AVX512VLDQ-NEXT: vmovdqa %ymm1, %ymm0
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: load_v16i16_v16i16:			; AVX512VLBW-LABEL: load_v16i16_v16i16:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
	; AVX512VLBW-NEXT: vpmovw2m %ymm0, %k1			; AVX512VLBW-NEXT: vpmovw2m %ymm0, %k1
	; AVX512VLBW-NEXT: vpblendmw (%rdi), %ymm1, %ymm0 {%k1}			; AVX512VLBW-NEXT: vpblendmw (%rdi), %ymm1, %ymm0 {%k1}
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	▲ Show 20 Lines • Show All 1,830 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX2-NEXT: je LBB24_34			; AVX2-NEXT: je LBB24_34
	; AVX2-NEXT: LBB24_33: ## %cond.load46			; AVX2-NEXT: LBB24_33: ## %cond.load46
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	; AVX2-NEXT: vpinsrb $0, 16(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $0, 16(%rdi), %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1
	; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000
	; AVX2-NEXT: je LBB24_36			; AVX2-NEXT: je LBB24_36
				RKSimonUnsubmitted Done Reply Inline Actions This definitely looks like a regression RKSimon: This definitely looks like a regression
	; AVX2-NEXT: LBB24_35: ## %cond.load49			; AVX2-NEXT: LBB24_35: ## %cond.load49
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	; AVX2-NEXT: vpinsrb $1, 17(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $1, 17(%rdi), %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1
	; AVX2-NEXT: testl $262144, %eax ## imm = 0x40000			; AVX2-NEXT: testl $262144, %eax ## imm = 0x40000
	; AVX2-NEXT: je LBB24_38			; AVX2-NEXT: je LBB24_38
	; AVX2-NEXT: LBB24_37: ## %cond.load52			; AVX2-NEXT: LBB24_37: ## %cond.load52
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	▲ Show 20 Lines • Show All 1,421 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; SSE2-NEXT: movlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_one_mask_bit_set3:			; SSE42-LABEL: load_one_mask_bit_set3:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrq $0, 16(%rdi), %xmm1			; SSE42-NEXT: pinsrq $0, 16(%rdi), %xmm1
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: load_one_mask_bit_set3:			; AVX-LABEL: load_one_mask_bit_set3:
	; AVX1: ## %bb.0:			; AVX: ## %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vbroadcastsd 16(%rdi), %ymm1
	; AVX1-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: retq
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: load_one_mask_bit_set3:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: load_one_mask_bit_set3:
	; AVX512: ## %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set3:			; X86-AVX512-LABEL: load_one_mask_bit_set3:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX512-NEXT: vbroadcastsd 16(%eax), %ymm1
	; X86-AVX512-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; X86-AVX512-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; X86-AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <4 x i64> @llvm.masked.load.v4i64.p0v4i64(<4 x i64>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 true, i1 false>, <4 x i64> %val)			%res = call <4 x i64> @llvm.masked.load.v4i64.p0v4i64(<4 x i64>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 true, i1 false>, <4 x i64> %val)
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}

	; Choose a different scalar type and a high element of a 256-bit vector because AVX doesn't support those evenly.			; Choose a different scalar type and a high element of a 256-bit vector because AVX doesn't support those evenly.

	define <4 x double> @load_one_mask_bit_set4(<4 x double>* %addr, <4 x double> %val) {			define <4 x double> @load_one_mask_bit_set4(<4 x double>* %addr, <4 x double> %val) {
	; SSE-LABEL: load_one_mask_bit_set4:			; SSE-LABEL: load_one_mask_bit_set4:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; SSE-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_one_mask_bit_set4:			; AVX-LABEL: load_one_mask_bit_set4:
	; AVX: ## %bb.0:			; AVX: ## %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vbroadcastsd 24(%rdi), %ymm1
	; AVX-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set4:			; X86-AVX512-LABEL: load_one_mask_bit_set4:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX512-NEXT: vbroadcastsd 24(%eax), %ymm1
	; X86-AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; X86-AVX512-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; X86-AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 false, i1 true>, <4 x double> %val)			%res = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 false, i1 true>, <4 x double> %val)
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	; Try a 512-bit vector to make sure AVX doesn't die and AVX512 works as expected.			; Try a 512-bit vector to make sure AVX doesn't die and AVX512 works as expected.

	define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {			define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {
	; SSE-LABEL: load_one_mask_bit_set5:			; SSE-LABEL: load_one_mask_bit_set5:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: movhps {{.*#+}} xmm3 = xmm3[0,1],mem[0,1]			; SSE-NEXT: movhps {{.*#+}} xmm3 = xmm3[0,1],mem[0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1OR2-LABEL: load_one_mask_bit_set5:			; AVX1OR2-LABEL: load_one_mask_bit_set5:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1OR2-NEXT: vbroadcastsd 56(%rdi), %ymm2
	; AVX1OR2-NEXT: vmovhps {{.*#+}} xmm2 = xmm2[0,1],mem[0,1]			; AVX1OR2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX1OR2-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512-LABEL: load_one_mask_bit_set5:			; AVX512F-LABEL: load_one_mask_bit_set5:
	; AVX512: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512F-NEXT: movb $-128, %al
	; AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; AVX512F-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512F-NEXT: retq
				;
				; AVX512VLDQ-LABEL: load_one_mask_bit_set5:
				; AVX512VLDQ: ## %bb.0:
				; AVX512VLDQ-NEXT: movb $-128, %al
				; AVX512VLDQ-NEXT: kmovw %eax, %k1
				; AVX512VLDQ-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; AVX512VLDQ-NEXT: retq
				;
				; AVX512VLBW-LABEL: load_one_mask_bit_set5:
				; AVX512VLBW: ## %bb.0:
				; AVX512VLBW-NEXT: movb $-128, %al
				; AVX512VLBW-NEXT: kmovd %eax, %k1
				; AVX512VLBW-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; AVX512VLBW-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set5:			; X86-AVX512-LABEL: load_one_mask_bit_set5:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; X86-AVX512-NEXT: movb $-128, %cl
	; X86-AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; X86-AVX512-NEXT: kmovd %ecx, %k1
	; X86-AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; X86-AVX512-NEXT: vbroadcastsd 56(%eax), %zmm0 {%k1}
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)			%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	define <16 x i64> @load_one_mask_bit_set6(<16 x i64>* %addr, <16 x i64> %val) {			define <16 x i64> @load_one_mask_bit_set6(<16 x i64>* %addr, <16 x i64> %val) {
	; SSE2-LABEL: load_one_mask_bit_set6:			; SSE2-LABEL: load_one_mask_bit_set6:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,18446744073709551615,0,0]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,18446744073709551615,0,0]
	; AVX2-NEXT: vpmaskmovq 96(%rdi), %ymm4, %ymm4			; AVX2-NEXT: vpmaskmovq 96(%rdi), %ymm4, %ymm4
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_one_mask_bit_set6:			; AVX512F-LABEL: load_one_mask_bit_set6:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
				; AVX512F-NEXT: movb $4, %al
				; AVX512F-NEXT: kmovw %eax, %k1
				; AVX512F-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512F-NEXT: movb $36, %al			; AVX512F-NEXT: movb $36, %al
	; AVX512F-NEXT: kmovw %eax, %k1			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512F-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512F-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512F-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512F-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: load_one_mask_bit_set6:			; AVX512VLDQ-LABEL: load_one_mask_bit_set6:
	; AVX512VLDQ: ## %bb.0:			; AVX512VLDQ: ## %bb.0:
				; AVX512VLDQ-NEXT: movb $4, %al
				; AVX512VLDQ-NEXT: kmovw %eax, %k1
				; AVX512VLDQ-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512VLDQ-NEXT: movb $36, %al			; AVX512VLDQ-NEXT: movb $36, %al
	; AVX512VLDQ-NEXT: kmovw %eax, %k1			; AVX512VLDQ-NEXT: kmovw %eax, %k1
	; AVX512VLDQ-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512VLDQ-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512VLDQ-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512VLDQ-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: load_one_mask_bit_set6:			; AVX512VLBW-LABEL: load_one_mask_bit_set6:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
				; AVX512VLBW-NEXT: movb $4, %al
				; AVX512VLBW-NEXT: kmovd %eax, %k1
				; AVX512VLBW-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512VLBW-NEXT: movb $36, %al			; AVX512VLBW-NEXT: movb $36, %al
	; AVX512VLBW-NEXT: kmovd %eax, %k1			; AVX512VLBW-NEXT: kmovd %eax, %k1
	; AVX512VLBW-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512VLBW-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512VLBW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512VLBW-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512VLBW-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set6:			; X86-AVX512-LABEL: load_one_mask_bit_set6:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-AVX512-NEXT: movb $4, %cl
				; X86-AVX512-NEXT: kmovd %ecx, %k1
				; X86-AVX512-NEXT: vbroadcastsd 16(%eax), %zmm0 {%k1}
	; X86-AVX512-NEXT: movb $36, %cl			; X86-AVX512-NEXT: movb $36, %cl
	; X86-AVX512-NEXT: kmovd %ecx, %k1			; X86-AVX512-NEXT: kmovd %ecx, %k1
	; X86-AVX512-NEXT: vmovdqu64 64(%eax), %zmm1 {%k1}			; X86-AVX512-NEXT: vmovdqu64 64(%eax), %zmm1 {%k1}
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; X86-AVX512-NEXT: vmovlps {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]
	; X86-AVX512-NEXT: vinsertf32x4 $1, %xmm2, %zmm0, %zmm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <16 x i64> @llvm.masked.load.v16i64.p0v16i64(<16 x i64>* %addr, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 true, i1 false, i1 false>, <16 x i64> %val)			%res = call <16 x i64> @llvm.masked.load.v16i64.p0v16i64(<16 x i64>* %addr, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 true, i1 false, i1 false>, <16 x i64> %val)
	ret <16 x i64> %res			ret <16 x i64> %res
	}			}

	define i32 @pr38986(i1 %c, i32* %p) {			define i32 @pr38986(i1 %c, i32* %p) {
	; SSE-LABEL: pr38986:			; SSE-LABEL: pr38986:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/oddsubvector.ll

	Show First 20 Lines • Show All 265 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR42833:			; AVX2-LABEL: PR42833:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: movl b(%rip), %eax			; AVX2-NEXT: movl b(%rip), %eax
	; AVX2-NEXT: vmovdqu c+128(%rip), %ymm0			; AVX2-NEXT: vmovdqu c+128(%rip), %ymm0
	; AVX2-NEXT: addl c+128(%rip), %eax			; AVX2-NEXT: addl c+128(%rip), %eax
	; AVX2-NEXT: vmovd %eax, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm1
				; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm3			; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0],ymm3[1,2,3,4,5,6,7]
	; AVX2-NEXT: vmovdqu %ymm2, c+128(%rip)			; AVX2-NEXT: vmovdqu %ymm2, c+128(%rip)
	; AVX2-NEXT: vmovdqu c+160(%rip), %ymm2			; AVX2-NEXT: vmovdqu c+160(%rip), %ymm2
	; AVX2-NEXT: vmovdqu d+160(%rip), %ymm3			; AVX2-NEXT: vmovdqu d+160(%rip), %ymm3
	; AVX2-NEXT: vmovdqu d+128(%rip), %ymm4			; AVX2-NEXT: vmovdqu d+128(%rip), %ymm4
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]
	; AVX2-NEXT: vpsubd %ymm0, %ymm4, %ymm0			; AVX2-NEXT: vpsubd %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: vpsubd %ymm2, %ymm3, %ymm1			; AVX2-NEXT: vpsubd %ymm2, %ymm3, %ymm1
	; AVX2-NEXT: vmovdqu %ymm1, d+160(%rip)			; AVX2-NEXT: vmovdqu %ymm1, d+160(%rip)
	; AVX2-NEXT: vmovdqu %ymm0, d+128(%rip)			; AVX2-NEXT: vmovdqu %ymm0, d+128(%rip)
	; AVX2-NEXT: vpaddd %ymm2, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm2, %ymm2, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, c+160(%rip)			; AVX2-NEXT: vmovdqu %ymm0, c+160(%rip)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: PR42833:			; AVX512-LABEL: PR42833:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movl b(%rip), %eax			; AVX512-NEXT: movl b(%rip), %eax
	; AVX512-NEXT: vmovdqu c+128(%rip), %ymm0			; AVX512-NEXT: vmovdqu c+128(%rip), %ymm0
	; AVX512-NEXT: vmovdqu64 c+128(%rip), %zmm1			; AVX512-NEXT: vmovdqu64 c+128(%rip), %zmm1
	; AVX512-NEXT: addl c+128(%rip), %eax			; AVX512-NEXT: addl c+128(%rip), %eax
	; AVX512-NEXT: vmovd %eax, %xmm2			; AVX512-NEXT: vmovd %eax, %xmm2
	; AVX512-NEXT: vpaddd %ymm2, %ymm0, %ymm2			; AVX512-NEXT: vpbroadcastd %xmm2, %ymm2
				; AVX512-NEXT: vpaddd %ymm2, %ymm0, %ymm3
	; AVX512-NEXT: vpaddd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %ymm0, %ymm0, %ymm0
	; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0],ymm0[1,2,3,4,5,6,7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0],ymm0[1,2,3,4,5,6,7]
	; AVX512-NEXT: vmovdqa c+128(%rip), %xmm2
	; AVX512-NEXT: vmovdqu %ymm0, c+128(%rip)			; AVX512-NEXT: vmovdqu %ymm0, c+128(%rip)
	; AVX512-NEXT: vmovdqu c+160(%rip), %ymm0			; AVX512-NEXT: vmovdqu c+160(%rip), %ymm0
	; AVX512-NEXT: vmovdqu64 d+128(%rip), %zmm3			; AVX512-NEXT: vmovdqu64 d+128(%rip), %zmm3
	; AVX512-NEXT: vpinsrd $0, %eax, %xmm2, %xmm2			; AVX512-NEXT: movw $1, %ax
	; AVX512-NEXT: vinserti32x4 $0, %xmm2, %zmm1, %zmm1			; AVX512-NEXT: kmovw %eax, %k1
				; AVX512-NEXT: vmovdqa32 %zmm2, %zmm1 {%k1}
	; AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm1			; AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm1
	; AVX512-NEXT: vpsubd %zmm1, %zmm3, %zmm1			; AVX512-NEXT: vpsubd %zmm1, %zmm3, %zmm1
	; AVX512-NEXT: vmovdqu64 %zmm1, d+128(%rip)			; AVX512-NEXT: vmovdqu64 %zmm1, d+128(%rip)
	; AVX512-NEXT: vpaddd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %ymm0, %ymm0, %ymm0
	; AVX512-NEXT: vmovdqu %ymm0, c+160(%rip)			; AVX512-NEXT: vmovdqu %ymm0, c+160(%rip)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr29112.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f \| FileCheck %s

	declare <4 x float> @foo(<4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @foo(<4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>)

	; Due to a bug in X86RegisterInfo::getLargestLegalSuperClass this test case was trying to use XMM16 and spill it without VLX support for the necessary store instruction. We briefly implemented the spill using VEXTRACTF32X4, but the bug in getLargestLegalSuperClass has now been fixed so we no longer use XMM16.			; Due to a bug in X86RegisterInfo::getLargestLegalSuperClass this test case was trying to use XMM16 and spill it without VLX support for the necessary store instruction. We briefly implemented the spill using VEXTRACTF32X4, but the bug in getLargestLegalSuperClass has now been fixed so we no longer use XMM16.

	define <4 x float> @bar(<4 x float>* %a1p, <4 x float>* %a2p, <4 x float> %a3, <4 x float> %a4, <16 x float>%c1, <16 x float>%c2) {			define <4 x float> @bar(<4 x float>* %a1p, <4 x float>* %a2p, <4 x float> %a3, <4 x float> %a4, <16 x float>%c1, <16 x float>%c2) {
	; CHECK-LABEL: bar:			; CHECK-LABEL: bar:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: .cfi_def_cfa_offset 80			; CHECK-NEXT: .cfi_def_cfa_offset 80
	; CHECK-NEXT: vmovaps %xmm1, %xmm9			; CHECK-NEXT: vmovaps %xmm1, %xmm9
	; CHECK-NEXT: vmovaps {{.*#+}} xmm14 = [4,22,1,17]			; CHECK-NEXT: vmovaps {{.*#+}} xmm10 = [4,22,1,3]
	; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm14
	; CHECK-NEXT: vmovaps {{.*#+}} xmm10 = [4,30,1,22]
	; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm10			; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm10
	; CHECK-NEXT: vmovaps {{.*#+}} xmm8 = [4,28,1,29]			; CHECK-NEXT: vmovaps {{.*#+}} xmm12 = [4,30,1,3]
				; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm12
				; CHECK-NEXT: vmovaps {{.*#+}} xmm8 = [4,28,1,3]
	; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm8			; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm8
	; CHECK-NEXT: vmovaps {{.*#+}} xmm7 = <5,20,u,u>			; CHECK-NEXT: vmovaps {{.*#+}} xmm4 = [4,21,1,3]
	; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm7
	; CHECK-NEXT: vmovaps {{.*#+}} xmm4 = [4,21,1,7]
	; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm4			; CHECK-NEXT: vpermi2ps %zmm3, %zmm2, %zmm4
	; CHECK-NEXT: vextractf128 $1, %ymm3, %xmm5			; CHECK-NEXT: vextractf128 $1, %ymm3, %xmm15
	; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm6			; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm7
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm11 = xmm6[0],xmm5[0],xmm6[1],xmm5[1]			; CHECK-NEXT: vunpcklps {{.*#+}} xmm11 = xmm7[0],xmm15[0],xmm7[1],xmm15[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm11[0,1],xmm2[1],xmm11[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm11[0,1],xmm2[1],xmm11[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm13 = xmm1[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm14 = xmm0[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm4[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm4[0,1,2],xmm3[1]
	; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4			; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4
	; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm1[0,1,2],xmm4[3]			; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm0[0,1,2],xmm4[3]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm2[3,3,3,3]			; CHECK-NEXT: vpalignr {{.*#+}} xmm5 = xmm2[12,13,14,15],xmm15[0,1,2,3,4,5,6,7,8,9,10,11]
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm5 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
	; CHECK-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,1],xmm2[1,3]			; CHECK-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,1],xmm2[1,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm7[0,1],xmm2[1],xmm7[3]			; CHECK-NEXT: vbroadcastss %xmm15, %xmm1
	; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm0[0,1,2],xmm3[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm7[1],xmm1[1],zero,zero
	; CHECK-NEXT: vblendps {{.*#+}} xmm12 = xmm1[0,1,2],xmm3[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[1],xmm1[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm8[0,1,2],xmm3[1]			; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm1[0,1,2],xmm3[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[1]			; CHECK-NEXT: vblendps {{.*#+}} xmm13 = xmm0[0,1,2],xmm3[3]
	; CHECK-NEXT: vaddps %xmm1, %xmm0, %xmm8			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm8[0,1,2],xmm3[1]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm3[1]
				; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm8
				; CHECK-NEXT: vinsertps {{.*#+}} xmm12 = xmm12[0,1,2],xmm15[2]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm10[0,1,2],xmm3[1]
	; CHECK-NEXT: vshufps {{.*#+}} xmm2 = xmm11[0,1],xmm2[3,3]			; CHECK-NEXT: vshufps {{.*#+}} xmm2 = xmm11[0,1],xmm2[3,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]			; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]
	; CHECK-NEXT: vaddps %xmm2, %xmm14, %xmm2			; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm2
	; CHECK-NEXT: vmovaps %xmm13, %xmm1			; CHECK-NEXT: vmovaps %xmm14, %xmm1
	; CHECK-NEXT: vmovaps %xmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vaddps %xmm10, %xmm13, %xmm10			; CHECK-NEXT: vaddps %xmm12, %xmm14, %xmm10
	; CHECK-NEXT: vaddps %xmm13, %xmm13, %xmm3			; CHECK-NEXT: vaddps %xmm14, %xmm14, %xmm3
	; CHECK-NEXT: vaddps %xmm12, %xmm14, %xmm0
	; CHECK-NEXT: vaddps %xmm0, %xmm8, %xmm0
	; CHECK-NEXT: vaddps %xmm0, %xmm13, %xmm0			; CHECK-NEXT: vaddps %xmm0, %xmm13, %xmm0
				; CHECK-NEXT: vaddps %xmm0, %xmm8, %xmm0
				; CHECK-NEXT: vaddps %xmm0, %xmm14, %xmm0
	; CHECK-NEXT: vmovaps %xmm3, {{[0-9]+}}(%rsp)			; CHECK-NEXT: vmovaps %xmm3, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: vmovaps %xmm10, (%rsp)			; CHECK-NEXT: vmovaps %xmm10, (%rsp)
	; CHECK-NEXT: vmovaps %xmm9, %xmm3			; CHECK-NEXT: vmovaps %xmm9, %xmm3
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: callq foo@PLT			; CHECK-NEXT: callq foo@PLT
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: vaddps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: vaddps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm0
	Show All 39 Lines

llvm/test/CodeGen/X86/sse-insertelt-from-mem.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2

	; 0'th element insertion into an SSE register.			; 0'th element insertion into an SSE register.

	define <4 x float> @insert_f32_firstelt(<4 x float> %x, float* %s.addr) {			define <4 x float> @insert_f32_firstelt(<4 x float> %x, float* %s.addr) {
	; SSE2-LABEL: insert_f32_firstelt:			; SSE2-LABEL: insert_f32_firstelt:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: insert_f32_two_elts:			; AVX-LABEL: insert_f32_two_elts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX-NEXT: vbroadcastss (%rdi), %xmm1
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,0],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%s = load float, float* %s.addr			%s = load float, float* %s.addr
	%i0 = insertelement <4 x float> %x, float %s, i32 0			%i0 = insertelement <4 x float> %x, float %s, i32 0
	%i1 = insertelement <4 x float> %i0, float %s, i32 1			%i1 = insertelement <4 x float> %i0, float %s, i32 1
	ret <4 x float> %i1			ret <4 x float> %i1
	}			}

	define <2 x double> @insert_f64_two_elts(<2 x double> %x, double* %s.addr) {			define <2 x double> @insert_f64_two_elts(<2 x double> %x, double* %s.addr) {
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	define <8 x i16> @insert_i16_two_elts(<8 x i16> %x, i16* %s.addr) {			define <8 x i16> @insert_i16_two_elts(<8 x i16> %x, i16* %s.addr) {
	; SSE-LABEL: insert_i16_two_elts:			; SSE-LABEL: insert_i16_two_elts:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movzwl (%rdi), %eax			; SSE-NEXT: movzwl (%rdi), %eax
	; SSE-NEXT: pinsrw $0, %eax, %xmm0			; SSE-NEXT: pinsrw $0, %eax, %xmm0
	; SSE-NEXT: pinsrw $1, %eax, %xmm0			; SSE-NEXT: pinsrw $1, %eax, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: insert_i16_two_elts:			; AVX1-LABEL: insert_i16_two_elts:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: movzwl (%rdi), %eax			; AVX1-NEXT: movzwl (%rdi), %eax
	; AVX-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; AVX-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: insert_i16_two_elts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpbroadcastw (%rdi), %xmm1
				; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
				; AVX2-NEXT: retq
	%s = load i16, i16* %s.addr			%s = load i16, i16* %s.addr
	%i0 = insertelement <8 x i16> %x, i16 %s, i32 0			%i0 = insertelement <8 x i16> %x, i16 %s, i32 0
	%i1 = insertelement <8 x i16> %i0, i16 %s, i32 1			%i1 = insertelement <8 x i16> %i0, i16 %s, i32 1
	ret <8 x i16> %i1			ret <8 x i16> %i1
	}			}

	define <4 x i32> @insert_i32_two_elts(<4 x i32> %x, i32* %s.addr) {			define <4 x i32> @insert_i32_two_elts(<4 x i32> %x, i32* %s.addr) {
	; SSE2-LABEL: insert_i32_two_elts:			; SSE2-LABEL: insert_i32_two_elts:
	Show All 10 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movl (%rdi), %eax			; SSE41-NEXT: movl (%rdi), %eax
	; SSE41-NEXT: pinsrd $0, %eax, %xmm0			; SSE41-NEXT: pinsrd $0, %eax, %xmm0
	; SSE41-NEXT: pinsrd $1, %eax, %xmm0			; SSE41-NEXT: pinsrd $1, %eax, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: insert_i32_two_elts:			; AVX-LABEL: insert_i32_two_elts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movl (%rdi), %eax			; AVX-NEXT: vbroadcastss (%rdi), %xmm1
	; AVX-NEXT: vpinsrd $0, %eax, %xmm0, %xmm0			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%s = load i32, i32* %s.addr			%s = load i32, i32* %s.addr
	%i0 = insertelement <4 x i32> %x, i32 %s, i32 0			%i0 = insertelement <4 x i32> %x, i32 %s, i32 0
	%i1 = insertelement <4 x i32> %i0, i32 %s, i32 1			%i1 = insertelement <4 x i32> %i0, i32 %s, i32 1
	ret <4 x i32> %i1			ret <4 x i32> %i1
	}			}

	define <2 x i64> @insert_i64_two_elts(<2 x i64> %x, i64* %s.addr) {			define <2 x i64> @insert_i64_two_elts(<2 x i64> %x, i64* %s.addr) {
	Show All 9 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movq (%rdi), %rax			; SSE41-NEXT: movq (%rdi), %rax
	; SSE41-NEXT: pinsrq $0, %rax, %xmm0			; SSE41-NEXT: pinsrq $0, %rax, %xmm0
	; SSE41-NEXT: pinsrq $1, %rax, %xmm0			; SSE41-NEXT: pinsrq $1, %rax, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: insert_i64_two_elts:			; AVX-LABEL: insert_i64_two_elts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movq (%rdi), %rax			; AVX-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; AVX-NEXT: vpinsrq $0, %rax, %xmm0, %xmm0
	; AVX-NEXT: vpinsrq $1, %rax, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%s = load i64, i64* %s.addr			%s = load i64, i64* %s.addr
	%i0 = insertelement <2 x i64> %x, i64 %s, i32 0			%i0 = insertelement <2 x i64> %x, i64 %s, i32 0
	%i1 = insertelement <2 x i64> %i0, i64 %s, i32 1			%i1 = insertelement <2 x i64> %i0, i64 %s, i32 1
	ret <2 x i64> %i1			ret <2 x i64> %i1
	}			}

	; Special tests			; Special tests
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse-insertelt.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2

	; 0'th element insertion into an SSE register.			; 0'th element insertion into an SSE register.

	define <4 x float> @insert_f32_firstelt(<4 x float> %x, float %s) {			define <4 x float> @insert_f32_firstelt(<4 x float> %x, float %s) {
	; SSE2-LABEL: insert_f32_firstelt:			; SSE2-LABEL: insert_f32_firstelt:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	▲ Show 20 Lines • Show All 228 Lines • ▼ Show 20 Lines

	define <4 x float> @insert_f32_two_elts(<4 x float> %x, float %s) {			define <4 x float> @insert_f32_two_elts(<4 x float> %x, float %s) {
	; SSE-LABEL: insert_f32_two_elts:			; SSE-LABEL: insert_f32_two_elts:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,3]
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: insert_f32_two_elts:			; AVX1-LABEL: insert_f32_two_elts:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,0],xmm0[2,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,0],xmm0[2,3]
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_two_elts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
				; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x float> %x, float %s, i32 0			%i0 = insertelement <4 x float> %x, float %s, i32 0
	%i1 = insertelement <4 x float> %i0, float %s, i32 1			%i1 = insertelement <4 x float> %i0, float %s, i32 1
	ret <4 x float> %i1			ret <4 x float> %i1
	}			}

	define <2 x double> @insert_f64_two_elts(<2 x double> %x, double %s) {			define <2 x double> @insert_f64_two_elts(<2 x double> %x, double %s) {
	; SSE2-LABEL: insert_f64_two_elts:			; SSE2-LABEL: insert_f64_two_elts:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines

	define <8 x i16> @insert_i16_two_elts(<8 x i16> %x, i16 %s) {			define <8 x i16> @insert_i16_two_elts(<8 x i16> %x, i16 %s) {
	; SSE-LABEL: insert_i16_two_elts:			; SSE-LABEL: insert_i16_two_elts:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pinsrw $0, %edi, %xmm0			; SSE-NEXT: pinsrw $0, %edi, %xmm0
	; SSE-NEXT: pinsrw $1, %edi, %xmm0			; SSE-NEXT: pinsrw $1, %edi, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: insert_i16_two_elts:			; AVX1-LABEL: insert_i16_two_elts:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: insert_i16_two_elts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovd %edi, %xmm1
				; AVX2-NEXT: vpbroadcastw %xmm1, %xmm1
				; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x i16> %x, i16 %s, i32 0			%i0 = insertelement <8 x i16> %x, i16 %s, i32 0
	%i1 = insertelement <8 x i16> %i0, i16 %s, i32 1			%i1 = insertelement <8 x i16> %i0, i16 %s, i32 1
	ret <8 x i16> %i1			ret <8 x i16> %i1
	}			}

	define <4 x i32> @insert_i32_two_elts(<4 x i32> %x, i32 %s) {			define <4 x i32> @insert_i32_two_elts(<4 x i32> %x, i32 %s) {
	; SSE2-LABEL: insert_i32_two_elts:			; SSE2-LABEL: insert_i32_two_elts:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movd %edi, %xmm2			; SSE2-NEXT: movd %edi, %xmm2
	; SSE2-NEXT: movd %edi, %xmm1			; SSE2-NEXT: movd %edi, %xmm1
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: insert_i32_two_elts:			; SSE41-LABEL: insert_i32_two_elts:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pinsrd $0, %edi, %xmm0			; SSE41-NEXT: pinsrd $0, %edi, %xmm0
	; SSE41-NEXT: pinsrd $1, %edi, %xmm0			; SSE41-NEXT: pinsrd $1, %edi, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: insert_i32_two_elts:			; AVX1-LABEL: insert_i32_two_elts:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: insert_i32_two_elts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovd %edi, %xmm1
				; AVX2-NEXT: vpbroadcastd %xmm1, %xmm1
				; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x i32> %x, i32 %s, i32 0			%i0 = insertelement <4 x i32> %x, i32 %s, i32 0
	%i1 = insertelement <4 x i32> %i0, i32 %s, i32 1			%i1 = insertelement <4 x i32> %i0, i32 %s, i32 1
	ret <4 x i32> %i1			ret <4 x i32> %i1
	}			}

	define <2 x i64> @insert_i64_two_elts(<2 x i64> %x, i64 %s) {			define <2 x i64> @insert_i64_two_elts(<2 x i64> %x, i64 %s) {
	; SSE2-LABEL: insert_i64_two_elts:			; SSE2-LABEL: insert_i64_two_elts:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movq %rdi, %xmm0			; SSE2-NEXT: movq %rdi, %xmm0
	; SSE2-NEXT: movq %rdi, %xmm1			; SSE2-NEXT: movq %rdi, %xmm1
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: insert_i64_two_elts:			; SSE41-LABEL: insert_i64_two_elts:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pinsrq $0, %rdi, %xmm0			; SSE41-NEXT: pinsrq $0, %rdi, %xmm0
	; SSE41-NEXT: pinsrq $1, %rdi, %xmm0			; SSE41-NEXT: pinsrq $1, %rdi, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: insert_i64_two_elts:			; AVX1-LABEL: insert_i64_two_elts:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0
	; AVX-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: insert_i64_two_elts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovq %rdi, %xmm0
				; AVX2-NEXT: vpbroadcastq %xmm0, %xmm0
				; AVX2-NEXT: retq
	%i0 = insertelement <2 x i64> %x, i64 %s, i32 0			%i0 = insertelement <2 x i64> %x, i64 %s, i32 0
	%i1 = insertelement <2 x i64> %i0, i64 %s, i32 1			%i1 = insertelement <2 x i64> %i0, i64 %s, i32 1
	ret <2 x i64> %i1			ret <2 x i64> %i1
	}			}

llvm/test/CodeGen/X86/vector-shuffle-avx512.ll

Show First 20 Lines • Show All 528 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 14, i32 12, i32 10, i32 8, i32 7, i32 6, i32 3, i32 0, i32 7, i32 6, i32 3, i32 0>		%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 14, i32 12, i32 10, i32 8, i32 7, i32 6, i32 3, i32 0, i32 7, i32 6, i32 3, i32 0>
%res = select <16 x i1> <i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 0, i1 0, i1 1, i1 1, i1 1, i1 0, i1 1, i1 0, i1 1, i1 0>, <16 x float> %shuf, <16 x float> %vec2		%res = select <16 x i1> <i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 0, i1 0, i1 1, i1 1, i1 1, i1 0, i1 1, i1 0, i1 1, i1 0>, <16 x float> %shuf, <16 x float> %vec2
ret <16 x float> %res		ret <16 x float> %res
}		}

define void @test_demandedelts_pshufb_v32i8_v16i8(<2 x i32>* %src, <8 x i32>* %dst) {		define void @test_demandedelts_pshufb_v32i8_v16i8(<2 x i32>* %src, <8 x i32>* %dst) {
; SKX64-LABEL: test_demandedelts_pshufb_v32i8_v16i8:		; SKX64-LABEL: test_demandedelts_pshufb_v32i8_v16i8:
; SKX64: # %bb.0:		; SKX64: # %bb.0:
; SKX64-NEXT: vmovdqa 32(%rdi), %xmm0		; SKX64-NEXT: vpbroadcastd 44(%rdi), %ymm0
; SKX64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SKX64-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; SKX64-NEXT: vmovdqa %ymm0, 672(%rsi)		; SKX64-NEXT: vmovdqa %ymm0, 672(%rsi)
; SKX64-NEXT: vmovdqa 208(%rdi), %xmm0		; SKX64-NEXT: vmovdqa 208(%rdi), %xmm0
; SKX64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero		; SKX64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero
; SKX64-NEXT: vmovdqa %ymm0, 832(%rsi)		; SKX64-NEXT: vmovdqa %ymm0, 832(%rsi)
; SKX64-NEXT: vzeroupper		; SKX64-NEXT: vzeroupper
; SKX64-NEXT: retq		; SKX64-NEXT: retq
;		;
; KNL64-LABEL: test_demandedelts_pshufb_v32i8_v16i8:		; KNL64-LABEL: test_demandedelts_pshufb_v32i8_v16i8:
; KNL64: # %bb.0:		; KNL64: # %bb.0:
; KNL64-NEXT: vmovdqa 32(%rdi), %xmm0		; KNL64-NEXT: vpbroadcastd 44(%rdi), %ymm0
; KNL64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; KNL64-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; KNL64-NEXT: vmovdqa %ymm0, 672(%rsi)		; KNL64-NEXT: vmovdqa %ymm0, 672(%rsi)
; KNL64-NEXT: vmovdqa 208(%rdi), %xmm0		; KNL64-NEXT: vmovdqa 208(%rdi), %xmm0
; KNL64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero		; KNL64-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero
; KNL64-NEXT: vmovdqa %ymm0, 832(%rsi)		; KNL64-NEXT: vmovdqa %ymm0, 832(%rsi)
; KNL64-NEXT: retq		; KNL64-NEXT: retq
;		;
; SKX32-LABEL: test_demandedelts_pshufb_v32i8_v16i8:		; SKX32-LABEL: test_demandedelts_pshufb_v32i8_v16i8:
; SKX32: # %bb.0:		; SKX32: # %bb.0:
; SKX32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX32-NEXT: movl {{[0-9]+}}(%esp), %ecx		; SKX32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; SKX32-NEXT: vmovdqa 32(%ecx), %xmm0		; SKX32-NEXT: vpbroadcastd 44(%ecx), %ymm0
; SKX32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero		; SKX32-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; SKX32-NEXT: vmovdqa %ymm0, 672(%eax)		; SKX32-NEXT: vmovdqa %ymm0, 672(%eax)
; SKX32-NEXT: vmovdqa 208(%ecx), %xmm0		; SKX32-NEXT: vmovdqa 208(%ecx), %xmm0
; SKX32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero		; SKX32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero
; SKX32-NEXT: vmovdqa %ymm0, 832(%eax)		; SKX32-NEXT: vmovdqa %ymm0, 832(%eax)
; SKX32-NEXT: vzeroupper		; SKX32-NEXT: vzeroupper
; SKX32-NEXT: retl		; SKX32-NEXT: retl
;		;
; KNL32-LABEL: test_demandedelts_pshufb_v32i8_v16i8:		; KNL32-LABEL: test_demandedelts_pshufb_v32i8_v16i8:
; KNL32: # %bb.0:		; KNL32: # %bb.0:
; KNL32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL32-NEXT: vmovdqa 32(%eax), %xmm0
; KNL32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero
; KNL32-NEXT: movl {{[0-9]+}}(%esp), %ecx		; KNL32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; KNL32-NEXT: vmovdqa %ymm0, 672(%ecx)		; KNL32-NEXT: vpbroadcastd 44(%ecx), %ymm0
; KNL32-NEXT: vmovdqa 208(%eax), %xmm0		; KNL32-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
		; KNL32-NEXT: vmovdqa %ymm0, 672(%eax)
		; KNL32-NEXT: vmovdqa 208(%ecx), %xmm0
; KNL32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero		; KNL32-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,6,7,0,1,2,3],zero,zero,zero,zero,zero,zero,zero,zero
; KNL32-NEXT: vmovdqa %ymm0, 832(%ecx)		; KNL32-NEXT: vmovdqa %ymm0, 832(%eax)
; KNL32-NEXT: retl		; KNL32-NEXT: retl
%t64 = bitcast <2 x i32>* %src to <16 x i32>*		%t64 = bitcast <2 x i32>* %src to <16 x i32>*
%t87 = load <16 x i32>, <16 x i32>* %t64, align 64		%t87 = load <16 x i32>, <16 x i32>* %t64, align 64
%t88 = extractelement <16 x i32> %t87, i64 11		%t88 = extractelement <16 x i32> %t87, i64 11
%t89 = insertelement <8 x i32> <i32 undef, i32 undef, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>, i32 %t88, i64 0		%t89 = insertelement <8 x i32> <i32 undef, i32 undef, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>, i32 %t88, i64 0
%t90 = insertelement <8 x i32> %t89, i32 %t88, i64 1		%t90 = insertelement <8 x i32> %t89, i32 %t88, i64 1
%ptridx49.i = getelementptr inbounds <8 x i32>, <8 x i32>* %dst, i64 21		%ptridx49.i = getelementptr inbounds <8 x i32>, <8 x i32>* %dst, i64 21
store <8 x i32> %t90, <8 x i32>* %ptridx49.i, align 32		store <8 x i32> %t90, <8 x i32>* %ptridx49.i, align 32
▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 3,369 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovaps %xmm0, (%rax)			; AVX1-NEXT: vmovaps %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: SpinningCube:			; AVX2-LABEL: SpinningCube:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl $1065353216, (%rax) # imm = 0x3F800000			; AVX2-NEXT: movl $1065353216, (%rax) # imm = 0x3F800000
	; AVX2-NEXT: vbroadcastss {{.*#+}} xmm0 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]			; AVX2-NEXT: vbroadcastss {{.*#+}} xmm0 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
	; AVX2-NEXT: vmovaps {{.*#+}} xmm1 = <0.0E+0,-2.0E+0,u,u>			; AVX2-NEXT: vmovaps {{.*#+}} xmm1 = <0.0E+0,-2.0E+0,u,u>
	; AVX2-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,1,3]			; AVX2-NEXT: vbroadcastss {{.*#+}} xmm2 = [NaN,NaN,NaN,NaN]
	; AVX2-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = zero,zero,xmm1[1],xmm2[3]
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]			; AVX2-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,3]
	; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm0[0],xmm3[0],xmm0[2,3]			; AVX2-NEXT: vaddps %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vaddps %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vmovaps %xmm2, (%rax)			; AVX2-NEXT: vmovaps %xmm2, (%rax)
	; AVX2-NEXT: vbroadcastss (%rax), %xmm2			; AVX2-NEXT: vbroadcastss (%rax), %xmm2
	; AVX2-NEXT: vmulps %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vmulps %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,3]			; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,3]
	; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vmovaps %xmm0, (%rax)			; AVX2-NEXT: vmovaps %xmm0, (%rax)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	entry:			entry:
	Show All 27 Lines

llvm/test/CodeGen/X86/vselect.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2

	; Verify that we don't emit packed vector shifts instructions if the			; Verify that we don't emit packed vector shifts instructions if the
	; condition used by the vector select is a vector of constants.			; condition used by the vector select is a vector of constants.

	define <4 x float> @test1(<4 x float> %a, <4 x float> %b) {			define <4 x float> @test1(<4 x float> %a, <4 x float> %b) {
	; SSE2-LABEL: test1:			; SSE2-LABEL: test1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,3]
	▲ Show 20 Lines • Show All 570 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; SSE41-NEXT: por %xmm1, %xmm2			; SSE41-NEXT: por %xmm1, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,1,1]
	; SSE41-NEXT: pinsrd $1, %edi, %xmm1			; SSE41-NEXT: pinsrd $1, %edi, %xmm1
	; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: simplify_select:			; AVX1-LABEL: simplify_select:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-NEXT: vpslld $31, %xmm0, %xmm0			; AVX1-NEXT: vpslld $31, %xmm0, %xmm0
	; AVX-NEXT: vmovd %edi, %xmm1			; AVX1-NEXT: vmovd %edi, %xmm1
	; AVX-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; AVX-NEXT: vpor %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpor %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]
	; AVX-NEXT: vpinsrd $1, %edi, %xmm2, %xmm2			; AVX1-NEXT: vpinsrd $1, %edi, %xmm2, %xmm2
	; AVX-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0			; AVX1-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: simplify_select:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; AVX2-NEXT: vpslld $31, %xmm0, %xmm0
				; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vmovd %edi, %xmm2
				; AVX2-NEXT: vpbroadcastd %xmm2, %xmm2
				; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3,4,5,6,7]
				; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,0,1,1]
				; AVX2-NEXT: vpor %xmm1, %xmm3, %xmm1
				; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,1,1]
				; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm3[0],xmm2[1],xmm3[2,3]
				; AVX2-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
				; AVX2-NEXT: retq
				RKSimonUnsubmitted Not Done Reply Inline Actions whats going on here? RKSimon: whats going on here?
	%a = insertelement <2 x i32> <i32 0, i32 undef>, i32 %x, i32 1			%a = insertelement <2 x i32> <i32 0, i32 undef>, i32 %x, i32 1
	%b = insertelement <2 x i32> <i32 undef, i32 0>, i32 %x, i32 0			%b = insertelement <2 x i32> <i32 undef, i32 0>, i32 %x, i32 0
	%y = or <2 x i32> %a, %b			%y = or <2 x i32> %a, %b
	%p16 = extractelement <2 x i32> %y, i32 1			%p16 = extractelement <2 x i32> %y, i32 1
	%p17 = insertelement <2 x i32> undef, i32 %p16, i32 0			%p17 = insertelement <2 x i32> undef, i32 %p16, i32 0
	%p18 = insertelement <2 x i32> %p17, i32 %x, i32 1			%p18 = insertelement <2 x i32> %p17, i32 %x, i32 1
	%r = select <2 x i1> %z, <2 x i32> %y, <2 x i32> %p18			%r = select <2 x i1> %z, <2 x i32> %y, <2 x i32> %p18
	ret <2 x i32> %r			ret <2 x i32> %r
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend (PR50971)ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 361525

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avx-insertelt.ll

llvm/test/CodeGen/X86/avx2-masked-gather.ll

llvm/test/CodeGen/X86/avx512-insert-extract.ll

llvm/test/CodeGen/X86/avx512-masked-memop-64-32.ll

llvm/test/CodeGen/X86/insertelement-shuffle.ll

llvm/test/CodeGen/X86/load-partial.ll

llvm/test/CodeGen/X86/masked_expandload.ll

llvm/test/CodeGen/X86/masked_gather.ll

llvm/test/CodeGen/X86/masked_gather_scatter.ll

llvm/test/CodeGen/X86/masked_load.ll

llvm/test/CodeGen/X86/oddsubvector.ll

llvm/test/CodeGen/X86/pr29112.ll

llvm/test/CodeGen/X86/sse-insertelt-from-mem.ll

llvm/test/CodeGen/X86/sse-insertelt.ll

llvm/test/CodeGen/X86/vector-shuffle-avx512.ll

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

llvm/test/CodeGen/X86/vselect.ll

[X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend (PR50971)
ClosedPublic