This is an archive of the discontinued LLVM Phabricator instance.

I think the premise is sound, but creating variable shuffle/blend masks isn't great - its also uncovering a number of other poor codegen issues that need addressing.

llvm/lib/Target/X86/X86ISelLowering.cpp
19196	Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of broadcasts, so casts are fine
llvm/test/CodeGen/X86/avx512-insert-extract.ll
13	Is it really worth loading a variable shuffle mask?
llvm/test/CodeGen/X86/insertelement-shuffle.ll
44	Any idea whats going on here?
llvm/test/CodeGen/X86/masked_load.ll
5649	This definitely looks like a regression

In D105390#2856736, @RKSimon wrote:

I think the premise is sound, but creating variable shuffle/blend masks isn't great - its also uncovering a number of other poor codegen issues that need addressing.

My main question is, presumably we only want to do this iff that is the only insertion into that 128-bit-wide subreg?

Addressing review notes:

Allow i32/i64 for AVX (just pretend they are f32/f64)
Only allow YMM vectors, disallow ZMM vectors
Disallow i8 even if we can handle it - we have to load mask

Add broadcast(extract_vector_elt(x, 0)) -> broadcast(x) fold, to address one more regression.

llvm/test/CodeGen/X86/insertelement-shuffle.ll

Optimized legalized selection DAG: %bb.0 'insert_subvector_512:'
SelectionDAG has 24 nodes:
  t0: ch = EntryToken
      t6: v4i64,ch = CopyFromReg t0, Register:v4i64 %2
                t2: i32,ch = CopyFromReg t0, Register:i32 %0
              t41: v4i32 = scalar_to_vector t2
              t4: i32,ch = CopyFromReg t0, Register:i32 %1
            t43: v4i32 = insert_vector_elt t41, t4, Constant:i64<1>
          t35: v2i64 = bitcast t43
        t36: i64 = extract_vector_elt t35, Constant:i64<0>
      t47: v4i64 = X86ISD::VBROADCAST t36
    t45: v4i64 = X86ISD::BLENDI t6, t47, TargetConstant:i8<4>
  t26: ch,glue = CopyToReg t0, Register:v4i64 $ymm0, t45
    t8: v4i64,ch = CopyFromReg t0, Register:v4i64 %3
  t28: ch,glue = CopyToReg t26, Register:v4i64 $ymm1, t8, t26:1
  t29: ch = X86ISD::RET_FLAG t28, TargetConstant:i32<0>, Register:v4i64 $ymm0, Register:v4i64 $ymm1, t28:1

We were missing broadcast(extract_vector_elt(x, 0)) -> broadcast(x) fold.

Harbormaster completed remote builds in B112338: Diff 356355.Jul 3 2021, 1:49 PM

Actually, AVX1 has no from-register broadcasts, only 32/64-bit from-memory broadcasts.
Not sure why i thought otherwise.

Harbormaster completed remote builds in B112349: Diff 356370.Jul 4 2021, 1:44 AM

RKSimon added inline comments.Jul 5 2021, 9:01 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19193	Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style guide.
19199	Use MayFoldLoad?
37998	We might need a legal type check on Src.getOperand(0) before introducing a target opcode?

Addressing nits.

Harbormaster completed remote builds in B112454: Diff 356515.Jul 5 2021, 10:07 AM

craig.topper added inline comments.Jul 6 2021, 10:24 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19203	X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector.

Addressing review nit.

craig.topper added inline comments.Jul 6 2021, 11:32 AM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Is this really better? I assume this what we get for an AVX2 target too. Not just KNL?

Harbormaster completed remote builds in B112660: Diff 356778.Jul 6 2021, 11:47 AM

lebedev.ri added inline comments.Jul 6 2021, 12:32 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll

690–707

Multi-insert case does seem questionable, yes. We could improve this via:

define <16 x i16> @src(<16 x i16> %x, i16 %y, i16* %ptr) {
  %val = load i16, i16* %ptr
  %r1 = insertelement <16 x i16> %x, i16 %val, i32 1
  %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
  ret <16 x i16> %r2
}
define <16 x i16> @tgt(<16 x i16> %x, i16 %y, i16* %ptr) {
  %val = load i16, i16* %ptr
  %r1 = insertelement <16 x i16> undef, i16 %val, i32 1
  %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
  %r3 = select <16 x i1> <i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <16 x i16> %x, <16 x i16> %r2
  ret <16 x i16> %r3
}

then we get

        .text
        .file   "test.ll"
        .globl  src                             # -- Begin function src
        .p2align        4, 0x90
        .type   src,@function
src:                                    # @src
        .cfi_startproc
# %bb.0:
        vpbroadcastw    (%rsi), %xmm1
        vpblendw        $2, %xmm1, %xmm0, %xmm1         # xmm1 = xmm0[0],xmm1[1],xmm0[2,3,4,5,6,7]
        vmovd   %edi, %xmm2
        vpbroadcastw    %xmm2, %ymm2
        vpblendw        $2, %ymm2, %ymm0, %ymm0         # ymm0 = ymm0[0],ymm2[1],ymm0[2,3,4,5,6,7,8],ymm2[9],ymm0[10,11,12,13,14,15]
        vpblendd        $240, %ymm0, %ymm1, %ymm0       # ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
        retq
.Lfunc_end0:
        .size   src, .Lfunc_end0-src
        .cfi_endproc
                                        # -- End function
        .globl  tgt                             # -- Begin function tgt
        .p2align        4, 0x90
        .type   tgt,@function
tgt:                                    # @tgt
        .cfi_startproc
# %bb.0:
        vpbroadcastw    (%rsi), %xmm1
        vmovd   %edi, %xmm2
        vpslld  $16, %xmm2, %xmm2
        vinserti128     $1, %xmm2, %ymm1, %ymm1
        vpblendw        $2, %ymm1, %ymm0, %ymm0         # ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
        retq
.Lfunc_end1:
        .size   tgt, .Lfunc_end1-tgt
        .cfi_endproc
                                        # -- End function
        .section        ".note.GNU-stack","",@progbits

lebedev.ri added inline comments.Jul 6 2021, 3:09 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	... something like D105514, but clearly that is also not as straight-forward. Thoughts?

craig.topper added inline comments.Jul 7 2021, 12:23 PM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast and 2 blends. But it turns out vpinsrw is slower than I realized on Haswell.
706	vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got on avx2 would be better. That's probably a separate issue in shuffle lowering/combining.
820	Again, I'd expect 2 blends to be better.

lebedev.ri marked an inline comment as done.Jul 7 2021, 12:32 PM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing this for lower subvector too?
706	Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess.

ping

RKSimon added inline comments.Jul 13 2021, 5:29 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
38000	do we get any changes in current tests if we pull this out as a preliminary patch?
llvm/test/CodeGen/X86/avx512-insert-extract.ll
706	The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off.

lebedev.ri marked an inline comment as done.Jul 13 2021, 5:30 AM

lebedev.ri added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
38000	Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate patch :/

RKSimon added inline comments.Jul 19 2021, 7:46 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical broadcasts?

lebedev.ri marked an inline comment as done.Jul 19 2021, 7:53 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/masked_gather.ll
1420	I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what would expect it to look like?

RKSimon added inline comments.Jul 19 2021, 9:28 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The IR looks like the gep is splatting the element 3 of the pointer array to every gather address.

lebedev.ri added inline comments.Jul 19 2021, 10:06 AM

llvm/test/CodeGen/X86/masked_gather.ll
1420	Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are scalarized by `Scalarize Masked Memory Intrinsics (scalarize-masked-mem-intrin)` pass, which is a codegen pass, I'm not sure how we could do that in DAGCombine, since we only have a single bb at a time, and we don't have any heavy-lifting passes this late.

Is this waiting on some changes from my side?

Do we have any test coverage of repeated insertions of the same scalar into different elements? Either same subvector or different subvectors.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	Did you have any luck testing broadcasts into lower subvector?

RKSimon mentioned this in rG15b883f45771: [X86][AVX] Adjust AllowBWIVPERMV3 tolerance to account for….Jul 25 2021, 6:06 AM

RKSimon added inline comments.Jul 25 2021, 6:23 AM

llvm/test/CodeGen/X86/avx512-insert-extract.ll
706	rG15b883f45771 should address this

Rebased.

lebedev.ri marked 3 inline comments as done.Jul 25 2021, 6:59 AM

lebedev.ri marked an inline comment as done.Jul 25 2021, 7:21 AM

lebedev.ri added inline comments.

llvm/test/CodeGen/X86/avx512-insert-extract.ll
690–707	I briefly looked at the test changes without high-subvector limitation, and the test changes aren't really obviously better, so i'm not really planning on touching that here.

In D105390#2902908, @RKSimon wrote:

Do we have any test coverage of repeated insertions of the same scalar into different elements? Either same subvector or different subvectors.

We do now, added to avx-insertelt.ll.

Harbormaster completed remote builds in B116073: Diff 361507.Jul 25 2021, 8:13 AM

RKSimon added inline comments.Jul 25 2021, 8:28 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19199	Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast.

Generalize profitability check somewhat.

llvm/lib/Target/X86/X86ISelLowering.cpp
19199	How about now?

Fixup check prefixes in vselect.ll

Also accept insertions into non-low part of YMM.
I don't know if the code is better, but if it is worse,
then we also need to filter out YMM ops in the multi-use check.

Harbormaster completed remote builds in B116087: Diff 361525.Jul 25 2021, 12:50 PM

lebedev.ri added a comment.Jul 26 2021, 6:22 AM

This comment was removed by lebedev.ri.

(sorry, wrong patch)

RKSimon added inline comments.Jul 27 2021, 2:23 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
19201	It might be easier to read if you pull this out into a helper function/lamdba
llvm/test/CodeGen/X86/vselect.ll
617 ↗	(On Diff #361525)	whats going on here?

@RKSimon thank you for taking a look!
Thinking about it more, i am not okay with following https://reviews.llvm.org/D105390#inline-1016171
Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast. suggestion.
While that clearly results in improvements mostly, not all additional changes are wins per-se.
This is counter-productive. The relaxation is clearly separable from the existing diff.
I see no reason why it must be done at once.

I'm interested in looking into that later, but at the same time
i'm perfectly okay with not proceeding with this patch at all.
Thanks.

Harbormaster completed remote builds in B116454: Diff 362063.Jul 27 2021, 11:05 AM

lebedev.ri mentioned this in D107009: [WIP][X86] combineX86ShuffleChain(): canonicalize mask elts picking from splats.Jul 28 2021, 3:35 PM

bump

lebedev.ri mentioned this in rGf819e4c7d0f6: [X86] combineX86ShuffleChain(): canonicalize mask elts picking from splats.Aug 4 2021, 6:55 AM

Rebased, NFC.

Harbormaster completed remote builds in B117906: Diff 364102.Aug 4 2021, 7:59 AM

bump

Sorry for the delay - I'm happy for this to go in as a first step, are you intending to continue investigating multiple insertions?

llvm/lib/Target/X86/X86ISelLowering.cpp
19202	EltSizeInBits >= 32 ?

This revision is now accepted and ready to land.Aug 17 2021, 8:06 AM

In D105390#2949468, @RKSimon wrote:

Sorry for the delay - I'm happy for this to go in as a first step,

Thank you for the review!

are you intending to continue investigating multiple insertions?

I would like to look further into this, but right now i'm not sure what would be the best way to deal with those cases.

This revision was landed with ongoing or failed builds.Aug 17 2021, 8:45 AM

Closed by commit rG2078c4ecfda8: [X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend… (authored by lebedev.ri). · Explain Why

This revision was automatically updated to reflect the committed changes.

lebedev.ri added a commit: rG2078c4ecfda8: [X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend….

@lebedev.ri Are you looking at the https://bugs.llvm.org/show_bug.cgi?id=51615 regression due to this patch?

In D105390#2966823, @RKSimon wrote:

@lebedev.ri Are you looking at the https://bugs.llvm.org/show_bug.cgi?id=51615 regression due to this patch?

Yes, looking into this now.

lebedev.ri mentioned this in D108757: [X86][Codegen] PR51615: don't replace wide volatile load with narrow broadcast-from-memory.Aug 26 2021, 4:07 AM

lebedev.ri mentioned this in rGa8125bf4a869: [X86][Codegen] PR51615: don't replace wide volatile load with narrow broadcast….Aug 26 2021, 8:47 AM

lebedev.ri mentioned this in D108821: [Codegen][X86] EltsFromConsecutiveLoads(): if only have AVX1, ensure that the "load" is actually foldable (PR51615).Aug 27 2021, 7:48 AM

lebedev.ri mentioned this in rG6734018041e4: [Codegen][X86] EltsFromConsecutiveLoads(): if only have AVX1, ensure that the….Aug 27 2021, 10:27 AM

yubing mentioned this in D109348: [X86][AVX] Prohibit creating X86ISD::VBROADCAST(128->256) when it is AVX in combineConcatVectorOps.Sep 7 2021, 2:24 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

26 lines

test/

CodeGen/

X86/

avx-insertelt.ll

170 lines

avx2-masked-gather.ll

61 lines

avx512-insert-extract.ll

198 lines

avx512-masked-memop-64-32.ll

19 lines

insertelement-shuffle.ll

13 lines

masked_expandload.ll

308 lines

masked_gather.ll

124 lines

masked_gather_scatter.ll

98 lines

masked_load.ll

245 lines

Diff 366913

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 19,184 Lines • ▼ Show 20 Lines	if (VT.is256BitVector() && IdxVal == 0) {
if ((Subtarget.hasAVX() && (EltVT == MVT::f64 \|\| EltVT == MVT::f32)) \|\|		if ((Subtarget.hasAVX() && (EltVT == MVT::f64 \|\| EltVT == MVT::f32)) \|\|
(Subtarget.hasAVX2() && EltVT == MVT::i32)) {		(Subtarget.hasAVX2() && EltVT == MVT::i32)) {
SDValue N1Vec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, N1);		SDValue N1Vec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, N1);
return DAG.getNode(X86ISD::BLENDI, dl, VT, N0, N1Vec,		return DAG.getNode(X86ISD::BLENDI, dl, VT, N0, N1Vec,
DAG.getTargetConstant(1, dl, MVT::i8));		DAG.getTargetConstant(1, dl, MVT::i8));
}		}
}		}

		unsigned NumEltsIn128 = 128 / EltSizeInBits;
		RKSimonUnsubmitted Done Reply Inline Actions Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style guide. RKSimon: Move the assert(isPowerOf2_32(NumEltsIn128)) as well? And add an assert message to match style…
		assert(isPowerOf2_32(NumEltsIn128) &&
		"Vectors will always have power-of-two number of elements.");

		RKSimonUnsubmitted Done Reply Inline Actions Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of broadcasts, so casts are fine RKSimon: Yes - its very tricky to see the effect of a domain crossing penalty on targets capable of…
		// If we are not inserting into the low 128-bit vector chunk,
		// then prefer the broadcast+blend sequence.
		// FIXME: relax the profitability check iff all N1 uses are insertions.
		RKSimonUnsubmitted Done Reply Inline Actions Use MayFoldLoad? RKSimon: Use MayFoldLoad?
		RKSimonUnsubmitted Not Done Reply Inline Actions Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is already used in a (a) another insertelement/psinrw/pinsrb, (b) scalar_to_vector or (c) broadcast. RKSimon: Maybe generalize the IdxVal >= NumEltsIn128 limit to insert with broadcast if the scalar is…
		lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions How about now? lebedev.ri: How about now?
		if (!VT.is128BitVector() && IdxVal >= NumEltsIn128 &&
		((Subtarget.hasAVX2() && EltSizeInBits != 8) \|\|
		RKSimonUnsubmitted Not Done Reply Inline Actions It might be easier to read if you pull this out into a helper function/lamdba RKSimon: It might be easier to read if you pull this out into a helper function/lamdba
		(Subtarget.hasAVX() && (EltSizeInBits >= 32) && MayFoldLoad(N1)))) {
		RKSimonUnsubmitted Not Done Reply Inline Actions EltSizeInBits >= 32 ? RKSimon: EltSizeInBits >= 32 ?
		SDValue N1SplatVec = DAG.getSplatBuildVector(VT, dl, N1);
		craig.topperUnsubmitted Done Reply Inline Actions X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector. craig.topper: X86 doesn't use ISD::SPLAT_VECTOR. I think this should be DAG.getSplatBuildVector.
		SmallVector<int, 8> BlendMask;
		for (unsigned i = 0; i != NumElts; ++i)
		BlendMask.push_back(i == IdxVal ? i + NumElts : i);
		return DAG.getVectorShuffle(VT, dl, N0, N1SplatVec, BlendMask);
		}

// Get the desired 128-bit vector chunk.		// Get the desired 128-bit vector chunk.
SDValue V = extract128BitVector(N0, IdxVal, DAG, dl);		SDValue V = extract128BitVector(N0, IdxVal, DAG, dl);

// Insert the element into the desired chunk.		// Insert the element into the desired chunk.
unsigned NumEltsIn128 = 128 / EltSizeInBits;
assert(isPowerOf2_32(NumEltsIn128));
// Since NumEltsIn128 is a power of 2 we can use mask instead of modulo.		// Since NumEltsIn128 is a power of 2 we can use mask instead of modulo.
unsigned IdxIn128 = IdxVal & (NumEltsIn128 - 1);		unsigned IdxIn128 = IdxVal & (NumEltsIn128 - 1);

V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, V.getValueType(), V, N1,		V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, V.getValueType(), V, N1,
DAG.getIntPtrConstant(IdxIn128, dl));		DAG.getIntPtrConstant(IdxIn128, dl));

// Insert the changed part back into the bigger vector		// Insert the changed part back into the bigger vector
return insert128BitVector(N0, V, IdxVal, DAG, dl);		return insert128BitVector(N0, V, IdxVal, DAG, dl);
▲ Show 20 Lines • Show All 18,765 Lines • ▼ Show 20 Lines	case X86ISD::VBROADCAST: {
if (SrcVT.getSizeInBits() > 128)		if (SrcVT.getSizeInBits() > 128)
return DAG.getNode(X86ISD::VBROADCAST, DL, VT,		return DAG.getNode(X86ISD::VBROADCAST, DL, VT,
extract128BitVector(Src, 0, DAG, DL));		extract128BitVector(Src, 0, DAG, DL));

// broadcast(scalar_to_vector(x)) -> broadcast(x).		// broadcast(scalar_to_vector(x)) -> broadcast(x).
if (Src.getOpcode() == ISD::SCALAR_TO_VECTOR)		if (Src.getOpcode() == ISD::SCALAR_TO_VECTOR)
return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));		return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));

		// broadcast(extract_vector_elt(x, 0)) -> broadcast(x).
		if (Src.getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
		isNullConstant(Src.getOperand(1)) &&
		DAG.getTargetLoweringInfo().isTypeLegal(
		RKSimonUnsubmitted Done Reply Inline Actions We might need a legal type check on Src.getOperand(0) before introducing a target opcode? RKSimon: We might need a legal type check on Src.getOperand(0) before introducing a target opcode?
		Src.getOperand(0).getValueType()))
		return DAG.getNode(X86ISD::VBROADCAST, DL, VT, Src.getOperand(0));
		RKSimonUnsubmitted Done Reply Inline Actions do we get any changes in current tests if we pull this out as a preliminary patch? RKSimon: do we get any changes in current tests if we pull this out as a preliminary patch?
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate patch :/ lebedev.ri: Sadly, i tried that originally, and we do not, otherwise i would have had this as a separate…

// Share broadcast with the longest vector and extract low subvector (free).		// Share broadcast with the longest vector and extract low subvector (free).
// Ensure the same SDValue from the SDNode use is being used.		// Ensure the same SDValue from the SDNode use is being used.
for (SDNode *User : Src->uses())		for (SDNode *User : Src->uses())
if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&		if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&
Src == User->getOperand(0) &&		Src == User->getOperand(0) &&
User->getValueSizeInBits(0).getFixedSize() >		User->getValueSizeInBits(0).getFixedSize() >
VT.getFixedSizeInBits()) {		VT.getFixedSizeInBits()) {
return extractSubVector(SDValue(User, 0), 0, DAG, DL,		return extractSubVector(SDValue(User, 0), 0, DAG, DL,
▲ Show 20 Lines • Show All 14,922 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-insertelt.ll

	Show First 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 0			%i0 = insertelement <4 x i64> %x, i64 %s, i32 0
	ret <4 x i64> %i0			ret <4 x i64> %i0
	}			}

	; 0'th element of high subvector insertion into an AVX register.			; 0'th element of high subvector insertion into an AVX register.

	define <8 x float> @insert_f32_firstelt_of_high_subvector(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_firstelt_of_high_subvector(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_firstelt_of_high_subvector:			; AVX-LABEL: insert_f32_firstelt_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm2[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm2[1,2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_firstelt_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 4			%i0 = insertelement <8 x float> %x, float %s, i32 4
	ret <8 x float> %i0			ret <8 x float> %i0
	}			}

	define <4 x double> @insert_f64_firstelt_of_high_subvector(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_firstelt_of_high_subvector(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_firstelt_of_high_subvector:			; AVX-LABEL: insert_f64_firstelt_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_firstelt_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 2			%i0 = insertelement <4 x double> %x, double %s, i32 2
	ret <4 x double> %i0			ret <4 x double> %i0
	}			}

	define <32 x i8> @insert_i8_firstelt_of_high_subvector(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_firstelt_of_high_subvector(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_firstelt_of_high_subvector:			; AVX-LABEL: insert_i8_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	Show All 16 Lines
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i16_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]
				; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 8			%i0 = insertelement <16 x i16> %x, i16 %s, i32 8
	ret <16 x i16> %i0			ret <16 x i16> %i0
	}			}

	define <8 x i32> @insert_i32_firstelt_of_high_subvector(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_firstelt_of_high_subvector(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_firstelt_of_high_subvector:			; AVX-LABEL: insert_i32_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i32_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 4			%i0 = insertelement <8 x i32> %x, i32 %s, i32 4
	ret <8 x i32> %i0			ret <8 x i32> %i0
	}			}

	define <4 x i64> @insert_i64_firstelt_of_high_subvector(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_firstelt_of_high_subvector(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_firstelt_of_high_subvector:			; AVX-LABEL: insert_i64_firstelt_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_firstelt_of_high_subvector:			; AVX2-LABEL: insert_i64_firstelt_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 2			%i0 = insertelement <4 x i64> %x, i64 %s, i32 2
	ret <4 x i64> %i0			ret <4 x i64> %i0
	}			}

	; element insertion into 0'th element of both subvectors			; element insertion into 0'th element of both subvectors

	define <8 x float> @insert_f32_firstelts(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_firstelts(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_firstelts:			; AVX-LABEL: insert_f32_firstelts:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0],xmm0[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0],xmm0[1,2,3]
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_firstelts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4],ymm0[5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 0			%i0 = insertelement <8 x float> %x, float %s, i32 0
	%i1 = insertelement <8 x float> %i0, float %s, i32 4			%i1 = insertelement <8 x float> %i0, float %s, i32 4
	ret <8 x float> %i1			ret <8 x float> %i1
	}			}

	define <4 x double> @insert_f64_firstelts(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_firstelts(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_firstelts:			; AVX-LABEL: insert_f64_firstelts:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_firstelts:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm1[1],ymm0[1],ymm1[3],ymm0[3]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 0			%i0 = insertelement <4 x double> %x, double %s, i32 0
	%i1 = insertelement <4 x double> %i0, double %s, i32 2			%i1 = insertelement <4 x double> %i0, double %s, i32 2
	ret <4 x double> %i1			ret <4 x double> %i1
	}			}

	define <32 x i8> @insert_i8_firstelts(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_firstelts(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_firstelts:			; AVX-LABEL: insert_i8_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	Show All 22 Lines
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_firstelts:			; AVX2-LABEL: insert_i16_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1			; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm0, %xmm0			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
				; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]
				; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 0			%i0 = insertelement <16 x i16> %x, i16 %s, i32 0
	%i1 = insertelement <16 x i16> %i0, i16 %s, i32 8			%i1 = insertelement <16 x i16> %i0, i16 %s, i32 8
	ret <16 x i16> %i1			ret <16 x i16> %i1
	}			}

	define <8 x i32> @insert_i32_firstelts(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_firstelts(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_firstelts:			; AVX-LABEL: insert_i32_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_firstelts:			; AVX2-LABEL: insert_i32_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovd %edi, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 0			%i0 = insertelement <8 x i32> %x, i32 %s, i32 0
	%i1 = insertelement <8 x i32> %i0, i32 %s, i32 4			%i1 = insertelement <8 x i32> %i0, i32 %s, i32 4
	ret <8 x i32> %i1			ret <8 x i32> %i1
	}			}

	define <4 x i64> @insert_i64_firstelts(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_firstelts(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_firstelts:			; AVX-LABEL: insert_i64_firstelts:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0
	; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_firstelts:			; AVX2-LABEL: insert_i64_firstelts:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
				; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 0			%i0 = insertelement <4 x i64> %x, i64 %s, i32 0
	%i1 = insertelement <4 x i64> %i0, i64 %s, i32 2			%i1 = insertelement <4 x i64> %i0, i64 %s, i32 2
	ret <4 x i64> %i1			ret <4 x i64> %i1
	}			}

	; element insertion into two elements of high subvector			; element insertion into two elements of high subvector

	define <8 x float> @insert_f32_two_elts_of_high_subvector(<8 x float> %x, float %s) {			define <8 x float> @insert_f32_two_elts_of_high_subvector(<8 x float> %x, float %s) {
	; ALL-LABEL: insert_f32_two_elts_of_high_subvector:			; AVX-LABEL: insert_f32_two_elts_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
	; ALL-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,3]			; AVX-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f32_two_elts_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastss %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <8 x float> %x, float %s, i32 4			%i0 = insertelement <8 x float> %x, float %s, i32 4
	%i1 = insertelement <8 x float> %i0, float %s, i32 5			%i1 = insertelement <8 x float> %i0, float %s, i32 5
	ret <8 x float> %i1			ret <8 x float> %i1
	}			}

	define <4 x double> @insert_f64_two_elts_of_high_subvector(<4 x double> %x, double %s) {			define <4 x double> @insert_f64_two_elts_of_high_subvector(<4 x double> %x, double %s) {
	; ALL-LABEL: insert_f64_two_elts_of_high_subvector:			; AVX-LABEL: insert_f64_two_elts_of_high_subvector:
	; ALL: # %bb.0:			; AVX: # %bb.0:
	; ALL-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]			; AVX-NEXT: vmovddup {{.*#+}} xmm1 = xmm1[0,0]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX-NEXT: retq
				;
				; AVX2-LABEL: insert_f64_two_elts_of_high_subvector:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vbroadcastsd %xmm1, %ymm1
				; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; AVX2-NEXT: retq
	%i0 = insertelement <4 x double> %x, double %s, i32 2			%i0 = insertelement <4 x double> %x, double %s, i32 2
	%i1 = insertelement <4 x double> %i0, double %s, i32 3			%i1 = insertelement <4 x double> %i0, double %s, i32 3
	ret <4 x double> %i1			ret <4 x double> %i1
	}			}

	define <32 x i8> @insert_i8_two_elts_of_high_subvector(<32 x i8> %x, i8 %s) {			define <32 x i8> @insert_i8_two_elts_of_high_subvector(<32 x i8> %x, i8 %s) {
	; AVX-LABEL: insert_i8_two_elts_of_high_subvector:			; AVX-LABEL: insert_i8_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	Show All 21 Lines
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i16_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i16_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrw $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1
	; AVX2-NEXT: vpinsrw $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4],ymm0[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <16 x i16> %x, i16 %s, i32 8			%i0 = insertelement <16 x i16> %x, i16 %s, i32 8
	%i1 = insertelement <16 x i16> %i0, i16 %s, i32 9			%i1 = insertelement <16 x i16> %i0, i16 %s, i32 9
	ret <16 x i16> %i1			ret <16 x i16> %i1
	}			}

	define <8 x i32> @insert_i32_two_elts_of_high_subvector(<8 x i32> %x, i32 %s) {			define <8 x i32> @insert_i32_two_elts_of_high_subvector(<8 x i32> %x, i32 %s) {
	; AVX-LABEL: insert_i32_two_elts_of_high_subvector:			; AVX-LABEL: insert_i32_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1
	; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i32_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i32_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vmovd %edi, %xmm1
	; AVX2-NEXT: vpinsrd $0, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1
	; AVX2-NEXT: vpinsrd $1, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <8 x i32> %x, i32 %s, i32 4			%i0 = insertelement <8 x i32> %x, i32 %s, i32 4
	%i1 = insertelement <8 x i32> %i0, i32 %s, i32 5			%i1 = insertelement <8 x i32> %i0, i32 %s, i32 5
	ret <8 x i32> %i1			ret <8 x i32> %i1
	}			}

	define <4 x i64> @insert_i64_two_elts_of_high_subvector(<4 x i64> %x, i64 %s) {			define <4 x i64> @insert_i64_two_elts_of_high_subvector(<4 x i64> %x, i64 %s) {
	; AVX-LABEL: insert_i64_two_elts_of_high_subvector:			; AVX-LABEL: insert_i64_two_elts_of_high_subvector:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1
	; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX2-LABEL: insert_i64_two_elts_of_high_subvector:			; AVX2-LABEL: insert_i64_two_elts_of_high_subvector:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm1			; AVX2-NEXT: vmovq %rdi, %xmm1
	; AVX2-NEXT: vpinsrq $1, %rdi, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%i0 = insertelement <4 x i64> %x, i64 %s, i32 2			%i0 = insertelement <4 x i64> %x, i64 %s, i32 2
	%i1 = insertelement <4 x i64> %i0, i64 %s, i32 3			%i1 = insertelement <4 x i64> %i0, i64 %s, i32 3
	ret <4 x i64> %i1			ret <4 x i64> %i1
	}			}

	; element insertion into two elements of low subvector			; element insertion into two elements of low subvector

	▲ Show 20 Lines • Show All 98 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx2-masked-gather.ll

	Show First 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm0			; NOGATHER-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm0
	; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; NOGATHER-NEXT: .LBB6_8: # %else8			; NOGATHER-NEXT: .LBB6_8: # %else8
	; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0			; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0
	; NOGATHER-NEXT: testb $16, %al			; NOGATHER-NEXT: testb $16, %al
	; NOGATHER-NEXT: je .LBB6_10			; NOGATHER-NEXT: je .LBB6_10
	; NOGATHER-NEXT: # %bb.9: # %cond.load10			; NOGATHER-NEXT: # %bb.9: # %cond.load10
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $0, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB6_10: # %else11			; NOGATHER-NEXT: .LBB6_10: # %else11
	; NOGATHER-NEXT: testb $32, %al			; NOGATHER-NEXT: testb $32, %al
	; NOGATHER-NEXT: je .LBB6_12			; NOGATHER-NEXT: je .LBB6_12
	; NOGATHER-NEXT: # %bb.11: # %cond.load13			; NOGATHER-NEXT: # %bb.11: # %cond.load13
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $1, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB6_12: # %else14			; NOGATHER-NEXT: .LBB6_12: # %else14
	; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0			; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0
	; NOGATHER-NEXT: testb $64, %al			; NOGATHER-NEXT: testb $64, %al
	; NOGATHER-NEXT: jne .LBB6_13			; NOGATHER-NEXT: jne .LBB6_13
	; NOGATHER-NEXT: # %bb.14: # %else17			; NOGATHER-NEXT: # %bb.14: # %else17
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: jne .LBB6_15			; NOGATHER-NEXT: jne .LBB6_15
	; NOGATHER-NEXT: .LBB6_16: # %else20			; NOGATHER-NEXT: .LBB6_16: # %else20
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB6_13: # %cond.load16			; NOGATHER-NEXT: .LBB6_13: # %cond.load16
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrd $2, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: je .LBB6_16			; NOGATHER-NEXT: je .LBB6_16
	; NOGATHER-NEXT: .LBB6_15: # %cond.load19			; NOGATHER-NEXT: .LBB6_15: # %cond.load19
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastss (%rax), %ymm0
	; NOGATHER-NEXT: vpinsrd $3, (%rax), %xmm0, %xmm0			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm0[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <8 x i32>, <8 x i32>* %ptr			%ld = load <8 x i32>, <8 x i32>* %ptr
	%res = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ld, i32 0, <8 x i1> %masks, <8 x i32> %passthro)			%res = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ld, i32 0, <8 x i1> %masks, <8 x i32> %passthro)
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],mem[0]			; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],mem[0]
	; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; NOGATHER-NEXT: .LBB7_8: # %else8			; NOGATHER-NEXT: .LBB7_8: # %else8
	; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0			; NOGATHER-NEXT: vmovdqa 32(%rdi), %ymm0
	; NOGATHER-NEXT: testb $16, %al			; NOGATHER-NEXT: testb $16, %al
	; NOGATHER-NEXT: je .LBB7_10			; NOGATHER-NEXT: je .LBB7_10
	; NOGATHER-NEXT: # %bb.9: # %cond.load10			; NOGATHER-NEXT: # %bb.9: # %cond.load10
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; NOGATHER-NEXT: vblendps {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB7_10: # %else11			; NOGATHER-NEXT: .LBB7_10: # %else11
	; NOGATHER-NEXT: testb $32, %al			; NOGATHER-NEXT: testb $32, %al
	; NOGATHER-NEXT: je .LBB7_12			; NOGATHER-NEXT: je .LBB7_12
	; NOGATHER-NEXT: # %bb.11: # %cond.load13			; NOGATHER-NEXT: # %bb.11: # %cond.load13
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: .LBB7_12: # %else14			; NOGATHER-NEXT: .LBB7_12: # %else14
	; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0			; NOGATHER-NEXT: vextractf128 $1, %ymm0, %xmm0
	; NOGATHER-NEXT: testb $64, %al			; NOGATHER-NEXT: testb $64, %al
	; NOGATHER-NEXT: jne .LBB7_13			; NOGATHER-NEXT: jne .LBB7_13
	; NOGATHER-NEXT: # %bb.14: # %else17			; NOGATHER-NEXT: # %bb.14: # %else17
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: jne .LBB7_15			; NOGATHER-NEXT: jne .LBB7_15
	; NOGATHER-NEXT: .LBB7_16: # %else20			; NOGATHER-NEXT: .LBB7_16: # %else20
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB7_13: # %cond.load16			; NOGATHER-NEXT: .LBB7_13: # %cond.load16
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastss (%rcx), %ymm2
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $-128, %al			; NOGATHER-NEXT: testb $-128, %al
	; NOGATHER-NEXT: je .LBB7_16			; NOGATHER-NEXT: je .LBB7_16
	; NOGATHER-NEXT: .LBB7_15: # %cond.load19			; NOGATHER-NEXT: .LBB7_15: # %cond.load19
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastss (%rax), %ymm0
	; NOGATHER-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm0[7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <8 x float>, <8 x float>* %ptr			%ld = load <8 x float>, <8 x float>* %ptr
	%res = call <8 x float> @llvm.masked.gather.v8float(<8 x float*> %ld, i32 0, <8 x i1> %masks, <8 x float> %passthro)			%res = call <8 x float> @llvm.masked.gather.v8float(<8 x float*> %ld, i32 0, <8 x i1> %masks, <8 x float> %passthro)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: # %bb.6: # %else5			; NOGATHER-NEXT: # %bb.6: # %else5
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: jne .LBB8_7			; NOGATHER-NEXT: jne .LBB8_7
	; NOGATHER-NEXT: .LBB8_8: # %else8			; NOGATHER-NEXT: .LBB8_8: # %else8
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB8_5: # %cond.load4			; NOGATHER-NEXT: .LBB8_5: # %cond.load4
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastsd (%rcx), %ymm2
	; NOGATHER-NEXT: vpinsrq $0, (%rcx), %xmm2, %xmm2			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: je .LBB8_8			; NOGATHER-NEXT: je .LBB8_8
	; NOGATHER-NEXT: .LBB8_7: # %cond.load7			; NOGATHER-NEXT: .LBB8_7: # %cond.load7
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastsd (%rax), %ymm0
	; NOGATHER-NEXT: vpinsrq $1, (%rax), %xmm0, %xmm0			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm0[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <4 x i64>, <4 x i64>* %ptr			%ld = load <4 x i64>, <4 x i64>* %ptr
	%res = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %ld, i32 0, <4 x i1> %masks, <4 x i64> %passthro)			%res = call <4 x i64> @llvm.masked.gather.v4i64(<4 x i64*> %ld, i32 0, <4 x i1> %masks, <4 x i64> %passthro)
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}

	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; NOGATHER-NEXT: # %bb.6: # %else5			; NOGATHER-NEXT: # %bb.6: # %else5
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: jne .LBB9_7			; NOGATHER-NEXT: jne .LBB9_7
	; NOGATHER-NEXT: .LBB9_8: # %else8			; NOGATHER-NEXT: .LBB9_8: # %else8
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	; NOGATHER-NEXT: .LBB9_5: # %cond.load4			; NOGATHER-NEXT: .LBB9_5: # %cond.load4
	; NOGATHER-NEXT: vmovq %xmm0, %rcx			; NOGATHER-NEXT: vmovq %xmm0, %rcx
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm2			; NOGATHER-NEXT: vbroadcastsd (%rcx), %ymm2
	; NOGATHER-NEXT: vmovlps {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; NOGATHER-NEXT: testb $8, %al			; NOGATHER-NEXT: testb $8, %al
	; NOGATHER-NEXT: je .LBB9_8			; NOGATHER-NEXT: je .LBB9_8
	; NOGATHER-NEXT: .LBB9_7: # %cond.load7			; NOGATHER-NEXT: .LBB9_7: # %cond.load7
	; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax			; NOGATHER-NEXT: vpextrq $1, %xmm0, %rax
	; NOGATHER-NEXT: vextractf128 $1, %ymm1, %xmm0			; NOGATHER-NEXT: vbroadcastsd (%rax), %ymm0
	; NOGATHER-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; NOGATHER-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm0[6,7]
	; NOGATHER-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; NOGATHER-NEXT: vmovaps %ymm1, %ymm0			; NOGATHER-NEXT: vmovaps %ymm1, %ymm0
	; NOGATHER-NEXT: retq			; NOGATHER-NEXT: retq
	entry:			entry:
	%ld = load <4 x double>, <4 x double>* %ptr			%ld = load <4 x double>, <4 x double>* %ptr
	%res = call <4 x double> @llvm.masked.gather.v4double(<4 x double*> %ld, i32 0, <4 x i1> %masks, <4 x double> %passthro)			%res = call <4 x double> @llvm.masked.gather.v4double(<4 x double*> %ld, i32 0, <4 x i1> %masks, <4 x double> %passthro)
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	▲ Show 20 Lines • Show All 119 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-insert-extract.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f \| FileCheck --check-prefixes=CHECK,KNL %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f \| FileCheck --check-prefixes=CHECK,KNL %s
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq \| FileCheck --check-prefixes=CHECK,SKX %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq \| FileCheck --check-prefixes=CHECK,SKX %s
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq,+avx512vbmi \| FileCheck --check-prefixes=CHECK,SKX %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq,+avx512vbmi \| FileCheck --check-prefixes=CHECK,SKX %s

	define <16 x float> @test1(<16 x float> %x, float* %br, float %y) nounwind {			define <16 x float> @test1(<16 x float> %x, float* %br, float %y) nounwind {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm0[0],mem[0],xmm0[2,3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm0[0],mem[0],xmm0[2,3]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2			; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2
	; CHECK-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; CHECK-NEXT: vbroadcastss %xmm1, %zmm1
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]			; CHECK-NEXT: vmovaps {{.*#+}} zmm0 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,30,15]
	; CHECK-NEXT: vinsertf32x4 $3, %xmm0, %zmm2, %zmm0			; CHECK-NEXT: vpermi2ps %zmm1, %zmm2, %zmm0
				RKSimonUnsubmitted Done Reply Inline Actions Is it really worth loading a variable shuffle mask? RKSimon: Is it really worth loading a variable shuffle mask?
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%rrr = load float, float* %br			%rrr = load float, float* %br
	%rrr2 = insertelement <16 x float> %x, float %rrr, i32 1			%rrr2 = insertelement <16 x float> %x, float %rrr, i32 1
	%rrr3 = insertelement <16 x float> %rrr2, float %y, i32 14			%rrr3 = insertelement <16 x float> %rrr2, float %y, i32 14
	ret <16 x float> %rrr3			ret <16 x float> %rrr3
	}			}

	define <8 x double> @test2(<8 x double> %x, double* %br, double %y) nounwind {			define <8 x double> @test2(<8 x double> %x, double* %br, double %y) nounwind {
	; CHECK-LABEL: test2:			; KNL-LABEL: test2:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vmovhps {{.*#+}} xmm2 = xmm0[0,1],mem[0,1]			; KNL-NEXT: vmovhpd {{.*#+}} xmm2 = xmm0[0],mem[0]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm2			; KNL-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm0
	; CHECK-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; KNL-NEXT: movb $64, %al
	; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinsertf32x4 $3, %xmm0, %zmm2, %zmm0			; KNL-NEXT: vbroadcastsd %xmm1, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: test2:
				; SKX: ## %bb.0:
				; SKX-NEXT: vmovhpd {{.*#+}} xmm2 = xmm0[0],mem[0]
				; SKX-NEXT: vinsertf32x4 $0, %xmm2, %zmm0, %zmm0
				; SKX-NEXT: movb $64, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vbroadcastsd %xmm1, %zmm0 {%k1}
				; SKX-NEXT: retq
	%rrr = load double, double* %br			%rrr = load double, double* %br
	%rrr2 = insertelement <8 x double> %x, double %rrr, i32 1			%rrr2 = insertelement <8 x double> %x, double %rrr, i32 1
	%rrr3 = insertelement <8 x double> %rrr2, double %y, i32 6			%rrr3 = insertelement <8 x double> %rrr2, double %y, i32 6
	ret <8 x double> %rrr3			ret <8 x double> %rrr3
	}			}

	define <16 x float> @test3(<16 x float> %x) nounwind {			define <16 x float> @test3(<16 x float> %x) nounwind {
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	▲ Show 20 Lines • Show All 492 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r1 = extractelement <16 x i8> %x, i32 1			%r1 = extractelement <16 x i8> %x, i32 1
	%r2 = extractelement <16 x i8> %x, i32 3			%r2 = extractelement <16 x i8> %x, i32 3
	store i8 %r2, i8* %dst, align 1			store i8 %r2, i8* %dst, align 1
	ret i8 %r1			ret i8 %r1
	}			}

	define <8 x i64> @insert_v8i64(<8 x i64> %x, i64 %y , i64* %ptr) {			define <8 x i64> @insert_v8i64(<8 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v8i64:			; KNL-LABEL: insert_v8i64:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: movb $8, %al
	; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vpbroadcastq %rdi, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v8i64:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movb $8, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastq %rdi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <8 x i64> %x, i64 %val, i32 1			%r1 = insertelement <8 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3			%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3
	ret <8 x i64> %r2			ret <8 x i64> %r2
	}			}

	define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {			define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v4i64:			; KNL-LABEL: insert_v4i64:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0			; KNL-NEXT: vmovq %rdi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastq %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v4i64:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastq %rdi, %ymm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
				; SKX-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <4 x i64> %x, i64 %val, i32 1			%r1 = insertelement <4 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3			%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3
	ret <4 x i64> %r2			ret <4 x i64> %r2
	}			}

	define <2 x i64> @insert_v2i64(<2 x i64> %x, i64 %y , i64* %ptr) {			define <2 x i64> @insert_v2i64(<2 x i64> %x, i64 %y , i64* %ptr) {
	; CHECK-LABEL: insert_v2i64:			; CHECK-LABEL: insert_v2i64:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0			; CHECK-NEXT: vpinsrq $0, %rdi, %xmm0, %xmm0
	; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%val = load i64, i64* %ptr			%val = load i64, i64* %ptr
	%r1 = insertelement <2 x i64> %x, i64 %val, i32 1			%r1 = insertelement <2 x i64> %x, i64 %val, i32 1
	%r2 = insertelement <2 x i64> %r1, i64 %y, i32 0			%r2 = insertelement <2 x i64> %r1, i64 %y, i32 0
	ret <2 x i64> %r2			ret <2 x i64> %r2
	}			}

	define <16 x i32> @insert_v16i32(<16 x i32> %x, i32 %y, i32* %ptr) {			define <16 x i32> @insert_v16i32(<16 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v16i32:			; KNL-LABEL: insert_v16i32:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: movw $32, %ax
	; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0			; KNL-NEXT: kmovw %eax, %k1
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vpbroadcastd %edi, %zmm0 {%k1}
	; CHECK-NEXT: retq			; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v16i32:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movw $32, %ax
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastd %edi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <16 x i32> %x, i32 %val, i32 1			%r1 = insertelement <16 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5			%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5
	ret <16 x i32> %r2			ret <16 x i32> %r2
	}			}

	define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {			define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v8i32:			; KNL-LABEL: insert_v8i32:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastd %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm1[5],ymm0[6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v8i32:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastd %edi, %ymm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm1[5],ymm0[6,7]
				; SKX-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <8 x i32> %x, i32 %val, i32 1			%r1 = insertelement <8 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5			%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5
	ret <8 x i32> %r2			ret <8 x i32> %r2
	}			}

	define <4 x i32> @insert_v4i32(<4 x i32> %x, i32 %y, i32* %ptr) {			define <4 x i32> @insert_v4i32(<4 x i32> %x, i32 %y, i32* %ptr) {
	; CHECK-LABEL: insert_v4i32:			; CHECK-LABEL: insert_v4i32:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%val = load i32, i32* %ptr			%val = load i32, i32* %ptr
	%r1 = insertelement <4 x i32> %x, i32 %val, i32 1			%r1 = insertelement <4 x i32> %x, i32 %val, i32 1
	%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3			%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3
	ret <4 x i32> %r2			ret <4 x i32> %r2
	}			}

	define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {			define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v32i16:			; KNL-LABEL: insert_v32i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1			; KNL-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm0
	; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vpbroadcastw %xmm0, %ymm0
	; CHECK-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0			; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; CHECK-NEXT: retq			; KNL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v32i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm0
				; SKX-NEXT: movl $512, %eax ## imm = 0x200
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vpbroadcastw %edi, %zmm0 {%k1}
				; SKX-NEXT: retq
	%val = load i16, i16* %ptr			%val = load i16, i16* %ptr
	%r1 = insertelement <32 x i16> %x, i16 %val, i32 1			%r1 = insertelement <32 x i16> %x, i16 %val, i32 1
	%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9			%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9
	ret <32 x i16> %r2			ret <32 x i16> %r2
	}			}

	define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {			define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v16i16:			; KNL-LABEL: insert_v16i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1			; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; KNL-NEXT: vpbroadcastw %xmm1, %ymm1
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
				; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: insert_v16i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7]
				; SKX-NEXT: vpbroadcastw %edi, %ymm1
				; SKX-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15]
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				craig.topperUnsubmitted Done Reply Inline Actions vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got on avx2 would be better. That's probably a separate issue in shuffle lowering/combining. craig.topper: vpermi2w is 3 uops, 2 of which are 3 cycles that are serialized. I think the two blends we got…
				lebedev.riAuthorUnsubmitted Done Reply Inline Actions Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess. lebedev.ri: Right. This is a separate problem, in `combineX86ShufflesRecursively()` i would guess.
				RKSimonUnsubmitted Done Reply Inline Actions The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off. RKSimon: The 'AllowBWIVPERMV3' logic in combineX86ShuffleChain is probably slightly off.
				RKSimonUnsubmitted Done Reply Inline Actions rG15b883f45771 should address this RKSimon: rG15b883f45771 should address this
				; SKX-NEXT: retq
				craig.topperUnsubmitted Not Done Reply Inline Actions Is this really better? I assume this what we get for an AVX2 target too. Not just KNL? craig.topper: Is this really better? I assume this what we get for an AVX2 target too. Not just KNL?
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Multi-insert case does seem questionable, yes. We could improve this via: define <16 x i16> @src(<16 x i16> %x, i16 %y, i16* %ptr) { %val = load i16, i16* %ptr %r1 = insertelement <16 x i16> %x, i16 %val, i32 1 %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9 ret <16 x i16> %r2 } define <16 x i16> @tgt(<16 x i16> %x, i16 %y, i16* %ptr) { %val = load i16, i16* %ptr %r1 = insertelement <16 x i16> undef, i16 %val, i32 1 %r2 = insertelement <16 x i16> %r1, i16 %y, i32 9 %r3 = select <16 x i1> <i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <16 x i16> %x, <16 x i16> %r2 ret <16 x i16> %r3 } then we get .text .file "test.ll" .globl src # -- Begin function src .p2align 4, 0x90 .type src,@function src: # @src .cfi_startproc # %bb.0: vpbroadcastw (%rsi), %xmm1 vpblendw $2, %xmm1, %xmm0, %xmm1 # xmm1 = xmm0[0],xmm1[1],xmm0[2,3,4,5,6,7] vmovd %edi, %xmm2 vpbroadcastw %xmm2, %ymm2 vpblendw $2, %ymm2, %ymm0, %ymm0 # ymm0 = ymm0[0],ymm2[1],ymm0[2,3,4,5,6,7,8],ymm2[9],ymm0[10,11,12,13,14,15] vpblendd $240, %ymm0, %ymm1, %ymm0 # ymm0 = ymm1[0,1,2,3],ymm0[4,5,6,7] retq .Lfunc_end0: .size src, .Lfunc_end0-src .cfi_endproc # -- End function .globl tgt # -- Begin function tgt .p2align 4, 0x90 .type tgt,@function tgt: # @tgt .cfi_startproc # %bb.0: vpbroadcastw (%rsi), %xmm1 vmovd %edi, %xmm2 vpslld $16, %xmm2, %xmm2 vinserti128 $1, %xmm2, %ymm1, %ymm1 vpblendw $2, %ymm1, %ymm0, %ymm0 # ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7,8],ymm1[9],ymm0[10,11,12,13,14,15] retq .Lfunc_end1: .size tgt, .Lfunc_end1-tgt .cfi_endproc # -- End function .section ".note.GNU-stack","",@progbits lebedev.ri: Multi-insert case does seem questionable, yes. We could improve this via: ``` define <16 x i16>…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions ... something like D105514, but clearly that is also not as straight-forward. Thoughts? lebedev.ri: ... something like D105514, but clearly that is also not as straight-forward. Thoughts?
				craig.topperUnsubmitted Not Done Reply Inline Actions I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast and 2 blends. But it turns out vpinsrw is slower than I realized on Haswell. craig.topper: I was more questioning the trading of 3 instructions for the scalar to vector copy, broadcast…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing this for lower subvector too? lebedev.ri: Ah, so we agree that this is good for upper subvector in general. Should we perhaps be doing…
				RKSimonUnsubmitted Done Reply Inline Actions Did you have any luck testing broadcasts into lower subvector? RKSimon: Did you have any luck testing broadcasts into lower subvector?
				lebedev.riAuthorUnsubmitted Done Reply Inline Actions I briefly looked at the test changes without high-subvector limitation, and the test changes aren't really obviously better, so i'm not really planning on touching that here. lebedev.ri: I briefly looked at the test changes without high-subvector limitation, and the test changes…
	%val = load i16, i16* %ptr			%val = load i16, i16* %ptr
	%r1 = insertelement <16 x i16> %x, i16 %val, i32 1			%r1 = insertelement <16 x i16> %x, i16 %val, i32 1
	%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9			%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
	ret <16 x i16> %r2			ret <16 x i16> %r2
	}			}

	define <8 x i16> @insert_v8i16(<8 x i16> %x, i16 %y, i16* %ptr) {			define <8 x i16> @insert_v8i16(<8 x i16> %x, i16 %y, i16* %ptr) {
	; CHECK-LABEL: insert_v8i16:			; CHECK-LABEL: insert_v8i16:
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[2,3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[2,3]
	; CHECK-NEXT: vinsertf32x4 $0, %xmm1, %zmm0, %zmm0			; CHECK-NEXT: vinsertf32x4 $0, %xmm1, %zmm0, %zmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%r = insertelement <16 x float> %x, float %y, i32 1			%r = insertelement <16 x float> %x, float %y, i32 1
	ret <16 x float> %r			ret <16 x float> %r
	}			}

	define <16 x i16> @test_insert_128_v16i16(<16 x i16> %x, i16 %y) {			define <16 x i16> @test_insert_128_v16i16(<16 x i16> %x, i16 %y) {
	; CHECK-LABEL: test_insert_128_v16i16:			; KNL-LABEL: test_insert_128_v16i16:
	; CHECK: ## %bb.0:			; KNL: ## %bb.0:
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; KNL-NEXT: vmovd %edi, %xmm1
	; CHECK-NEXT: vpinsrw $2, %edi, %xmm1, %xmm1			; KNL-NEXT: vpbroadcastw %xmm1, %ymm1
	; CHECK-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]
	; CHECK-NEXT: retq			; KNL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				; KNL-NEXT: retq
				;
				; SKX-LABEL: test_insert_128_v16i16:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpbroadcastw %edi, %ymm1
				; SKX-NEXT: vpblendw {{.*#+}} ymm1 = ymm0[0,1],ymm1[2],ymm0[3,4,5,6,7,8,9],ymm1[10],ymm0[11,12,13,14,15]
				; SKX-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
				craig.topperUnsubmitted Done Reply Inline Actions Again, I'd expect 2 blends to be better. craig.topper: Again, I'd expect 2 blends to be better.
				; SKX-NEXT: retq
	%r = insertelement <16 x i16> %x, i16 %y, i32 10			%r = insertelement <16 x i16> %x, i16 %y, i32 10
	ret <16 x i16> %r			ret <16 x i16> %r
	}			}

	define <32 x i8> @test_insert_128_v32i8(<32 x i8> %x, i8 %y) {			define <32 x i8> @test_insert_128_v32i8(<32 x i8> %x, i8 %y) {
	; CHECK-LABEL: test_insert_128_v32i8:			; CHECK-LABEL: test_insert_128_v32i8:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 1,514 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-masked-memop-64-32.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> %val, <8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false>)			call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> %val, <8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false>)
	ret void			ret void
	}			}

	define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {			define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {
	;			;
	; AVX512-LABEL: load_one_mask_bit_set5:			; AVX512F-LABEL: load_one_mask_bit_set5:
	; AVX512: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512F-NEXT: movb $-128, %al
	; AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; AVX512F-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512F-NEXT: retq
				;
				; SKX-LABEL: load_one_mask_bit_set5:
				; SKX: ## %bb.0:
				; SKX-NEXT: movb $-128, %al
				; SKX-NEXT: kmovd %eax, %k1
				; SKX-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; SKX-NEXT: retq
	%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)			%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1><i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	declare <16 x i32> @llvm.masked.load.v16i32.p0v16i32(<16 x i32>*, i32, <16 x i1>, <16 x i32>)			declare <16 x i32> @llvm.masked.load.v16i32.p0v16i32(<16 x i32>*, i32, <16 x i1>, <16 x i32>)
	declare void @llvm.masked.store.v16i32.p0v16i32(<16 x i32>, <16 x i32>*, i32, <16 x i1>)			declare void @llvm.masked.store.v16i32.p0v16i32(<16 x i32>, <16 x i32>*, i32, <16 x i1>)
	declare void @llvm.masked.store.v16f32.p0v16f32(<16 x float>, <16 x float>*, i32, <16 x i1>)			declare void @llvm.masked.store.v16f32.p0v16f32(<16 x float>, <16 x float>*, i32, <16 x i1>)
	declare <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float>*, i32, <16 x i1>, <16 x float>)			declare <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float>*, i32, <16 x i1>, <16 x float>)
	▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-shuffle.ll

Show All 24 Lines	; X64-NEXT: retq
%bc = bitcast <2 x i16> %ins2 to float		%bc = bitcast <2 x i16> %ins2 to float
%ins3 = insertelement <8 x float> %v, float %bc, i32 1		%ins3 = insertelement <8 x float> %v, float %bc, i32 1
ret <8 x float> %ins3		ret <8 x float> %ins3
}		}

define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {		define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {
; X86_AVX256-LABEL: insert_subvector_512:		; X86_AVX256-LABEL: insert_subvector_512:
; X86_AVX256: # %bb.0:		; X86_AVX256: # %bb.0:
; X86_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2		; X86_AVX256-NEXT: vbroadcastss {{[0-9]+}}(%esp), %ymm2
; X86_AVX256-NEXT: vpinsrd $0, {{[0-9]+}}(%esp), %xmm2, %xmm2		; X86_AVX256-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
; X86_AVX256-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm2, %xmm2		; X86_AVX256-NEXT: vbroadcastss {{[0-9]+}}(%esp), %ymm2
; X86_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0		; X86_AVX256-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5],ymm0[6,7]
; X86_AVX256-NEXT: retl		; X86_AVX256-NEXT: retl
;		;
; X64_AVX256-LABEL: insert_subvector_512:		; X64_AVX256-LABEL: insert_subvector_512:
; X64_AVX256: # %bb.0:		; X64_AVX256: # %bb.0:
; X64_AVX256-NEXT: vmovd %edi, %xmm2		; X64_AVX256-NEXT: vmovd %edi, %xmm2
; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2		; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2
; X64_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm3		; X64_AVX256-NEXT: vpbroadcastq %xmm2, %ymm2
; X64_AVX256-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3]		; X64_AVX256-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
		RKSimonUnsubmitted Done Reply Inline Actions Any idea whats going on here? RKSimon: Any idea whats going on here?
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Optimized legalized selection DAG: %bb.0 'insert_subvector_512:' SelectionDAG has 24 nodes: t0: ch = EntryToken t6: v4i64,ch = CopyFromReg t0, Register:v4i64 %2 t2: i32,ch = CopyFromReg t0, Register:i32 %0 t41: v4i32 = scalar_to_vector t2 t4: i32,ch = CopyFromReg t0, Register:i32 %1 t43: v4i32 = insert_vector_elt t41, t4, Constant:i64<1> t35: v2i64 = bitcast t43 t36: i64 = extract_vector_elt t35, Constant:i64<0> t47: v4i64 = X86ISD::VBROADCAST t36 t45: v4i64 = X86ISD::BLENDI t6, t47, TargetConstant:i8<4> t26: ch,glue = CopyToReg t0, Register:v4i64 $ymm0, t45 t8: v4i64,ch = CopyFromReg t0, Register:v4i64 %3 t28: ch,glue = CopyToReg t26, Register:v4i64 $ymm1, t8, t26:1 t29: ch = X86ISD::RET_FLAG t28, TargetConstant:i32<0>, Register:v4i64 $ymm0, Register:v4i64 $ymm1, t28:1 We were missing `broadcast(extract_vector_elt(x, 0)) -> broadcast(x)` fold. lebedev.ri: ``` Optimized legalized selection DAG: %bb.0 'insert_subvector_512:' SelectionDAG has 24 nodes…
; X64_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
; X64_AVX256-NEXT: retq		; X64_AVX256-NEXT: retq
;		;
; X86_AVX512-LABEL: insert_subvector_512:		; X86_AVX512-LABEL: insert_subvector_512:
; X86_AVX512: # %bb.0:		; X86_AVX512: # %bb.0:
; X86_AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; X86_AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; X86_AVX512-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,1,0,8,0,3,0,4,0,5,0,6,0,7,0]		; X86_AVX512-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,0,1,0,8,0,3,0,4,0,5,0,6,0,7,0]
; X86_AVX512-NEXT: vpermt2q %zmm1, %zmm2, %zmm0		; X86_AVX512-NEXT: vpermt2q %zmm1, %zmm2, %zmm0
; X86_AVX512-NEXT: retl		; X86_AVX512-NEXT: retl
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_expandload.ll

	Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB1_4			; AVX1-NEXT: je LBB1_4
	; AVX1-NEXT: LBB1_3: ## %cond.load1			; AVX1-NEXT: LBB1_3: ## %cond.load1
	; AVX1-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]			; AVX1-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]
	; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB1_6			; AVX1-NEXT: je LBB1_6
	; AVX1-NEXT: LBB1_5: ## %cond.load5			; AVX1-NEXT: LBB1_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX1-NEXT: vmovlpd (%rdi), %xmm1, %xmm1 ## xmm1 = mem[0],xmm1[1]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB1_8			; AVX1-NEXT: je LBB1_8
	; AVX1-NEXT: LBB1_7: ## %cond.load9			; AVX1-NEXT: LBB1_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm1 ## xmm1 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v4f64_v4i64:			; AVX2-LABEL: expandload_v4f64_v4i64:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpeqq %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpcmpeqq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vmovmskpd %ymm1, %eax			; AVX2-NEXT: vmovmskpd %ymm1, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	Show All 17 Lines
	; AVX2-NEXT: je LBB1_4			; AVX2-NEXT: je LBB1_4
	; AVX2-NEXT: LBB1_3: ## %cond.load1			; AVX2-NEXT: LBB1_3: ## %cond.load1
	; AVX2-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]			; AVX2-NEXT: vmovhpd (%rdi), %xmm0, %xmm1 ## xmm1 = xmm0[0],mem[0]
	; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB1_6			; AVX2-NEXT: je LBB1_6
	; AVX2-NEXT: LBB1_5: ## %cond.load5			; AVX2-NEXT: LBB1_5: ## %cond.load5
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX2-NEXT: vmovlpd (%rdi), %xmm1, %xmm1 ## xmm1 = mem[0],xmm1[1]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB1_8			; AVX2-NEXT: je LBB1_8
	; AVX2-NEXT: LBB1_7: ## %cond.load9			; AVX2-NEXT: LBB1_7: ## %cond.load9
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vbroadcastsd (%rdi), %ymm1
	; AVX2-NEXT: vmovhpd (%rdi), %xmm1, %xmm1 ## xmm1 = xmm1[0],mem[0]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v4f64_v4i64:			; AVX512F-LABEL: expandload_v4f64_v4i64:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: ## kill: def $ymm1 killed $ymm1 def $zmm1			; AVX512F-NEXT: ## kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512F-NEXT: ## kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: ## kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vptestnmq %zmm1, %zmm1, %k0			; AVX512F-NEXT: vptestnmq %zmm1, %zmm1, %k0
	; AVX512F-NEXT: kshiftlw $12, %k0, %k0			; AVX512F-NEXT: kshiftlw $12, %k0, %k0
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB2_4			; AVX1-NEXT: je LBB2_4
	; AVX1-NEXT: LBB2_3: ## %cond.load1			; AVX1-NEXT: LBB2_3: ## %cond.load1
	; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB2_6			; AVX1-NEXT: je LBB2_6
	; AVX1-NEXT: LBB2_5: ## %cond.load5			; AVX1-NEXT: LBB2_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB2_8			; AVX1-NEXT: je LBB2_8
	; AVX1-NEXT: LBB2_7: ## %cond.load9			; AVX1-NEXT: LBB2_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB2_10			; AVX1-NEXT: je LBB2_10
	; AVX1-NEXT: LBB2_9: ## %cond.load13			; AVX1-NEXT: LBB2_9: ## %cond.load13
	; AVX1-NEXT: vmovsd (%rdi), %xmm2 ## xmm2 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm2 ## xmm2 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB2_12			; AVX1-NEXT: je LBB2_12
	; AVX1-NEXT: LBB2_11: ## %cond.load17			; AVX1-NEXT: LBB2_11: ## %cond.load17
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB2_14			; AVX1-NEXT: je LBB2_14
	; AVX1-NEXT: LBB2_13: ## %cond.load21			; AVX1-NEXT: LBB2_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB2_16			; AVX1-NEXT: je LBB2_16
	; AVX1-NEXT: LBB2_15: ## %cond.load25			; AVX1-NEXT: LBB2_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm2
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v8f64_v8i1:			; AVX2-LABEL: expandload_v8f64_v8i1:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsllw $15, %xmm2, %xmm2			; AVX2-NEXT: vpsllw $15, %xmm2, %xmm2
	; AVX2-NEXT: vpacksswb %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpacksswb %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpmovmskb %xmm2, %eax			; AVX2-NEXT: vpmovmskb %xmm2, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	Show All 29 Lines
	; AVX2-NEXT: je LBB2_4			; AVX2-NEXT: je LBB2_4
	; AVX2-NEXT: LBB2_3: ## %cond.load1			; AVX2-NEXT: LBB2_3: ## %cond.load1
	; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm2 ## xmm2 = xmm0[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB2_6			; AVX2-NEXT: je LBB2_6
	; AVX2-NEXT: LBB2_5: ## %cond.load5			; AVX2-NEXT: LBB2_5: ## %cond.load5
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB2_8			; AVX2-NEXT: je LBB2_8
	; AVX2-NEXT: LBB2_7: ## %cond.load9			; AVX2-NEXT: LBB2_7: ## %cond.load9
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB2_10			; AVX2-NEXT: je LBB2_10
	; AVX2-NEXT: LBB2_9: ## %cond.load13			; AVX2-NEXT: LBB2_9: ## %cond.load13
	; AVX2-NEXT: vmovq (%rdi), %xmm2 ## xmm2 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm2 ## xmm2 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1],ymm1[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB2_12			; AVX2-NEXT: je LBB2_12
	; AVX2-NEXT: LBB2_11: ## %cond.load17			; AVX2-NEXT: LBB2_11: ## %cond.load17
	; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm2 ## xmm2 = xmm1[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB2_14			; AVX2-NEXT: je LBB2_14
	; AVX2-NEXT: LBB2_13: ## %cond.load21			; AVX2-NEXT: LBB2_13: ## %cond.load21
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovlps (%rdi), %xmm2, %xmm2 ## xmm2 = mem[0,1],xmm2[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4,5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB2_16			; AVX2-NEXT: je LBB2_16
	; AVX2-NEXT: LBB2_15: ## %cond.load25			; AVX2-NEXT: LBB2_15: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm2
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v8f64_v8i1:			; AVX512F-LABEL: expandload_v8f64_v8i1:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpmovsxwq %xmm1, %zmm1			; AVX512F-NEXT: vpmovsxwq %xmm1, %zmm1
	; AVX512F-NEXT: vpsllq $63, %zmm1, %zmm1			; AVX512F-NEXT: vpsllq $63, %zmm1, %zmm1
	; AVX512F-NEXT: vptestmq %zmm1, %zmm1, %k1			; AVX512F-NEXT: vptestmq %zmm1, %zmm1, %k1
	; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k1}			; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k1}
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB3_4			; AVX1-NEXT: je LBB3_4
	; AVX1-NEXT: LBB3_3: ## %cond.load1			; AVX1-NEXT: LBB3_3: ## %cond.load1
	; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je LBB3_6			; AVX1-NEXT: je LBB3_6
	; AVX1-NEXT: LBB3_5: ## %cond.load5			; AVX1-NEXT: LBB3_5: ## %cond.load5
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je LBB3_8			; AVX1-NEXT: je LBB3_8
	; AVX1-NEXT: LBB3_7: ## %cond.load9			; AVX1-NEXT: LBB3_7: ## %cond.load9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB3_10			; AVX1-NEXT: je LBB3_10
	; AVX1-NEXT: LBB3_9: ## %cond.load13			; AVX1-NEXT: LBB3_9: ## %cond.load13
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB3_12			; AVX1-NEXT: je LBB3_12
	; AVX1-NEXT: LBB3_11: ## %cond.load17			; AVX1-NEXT: LBB3_11: ## %cond.load17
	; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB3_14			; AVX1-NEXT: je LBB3_14
	; AVX1-NEXT: LBB3_13: ## %cond.load21			; AVX1-NEXT: LBB3_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4,5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB3_16			; AVX1-NEXT: je LBB3_16
	; AVX1-NEXT: LBB3_15: ## %cond.load25			; AVX1-NEXT: LBB3_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $256, %eax ## imm = 0x100			; AVX1-NEXT: testl $256, %eax ## imm = 0x100
	; AVX1-NEXT: je LBB3_18			; AVX1-NEXT: je LBB3_18
	; AVX1-NEXT: LBB3_17: ## %cond.load29			; AVX1-NEXT: LBB3_17: ## %cond.load29
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $512, %eax ## imm = 0x200			; AVX1-NEXT: testl $512, %eax ## imm = 0x200
	; AVX1-NEXT: je LBB3_20			; AVX1-NEXT: je LBB3_20
	; AVX1-NEXT: LBB3_19: ## %cond.load33			; AVX1-NEXT: LBB3_19: ## %cond.load33
	; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $1024, %eax ## imm = 0x400			; AVX1-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX1-NEXT: je LBB3_22			; AVX1-NEXT: je LBB3_22
	; AVX1-NEXT: LBB3_21: ## %cond.load37			; AVX1-NEXT: LBB3_21: ## %cond.load37
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $2048, %eax ## imm = 0x800			; AVX1-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX1-NEXT: je LBB3_24			; AVX1-NEXT: je LBB3_24
	; AVX1-NEXT: LBB3_23: ## %cond.load41			; AVX1-NEXT: LBB3_23: ## %cond.load41
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX1-NEXT: je LBB3_26			; AVX1-NEXT: je LBB3_26
	; AVX1-NEXT: LBB3_25: ## %cond.load45			; AVX1-NEXT: LBB3_25: ## %cond.load45
	; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX1-NEXT: je LBB3_28			; AVX1-NEXT: je LBB3_28
	; AVX1-NEXT: LBB3_27: ## %cond.load49			; AVX1-NEXT: LBB3_27: ## %cond.load49
	; AVX1-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]			; AVX1-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX1-NEXT: je LBB3_30			; AVX1-NEXT: je LBB3_30
	; AVX1-NEXT: LBB3_29: ## %cond.load53			; AVX1-NEXT: LBB3_29: ## %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $8, %rdi			; AVX1-NEXT: addq $8, %rdi
	; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX1-NEXT: je LBB3_32			; AVX1-NEXT: je LBB3_32
	; AVX1-NEXT: LBB3_31: ## %cond.load57			; AVX1-NEXT: LBB3_31: ## %cond.load57
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm4
	; AVX1-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v16f64_v16i32:			; AVX2-LABEL: expandload_v16f64_v16i32:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm6, %xmm6, %xmm6			; AVX2-NEXT: vpxor %xmm6, %xmm6, %xmm6
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm4, %ymm4
	; AVX2-NEXT: vpackssdw %ymm5, %ymm4, %ymm4			; AVX2-NEXT: vpackssdw %ymm5, %ymm4, %ymm4
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: je LBB3_4			; AVX2-NEXT: je LBB3_4
	; AVX2-NEXT: LBB3_3: ## %cond.load1			; AVX2-NEXT: LBB3_3: ## %cond.load1
	; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je LBB3_6			; AVX2-NEXT: je LBB3_6
	; AVX2-NEXT: LBB3_5: ## %cond.load5			; AVX2-NEXT: LBB3_5: ## %cond.load5
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4,5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je LBB3_8			; AVX2-NEXT: je LBB3_8
	; AVX2-NEXT: LBB3_7: ## %cond.load9			; AVX2-NEXT: LBB3_7: ## %cond.load9
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB3_10			; AVX2-NEXT: je LBB3_10
	; AVX2-NEXT: LBB3_9: ## %cond.load13			; AVX2-NEXT: LBB3_9: ## %cond.load13
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1],ymm1[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB3_12			; AVX2-NEXT: je LBB3_12
	; AVX2-NEXT: LBB3_11: ## %cond.load17			; AVX2-NEXT: LBB3_11: ## %cond.load17
	; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB3_14			; AVX2-NEXT: je LBB3_14
	; AVX2-NEXT: LBB3_13: ## %cond.load21			; AVX2-NEXT: LBB3_13: ## %cond.load21
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4,5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB3_16			; AVX2-NEXT: je LBB3_16
	; AVX2-NEXT: LBB3_15: ## %cond.load25			; AVX2-NEXT: LBB3_15: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB3_18			; AVX2-NEXT: je LBB3_18
	; AVX2-NEXT: LBB3_17: ## %cond.load29			; AVX2-NEXT: LBB3_17: ## %cond.load29
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	; AVX2-NEXT: je LBB3_20			; AVX2-NEXT: je LBB3_20
	; AVX2-NEXT: LBB3_19: ## %cond.load33			; AVX2-NEXT: LBB3_19: ## %cond.load33
	; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $1024, %eax ## imm = 0x400			; AVX2-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX2-NEXT: je LBB3_22			; AVX2-NEXT: je LBB3_22
	; AVX2-NEXT: LBB3_21: ## %cond.load37			; AVX2-NEXT: LBB3_21: ## %cond.load37
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $2048, %eax ## imm = 0x800			; AVX2-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX2-NEXT: je LBB3_24			; AVX2-NEXT: je LBB3_24
	; AVX2-NEXT: LBB3_23: ## %cond.load41			; AVX2-NEXT: LBB3_23: ## %cond.load41
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB3_26			; AVX2-NEXT: je LBB3_26
	; AVX2-NEXT: LBB3_25: ## %cond.load45			; AVX2-NEXT: LBB3_25: ## %cond.load45
	; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero			; AVX2-NEXT: vmovq (%rdi), %xmm4 ## xmm4 = mem[0],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1],ymm3[2,3,4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB3_28			; AVX2-NEXT: je LBB3_28
	; AVX2-NEXT: LBB3_27: ## %cond.load49			; AVX2-NEXT: LBB3_27: ## %cond.load49
	; AVX2-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]			; AVX2-NEXT: vmovhps (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1],mem[0,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB3_30			; AVX2-NEXT: je LBB3_30
	; AVX2-NEXT: LBB3_29: ## %cond.load53			; AVX2-NEXT: LBB3_29: ## %cond.load53
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovlps (%rdi), %xmm4, %xmm4 ## xmm4 = mem[0,1],xmm4[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $8, %rdi			; AVX2-NEXT: addq $8, %rdi
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB3_32			; AVX2-NEXT: je LBB3_32
	; AVX2-NEXT: LBB3_31: ## %cond.load57			; AVX2-NEXT: LBB3_31: ## %cond.load57
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpbroadcastq (%rdi), %ymm4
	; AVX2-NEXT: vmovhps (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0,1]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: expandload_v16f64_v16i32:			; AVX512F-LABEL: expandload_v16f64_v16i32:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-NEXT: vptestnmd %zmm3, %zmm3, %k1			; AVX512F-NEXT: vptestnmd %zmm3, %zmm3, %k1
	; AVX512F-NEXT: vptestnmd %zmm2, %zmm2, %k2			; AVX512F-NEXT: vptestnmd %zmm2, %zmm2, %k2
	; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k2}			; AVX512F-NEXT: vexpandpd (%rdi), %zmm0 {%k2}
	▲ Show 20 Lines • Show All 1,150 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: je LBB8_8			; AVX1-NEXT: je LBB8_8
	; AVX1-NEXT: LBB8_7: ## %cond.load9			; AVX1-NEXT: LBB8_7: ## %cond.load9
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je LBB8_10			; AVX1-NEXT: je LBB8_10
	; AVX1-NEXT: LBB8_9: ## %cond.load13			; AVX1-NEXT: LBB8_9: ## %cond.load13
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4],ymm0[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je LBB8_12			; AVX1-NEXT: je LBB8_12
	; AVX1-NEXT: LBB8_11: ## %cond.load17			; AVX1-NEXT: LBB8_11: ## %cond.load17
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je LBB8_14			; AVX1-NEXT: je LBB8_14
	; AVX1-NEXT: LBB8_13: ## %cond.load21			; AVX1-NEXT: LBB8_13: ## %cond.load21
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6],ymm0[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je LBB8_16			; AVX1-NEXT: je LBB8_16
	; AVX1-NEXT: LBB8_15: ## %cond.load25			; AVX1-NEXT: LBB8_15: ## %cond.load25
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $256, %eax ## imm = 0x100			; AVX1-NEXT: testl $256, %eax ## imm = 0x100
	; AVX1-NEXT: je LBB8_18			; AVX1-NEXT: je LBB8_18
	; AVX1-NEXT: LBB8_17: ## %cond.load29			; AVX1-NEXT: LBB8_17: ## %cond.load29
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $512, %eax ## imm = 0x200			; AVX1-NEXT: testl $512, %eax ## imm = 0x200
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_24			; AVX1-NEXT: je LBB8_24
	; AVX1-NEXT: LBB8_23: ## %cond.load41			; AVX1-NEXT: LBB8_23: ## %cond.load41
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX1-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX1-NEXT: je LBB8_26			; AVX1-NEXT: je LBB8_26
	; AVX1-NEXT: LBB8_25: ## %cond.load45			; AVX1-NEXT: LBB8_25: ## %cond.load45
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4],ymm1[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX1-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX1-NEXT: je LBB8_28			; AVX1-NEXT: je LBB8_28
	; AVX1-NEXT: LBB8_27: ## %cond.load49			; AVX1-NEXT: LBB8_27: ## %cond.load49
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm4[5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX1-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX1-NEXT: je LBB8_30			; AVX1-NEXT: je LBB8_30
	; AVX1-NEXT: LBB8_29: ## %cond.load53			; AVX1-NEXT: LBB8_29: ## %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6],ymm1[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX1-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX1-NEXT: je LBB8_32			; AVX1-NEXT: je LBB8_32
	; AVX1-NEXT: LBB8_31: ## %cond.load57			; AVX1-NEXT: LBB8_31: ## %cond.load57
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX1-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX1-NEXT: je LBB8_34			; AVX1-NEXT: je LBB8_34
	; AVX1-NEXT: LBB8_33: ## %cond.load61			; AVX1-NEXT: LBB8_33: ## %cond.load61
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX1-NEXT: testl $131072, %eax ## imm = 0x20000
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_40			; AVX1-NEXT: je LBB8_40
	; AVX1-NEXT: LBB8_39: ## %cond.load73			; AVX1-NEXT: LBB8_39: ## %cond.load73
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $1048576, %eax ## imm = 0x100000			; AVX1-NEXT: testl $1048576, %eax ## imm = 0x100000
	; AVX1-NEXT: je LBB8_42			; AVX1-NEXT: je LBB8_42
	; AVX1-NEXT: LBB8_41: ## %cond.load77			; AVX1-NEXT: LBB8_41: ## %cond.load77
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4],ymm2[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $2097152, %eax ## imm = 0x200000			; AVX1-NEXT: testl $2097152, %eax ## imm = 0x200000
	; AVX1-NEXT: je LBB8_44			; AVX1-NEXT: je LBB8_44
	; AVX1-NEXT: LBB8_43: ## %cond.load81			; AVX1-NEXT: LBB8_43: ## %cond.load81
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm4[5],ymm2[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $4194304, %eax ## imm = 0x400000			; AVX1-NEXT: testl $4194304, %eax ## imm = 0x400000
	; AVX1-NEXT: je LBB8_46			; AVX1-NEXT: je LBB8_46
	; AVX1-NEXT: LBB8_45: ## %cond.load85			; AVX1-NEXT: LBB8_45: ## %cond.load85
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6],ymm2[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $8388608, %eax ## imm = 0x800000			; AVX1-NEXT: testl $8388608, %eax ## imm = 0x800000
	; AVX1-NEXT: je LBB8_48			; AVX1-NEXT: je LBB8_48
	; AVX1-NEXT: LBB8_47: ## %cond.load89			; AVX1-NEXT: LBB8_47: ## %cond.load89
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $16777216, %eax ## imm = 0x1000000			; AVX1-NEXT: testl $16777216, %eax ## imm = 0x1000000
	; AVX1-NEXT: je LBB8_50			; AVX1-NEXT: je LBB8_50
	; AVX1-NEXT: LBB8_49: ## %cond.load93			; AVX1-NEXT: LBB8_49: ## %cond.load93
	; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $33554432, %eax ## imm = 0x2000000			; AVX1-NEXT: testl $33554432, %eax ## imm = 0x2000000
	Show All 12 Lines
	; AVX1-NEXT: je LBB8_56			; AVX1-NEXT: je LBB8_56
	; AVX1-NEXT: LBB8_55: ## %cond.load105			; AVX1-NEXT: LBB8_55: ## %cond.load105
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]			; AVX1-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $268435456, %eax ## imm = 0x10000000			; AVX1-NEXT: testl $268435456, %eax ## imm = 0x10000000
	; AVX1-NEXT: je LBB8_58			; AVX1-NEXT: je LBB8_58
	; AVX1-NEXT: LBB8_57: ## %cond.load109			; AVX1-NEXT: LBB8_57: ## %cond.load109
	; AVX1-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3,4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $536870912, %eax ## imm = 0x20000000			; AVX1-NEXT: testl $536870912, %eax ## imm = 0x20000000
	; AVX1-NEXT: je LBB8_60			; AVX1-NEXT: je LBB8_60
	; AVX1-NEXT: LBB8_59: ## %cond.load113			; AVX1-NEXT: LBB8_59: ## %cond.load113
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $1073741824, %eax ## imm = 0x40000000			; AVX1-NEXT: testl $1073741824, %eax ## imm = 0x40000000
	; AVX1-NEXT: je LBB8_62			; AVX1-NEXT: je LBB8_62
	; AVX1-NEXT: LBB8_61: ## %cond.load117			; AVX1-NEXT: LBB8_61: ## %cond.load117
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: addq $4, %rdi			; AVX1-NEXT: addq $4, %rdi
	; AVX1-NEXT: testl $-2147483648, %eax ## imm = 0x80000000			; AVX1-NEXT: testl $-2147483648, %eax ## imm = 0x80000000
	; AVX1-NEXT: je LBB8_64			; AVX1-NEXT: je LBB8_64
	; AVX1-NEXT: LBB8_63: ## %cond.load121			; AVX1-NEXT: LBB8_63: ## %cond.load121
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX1-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: expandload_v32f32_v32i32:			; AVX2-LABEL: expandload_v32f32_v32i32:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm8, %xmm8, %xmm8			; AVX2-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; AVX2-NEXT: vpcmpeqd %ymm7, %ymm8, %ymm7			; AVX2-NEXT: vpcmpeqd %ymm7, %ymm8, %ymm7
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm8, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm8, %ymm6
	; AVX2-NEXT: vpackssdw %ymm7, %ymm6, %ymm6			; AVX2-NEXT: vpackssdw %ymm7, %ymm6, %ymm6
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: je LBB8_8			; AVX2-NEXT: je LBB8_8
	; AVX2-NEXT: LBB8_7: ## %cond.load9			; AVX2-NEXT: LBB8_7: ## %cond.load9
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm0, %xmm4 ## xmm4 = xmm0[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm4[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je LBB8_10			; AVX2-NEXT: je LBB8_10
	; AVX2-NEXT: LBB8_9: ## %cond.load13			; AVX2-NEXT: LBB8_9: ## %cond.load13
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm4[4],ymm0[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je LBB8_12			; AVX2-NEXT: je LBB8_12
	; AVX2-NEXT: LBB8_11: ## %cond.load17			; AVX2-NEXT: LBB8_11: ## %cond.load17
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5],ymm0[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je LBB8_14			; AVX2-NEXT: je LBB8_14
	; AVX2-NEXT: LBB8_13: ## %cond.load21			; AVX2-NEXT: LBB8_13: ## %cond.load21
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm4[6],ymm0[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB8_16			; AVX2-NEXT: je LBB8_16
	; AVX2-NEXT: LBB8_15: ## %cond.load25			; AVX2-NEXT: LBB8_15: ## %cond.load25
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB8_18			; AVX2-NEXT: je LBB8_18
	; AVX2-NEXT: LBB8_17: ## %cond.load29			; AVX2-NEXT: LBB8_17: ## %cond.load29
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm4[0],ymm1[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_24			; AVX2-NEXT: je LBB8_24
	; AVX2-NEXT: LBB8_23: ## %cond.load41			; AVX2-NEXT: LBB8_23: ## %cond.load41
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm1, %xmm4 ## xmm4 = xmm1[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB8_26			; AVX2-NEXT: je LBB8_26
	; AVX2-NEXT: LBB8_25: ## %cond.load45			; AVX2-NEXT: LBB8_25: ## %cond.load45
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm4[4],ymm1[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB8_28			; AVX2-NEXT: je LBB8_28
	; AVX2-NEXT: LBB8_27: ## %cond.load49			; AVX2-NEXT: LBB8_27: ## %cond.load49
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm4[5],ymm1[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB8_30			; AVX2-NEXT: je LBB8_30
	; AVX2-NEXT: LBB8_29: ## %cond.load53			; AVX2-NEXT: LBB8_29: ## %cond.load53
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6],ymm1[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB8_32			; AVX2-NEXT: je LBB8_32
	; AVX2-NEXT: LBB8_31: ## %cond.load57			; AVX2-NEXT: LBB8_31: ## %cond.load57
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX2-NEXT: je LBB8_34			; AVX2-NEXT: je LBB8_34
	; AVX2-NEXT: LBB8_33: ## %cond.load61			; AVX2-NEXT: LBB8_33: ## %cond.load61
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0],ymm2[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_40			; AVX2-NEXT: je LBB8_40
	; AVX2-NEXT: LBB8_39: ## %cond.load73			; AVX2-NEXT: LBB8_39: ## %cond.load73
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm2, %xmm4 ## xmm4 = xmm2[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $1048576, %eax ## imm = 0x100000			; AVX2-NEXT: testl $1048576, %eax ## imm = 0x100000
	; AVX2-NEXT: je LBB8_42			; AVX2-NEXT: je LBB8_42
	; AVX2-NEXT: LBB8_41: ## %cond.load77			; AVX2-NEXT: LBB8_41: ## %cond.load77
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4],ymm2[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $2097152, %eax ## imm = 0x200000			; AVX2-NEXT: testl $2097152, %eax ## imm = 0x200000
	; AVX2-NEXT: je LBB8_44			; AVX2-NEXT: je LBB8_44
	; AVX2-NEXT: LBB8_43: ## %cond.load81			; AVX2-NEXT: LBB8_43: ## %cond.load81
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm4[5],ymm2[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $4194304, %eax ## imm = 0x400000			; AVX2-NEXT: testl $4194304, %eax ## imm = 0x400000
	; AVX2-NEXT: je LBB8_46			; AVX2-NEXT: je LBB8_46
	; AVX2-NEXT: LBB8_45: ## %cond.load85			; AVX2-NEXT: LBB8_45: ## %cond.load85
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm4[6],ymm2[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $8388608, %eax ## imm = 0x800000			; AVX2-NEXT: testl $8388608, %eax ## imm = 0x800000
	; AVX2-NEXT: je LBB8_48			; AVX2-NEXT: je LBB8_48
	; AVX2-NEXT: LBB8_47: ## %cond.load89			; AVX2-NEXT: LBB8_47: ## %cond.load89
	; AVX2-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $16777216, %eax ## imm = 0x1000000			; AVX2-NEXT: testl $16777216, %eax ## imm = 0x1000000
	; AVX2-NEXT: je LBB8_50			; AVX2-NEXT: je LBB8_50
	; AVX2-NEXT: LBB8_49: ## %cond.load93			; AVX2-NEXT: LBB8_49: ## %cond.load93
	; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1,2,3,4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $33554432, %eax ## imm = 0x2000000			; AVX2-NEXT: testl $33554432, %eax ## imm = 0x2000000
	Show All 12 Lines
	; AVX2-NEXT: je LBB8_56			; AVX2-NEXT: je LBB8_56
	; AVX2-NEXT: LBB8_55: ## %cond.load105			; AVX2-NEXT: LBB8_55: ## %cond.load105
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]			; AVX2-NEXT: vinsertps $48, (%rdi), %xmm3, %xmm4 ## xmm4 = xmm3[0,1,2],mem[0]
	; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $268435456, %eax ## imm = 0x10000000			; AVX2-NEXT: testl $268435456, %eax ## imm = 0x10000000
	; AVX2-NEXT: je LBB8_58			; AVX2-NEXT: je LBB8_58
	; AVX2-NEXT: LBB8_57: ## %cond.load109			; AVX2-NEXT: LBB8_57: ## %cond.load109
	; AVX2-NEXT: vmovss (%rdi), %xmm4 ## xmm4 = mem[0],zero,zero,zero			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX2-NEXT: vblendps {{.*#+}} xmm4 = xmm4[0],xmm5[1,2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $536870912, %eax ## imm = 0x20000000			; AVX2-NEXT: testl $536870912, %eax ## imm = 0x20000000
	; AVX2-NEXT: je LBB8_60			; AVX2-NEXT: je LBB8_60
	; AVX2-NEXT: LBB8_59: ## %cond.load113			; AVX2-NEXT: LBB8_59: ## %cond.load113
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $16, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0],mem[0],xmm4[2,3]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $1073741824, %eax ## imm = 0x40000000			; AVX2-NEXT: testl $1073741824, %eax ## imm = 0x40000000
	; AVX2-NEXT: je LBB8_62			; AVX2-NEXT: je LBB8_62
	; AVX2-NEXT: LBB8_61: ## %cond.load117			; AVX2-NEXT: LBB8_61: ## %cond.load117
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $32, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: addq $4, %rdi			; AVX2-NEXT: addq $4, %rdi
	; AVX2-NEXT: testl $-2147483648, %eax ## imm = 0x80000000			; AVX2-NEXT: testl $-2147483648, %eax ## imm = 0x80000000
	; AVX2-NEXT: je LBB8_64			; AVX2-NEXT: je LBB8_64
	; AVX2-NEXT: LBB8_63: ## %cond.load121			; AVX2-NEXT: LBB8_63: ## %cond.load121
	; AVX2-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vbroadcastss (%rdi), %ymm4
	; AVX2-NEXT: vinsertps $48, (%rdi), %xmm4, %xmm4 ## xmm4 = xmm4[0,1,2],mem[0]			; AVX2-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX2-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: expandload_v32f32_v32i32:			; AVX512-LABEL: expandload_v32f32_v32i32:
	; AVX512: ## %bb.0:			; AVX512: ## %bb.0:
	; AVX512-NEXT: vptestnmd %zmm3, %zmm3, %k2			; AVX512-NEXT: vptestnmd %zmm3, %zmm3, %k2
	; AVX512-NEXT: vptestnmd %zmm2, %zmm2, %k1			; AVX512-NEXT: vptestnmd %zmm2, %zmm2, %k1
	; AVX512-NEXT: kmovw %k1, %eax			; AVX512-NEXT: kmovw %k1, %eax
	; AVX512-NEXT: movl %eax, %ecx			; AVX512-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 1,509 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_gather.ll

	Show First 20 Lines • Show All 1,353 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: jne .LBB4_11			; AVX1-NEXT: jne .LBB4_11
	; AVX1-NEXT: .LBB4_12: # %else14			; AVX1-NEXT: .LBB4_12: # %else14
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: jne .LBB4_13			; AVX1-NEXT: jne .LBB4_13
	; AVX1-NEXT: .LBB4_14: # %else17			; AVX1-NEXT: .LBB4_14: # %else17
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_16			; AVX1-NEXT: je .LBB4_16
	; AVX1-NEXT: .LBB4_15: # %cond.load19			; AVX1-NEXT: .LBB4_15: # %cond.load19
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_16: # %else20			; AVX1-NEXT: .LBB4_16: # %else20
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: vmovmskps %ymm3, %eax			; AVX1-NEXT: vmovmskps %ymm3, %eax
	; AVX1-NEXT: testb $1, %al			; AVX1-NEXT: testb $1, %al
	; AVX1-NEXT: # implicit-def: $ymm3			; AVX1-NEXT: # implicit-def: $ymm3
	; AVX1-NEXT: jne .LBB4_17			; AVX1-NEXT: jne .LBB4_17
	; AVX1-NEXT: # %bb.18: # %else26			; AVX1-NEXT: # %bb.18: # %else26
	Show All 13 Lines
	; AVX1-NEXT: jne .LBB4_27			; AVX1-NEXT: jne .LBB4_27
	; AVX1-NEXT: .LBB4_28: # %else51			; AVX1-NEXT: .LBB4_28: # %else51
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: jne .LBB4_29			; AVX1-NEXT: jne .LBB4_29
	; AVX1-NEXT: .LBB4_30: # %else56			; AVX1-NEXT: .LBB4_30: # %else56
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_32			; AVX1-NEXT: je .LBB4_32
	; AVX1-NEXT: .LBB4_31: # %cond.load58			; AVX1-NEXT: .LBB4_31: # %cond.load58
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5,6],ymm4[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: .LBB4_32: # %else61			; AVX1-NEXT: .LBB4_32: # %else61
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vmovmskps %ymm0, %eax			; AVX1-NEXT: vmovmskps %ymm0, %eax
	; AVX1-NEXT: testb $1, %al			; AVX1-NEXT: testb $1, %al
	; AVX1-NEXT: # implicit-def: $ymm0			; AVX1-NEXT: # implicit-def: $ymm0
	; AVX1-NEXT: jne .LBB4_33			; AVX1-NEXT: jne .LBB4_33
	; AVX1-NEXT: # %bb.34: # %else67			; AVX1-NEXT: # %bb.34: # %else67
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: jne .LBB4_35			; AVX1-NEXT: jne .LBB4_35
	; AVX1-NEXT: .LBB4_36: # %else72			; AVX1-NEXT: .LBB4_36: # %else72
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: jne .LBB4_37			; AVX1-NEXT: jne .LBB4_37
	; AVX1-NEXT: .LBB4_38: # %else77			; AVX1-NEXT: .LBB4_38: # %else77
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: jne .LBB4_39			; AVX1-NEXT: jne .LBB4_39
	; AVX1-NEXT: .LBB4_40: # %else82			; AVX1-NEXT: .LBB4_40: # %else82
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_42			; AVX1-NEXT: je .LBB4_42
	; AVX1-NEXT: .LBB4_41: # %cond.load84			; AVX1-NEXT: .LBB4_41: # %cond.load84
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm2
	; AVX1-NEXT: vpinsrd $0, c+28(%rip), %xmm2, %xmm2			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
				RKSimonUnsubmitted Not Done Reply Inline Actions Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical broadcasts? RKSimon: Just noticed this on D106280 - I don't suppose you know why we fail to merge these identical…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what would expect it to look like? lebedev.ri: I'm not sure i follow. this inserts `c+28(%rip)` into the 4'th 32-bit element of ymm0. How/what…
				RKSimonUnsubmitted Not Done Reply Inline Actions Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The IR looks like the gep is splatting the element 3 of the pointer array to every gather address. RKSimon: Aren't all the "broadcastss c+28(%rip), XXXX" cases broadcasting the same memory location? The…
				lebedev.riAuthorUnsubmitted Not Done Reply Inline Actions Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are scalarized by `Scalarize Masked Memory Intrinsics (scalarize-masked-mem-intrin)` pass, which is a codegen pass, I'm not sure how we could do that in DAGCombine, since we only have a single bb at a time, and we don't have any heavy-lifting passes this late. lebedev.ri: Right. Well, i'm not sure where we'd do that. And what do you mean by merge? They are…
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_42: # %else87			; AVX1-NEXT: .LBB4_42: # %else87
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_44			; AVX1-NEXT: je .LBB4_44
	; AVX1-NEXT: # %bb.43: # %cond.load89			; AVX1-NEXT: # %bb.43: # %cond.load89
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm3[5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_44: # %else92			; AVX1-NEXT: .LBB4_44: # %else92
	; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_46			; AVX1-NEXT: je .LBB4_46
	; AVX1-NEXT: # %bb.45: # %cond.load94			; AVX1-NEXT: # %bb.45: # %cond.load94
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6],ymm0[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_46: # %else97			; AVX1-NEXT: .LBB4_46: # %else97
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_48			; AVX1-NEXT: je .LBB4_48
	; AVX1-NEXT: # %bb.47: # %cond.load99			; AVX1-NEXT: # %bb.47: # %cond.load99
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm2
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm2			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_48: # %else102			; AVX1-NEXT: .LBB4_48: # %else102
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	; AVX1-NEXT: .LBB4_1: # %cond.load			; AVX1-NEXT: .LBB4_1: # %cond.load
	Show All 11 Lines
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je .LBB4_8			; AVX1-NEXT: je .LBB4_8
	; AVX1-NEXT: .LBB4_7: # %cond.load7			; AVX1-NEXT: .LBB4_7: # %cond.load7
	; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm3			; AVX1-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm3
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_10			; AVX1-NEXT: je .LBB4_10
	; AVX1-NEXT: .LBB4_9: # %cond.load10			; AVX1-NEXT: .LBB4_9: # %cond.load10
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $0, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4],ymm1[5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_12			; AVX1-NEXT: je .LBB4_12
	; AVX1-NEXT: .LBB4_11: # %cond.load13			; AVX1-NEXT: .LBB4_11: # %cond.load13
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $1, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm3[5],ymm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_14			; AVX1-NEXT: je .LBB4_14
	; AVX1-NEXT: .LBB4_13: # %cond.load16			; AVX1-NEXT: .LBB4_13: # %cond.load16
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vbroadcastss c+12(%rip), %ymm3
	; AVX1-NEXT: vpinsrd $2, c+12(%rip), %xmm3, %xmm3			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm3[6],ymm1[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: jne .LBB4_15			; AVX1-NEXT: jne .LBB4_15
	; AVX1-NEXT: jmp .LBB4_16			; AVX1-NEXT: jmp .LBB4_16
	; AVX1-NEXT: .LBB4_17: # %cond.load23			; AVX1-NEXT: .LBB4_17: # %cond.load23
	; AVX1-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: je .LBB4_20			; AVX1-NEXT: je .LBB4_20
	; AVX1-NEXT: .LBB4_19: # %cond.load28			; AVX1-NEXT: .LBB4_19: # %cond.load28
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: je .LBB4_22			; AVX1-NEXT: je .LBB4_22
	; AVX1-NEXT: .LBB4_21: # %cond.load33			; AVX1-NEXT: .LBB4_21: # %cond.load33
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je .LBB4_24			; AVX1-NEXT: je .LBB4_24
	; AVX1-NEXT: .LBB4_23: # %cond.load38			; AVX1-NEXT: .LBB4_23: # %cond.load38
	; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm4			; AVX1-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_26			; AVX1-NEXT: je .LBB4_26
	; AVX1-NEXT: .LBB4_25: # %cond.load43			; AVX1-NEXT: .LBB4_25: # %cond.load43
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $0, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4],ymm3[5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_28			; AVX1-NEXT: je .LBB4_28
	; AVX1-NEXT: .LBB4_27: # %cond.load48			; AVX1-NEXT: .LBB4_27: # %cond.load48
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $1, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_30			; AVX1-NEXT: je .LBB4_30
	; AVX1-NEXT: .LBB4_29: # %cond.load53			; AVX1-NEXT: .LBB4_29: # %cond.load53
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vbroadcastss c+28(%rip), %ymm4
	; AVX1-NEXT: vpinsrd $2, c+28(%rip), %xmm4, %xmm4			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6],ymm3[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: jne .LBB4_31			; AVX1-NEXT: jne .LBB4_31
	; AVX1-NEXT: jmp .LBB4_32			; AVX1-NEXT: jmp .LBB4_32
	; AVX1-NEXT: .LBB4_33: # %cond.load64			; AVX1-NEXT: .LBB4_33: # %cond.load64
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: je .LBB4_36			; AVX1-NEXT: je .LBB4_36
	; AVX1-NEXT: .LBB4_35: # %cond.load69			; AVX1-NEXT: .LBB4_35: # %cond.load69
	Show All 38 Lines
	; AVX2-NEXT: jne .LBB4_11			; AVX2-NEXT: jne .LBB4_11
	; AVX2-NEXT: .LBB4_12: # %else14			; AVX2-NEXT: .LBB4_12: # %else14
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_13			; AVX2-NEXT: jne .LBB4_13
	; AVX2-NEXT: .LBB4_14: # %else17			; AVX2-NEXT: .LBB4_14: # %else17
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_16			; AVX2-NEXT: je .LBB4_16
	; AVX2-NEXT: .LBB4_15: # %cond.load19			; AVX2-NEXT: .LBB4_15: # %cond.load19
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5,6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: .LBB4_16: # %else20			; AVX2-NEXT: .LBB4_16: # %else20
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vmovmskps %ymm2, %eax			; AVX2-NEXT: vmovmskps %ymm2, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: # implicit-def: $ymm2			; AVX2-NEXT: # implicit-def: $ymm2
	; AVX2-NEXT: jne .LBB4_17			; AVX2-NEXT: jne .LBB4_17
	; AVX2-NEXT: # %bb.18: # %else26			; AVX2-NEXT: # %bb.18: # %else26
	Show All 13 Lines
	; AVX2-NEXT: jne .LBB4_27			; AVX2-NEXT: jne .LBB4_27
	; AVX2-NEXT: .LBB4_28: # %else51			; AVX2-NEXT: .LBB4_28: # %else51
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_29			; AVX2-NEXT: jne .LBB4_29
	; AVX2-NEXT: .LBB4_30: # %else56			; AVX2-NEXT: .LBB4_30: # %else56
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_32			; AVX2-NEXT: je .LBB4_32
	; AVX2-NEXT: .LBB4_31: # %cond.load58			; AVX2-NEXT: .LBB4_31: # %cond.load58
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm3[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: .LBB4_32: # %else61			; AVX2-NEXT: .LBB4_32: # %else61
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vmovmskps %ymm0, %eax			; AVX2-NEXT: vmovmskps %ymm0, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: # implicit-def: $ymm0			; AVX2-NEXT: # implicit-def: $ymm0
	; AVX2-NEXT: jne .LBB4_33			; AVX2-NEXT: jne .LBB4_33
	; AVX2-NEXT: # %bb.34: # %else67			; AVX2-NEXT: # %bb.34: # %else67
	Show All 10 Lines
	; AVX2-NEXT: jne .LBB4_41			; AVX2-NEXT: jne .LBB4_41
	; AVX2-NEXT: .LBB4_42: # %else87			; AVX2-NEXT: .LBB4_42: # %else87
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: jne .LBB4_43			; AVX2-NEXT: jne .LBB4_43
	; AVX2-NEXT: .LBB4_44: # %else92			; AVX2-NEXT: .LBB4_44: # %else92
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_46			; AVX2-NEXT: je .LBB4_46
	; AVX2-NEXT: .LBB4_45: # %cond.load94			; AVX2-NEXT: .LBB4_45: # %cond.load94
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm3[6],ymm0[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: .LBB4_46: # %else97			; AVX2-NEXT: .LBB4_46: # %else97
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je .LBB4_48			; AVX2-NEXT: je .LBB4_48
	; AVX2-NEXT: # %bb.47: # %cond.load99			; AVX2-NEXT: # %bb.47: # %cond.load99
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: .LBB4_48: # %else102			; AVX2-NEXT: .LBB4_48: # %else102
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	; AVX2-NEXT: .LBB4_1: # %cond.load			; AVX2-NEXT: .LBB4_1: # %cond.load
	; AVX2-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_4			; AVX2-NEXT: je .LBB4_4
	; AVX2-NEXT: .LBB4_3: # %cond.load1			; AVX2-NEXT: .LBB4_3: # %cond.load1
	; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_6			; AVX2-NEXT: je .LBB4_6
	; AVX2-NEXT: .LBB4_5: # %cond.load4			; AVX2-NEXT: .LBB4_5: # %cond.load4
	; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_8			; AVX2-NEXT: je .LBB4_8
	; AVX2-NEXT: .LBB4_7: # %cond.load7			; AVX2-NEXT: .LBB4_7: # %cond.load7
	; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm2			; AVX2-NEXT: vpinsrd $3, c+12(%rip), %xmm1, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_10			; AVX2-NEXT: je .LBB4_10
	; AVX2-NEXT: .LBB4_9: # %cond.load10			; AVX2-NEXT: .LBB4_9: # %cond.load10
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $0, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_12			; AVX2-NEXT: je .LBB4_12
	; AVX2-NEXT: .LBB4_11: # %cond.load13			; AVX2-NEXT: .LBB4_11: # %cond.load13
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $1, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_14			; AVX2-NEXT: je .LBB4_14
	; AVX2-NEXT: .LBB4_13: # %cond.load16			; AVX2-NEXT: .LBB4_13: # %cond.load16
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastd c+12(%rip), %ymm2
	; AVX2-NEXT: vpinsrd $2, c+12(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: jne .LBB4_15			; AVX2-NEXT: jne .LBB4_15
	; AVX2-NEXT: jmp .LBB4_16			; AVX2-NEXT: jmp .LBB4_16
	; AVX2-NEXT: .LBB4_17: # %cond.load23			; AVX2-NEXT: .LBB4_17: # %cond.load23
	; AVX2-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_20			; AVX2-NEXT: je .LBB4_20
	; AVX2-NEXT: .LBB4_19: # %cond.load28			; AVX2-NEXT: .LBB4_19: # %cond.load28
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_22			; AVX2-NEXT: je .LBB4_22
	; AVX2-NEXT: .LBB4_21: # %cond.load33			; AVX2-NEXT: .LBB4_21: # %cond.load33
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_24			; AVX2-NEXT: je .LBB4_24
	; AVX2-NEXT: .LBB4_23: # %cond.load38			; AVX2-NEXT: .LBB4_23: # %cond.load38
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm3			; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm2, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_26			; AVX2-NEXT: je .LBB4_26
	; AVX2-NEXT: .LBB4_25: # %cond.load43			; AVX2-NEXT: .LBB4_25: # %cond.load43
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $0, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4],ymm2[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_28			; AVX2-NEXT: je .LBB4_28
	; AVX2-NEXT: .LBB4_27: # %cond.load48			; AVX2-NEXT: .LBB4_27: # %cond.load48
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm3[5],ymm2[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: je .LBB4_30			; AVX2-NEXT: je .LBB4_30
	; AVX2-NEXT: .LBB4_29: # %cond.load53			; AVX2-NEXT: .LBB4_29: # %cond.load53
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: jne .LBB4_31			; AVX2-NEXT: jne .LBB4_31
	; AVX2-NEXT: jmp .LBB4_32			; AVX2-NEXT: jmp .LBB4_32
	; AVX2-NEXT: .LBB4_33: # %cond.load64			; AVX2-NEXT: .LBB4_33: # %cond.load64
	; AVX2-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX2-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: je .LBB4_36			; AVX2-NEXT: je .LBB4_36
	; AVX2-NEXT: .LBB4_35: # %cond.load69			; AVX2-NEXT: .LBB4_35: # %cond.load69
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $4, %al			; AVX2-NEXT: testb $4, %al
	; AVX2-NEXT: je .LBB4_38			; AVX2-NEXT: je .LBB4_38
	; AVX2-NEXT: .LBB4_37: # %cond.load74			; AVX2-NEXT: .LBB4_37: # %cond.load74
	; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $2, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $8, %al			; AVX2-NEXT: testb $8, %al
	; AVX2-NEXT: je .LBB4_40			; AVX2-NEXT: je .LBB4_40
	; AVX2-NEXT: .LBB4_39: # %cond.load79			; AVX2-NEXT: .LBB4_39: # %cond.load79
	; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm0, %xmm3			; AVX2-NEXT: vpinsrd $3, c+28(%rip), %xmm0, %xmm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testb $16, %al			; AVX2-NEXT: testb $16, %al
	; AVX2-NEXT: je .LBB4_42			; AVX2-NEXT: je .LBB4_42
	; AVX2-NEXT: .LBB4_41: # %cond.load84			; AVX2-NEXT: .LBB4_41: # %cond.load84
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $0, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4],ymm0[5,6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: testb $32, %al			; AVX2-NEXT: testb $32, %al
	; AVX2-NEXT: je .LBB4_44			; AVX2-NEXT: je .LBB4_44
	; AVX2-NEXT: .LBB4_43: # %cond.load89			; AVX2-NEXT: .LBB4_43: # %cond.load89
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpbroadcastd c+28(%rip), %ymm3
	; AVX2-NEXT: vpinsrd $1, c+28(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm3[5],ymm0[6,7]
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: testb $64, %al			; AVX2-NEXT: testb $64, %al
	; AVX2-NEXT: jne .LBB4_45			; AVX2-NEXT: jne .LBB4_45
	; AVX2-NEXT: jmp .LBB4_46			; AVX2-NEXT: jmp .LBB4_46
	;			;
	; AVX512F-LABEL: gather_v8i32_v8i32:			; AVX512F-LABEL: gather_v8i32_v8i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	Show All 40 Lines

llvm/test/CodeGen/X86/masked_gather_scatter.ll

	Show First 20 Lines • Show All 959 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: # %bb.6: # %else5			; KNL_64-NEXT: # %bb.6: # %else5
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB15_7			; KNL_64-NEXT: jne .LBB15_7
	; KNL_64-NEXT: .LBB15_8: # %else8			; KNL_64-NEXT: .LBB15_8: # %else8
	; KNL_64-NEXT: vmovdqa %ymm2, %ymm0			; KNL_64-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	; KNL_64-NEXT: .LBB15_5: # %cond.load4			; KNL_64-NEXT: .LBB15_5: # %cond.load4
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm2, %xmm1			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm1
	; KNL_64-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5],ymm2[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm2
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB15_8			; KNL_64-NEXT: je .LBB15_8
	; KNL_64-NEXT: .LBB15_7: # %cond.load7			; KNL_64-NEXT: .LBB15_7: # %cond.load7
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rax			; KNL_64-NEXT: vpextrq $1, %xmm0, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm2, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm0
	; KNL_64-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm0[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm2
	; KNL_64-NEXT: vmovdqa %ymm2, %ymm0			; KNL_64-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test16:			; KNL_32-LABEL: test16:
	; KNL_32: # %bb.0:			; KNL_32: # %bb.0:
	; KNL_32-NEXT: vpslld $31, %xmm1, %xmm1			; KNL_32-NEXT: vpslld $31, %xmm1, %xmm1
	; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k0			; KNL_32-NEXT: vptestmd %zmm1, %zmm1, %k0
	; KNL_32-NEXT: vpslld $3, %xmm0, %xmm0			; KNL_32-NEXT: vpslld $3, %xmm0, %xmm0
	Show All 23 Lines
	; KNL_32-NEXT: .LBB15_3: # %cond.load1			; KNL_32-NEXT: .LBB15_3: # %cond.load1
	; KNL_32-NEXT: vpextrd $1, %xmm0, %ecx			; KNL_32-NEXT: vpextrd $1, %xmm0, %ecx
	; KNL_32-NEXT: vmovhps {{.*#+}} xmm1 = xmm2[0,1],mem[0,1]			; KNL_32-NEXT: vmovhps {{.*#+}} xmm1 = xmm2[0,1],mem[0,1]
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]
	; KNL_32-NEXT: testb $4, %al			; KNL_32-NEXT: testb $4, %al
	; KNL_32-NEXT: je .LBB15_6			; KNL_32-NEXT: je .LBB15_6
	; KNL_32-NEXT: .LBB15_5: # %cond.load4			; KNL_32-NEXT: .LBB15_5: # %cond.load4
	; KNL_32-NEXT: vpextrd $2, %xmm0, %ecx			; KNL_32-NEXT: vpextrd $2, %xmm0, %ecx
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm1			; KNL_32-NEXT: vpbroadcastq (%ecx), %ymm1
	; KNL_32-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5],ymm2[6,7]
	; KNL_32-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm2
	; KNL_32-NEXT: testb $8, %al			; KNL_32-NEXT: testb $8, %al
	; KNL_32-NEXT: je .LBB15_8			; KNL_32-NEXT: je .LBB15_8
	; KNL_32-NEXT: .LBB15_7: # %cond.load7			; KNL_32-NEXT: .LBB15_7: # %cond.load7
	; KNL_32-NEXT: vpextrd $3, %xmm0, %eax			; KNL_32-NEXT: vpextrd $3, %xmm0, %eax
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm0			; KNL_32-NEXT: vpbroadcastq (%eax), %ymm0
	; KNL_32-NEXT: vmovhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm0[6,7]
	; KNL_32-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm2
	; KNL_32-NEXT: vmovdqa %ymm2, %ymm0			; KNL_32-NEXT: vmovdqa %ymm2, %ymm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpslld $31, %xmm1, %xmm1			; SKX-NEXT: vpslld $31, %xmm1, %xmm1
	; SKX-NEXT: vpmovd2m %xmm1, %k1			; SKX-NEXT: vpmovd2m %xmm1, %k1
	; SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %ymm2 {%k1}			; SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %ymm2 {%k1}
	▲ Show 20 Lines • Show All 2,180 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm1, %xmm2			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm1, %xmm2
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; KNL_64-NEXT: .LBB42_4: # %else2			; KNL_64-NEXT: .LBB42_4: # %else2
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_64-NEXT: vextracti128 $1, %ymm0, %xmm2
	; KNL_64-NEXT: je .LBB42_6			; KNL_64-NEXT: je .LBB42_6
	; KNL_64-NEXT: # %bb.5: # %cond.load4			; KNL_64-NEXT: # %bb.5: # %cond.load4
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm1, %xmm3			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm3
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm3, %xmm3			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm3[4,5],ymm1[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; KNL_64-NEXT: .LBB42_6: # %else5			; KNL_64-NEXT: .LBB42_6: # %else5
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_8			; KNL_64-NEXT: je .LBB42_8
	; KNL_64-NEXT: # %bb.7: # %cond.load7			; KNL_64-NEXT: # %bb.7: # %cond.load7
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm1, %xmm3			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm3
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm3, %xmm3			; KNL_64-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm3[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; KNL_64-NEXT: .LBB42_8: # %else8			; KNL_64-NEXT: .LBB42_8: # %else8
	; KNL_64-NEXT: kmovw %k0, %eax			; KNL_64-NEXT: kmovw %k0, %eax
	; KNL_64-NEXT: testb $1, %al			; KNL_64-NEXT: testb $1, %al
	; KNL_64-NEXT: # implicit-def: $ymm3			; KNL_64-NEXT: # implicit-def: $ymm3
	; KNL_64-NEXT: jne .LBB42_9			; KNL_64-NEXT: jne .LBB42_9
	; KNL_64-NEXT: # %bb.10: # %else15			; KNL_64-NEXT: # %bb.10: # %else15
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: jne .LBB42_11			; KNL_64-NEXT: jne .LBB42_11
	; KNL_64-NEXT: .LBB42_12: # %else21			; KNL_64-NEXT: .LBB42_12: # %else21
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: jne .LBB42_13			; KNL_64-NEXT: jne .LBB42_13
	; KNL_64-NEXT: .LBB42_14: # %else27			; KNL_64-NEXT: .LBB42_14: # %else27
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_16			; KNL_64-NEXT: je .LBB42_16
	; KNL_64-NEXT: .LBB42_15: # %cond.load29			; KNL_64-NEXT: .LBB42_15: # %cond.load29
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm3, %xmm4			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm4
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm4, %xmm4			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3,4,5],ymm4[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; KNL_64-NEXT: .LBB42_16: # %else33			; KNL_64-NEXT: .LBB42_16: # %else33
	; KNL_64-NEXT: kmovw %k0, %eax			; KNL_64-NEXT: kmovw %k0, %eax
	; KNL_64-NEXT: testb $1, %al			; KNL_64-NEXT: testb $1, %al
	; KNL_64-NEXT: # implicit-def: $ymm4			; KNL_64-NEXT: # implicit-def: $ymm4
	; KNL_64-NEXT: jne .LBB42_17			; KNL_64-NEXT: jne .LBB42_17
	; KNL_64-NEXT: # %bb.18: # %else40			; KNL_64-NEXT: # %bb.18: # %else40
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: jne .LBB42_19			; KNL_64-NEXT: jne .LBB42_19
	; KNL_64-NEXT: .LBB42_20: # %else46			; KNL_64-NEXT: .LBB42_20: # %else46
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: jne .LBB42_21			; KNL_64-NEXT: jne .LBB42_21
	; KNL_64-NEXT: .LBB42_22: # %else52			; KNL_64-NEXT: .LBB42_22: # %else52
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: je .LBB42_24			; KNL_64-NEXT: je .LBB42_24
	; KNL_64-NEXT: .LBB42_23: # %cond.load54			; KNL_64-NEXT: .LBB42_23: # %cond.load54
	; KNL_64-NEXT: vpextrq $1, %xmm2, %rax			; KNL_64-NEXT: vpextrq $1, %xmm2, %rax
	; KNL_64-NEXT: vextracti128 $1, %ymm4, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rax), %ymm0
	; KNL_64-NEXT: vpinsrq $1, (%rax), %xmm0, %xmm0			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1,2,3,4,5],ymm0[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm4
	; KNL_64-NEXT: .LBB42_24: # %else58			; KNL_64-NEXT: .LBB42_24: # %else58
	; KNL_64-NEXT: vpaddq %ymm3, %ymm1, %ymm0			; KNL_64-NEXT: vpaddq %ymm3, %ymm1, %ymm0
	; KNL_64-NEXT: vpaddq %ymm4, %ymm0, %ymm0			; KNL_64-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	; KNL_64-NEXT: .LBB42_9: # %cond.load11			; KNL_64-NEXT: .LBB42_9: # %cond.load11
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; KNL_64-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: je .LBB42_12			; KNL_64-NEXT: je .LBB42_12
	; KNL_64-NEXT: .LBB42_11: # %cond.load17			; KNL_64-NEXT: .LBB42_11: # %cond.load17
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx			; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm3, %xmm4			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm3, %xmm4
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0,1,2,3],ymm3[4,5,6,7]
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: je .LBB42_14			; KNL_64-NEXT: je .LBB42_14
	; KNL_64-NEXT: .LBB42_13: # %cond.load23			; KNL_64-NEXT: .LBB42_13: # %cond.load23
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm3, %xmm4			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm4
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm4, %xmm4			; KNL_64-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5],ymm3[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm4, %ymm3, %ymm3
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB42_15			; KNL_64-NEXT: jne .LBB42_15
	; KNL_64-NEXT: jmp .LBB42_16			; KNL_64-NEXT: jmp .LBB42_16
	; KNL_64-NEXT: .LBB42_17: # %cond.load36			; KNL_64-NEXT: .LBB42_17: # %cond.load36
	; KNL_64-NEXT: vmovq %xmm0, %rcx			; KNL_64-NEXT: vmovq %xmm0, %rcx
	; KNL_64-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero			; KNL_64-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; KNL_64-NEXT: testb $2, %al			; KNL_64-NEXT: testb $2, %al
	; KNL_64-NEXT: je .LBB42_20			; KNL_64-NEXT: je .LBB42_20
	; KNL_64-NEXT: .LBB42_19: # %cond.load42			; KNL_64-NEXT: .LBB42_19: # %cond.load42
	; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx			; KNL_64-NEXT: vpextrq $1, %xmm0, %rcx
	; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm4, %xmm0			; KNL_64-NEXT: vpinsrq $1, (%rcx), %xmm4, %xmm0
	; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm0[0,1,2,3],ymm4[4,5,6,7]			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm0[0,1,2,3],ymm4[4,5,6,7]
	; KNL_64-NEXT: testb $4, %al			; KNL_64-NEXT: testb $4, %al
	; KNL_64-NEXT: je .LBB42_22			; KNL_64-NEXT: je .LBB42_22
	; KNL_64-NEXT: .LBB42_21: # %cond.load48			; KNL_64-NEXT: .LBB42_21: # %cond.load48
	; KNL_64-NEXT: vmovq %xmm2, %rcx			; KNL_64-NEXT: vmovq %xmm2, %rcx
	; KNL_64-NEXT: vextracti128 $1, %ymm4, %xmm0			; KNL_64-NEXT: vpbroadcastq (%rcx), %ymm0
	; KNL_64-NEXT: vpinsrq $0, (%rcx), %xmm0, %xmm0			; KNL_64-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1,2,3],ymm0[4,5],ymm4[6,7]
	; KNL_64-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm4
	; KNL_64-NEXT: testb $8, %al			; KNL_64-NEXT: testb $8, %al
	; KNL_64-NEXT: jne .LBB42_23			; KNL_64-NEXT: jne .LBB42_23
	; KNL_64-NEXT: jmp .LBB42_24			; KNL_64-NEXT: jmp .LBB42_24
	;			;
	; KNL_32-LABEL: test_pr28312:			; KNL_32-LABEL: test_pr28312:
	; KNL_32: # %bb.0:			; KNL_32: # %bb.0:
	; KNL_32-NEXT: pushl %ebp			; KNL_32-NEXT: pushl %ebp
	; KNL_32-NEXT: .cfi_def_cfa_offset 8			; KNL_32-NEXT: .cfi_def_cfa_offset 8
	Show All 23 Lines
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm1, %xmm2			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm1, %xmm2
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; KNL_32-NEXT: .LBB42_4: # %else2			; KNL_32-NEXT: .LBB42_4: # %else2
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: vpextrd $2, %xmm0, %edx			; KNL_32-NEXT: vpextrd $2, %xmm0, %edx
	; KNL_32-NEXT: je .LBB42_6			; KNL_32-NEXT: je .LBB42_6
	; KNL_32-NEXT: # %bb.5: # %cond.load4			; KNL_32-NEXT: # %bb.5: # %cond.load4
	; KNL_32-NEXT: vextracti128 $1, %ymm1, %xmm2			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm2
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm2[4],ymm1[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4],ymm2[5],ymm1[6,7]
	; KNL_32-NEXT: .LBB42_6: # %else5			; KNL_32-NEXT: .LBB42_6: # %else5
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: vpextrd $3, %xmm0, %esi			; KNL_32-NEXT: vpextrd $3, %xmm0, %esi
	; KNL_32-NEXT: je .LBB42_8			; KNL_32-NEXT: je .LBB42_8
	; KNL_32-NEXT: # %bb.7: # %cond.load7			; KNL_32-NEXT: # %bb.7: # %cond.load7
	; KNL_32-NEXT: vextracti128 $1, %ymm1, %xmm0			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm0
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm0, %xmm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm0, %xmm0			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm1
	; KNL_32-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; KNL_32-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3,4,5,6],ymm1[7]
	; KNL_32-NEXT: .LBB42_8: # %else8			; KNL_32-NEXT: .LBB42_8: # %else8
	; KNL_32-NEXT: kmovw %k0, %ebx			; KNL_32-NEXT: kmovw %k0, %ebx
	; KNL_32-NEXT: testb $1, %bl			; KNL_32-NEXT: testb $1, %bl
	; KNL_32-NEXT: # implicit-def: $ymm0			; KNL_32-NEXT: # implicit-def: $ymm0
	; KNL_32-NEXT: jne .LBB42_9			; KNL_32-NEXT: jne .LBB42_9
	; KNL_32-NEXT: # %bb.10: # %else15			; KNL_32-NEXT: # %bb.10: # %else15
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: jne .LBB42_11			; KNL_32-NEXT: jne .LBB42_11
	; KNL_32-NEXT: .LBB42_12: # %else21			; KNL_32-NEXT: .LBB42_12: # %else21
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: jne .LBB42_13			; KNL_32-NEXT: jne .LBB42_13
	; KNL_32-NEXT: .LBB42_14: # %else27			; KNL_32-NEXT: .LBB42_14: # %else27
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: je .LBB42_16			; KNL_32-NEXT: je .LBB42_16
	; KNL_32-NEXT: .LBB42_15: # %cond.load29			; KNL_32-NEXT: .LBB42_15: # %cond.load29
	; KNL_32-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm2
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm2[6],ymm0[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm2[7]
	; KNL_32-NEXT: .LBB42_16: # %else33			; KNL_32-NEXT: .LBB42_16: # %else33
	; KNL_32-NEXT: kmovw %k0, %ebx			; KNL_32-NEXT: kmovw %k0, %ebx
	; KNL_32-NEXT: testb $1, %bl			; KNL_32-NEXT: testb $1, %bl
	; KNL_32-NEXT: # implicit-def: $ymm2			; KNL_32-NEXT: # implicit-def: $ymm2
	; KNL_32-NEXT: jne .LBB42_17			; KNL_32-NEXT: jne .LBB42_17
	; KNL_32-NEXT: # %bb.18: # %else40			; KNL_32-NEXT: # %bb.18: # %else40
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: jne .LBB42_19			; KNL_32-NEXT: jne .LBB42_19
	; KNL_32-NEXT: .LBB42_20: # %else46			; KNL_32-NEXT: .LBB42_20: # %else46
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: jne .LBB42_21			; KNL_32-NEXT: jne .LBB42_21
	; KNL_32-NEXT: .LBB42_22: # %else52			; KNL_32-NEXT: .LBB42_22: # %else52
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: je .LBB42_24			; KNL_32-NEXT: je .LBB42_24
	; KNL_32-NEXT: .LBB42_23: # %cond.load54			; KNL_32-NEXT: .LBB42_23: # %cond.load54
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm3			; KNL_32-NEXT: vpbroadcastd (%esi), %ymm3
	; KNL_32-NEXT: vpinsrd $2, (%esi), %xmm3, %xmm3			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm3[6],ymm2[7]
	; KNL_32-NEXT: vpinsrd $3, 4(%esi), %xmm3, %xmm3			; KNL_32-NEXT: vpbroadcastd 4(%esi), %ymm3
	; KNL_32-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5,6],ymm3[7]
	; KNL_32-NEXT: .LBB42_24: # %else58			; KNL_32-NEXT: .LBB42_24: # %else58
	; KNL_32-NEXT: vpaddq %ymm0, %ymm1, %ymm0			; KNL_32-NEXT: vpaddq %ymm0, %ymm1, %ymm0
	; KNL_32-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; KNL_32-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; KNL_32-NEXT: leal -8(%ebp), %esp			; KNL_32-NEXT: leal -8(%ebp), %esp
	; KNL_32-NEXT: popl %esi			; KNL_32-NEXT: popl %esi
	; KNL_32-NEXT: popl %ebx			; KNL_32-NEXT: popl %ebx
	; KNL_32-NEXT: popl %ebp			; KNL_32-NEXT: popl %ebp
	; KNL_32-NEXT: .cfi_def_cfa %esp, 4			; KNL_32-NEXT: .cfi_def_cfa %esp, 4
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	; KNL_32-NEXT: .LBB42_9: # %cond.load11			; KNL_32-NEXT: .LBB42_9: # %cond.load11
	; KNL_32-NEXT: .cfi_def_cfa %ebp, 8			; KNL_32-NEXT: .cfi_def_cfa %ebp, 8
	; KNL_32-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; KNL_32-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: je .LBB42_12			; KNL_32-NEXT: je .LBB42_12
	; KNL_32-NEXT: .LBB42_11: # %cond.load17			; KNL_32-NEXT: .LBB42_11: # %cond.load17
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm0, %xmm2			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm0, %xmm2
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm2, %xmm2
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: je .LBB42_14			; KNL_32-NEXT: je .LBB42_14
	; KNL_32-NEXT: .LBB42_13: # %cond.load23			; KNL_32-NEXT: .LBB42_13: # %cond.load23
	; KNL_32-NEXT: vextracti128 $1, %ymm0, %xmm2			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm2
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4],ymm0[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm2, %xmm2			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm2
	; KNL_32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; KNL_32-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5],ymm0[6,7]
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: jne .LBB42_15			; KNL_32-NEXT: jne .LBB42_15
	; KNL_32-NEXT: jmp .LBB42_16			; KNL_32-NEXT: jmp .LBB42_16
	; KNL_32-NEXT: .LBB42_17: # %cond.load36			; KNL_32-NEXT: .LBB42_17: # %cond.load36
	; KNL_32-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; KNL_32-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; KNL_32-NEXT: testb $2, %bl			; KNL_32-NEXT: testb $2, %bl
	; KNL_32-NEXT: je .LBB42_20			; KNL_32-NEXT: je .LBB42_20
	; KNL_32-NEXT: .LBB42_19: # %cond.load42			; KNL_32-NEXT: .LBB42_19: # %cond.load42
	; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm2, %xmm3			; KNL_32-NEXT: vpinsrd $2, (%ecx), %xmm2, %xmm3
	; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm3, %xmm3			; KNL_32-NEXT: vpinsrd $3, 4(%ecx), %xmm3, %xmm3
	; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0,1,2,3],ymm2[4,5,6,7]
	; KNL_32-NEXT: testb $4, %bl			; KNL_32-NEXT: testb $4, %bl
	; KNL_32-NEXT: je .LBB42_22			; KNL_32-NEXT: je .LBB42_22
	; KNL_32-NEXT: .LBB42_21: # %cond.load48			; KNL_32-NEXT: .LBB42_21: # %cond.load48
	; KNL_32-NEXT: vextracti128 $1, %ymm2, %xmm3			; KNL_32-NEXT: vpbroadcastd (%edx), %ymm3
	; KNL_32-NEXT: vpinsrd $0, (%edx), %xmm3, %xmm3			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4],ymm2[5,6,7]
	; KNL_32-NEXT: vpinsrd $1, 4(%edx), %xmm3, %xmm3			; KNL_32-NEXT: vpbroadcastd 4(%edx), %ymm3
	; KNL_32-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL_32-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3,4],ymm3[5],ymm2[6,7]
	; KNL_32-NEXT: testb $8, %bl			; KNL_32-NEXT: testb $8, %bl
	; KNL_32-NEXT: jne .LBB42_23			; KNL_32-NEXT: jne .LBB42_23
	; KNL_32-NEXT: jmp .LBB42_24			; KNL_32-NEXT: jmp .LBB42_24
	;			;
	; SKX-LABEL: test_pr28312:			; SKX-LABEL: test_pr28312:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpslld $31, %xmm1, %xmm1			; SKX-NEXT: vpslld $31, %xmm1, %xmm1
	; SKX-NEXT: vpmovd2m %xmm1, %k1			; SKX-NEXT: vpmovd2m %xmm1, %k1
	▲ Show 20 Lines • Show All 1,503 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_load.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,457 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: testb $-128, %al			; AVX2-NEXT: testb $-128, %al
	; AVX2-NEXT: je LBB22_16			; AVX2-NEXT: je LBB22_16
	; AVX2-NEXT: LBB22_15: ## %cond.load19			; AVX2-NEXT: LBB22_15: ## %cond.load19
	; AVX2-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX2-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testl $256, %eax ## imm = 0x100			; AVX2-NEXT: testl $256, %eax ## imm = 0x100
	; AVX2-NEXT: je LBB22_18			; AVX2-NEXT: je LBB22_18
	; AVX2-NEXT: LBB22_17: ## %cond.load22			; AVX2-NEXT: LBB22_17: ## %cond.load22
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $512, %eax ## imm = 0x200			; AVX2-NEXT: testl $512, %eax ## imm = 0x200
	; AVX2-NEXT: je LBB22_20			; AVX2-NEXT: je LBB22_20
	; AVX2-NEXT: LBB22_19: ## %cond.load25			; AVX2-NEXT: LBB22_19: ## %cond.load25
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $1024, %eax ## imm = 0x400			; AVX2-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX2-NEXT: je LBB22_22			; AVX2-NEXT: je LBB22_22
	; AVX2-NEXT: LBB22_21: ## %cond.load28			; AVX2-NEXT: LBB22_21: ## %cond.load28
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $2048, %eax ## imm = 0x800			; AVX2-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX2-NEXT: je LBB22_24			; AVX2-NEXT: je LBB22_24
	; AVX2-NEXT: LBB22_23: ## %cond.load31			; AVX2-NEXT: LBB22_23: ## %cond.load31
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX2-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX2-NEXT: je LBB22_26			; AVX2-NEXT: je LBB22_26
	; AVX2-NEXT: LBB22_25: ## %cond.load34			; AVX2-NEXT: LBB22_25: ## %cond.load34
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX2-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX2-NEXT: je LBB22_28			; AVX2-NEXT: je LBB22_28
	; AVX2-NEXT: LBB22_27: ## %cond.load37			; AVX2-NEXT: LBB22_27: ## %cond.load37
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX2-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX2-NEXT: je LBB22_30			; AVX2-NEXT: je LBB22_30
	; AVX2-NEXT: LBB22_29: ## %cond.load40			; AVX2-NEXT: LBB22_29: ## %cond.load40
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX2-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX2-NEXT: je LBB22_32			; AVX2-NEXT: je LBB22_32
	; AVX2-NEXT: LBB22_31: ## %cond.load43			; AVX2-NEXT: LBB22_31: ## %cond.load43
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vmovdqa %ymm1, %ymm0			; AVX2-NEXT: vmovdqa %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_v16i16_v16i16:			; AVX512F-LABEL: load_v16i16_v16i16:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0			; AVX512F-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0			; AVX512F-NEXT: vpmovsxwd %ymm0, %zmm0
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: testb $-128, %al			; AVX512F-NEXT: testb $-128, %al
	; AVX512F-NEXT: je LBB22_16			; AVX512F-NEXT: je LBB22_16
	; AVX512F-NEXT: LBB22_15: ## %cond.load19			; AVX512F-NEXT: LBB22_15: ## %cond.load19
	; AVX512F-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX512F-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512F-NEXT: testl $256, %eax ## imm = 0x100			; AVX512F-NEXT: testl $256, %eax ## imm = 0x100
	; AVX512F-NEXT: je LBB22_18			; AVX512F-NEXT: je LBB22_18
	; AVX512F-NEXT: LBB22_17: ## %cond.load22			; AVX512F-NEXT: LBB22_17: ## %cond.load22
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $512, %eax ## imm = 0x200			; AVX512F-NEXT: testl $512, %eax ## imm = 0x200
	; AVX512F-NEXT: je LBB22_20			; AVX512F-NEXT: je LBB22_20
	; AVX512F-NEXT: LBB22_19: ## %cond.load25			; AVX512F-NEXT: LBB22_19: ## %cond.load25
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $1024, %eax ## imm = 0x400			; AVX512F-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX512F-NEXT: je LBB22_22			; AVX512F-NEXT: je LBB22_22
	; AVX512F-NEXT: LBB22_21: ## %cond.load28			; AVX512F-NEXT: LBB22_21: ## %cond.load28
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $2048, %eax ## imm = 0x800			; AVX512F-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX512F-NEXT: je LBB22_24			; AVX512F-NEXT: je LBB22_24
	; AVX512F-NEXT: LBB22_23: ## %cond.load31			; AVX512F-NEXT: LBB22_23: ## %cond.load31
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX512F-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX512F-NEXT: je LBB22_26			; AVX512F-NEXT: je LBB22_26
	; AVX512F-NEXT: LBB22_25: ## %cond.load34			; AVX512F-NEXT: LBB22_25: ## %cond.load34
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX512F-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX512F-NEXT: je LBB22_28			; AVX512F-NEXT: je LBB22_28
	; AVX512F-NEXT: LBB22_27: ## %cond.load37			; AVX512F-NEXT: LBB22_27: ## %cond.load37
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX512F-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX512F-NEXT: je LBB22_30			; AVX512F-NEXT: je LBB22_30
	; AVX512F-NEXT: LBB22_29: ## %cond.load40			; AVX512F-NEXT: LBB22_29: ## %cond.load40
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX512F-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX512F-NEXT: je LBB22_32			; AVX512F-NEXT: je LBB22_32
	; AVX512F-NEXT: LBB22_31: ## %cond.load43			; AVX512F-NEXT: LBB22_31: ## %cond.load43
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512F-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX512F-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512F-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512F-NEXT: vmovdqa %ymm1, %ymm0			; AVX512F-NEXT: vmovdqa %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: load_v16i16_v16i16:			; AVX512VLDQ-LABEL: load_v16i16_v16i16:
	; AVX512VLDQ: ## %bb.0:			; AVX512VLDQ: ## %bb.0:
	; AVX512VLDQ-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512VLDQ-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512VLDQ-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0			; AVX512VLDQ-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; AVX512VLDQ-NEXT: vpmovsxwd %ymm0, %zmm0			; AVX512VLDQ-NEXT: vpmovsxwd %ymm0, %zmm0
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX512VLDQ-NEXT: testb $-128, %al			; AVX512VLDQ-NEXT: testb $-128, %al
	; AVX512VLDQ-NEXT: je LBB22_16			; AVX512VLDQ-NEXT: je LBB22_16
	; AVX512VLDQ-NEXT: LBB22_15: ## %cond.load19			; AVX512VLDQ-NEXT: LBB22_15: ## %cond.load19
	; AVX512VLDQ-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0			; AVX512VLDQ-NEXT: vpinsrw $7, 14(%rdi), %xmm1, %xmm0
	; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $256, %eax ## imm = 0x100			; AVX512VLDQ-NEXT: testl $256, %eax ## imm = 0x100
	; AVX512VLDQ-NEXT: je LBB22_18			; AVX512VLDQ-NEXT: je LBB22_18
	; AVX512VLDQ-NEXT: LBB22_17: ## %cond.load22			; AVX512VLDQ-NEXT: LBB22_17: ## %cond.load22
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 16(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $0, 16(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $512, %eax ## imm = 0x200			; AVX512VLDQ-NEXT: testl $512, %eax ## imm = 0x200
	; AVX512VLDQ-NEXT: je LBB22_20			; AVX512VLDQ-NEXT: je LBB22_20
	; AVX512VLDQ-NEXT: LBB22_19: ## %cond.load25			; AVX512VLDQ-NEXT: LBB22_19: ## %cond.load25
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 18(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $1, 18(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3,4,5,6,7,8],ymm0[9],ymm1[10,11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $1024, %eax ## imm = 0x400			; AVX512VLDQ-NEXT: testl $1024, %eax ## imm = 0x400
	; AVX512VLDQ-NEXT: je LBB22_22			; AVX512VLDQ-NEXT: je LBB22_22
	; AVX512VLDQ-NEXT: LBB22_21: ## %cond.load28			; AVX512VLDQ-NEXT: LBB22_21: ## %cond.load28
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 20(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $2, 20(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4,5,6,7,8,9],ymm0[10],ymm1[11,12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $2048, %eax ## imm = 0x800			; AVX512VLDQ-NEXT: testl $2048, %eax ## imm = 0x800
	; AVX512VLDQ-NEXT: je LBB22_24			; AVX512VLDQ-NEXT: je LBB22_24
	; AVX512VLDQ-NEXT: LBB22_23: ## %cond.load31			; AVX512VLDQ-NEXT: LBB22_23: ## %cond.load31
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 22(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $3, 22(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $4096, %eax ## imm = 0x1000			; AVX512VLDQ-NEXT: testl $4096, %eax ## imm = 0x1000
	; AVX512VLDQ-NEXT: je LBB22_26			; AVX512VLDQ-NEXT: je LBB22_26
	; AVX512VLDQ-NEXT: LBB22_25: ## %cond.load34			; AVX512VLDQ-NEXT: LBB22_25: ## %cond.load34
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 24(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4],ymm1[5,6,7,8,9,10,11],ymm0[12],ymm1[13,14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $8192, %eax ## imm = 0x2000			; AVX512VLDQ-NEXT: testl $8192, %eax ## imm = 0x2000
	; AVX512VLDQ-NEXT: je LBB22_28			; AVX512VLDQ-NEXT: je LBB22_28
	; AVX512VLDQ-NEXT: LBB22_27: ## %cond.load37			; AVX512VLDQ-NEXT: LBB22_27: ## %cond.load37
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 26(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $5, 26(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4],ymm0[5],ymm1[6,7,8,9,10,11,12],ymm0[13],ymm1[14,15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $16384, %eax ## imm = 0x4000			; AVX512VLDQ-NEXT: testl $16384, %eax ## imm = 0x4000
	; AVX512VLDQ-NEXT: je LBB22_30			; AVX512VLDQ-NEXT: je LBB22_30
	; AVX512VLDQ-NEXT: LBB22_29: ## %cond.load40			; AVX512VLDQ-NEXT: LBB22_29: ## %cond.load40
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 28(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5],ymm0[6],ymm1[7,8,9,10,11,12,13],ymm0[14],ymm1[15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: testl $32768, %eax ## imm = 0x8000			; AVX512VLDQ-NEXT: testl $32768, %eax ## imm = 0x8000
	; AVX512VLDQ-NEXT: je LBB22_32			; AVX512VLDQ-NEXT: je LBB22_32
	; AVX512VLDQ-NEXT: LBB22_31: ## %cond.load43			; AVX512VLDQ-NEXT: LBB22_31: ## %cond.load43
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX512VLDQ-NEXT: vpbroadcastw 30(%rdi), %ymm0
	; AVX512VLDQ-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX512VLDQ-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2,3,4,5,6],ymm0[7],ymm1[8,9,10,11,12,13,14],ymm0[15]
	; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX512VLDQ-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512VLDQ-NEXT: vmovdqa %ymm1, %ymm0			; AVX512VLDQ-NEXT: vmovdqa %ymm1, %ymm0
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: load_v16i16_v16i16:			; AVX512VLBW-LABEL: load_v16i16_v16i16:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
	; AVX512VLBW-NEXT: vpmovw2m %ymm0, %k1			; AVX512VLBW-NEXT: vpmovw2m %ymm0, %k1
	; AVX512VLBW-NEXT: vpblendmw (%rdi), %ymm1, %ymm0 {%k1}			; AVX512VLBW-NEXT: vpblendmw (%rdi), %ymm1, %ymm0 {%k1}
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	▲ Show 20 Lines • Show All 1,830 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000			; AVX2-NEXT: testl $65536, %eax ## imm = 0x10000
	; AVX2-NEXT: je LBB24_34			; AVX2-NEXT: je LBB24_34
	; AVX2-NEXT: LBB24_33: ## %cond.load46			; AVX2-NEXT: LBB24_33: ## %cond.load46
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	; AVX2-NEXT: vpinsrb $0, 16(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $0, 16(%rdi), %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1
	; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000			; AVX2-NEXT: testl $131072, %eax ## imm = 0x20000
	; AVX2-NEXT: je LBB24_36			; AVX2-NEXT: je LBB24_36
				RKSimonUnsubmitted Done Reply Inline Actions This definitely looks like a regression RKSimon: This definitely looks like a regression
	; AVX2-NEXT: LBB24_35: ## %cond.load49			; AVX2-NEXT: LBB24_35: ## %cond.load49
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	; AVX2-NEXT: vpinsrb $1, 17(%rdi), %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $1, 17(%rdi), %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm1
	; AVX2-NEXT: testl $262144, %eax ## imm = 0x40000			; AVX2-NEXT: testl $262144, %eax ## imm = 0x40000
	; AVX2-NEXT: je LBB24_38			; AVX2-NEXT: je LBB24_38
	; AVX2-NEXT: LBB24_37: ## %cond.load52			; AVX2-NEXT: LBB24_37: ## %cond.load52
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
	▲ Show 20 Lines • Show All 1,421 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; SSE2-NEXT: movlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_one_mask_bit_set3:			; SSE42-LABEL: load_one_mask_bit_set3:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrq $0, 16(%rdi), %xmm1			; SSE42-NEXT: pinsrq $0, 16(%rdi), %xmm1
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: load_one_mask_bit_set3:			; AVX-LABEL: load_one_mask_bit_set3:
	; AVX1: ## %bb.0:			; AVX: ## %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vbroadcastsd 16(%rdi), %ymm1
	; AVX1-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: retq
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: load_one_mask_bit_set3:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: load_one_mask_bit_set3:
	; AVX512: ## %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpinsrq $0, 16(%rdi), %xmm1, %xmm1
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set3:			; X86-AVX512-LABEL: load_one_mask_bit_set3:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX512-NEXT: vbroadcastsd 16(%eax), %ymm1
	; X86-AVX512-NEXT: vmovlps {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]			; X86-AVX512-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; X86-AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <4 x i64> @llvm.masked.load.v4i64.p0v4i64(<4 x i64>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 true, i1 false>, <4 x i64> %val)			%res = call <4 x i64> @llvm.masked.load.v4i64.p0v4i64(<4 x i64>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 true, i1 false>, <4 x i64> %val)
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}

	; Choose a different scalar type and a high element of a 256-bit vector because AVX doesn't support those evenly.			; Choose a different scalar type and a high element of a 256-bit vector because AVX doesn't support those evenly.

	define <4 x double> @load_one_mask_bit_set4(<4 x double>* %addr, <4 x double> %val) {			define <4 x double> @load_one_mask_bit_set4(<4 x double>* %addr, <4 x double> %val) {
	; SSE-LABEL: load_one_mask_bit_set4:			; SSE-LABEL: load_one_mask_bit_set4:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; SSE-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: load_one_mask_bit_set4:			; AVX-LABEL: load_one_mask_bit_set4:
	; AVX: ## %bb.0:			; AVX: ## %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vbroadcastsd 24(%rdi), %ymm1
	; AVX-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set4:			; X86-AVX512-LABEL: load_one_mask_bit_set4:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX512-NEXT: vbroadcastsd 24(%eax), %ymm1
	; X86-AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; X86-AVX512-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; X86-AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 false, i1 true>, <4 x double> %val)			%res = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double>* %addr, i32 4, <4 x i1> <i1 false, i1 false, i1 false, i1 true>, <4 x double> %val)
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	; Try a 512-bit vector to make sure AVX doesn't die and AVX512 works as expected.			; Try a 512-bit vector to make sure AVX doesn't die and AVX512 works as expected.

	define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {			define <8 x double> @load_one_mask_bit_set5(<8 x double>* %addr, <8 x double> %val) {
	; SSE-LABEL: load_one_mask_bit_set5:			; SSE-LABEL: load_one_mask_bit_set5:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: movhps {{.*#+}} xmm3 = xmm3[0,1],mem[0,1]			; SSE-NEXT: movhps {{.*#+}} xmm3 = xmm3[0,1],mem[0,1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1OR2-LABEL: load_one_mask_bit_set5:			; AVX1OR2-LABEL: load_one_mask_bit_set5:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1OR2-NEXT: vbroadcastsd 56(%rdi), %ymm2
	; AVX1OR2-NEXT: vmovhps {{.*#+}} xmm2 = xmm2[0,1],mem[0,1]			; AVX1OR2-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; AVX1OR2-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512-LABEL: load_one_mask_bit_set5:			; AVX512F-LABEL: load_one_mask_bit_set5:
	; AVX512: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; AVX512F-NEXT: movb $-128, %al
	; AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; AVX512F-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512F-NEXT: retq
				;
				; AVX512VLDQ-LABEL: load_one_mask_bit_set5:
				; AVX512VLDQ: ## %bb.0:
				; AVX512VLDQ-NEXT: movb $-128, %al
				; AVX512VLDQ-NEXT: kmovw %eax, %k1
				; AVX512VLDQ-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; AVX512VLDQ-NEXT: retq
				;
				; AVX512VLBW-LABEL: load_one_mask_bit_set5:
				; AVX512VLBW: ## %bb.0:
				; AVX512VLBW-NEXT: movb $-128, %al
				; AVX512VLBW-NEXT: kmovd %eax, %k1
				; AVX512VLBW-NEXT: vbroadcastsd 56(%rdi), %zmm0 {%k1}
				; AVX512VLBW-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set5:			; X86-AVX512-LABEL: load_one_mask_bit_set5:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1			; X86-AVX512-NEXT: movb $-128, %cl
	; X86-AVX512-NEXT: vmovhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]			; X86-AVX512-NEXT: kmovd %ecx, %k1
	; X86-AVX512-NEXT: vinsertf32x4 $3, %xmm1, %zmm0, %zmm0			; X86-AVX512-NEXT: vbroadcastsd 56(%eax), %zmm0 {%k1}
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)			%res = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double>* %addr, i32 4, <8 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true>, <8 x double> %val)
	ret <8 x double> %res			ret <8 x double> %res
	}			}

	define <16 x i64> @load_one_mask_bit_set6(<16 x i64>* %addr, <16 x i64> %val) {			define <16 x i64> @load_one_mask_bit_set6(<16 x i64>* %addr, <16 x i64> %val) {
	; SSE2-LABEL: load_one_mask_bit_set6:			; SSE2-LABEL: load_one_mask_bit_set6:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm4[4,5],ymm2[6,7]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,18446744073709551615,0,0]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,18446744073709551615,0,0]
	; AVX2-NEXT: vpmaskmovq 96(%rdi), %ymm4, %ymm4			; AVX2-NEXT: vpmaskmovq 96(%rdi), %ymm4, %ymm4
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2,3],ymm3[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2,3],ymm3[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_one_mask_bit_set6:			; AVX512F-LABEL: load_one_mask_bit_set6:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
				; AVX512F-NEXT: movb $4, %al
				; AVX512F-NEXT: kmovw %eax, %k1
				; AVX512F-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512F-NEXT: movb $36, %al			; AVX512F-NEXT: movb $36, %al
	; AVX512F-NEXT: kmovw %eax, %k1			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512F-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512F-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512F-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512F-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: load_one_mask_bit_set6:			; AVX512VLDQ-LABEL: load_one_mask_bit_set6:
	; AVX512VLDQ: ## %bb.0:			; AVX512VLDQ: ## %bb.0:
				; AVX512VLDQ-NEXT: movb $4, %al
				; AVX512VLDQ-NEXT: kmovw %eax, %k1
				; AVX512VLDQ-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512VLDQ-NEXT: movb $36, %al			; AVX512VLDQ-NEXT: movb $36, %al
	; AVX512VLDQ-NEXT: kmovw %eax, %k1			; AVX512VLDQ-NEXT: kmovw %eax, %k1
	; AVX512VLDQ-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512VLDQ-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512VLDQ-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512VLDQ-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512VLDQ-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: load_one_mask_bit_set6:			; AVX512VLBW-LABEL: load_one_mask_bit_set6:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
				; AVX512VLBW-NEXT: movb $4, %al
				; AVX512VLBW-NEXT: kmovd %eax, %k1
				; AVX512VLBW-NEXT: vpbroadcastq 16(%rdi), %zmm0 {%k1}
	; AVX512VLBW-NEXT: movb $36, %al			; AVX512VLBW-NEXT: movb $36, %al
	; AVX512VLBW-NEXT: kmovd %eax, %k1			; AVX512VLBW-NEXT: kmovd %eax, %k1
	; AVX512VLBW-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}			; AVX512VLBW-NEXT: vmovdqu64 64(%rdi), %zmm1 {%k1}
	; AVX512VLBW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512VLBW-NEXT: vpinsrq $0, 16(%rdi), %xmm2, %xmm2
	; AVX512VLBW-NEXT: vinserti32x4 $1, %xmm2, %zmm0, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; X86-AVX512-LABEL: load_one_mask_bit_set6:			; X86-AVX512-LABEL: load_one_mask_bit_set6:
	; X86-AVX512: ## %bb.0:			; X86-AVX512: ## %bb.0:
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-AVX512-NEXT: movb $4, %cl
				; X86-AVX512-NEXT: kmovd %ecx, %k1
				; X86-AVX512-NEXT: vbroadcastsd 16(%eax), %zmm0 {%k1}
	; X86-AVX512-NEXT: movb $36, %cl			; X86-AVX512-NEXT: movb $36, %cl
	; X86-AVX512-NEXT: kmovd %ecx, %k1			; X86-AVX512-NEXT: kmovd %ecx, %k1
	; X86-AVX512-NEXT: vmovdqu64 64(%eax), %zmm1 {%k1}			; X86-AVX512-NEXT: vmovdqu64 64(%eax), %zmm1 {%k1}
	; X86-AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
	; X86-AVX512-NEXT: vmovlps {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]
	; X86-AVX512-NEXT: vinsertf32x4 $1, %xmm2, %zmm0, %zmm0
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	%res = call <16 x i64> @llvm.masked.load.v16i64.p0v16i64(<16 x i64>* %addr, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 true, i1 false, i1 false>, <16 x i64> %val)			%res = call <16 x i64> @llvm.masked.load.v16i64.p0v16i64(<16 x i64>* %addr, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 true, i1 false, i1 false>, <16 x i64> %val)
	ret <16 x i64> %res			ret <16 x i64> %res
	}			}

	define i32 @pr38986(i1 %c, i32* %p) {			define i32 @pr38986(i1 %c, i32* %p) {
	; SSE-LABEL: pr38986:			; SSE-LABEL: pr38986:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend (PR50971)ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 366913

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avx-insertelt.ll

llvm/test/CodeGen/X86/avx2-masked-gather.ll

llvm/test/CodeGen/X86/avx512-insert-extract.ll

llvm/test/CodeGen/X86/avx512-masked-memop-64-32.ll

llvm/test/CodeGen/X86/insertelement-shuffle.ll

llvm/test/CodeGen/X86/masked_expandload.ll

llvm/test/CodeGen/X86/masked_gather.ll

llvm/test/CodeGen/X86/masked_gather_scatter.ll

llvm/test/CodeGen/X86/masked_load.ll

[X86] Lower insertions into upper half of an 256-bit vector as broadcast+blend (PR50971)
ClosedPublic