This is an archive of the discontinued LLVM Phabricator instance.

[x86] split 256-bit store of concatenated vectors
ClosedPublic

Authored by spatel on May 27 2019, 2:57 PM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
nikic
spatel

Commits

rG606eb2367f9f: [x86] split 256-bit store of concatenated vectors
rL362524: [x86] split 256-bit store of concatenated vectors
rGd5a8637072f4: [x86] split 256-bit store of concatenated vectors
rL361822: [x86] split 256-bit store of concatenated vectors

Summary

This shows up as a side issue to the main problem for the AVX target example from PR37428:
https://bugs.llvm.org/show_bug.cgi?id=37428 - https://godbolt.org/z/7tpRa3

But as we can see in the pile of existing test diffs, it's actually a widespread problem that affects any AVX or later target. Apart from a couple of oddballs, I think these are all improvements for the reasons stated in the code comment: we do not want to enable YMM unnecessarily (avoid vzeroupper and frequency throttling) and some cores split 256-bit stores anyway.

We could say that MergeConsecutiveStores() is going overboard on some of these examples, but that won't solve the problem completely. But that is the reason I'm proposing this as a lowering rather than a combine: we will infinite loop fighting the merge code if we try this earlier.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.May 27 2019, 2:57 PM

Herald added a project: Restricted Project. · View Herald TranscriptMay 27 2019, 2:57 PM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

spatel marked 2 inline comments as done.May 27 2019, 3:04 PM

spatel added inline comments.

llvm/test/CodeGen/X86/oddsubvector.ll
119–126 ↗	(On Diff #201584)	This seems like a failure of load combining? Even so, the split code has less uops than before even if the instruction count increased.
llvm/test/CodeGen/X86/vector-gep.ll
211 ↗	(On Diff #201584)	We're obviously spilling here, but I'm not sure what is happening underneath or if this is an important test for perf rather than just correctness/crashing.

Can we ever happen to get volatile/atomic stores here?

In D62498#1518518, @lebedev.ri wrote:

Can we ever happen to get volatile/atomic stores here?

Good question - I didn't think about those. We have an ISD::ATOMIC_STORE node type, so that means we can rule out atomics? The existing split transform intended for SandyBridge doesn't appear to check for volatile either, so we might have an existing bug. I'll see if there's any test coverage for these cases.

In D62498#1518572, @spatel wrote:

In D62498#1518518, @lebedev.ri wrote:

Can we ever happen to get volatile/atomic stores here?

Good question - I didn't think about those. We have an ISD::ATOMIC_STORE node type, so that means we can rule out atomics? The existing split transform intended for SandyBridge doesn't appear to check for volatile either, so we might have an existing bug. I'll see if there's any test coverage for these cases.

I'm not too familiar with these modifiers, but atomic vector store looks forbidden:
"atomic store operand must have integer, pointer, or floating point type!"

We do have what appears to be an existing bug for volatile:
rL361785

spatel mentioned this in rG165663aeeb64: [x86] add test to show volatile store splitting; NFC.May 27 2019, 4:57 PM

spatel mentioned this in rL361785: [x86] add test to show volatile store splitting; NFC.

spatel mentioned this in D62506: [x86] fix 256-bit vector store splitting to honor 'volatile'.May 27 2019, 5:15 PM

LGTM

This revision is now accepted and ready to land.May 27 2019, 7:41 PM

RKSimon added inline comments.May 28 2019, 2:54 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
21088 ↗	(On Diff #201584)	Not sure if its any use but I created the collectConcatOps helper to do something similar

spatel mentioned this in rL361815: [x86] fix 256-bit vector store splitting to honor 'volatile'.May 28 2019, 5:55 AM

spatel mentioned this in rG6bf4ca9d2e1c: [x86] fix 256-bit vector store splitting to honor 'volatile'.

spatel marked an inline comment as done.May 28 2019, 6:49 AM

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
21088 ↗	(On Diff #201584)	I'm not sure if the insert_subvector pattern appears here, but it's definitely worth a look. I'll push this as-is to make sure it doesn't break anything, then look at using collectConcatOps as an improvement.

Closed by commit rL361822: [x86] split 256-bit store of concatenated vectors (authored by spatel). · Explain WhyMay 28 2019, 6:51 AM

This revision was automatically updated to reflect the committed changes.

Reopening - there must be some infinite loop potential even during lowering because this bot is failing on multiple test-suite tests:
http://lab.llvm.org:8011/builders/clang-cmake-x86_64-avx2-linux/builds/9684

This revision is now accepted and ready to land.May 28 2019, 10:51 AM

spatel planned changes to this revision.May 28 2019, 10:51 AM

spatel mentioned this in rL362502: [x86] add test for store merging/splitting; NFC.Jun 4 2019, 7:39 AM

spatel mentioned this in rGd6de9426ee95: [x86] add test for store merging/splitting; NFC.

spatel mentioned this in rL362507: [SelectionDAG][x86] limit post-legalization store merging by type.Jun 4 2019, 8:14 AM

spatel mentioned this in rG1e63dd0b4499: [SelectionDAG][x86] limit post-legalization store merging by type.

Limited store merging for x86:
rL362507
...so I'll try to push patch again (no changes).

This revision was not accepted when it landed; it landed in state Changes Planned.Jun 4 2019, 9:39 AM

Closed by commit rL362524: [x86] split 256-bit store of concatenated vectors (authored by spatel). · Explain Why

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in rL362620: [x86] split more 256-bit stores of concatenated vectors.Jun 5 2019, 9:38 AM

spatel mentioned this in rG2bf82879bde8: [x86] split more 256-bit stores of concatenated vectors.

spatel marked an inline comment as done.Jun 5 2019, 9:41 AM

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
21088 ↗	(On Diff #201584)	rL362620 - use collectConcatOps().

lebedev.ri mentioned this in D141777: [X86] Reenable store merging post-legalization.Jan 14 2023, 1:25 PM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

11 lines

test/

CodeGen/

X86/

avg.ll

402 lines

avx-intrinsics-x86-upgrade.ll

24 lines

avx-intrinsics-x86.ll

12 lines

avx512-trunc-widen.ll

16 lines

16 lines

40 lines

15 lines

72 lines

124 lines

124 lines

shuffle-vs-trunc-512-widen.ll

18 lines

shuffle-vs-trunc-512.ll

18 lines

subvector-broadcast.ll

68 lines

10 lines

68 lines

84 lines

84 lines

24 lines

26 lines

24 lines

136 lines

vector-trunc-widen.ll

72 lines

vector-trunc.ll

72 lines

x86-interleaved-access.ll

73 lines

Diff 202962

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,277 Lines • ▼ Show 20 Lines	for (MVT VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64,
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
setOperationAction(ISD::VSELECT, VT, Custom);		setOperationAction(ISD::VSELECT, VT, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);
setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);		setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);
setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);		setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);
		setOperationAction(ISD::STORE, VT, Custom);
}		}

if (HasInt256)		if (HasInt256)
setOperationAction(ISD::VSELECT, MVT::v32i8, Legal);		setOperationAction(ISD::VSELECT, MVT::v32i8, Legal);

if (HasInt256) {		if (HasInt256) {
// Custom legalize 2x32 to get a little better code.		// Custom legalize 2x32 to get a little better code.
setOperationAction(ISD::MGATHER, MVT::v2f32, Custom);		setOperationAction(ISD::MGATHER, MVT::v2f32, Custom);
▲ Show 20 Lines • Show All 19,774 Lines • ▼ Show 20 Lines	if (StoredVal.getValueType().isVector() &&
return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),		return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),
St->getPointerInfo(), St->getAlignment(),		St->getPointerInfo(), St->getAlignment(),
St->getMemOperand()->getFlags());		St->getMemOperand()->getFlags());
}		}

if (St->isTruncatingStore())		if (St->isTruncatingStore())
return SDValue();		return SDValue();

		// If this is a 256-bit store of concatenated ops, we are better off splitting
		// that store into two 128-bit stores. This avoids spurious use of 256-bit ops
		// and each half can execute independently. Some cores would split the op into
		// halves anyway, so the concat (vinsertf128) is purely an extra op.
MVT StoreVT = StoredVal.getSimpleValueType();		MVT StoreVT = StoredVal.getSimpleValueType();
		if (StoreVT.is256BitVector()) {
		if (StoredVal.getOpcode() != ISD::CONCAT_VECTORS \|\| !StoredVal.hasOneUse())
		return SDValue();
		return split256BitStore(St, DAG);
		}

assert(StoreVT.isVector() && StoreVT.getSizeInBits() == 64 &&		assert(StoreVT.isVector() && StoreVT.getSizeInBits() == 64 &&
"Unexpected VT");		"Unexpected VT");
if (DAG.getTargetLoweringInfo().getTypeAction(*DAG.getContext(), StoreVT) !=		if (DAG.getTargetLoweringInfo().getTypeAction(*DAG.getContext(), StoreVT) !=
TargetLowering::TypeWidenVector)		TargetLowering::TypeWidenVector)
return SDValue();		return SDValue();

// Widen the vector, cast to a v2x64 type, extract the single 64-bit element		// Widen the vector, cast to a v2x64 type, extract the single 64-bit element
// and store it.		// and store it.
▲ Show 20 Lines • Show All 23,588 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i8:			; AVX1-LABEL: avg_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1
	; AVX1-NEXT: vpavgb 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgb 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i8:			; AVX2-LABEL: avg_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rsi), %ymm0			; AVX2-NEXT: vmovdqa (%rsi), %ymm0
	; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: movdqu %xmm13, (%rax)			; SSE2-NEXT: movdqu %xmm13, (%rax)
	; SSE2-NEXT: movdqu %xmm12, (%rax)			; SSE2-NEXT: movdqu %xmm12, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v48i8:			; AVX1-LABEL: avg_v48i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm4
	; AVX1-NEXT: vmovdqa 32(%rdi), %xmm4			; AVX1-NEXT: vmovdqa 32(%rdi), %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm10 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm11 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm12 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm13 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm4			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm4
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm3			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm13			; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm12
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm5, %xmm6, %xmm11			; AVX1-NEXT: vpaddd %xmm5, %xmm6, %xmm10
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm4[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm6, %xmm7, %xmm9			; AVX1-NEXT: vpaddd %xmm6, %xmm7, %xmm9
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm8			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm8
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm4, %xmm15, %xmm15			; AVX1-NEXT: vpaddd %xmm3, %xmm15, %xmm15
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm7, %xmm10, %xmm7			; AVX1-NEXT: vpaddd %xmm7, %xmm11, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm14, %xmm14			; AVX1-NEXT: vpaddd %xmm2, %xmm14, %xmm14
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm0, %xmm12, %xmm12			; AVX1-NEXT: vpaddd %xmm0, %xmm13, %xmm13
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm5, %xmm5 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm5, %xmm5 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6, %xmm6 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6, %xmm6 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm3[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm4[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm3, %xmm3 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm4, %xmm4 # 16-byte Folded Reload
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm4, %xmm13, %xmm10			; AVX1-NEXT: vpsubd %xmm3, %xmm12, %xmm11
	; AVX1-NEXT: vpsubd %xmm4, %xmm11, %xmm11			; AVX1-NEXT: vpsubd %xmm3, %xmm10, %xmm10
	; AVX1-NEXT: vpsubd %xmm4, %xmm9, %xmm9			; AVX1-NEXT: vpsubd %xmm3, %xmm9, %xmm9
	; AVX1-NEXT: vpsubd %xmm4, %xmm8, %xmm8			; AVX1-NEXT: vpsubd %xmm3, %xmm8, %xmm8
	; AVX1-NEXT: vpsubd %xmm4, %xmm15, %xmm13			; AVX1-NEXT: vpsubd %xmm3, %xmm15, %xmm12
	; AVX1-NEXT: vpsubd %xmm4, %xmm7, %xmm7			; AVX1-NEXT: vpsubd %xmm3, %xmm7, %xmm7
	; AVX1-NEXT: vpsubd %xmm4, %xmm14, %xmm0			; AVX1-NEXT: vpsubd %xmm3, %xmm14, %xmm0
	; AVX1-NEXT: vpsubd %xmm4, %xmm12, %xmm2			; AVX1-NEXT: vpsubd %xmm3, %xmm13, %xmm2
	; AVX1-NEXT: vpsubd %xmm4, %xmm5, %xmm5			; AVX1-NEXT: vpsubd %xmm3, %xmm5, %xmm5
	; AVX1-NEXT: vpsubd %xmm4, %xmm6, %xmm6			; AVX1-NEXT: vpsubd %xmm3, %xmm6, %xmm6
	; AVX1-NEXT: vpsubd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsubd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubd %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $1, %xmm1, %xmm1
	; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsrld $1, %xmm6, %xmm3			; AVX1-NEXT: vpsrld $1, %xmm6, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm5, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm5, %xmm4
	; AVX1-NEXT: vpackusdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackusdw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0			; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrld $1, %xmm7, %xmm2			; AVX1-NEXT: vpsrld $1, %xmm7, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm13, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm12, %xmm4
	; AVX1-NEXT: vpackusdw %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm8, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm8, %xmm4
	; AVX1-NEXT: vpsrld $1, %xmm9, %xmm5			; AVX1-NEXT: vpsrld $1, %xmm9, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsrld $1, %xmm11, %xmm5			; AVX1-NEXT: vpsrld $1, %xmm10, %xmm5
	; AVX1-NEXT: vpsrld $1, %xmm10, %xmm6			; AVX1-NEXT: vpsrld $1, %xmm11, %xmm6
	; AVX1-NEXT: vpackusdw %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpackusdw %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm2			; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqu %xmm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm4, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v48i8:			; AVX2-LABEL: avg_v48i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %xmm0			; AVX2-NEXT: vmovdqa (%rdi), %xmm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %xmm1			; AVX2-NEXT: vmovdqa 32(%rdi), %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: avg_v48i8:			; AVX512F-LABEL: avg_v48i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa (%rdi), %xmm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512F-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1
	; AVX512F-NEXT: vpavgb (%rsi), %xmm0, %xmm0			; AVX512F-NEXT: vpavgb (%rsi), %xmm0, %xmm0
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1
	; AVX512F-NEXT: vpavgb 32(%rsi), %xmm2, %xmm1			; AVX512F-NEXT: vpavgb 32(%rsi), %xmm2, %xmm2
	; AVX512F-NEXT: vmovdqu %xmm1, (%rax)			; AVX512F-NEXT: vmovdqu %xmm1, (%rax)
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vmovdqu %xmm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vmovdqu %xmm2, (%rax)
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: avg_v48i8:			; AVX512BW-LABEL: avg_v48i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0			; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512BW-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX512BW-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512BW-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1			; AVX512BW-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1
	Show All 35 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v64i8:			; AVX1-LABEL: avg_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2
	; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3			; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3
	; AVX1-NEXT: vpavgb 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgb 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgb 48(%rdi), %xmm3, %xmm1
	; AVX1-NEXT: vpavgb 32(%rdi), %xmm2, %xmm2			; AVX1-NEXT: vpavgb 32(%rdi), %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpavgb 48(%rdi), %xmm3, %xmm3
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v64i8:			; AVX2-LABEL: avg_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rsi), %ymm0			; AVX2-NEXT: vmovdqa (%rsi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1			; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1
	; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vpavgb 32(%rdi), %ymm1, %ymm1			; AVX2-NEXT: vpavgb 32(%rdi), %ymm1, %ymm1
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v16i16:			; AVX1-LABEL: avg_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1
	; AVX1-NEXT: vpavgw 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgw 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v16i16:			; AVX2-LABEL: avg_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rsi), %ymm0			; AVX2-NEXT: vmovdqa (%rsi), %ymm0
	; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 36 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i16:			; AVX1-LABEL: avg_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2
	; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3			; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3
	; AVX1-NEXT: vpavgw 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgw 16(%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw 48(%rdi), %xmm3, %xmm1
	; AVX1-NEXT: vpavgw 32(%rdi), %xmm2, %xmm2			; AVX1-NEXT: vpavgw 32(%rdi), %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpavgw 48(%rdi), %xmm3, %xmm3
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i16:			; AVX2-LABEL: avg_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rsi), %ymm0			; AVX2-NEXT: vmovdqa (%rsi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1			; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1
	; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vpavgw 32(%rdi), %ymm1, %ymm1			; AVX2-NEXT: vpavgw 32(%rdi), %ymm1, %ymm1
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i8_2:			; AVX1-LABEL: avg_v32i8_2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgb (%rsi), %xmm0, %xmm0			; AVX1-NEXT: vpavgb (%rsi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgb 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i8_2:			; AVX2-LABEL: avg_v32i8_2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpavgb (%rsi), %ymm0, %ymm0			; AVX2-NEXT: vpavgb (%rsi), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 38 Lines
	; AVX1-LABEL: avg_v64i8_2:			; AVX1-LABEL: avg_v64i8_2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm2
	; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3			; AVX1-NEXT: vmovdqa 48(%rsi), %xmm3
	; AVX1-NEXT: vpavgb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpavgb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpavgb %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpavgb %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgb %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpavgb %xmm2, %xmm2, %xmm1			; AVX1-NEXT: vpavgb %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpavgb %xmm3, %xmm3, %xmm2			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v64i8_2:			; AVX2-LABEL: avg_v64i8_2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rsi), %ymm0			; AVX2-NEXT: vmovdqa (%rsi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1			; AVX2-NEXT: vmovdqa 32(%rsi), %ymm1
	; AVX2-NEXT: vpavgb %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpavgb %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpavgb %ymm1, %ymm1, %ymm1			; AVX2-NEXT: vpavgb %ymm1, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v16i16_2:			; AVX1-LABEL: avg_v16i16_2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vpavgw 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw (%rsi), %xmm0, %xmm0			; AVX1-NEXT: vpavgw (%rsi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgw 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v16i16_2:			; AVX2-LABEL: avg_v16i16_2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpavgw (%rsi), %ymm0, %ymm0			; AVX2-NEXT: vpavgw (%rsi), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 36 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i16_2:			; AVX1-LABEL: avg_v32i16_2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX1-NEXT: vmovdqa 48(%rdi), %xmm3			; AVX1-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX1-NEXT: vpavgw 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw (%rsi), %xmm0, %xmm0			; AVX1-NEXT: vpavgw (%rsi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpavgw 16(%rsi), %xmm1, %xmm1
	; AVX1-NEXT: vpavgw 48(%rsi), %xmm3, %xmm1
	; AVX1-NEXT: vpavgw 32(%rsi), %xmm2, %xmm2			; AVX1-NEXT: vpavgw 32(%rsi), %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpavgw 48(%rsi), %xmm3, %xmm3
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i16_2:			; AVX2-LABEL: avg_v32i16_2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1			; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1
	; AVX2-NEXT: vpavgw (%rsi), %ymm0, %ymm0			; AVX2-NEXT: vpavgw (%rsi), %ymm0, %ymm0
	; AVX2-NEXT: vpavgw 32(%rsi), %ymm1, %ymm1			; AVX2-NEXT: vpavgw 32(%rsi), %ymm1, %ymm1
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i8_const:			; AVX1-LABEL: avg_v32i8_const:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = [7.9499288951273625E-275,7.9499288951273625E-275]			; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = [7.9499288951273625E-275,7.9499288951273625E-275]
	; AVX1-NEXT: # xmm0 = mem[0,0]			; AVX1-NEXT: # xmm0 = mem[0,0]
	; AVX1-NEXT: vpavgb 16(%rdi), %xmm0, %xmm1			; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm1
	; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgb 16(%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i8_const:			; AVX2-LABEL: avg_v32i8_const:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpavgb {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpavgb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 31 Lines
	; SSE2-NEXT: movdqu %xmm2, (%rax)			; SSE2-NEXT: movdqu %xmm2, (%rax)
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v64i8_const:			; AVX1-LABEL: avg_v64i8_const:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = [7.9499288951273625E-275,7.9499288951273625E-275]			; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = [7.9499288951273625E-275,7.9499288951273625E-275]
	; AVX1-NEXT: # xmm0 = mem[0,0]			; AVX1-NEXT: # xmm0 = mem[0,0]
	; AVX1-NEXT: vpavgb 16(%rdi), %xmm0, %xmm1			; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm1
	; AVX1-NEXT: vpavgb (%rdi), %xmm0, %xmm2			; AVX1-NEXT: vpavgb 16(%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpavgb 32(%rdi), %xmm0, %xmm3
	; AVX1-NEXT: vpavgb 48(%rdi), %xmm0, %xmm2			; AVX1-NEXT: vpavgb 48(%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vpavgb 32(%rdi), %xmm0, %xmm0			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v64i8_const:			; AVX2-LABEL: avg_v64i8_const:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm0 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm0 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528]
	; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm1			; AVX2-NEXT: vpavgb (%rdi), %ymm0, %ymm1
	; AVX2-NEXT: vpavgb 32(%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgb 32(%rdi), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pavgw 16(%rdi), %xmm0			; SSE2-NEXT: pavgw 16(%rdi), %xmm0
	; SSE2-NEXT: movdqu %xmm0, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v16i16_const:			; AVX1-LABEL: avg_v16i16_const:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [0,1,2,3,4,5,6,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpavgw 16(%rdi), %xmm0, %xmm1			; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm1
	; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpavgw 16(%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v16i16_const:			; AVX2-LABEL: avg_v16i16_const:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpavgw {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpavgw {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 30 Lines
	; SSE2-NEXT: movdqu %xmm3, (%rax)			; SSE2-NEXT: movdqu %xmm3, (%rax)
	; SSE2-NEXT: movdqu %xmm2, (%rax)			; SSE2-NEXT: movdqu %xmm2, (%rax)
	; SSE2-NEXT: movdqu %xmm1, (%rax)			; SSE2-NEXT: movdqu %xmm1, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v32i16_const:			; AVX1-LABEL: avg_v32i16_const:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [0,1,2,3,4,5,6,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpavgw 16(%rdi), %xmm0, %xmm1			; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm1
	; AVX1-NEXT: vpavgw (%rdi), %xmm0, %xmm2			; AVX1-NEXT: vpavgw 16(%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpavgw 32(%rdi), %xmm0, %xmm3
	; AVX1-NEXT: vpavgw 48(%rdi), %xmm0, %xmm2			; AVX1-NEXT: vpavgw 48(%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vpavgw 32(%rdi), %xmm0, %xmm0			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovdqu %xmm3, (%rax)
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm2, (%rax)
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v32i16_const:			; AVX2-LABEL: avg_v32i16_const:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm0 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]			; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm0 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; AVX2-NEXT: # ymm0 = mem[0,1,0,1]			; AVX2-NEXT: # ymm0 = mem[0,1,0,1]
	; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm1			; AVX2-NEXT: vpavgw (%rdi), %ymm0, %ymm1
	; AVX2-NEXT: vpavgw 32(%rdi), %ymm0, %ymm0			; AVX2-NEXT: vpavgw 32(%rdi), %ymm0, %ymm0
	▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa %xmm0, (%rdi)			; SSE2-NEXT: movdqa %xmm0, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v512i8_3:			; AVX1-LABEL: avg_v512i8_3:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: pushq %rbp			; AVX1-NEXT: pushq %rbp
	; AVX1-NEXT: movq %rsp, %rbp			; AVX1-NEXT: movq %rsp, %rbp
	; AVX1-NEXT: andq $-32, %rsp			; AVX1-NEXT: andq $-32, %rsp
	; AVX1-NEXT: subq $96, %rsp			; AVX1-NEXT: subq $32, %rsp
	; AVX1-NEXT: movq %rdi, %rax			; AVX1-NEXT: movq %rdi, %rax
	; AVX1-NEXT: vpavgb 272(%rbp), %xmm0, %xmm8			; AVX1-NEXT: vmovdqa 256(%rbp), %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpavgb 768(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 288(%rbp), %xmm0, %xmm0			; AVX1-NEXT: vmovdqa %xmm8, 496(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm8, %ymm0			; AVX1-NEXT: vmovdqa 240(%rbp), %xmm8
	; AVX1-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-NEXT: vpavgb 752(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 304(%rbp), %xmm1, %xmm8			; AVX1-NEXT: vmovdqa %xmm8, 480(%rdi)
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vmovdqa 224(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 320(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vpavgb 736(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm8, %ymm0			; AVX1-NEXT: vmovdqa %xmm8, 464(%rdi)
	; AVX1-NEXT: vmovaps %ymm0, (%rsp) # 32-byte Spill			; AVX1-NEXT: vmovdqa 208(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 336(%rbp), %xmm2, %xmm8			; AVX1-NEXT: vpavgb 720(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vmovdqa %xmm8, 448(%rdi)
	; AVX1-NEXT: vpavgb 352(%rbp), %xmm2, %xmm2			; AVX1-NEXT: vmovdqa 192(%rbp), %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm8, %ymm13			; AVX1-NEXT: vpavgb 704(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 368(%rbp), %xmm3, %xmm8			; AVX1-NEXT: vmovdqa %xmm8, 432(%rdi)
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vmovdqa 176(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 384(%rbp), %xmm3, %xmm3			; AVX1-NEXT: vpavgb 688(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm8, %ymm14			; AVX1-NEXT: vmovdqa %xmm8, 416(%rdi)
	; AVX1-NEXT: vpavgb 400(%rbp), %xmm4, %xmm8			; AVX1-NEXT: vmovdqa 160(%rbp), %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm4			; AVX1-NEXT: vpavgb 672(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 416(%rbp), %xmm4, %xmm4			; AVX1-NEXT: vmovdqa %xmm8, 400(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm8, %ymm15			; AVX1-NEXT: vmovdqa 144(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 432(%rbp), %xmm5, %xmm8			; AVX1-NEXT: vpavgb 656(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm5			; AVX1-NEXT: vmovdqa %xmm8, 384(%rdi)
	; AVX1-NEXT: vpavgb 448(%rbp), %xmm5, %xmm5			; AVX1-NEXT: vmovdqa 128(%rbp), %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm8, %ymm12			; AVX1-NEXT: vpavgb 640(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 464(%rbp), %xmm6, %xmm8			; AVX1-NEXT: vmovdqa %xmm8, 368(%rdi)
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm6			; AVX1-NEXT: vmovdqa 112(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 480(%rbp), %xmm6, %xmm6			; AVX1-NEXT: vpavgb 624(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm8, %ymm6			; AVX1-NEXT: vmovdqa %xmm8, 352(%rdi)
	; AVX1-NEXT: vpavgb 496(%rbp), %xmm7, %xmm8			; AVX1-NEXT: vmovdqa 96(%rbp), %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm7			; AVX1-NEXT: vpavgb 608(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 512(%rbp), %xmm7, %xmm7			; AVX1-NEXT: vmovdqa %xmm8, 336(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm8, %ymm7			; AVX1-NEXT: vmovdqa 80(%rbp), %xmm8
	; AVX1-NEXT: vmovdqa 16(%rbp), %xmm0			; AVX1-NEXT: vpavgb 592(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vmovdqa 32(%rbp), %xmm1			; AVX1-NEXT: vmovdqa %xmm8, 320(%rdi)
	; AVX1-NEXT: vpavgb 528(%rbp), %xmm0, %xmm0			; AVX1-NEXT: vmovdqa 64(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 544(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vpavgb 576(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm8			; AVX1-NEXT: vmovdqa %xmm8, 304(%rdi)
	; AVX1-NEXT: vmovdqa 48(%rbp), %xmm0			; AVX1-NEXT: vmovdqa 48(%rbp), %xmm8
	; AVX1-NEXT: vmovdqa 64(%rbp), %xmm1			; AVX1-NEXT: vpavgb 560(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 560(%rbp), %xmm0, %xmm0			; AVX1-NEXT: vmovdqa %xmm8, 288(%rdi)
	; AVX1-NEXT: vpavgb 576(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vmovdqa 32(%rbp), %xmm8
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm9			; AVX1-NEXT: vpavgb 544(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vmovdqa 80(%rbp), %xmm0			; AVX1-NEXT: vmovdqa %xmm8, 272(%rdi)
	; AVX1-NEXT: vmovdqa 96(%rbp), %xmm1			; AVX1-NEXT: vmovdqa 16(%rbp), %xmm8
	; AVX1-NEXT: vpavgb 592(%rbp), %xmm0, %xmm0			; AVX1-NEXT: vpavgb 528(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vpavgb 608(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vmovdqa %xmm8, 256(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm10			; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm8
	; AVX1-NEXT: vmovdqa 112(%rbp), %xmm0			; AVX1-NEXT: vpavgb 512(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vmovdqa 128(%rbp), %xmm1			; AVX1-NEXT: vmovdqa %xmm8, 240(%rdi)
	; AVX1-NEXT: vpavgb 624(%rbp), %xmm0, %xmm0			; AVX1-NEXT: vpavgb 496(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vpavgb 640(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vmovdqa %xmm7, 224(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm7
	; AVX1-NEXT: vmovdqa 144(%rbp), %xmm1			; AVX1-NEXT: vpavgb 480(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vmovdqa 160(%rbp), %xmm2			; AVX1-NEXT: vmovdqa %xmm7, 208(%rdi)
	; AVX1-NEXT: vpavgb 656(%rbp), %xmm1, %xmm1			; AVX1-NEXT: vpavgb 464(%rbp), %xmm6, %xmm6
	; AVX1-NEXT: vpavgb 672(%rbp), %xmm2, %xmm2			; AVX1-NEXT: vmovdqa %xmm6, 192(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm6
	; AVX1-NEXT: vmovdqa 176(%rbp), %xmm2			; AVX1-NEXT: vpavgb 448(%rbp), %xmm6, %xmm6
	; AVX1-NEXT: vmovdqa 192(%rbp), %xmm3			; AVX1-NEXT: vmovdqa %xmm6, 176(%rdi)
	; AVX1-NEXT: vpavgb 688(%rbp), %xmm2, %xmm2			; AVX1-NEXT: vpavgb 432(%rbp), %xmm5, %xmm5
	; AVX1-NEXT: vpavgb 704(%rbp), %xmm3, %xmm3			; AVX1-NEXT: vmovdqa %xmm5, 160(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm5
	; AVX1-NEXT: vmovdqa 208(%rbp), %xmm3			; AVX1-NEXT: vpavgb 416(%rbp), %xmm5, %xmm5
	; AVX1-NEXT: vmovdqa 224(%rbp), %xmm4			; AVX1-NEXT: vmovdqa %xmm5, 144(%rdi)
	; AVX1-NEXT: vpavgb 720(%rbp), %xmm3, %xmm3			; AVX1-NEXT: vpavgb 400(%rbp), %xmm4, %xmm4
	; AVX1-NEXT: vpavgb 736(%rbp), %xmm4, %xmm4			; AVX1-NEXT: vmovdqa %xmm4, 128(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX1-NEXT: vmovdqa 240(%rbp), %xmm4			; AVX1-NEXT: vpavgb 384(%rbp), %xmm4, %xmm4
	; AVX1-NEXT: vpavgb 752(%rbp), %xmm4, %xmm4			; AVX1-NEXT: vmovdqa %xmm4, 112(%rdi)
	; AVX1-NEXT: vmovdqa 256(%rbp), %xmm11			; AVX1-NEXT: vpavgb 368(%rbp), %xmm3, %xmm3
	; AVX1-NEXT: vpavgb 768(%rbp), %xmm11, %xmm5			; AVX1-NEXT: vmovdqa %xmm3, 96(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm4, %ymm4			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
	; AVX1-NEXT: vmovaps %ymm4, 480(%rdi)			; AVX1-NEXT: vpavgb 352(%rbp), %xmm3, %xmm3
	; AVX1-NEXT: vmovaps %ymm3, 448(%rdi)			; AVX1-NEXT: vmovdqa %xmm3, 80(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, 416(%rdi)			; AVX1-NEXT: vpavgb 336(%rbp), %xmm2, %xmm2
	; AVX1-NEXT: vmovaps %ymm1, 384(%rdi)			; AVX1-NEXT: vmovdqa %xmm2, 64(%rdi)
	; AVX1-NEXT: vmovaps %ymm0, 352(%rdi)			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vmovaps %ymm10, 320(%rdi)			; AVX1-NEXT: vpavgb 320(%rbp), %xmm2, %xmm2
	; AVX1-NEXT: vmovaps %ymm9, 288(%rdi)			; AVX1-NEXT: vmovdqa %xmm2, 48(%rdi)
	; AVX1-NEXT: vmovaps %ymm8, 256(%rdi)			; AVX1-NEXT: vpavgb 304(%rbp), %xmm1, %xmm1
	; AVX1-NEXT: vmovaps %ymm7, 224(%rdi)			; AVX1-NEXT: vmovdqa %xmm1, 32(%rdi)
	; AVX1-NEXT: vmovaps %ymm6, 192(%rdi)			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovaps %ymm12, 160(%rdi)			; AVX1-NEXT: vpavgb 288(%rbp), %xmm1, %xmm1
	; AVX1-NEXT: vmovaps %ymm15, 128(%rdi)			; AVX1-NEXT: vmovdqa %xmm1, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm14, 96(%rdi)			; AVX1-NEXT: vpavgb 272(%rbp), %xmm0, %xmm0
	; AVX1-NEXT: vmovaps %ymm13, 64(%rdi)			; AVX1-NEXT: vmovdqa %xmm0, (%rdi)
	; AVX1-NEXT: vmovaps (%rsp), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vmovaps %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vmovaps %ymm0, (%rdi)
	; AVX1-NEXT: movq %rbp, %rsp			; AVX1-NEXT: movq %rbp, %rsp
	; AVX1-NEXT: popq %rbp			; AVX1-NEXT: popq %rbp
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v512i8_3:			; AVX2-LABEL: avg_v512i8_3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: pushq %rbp			; AVX2-NEXT: pushq %rbp
	▲ Show 20 Lines • Show All 732 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86-upgrade.ll

	Show First 20 Lines • Show All 719 Lines • ▼ Show 20 Lines


	define void @test_x86_avx_storeu_dq_256(i8* %a0, <32 x i8> %a1) {			define void @test_x86_avx_storeu_dq_256(i8* %a0, <32 x i8> %a1) {
	; FIXME: unfortunately the execution domain fix pass changes this to vmovups and its hard to force with no 256-bit integer instructions			; FIXME: unfortunately the execution domain fix pass changes this to vmovups and its hard to force with no 256-bit integer instructions
	; add operation forces the execution domain.			; add operation forces the execution domain.
	; X86-AVX-LABEL: test_x86_avx_storeu_dq_256:			; X86-AVX-LABEL: test_x86_avx_storeu_dq_256:
	; X86-AVX: # %bb.0:			; X86-AVX: # %bb.0:
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1 # encoding: [0xc4,0xe3,0x7d,0x19,0xc1,0x01]			; X86-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X86-AVX-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2 # encoding: [0xc5,0xe9,0x76,0xd2]			; X86-AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm2 # encoding: [0xc5,0xf9,0xf8,0xd1]
	; X86-AVX-NEXT: vpsubb %xmm2, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0xf8,0xca]			; X86-AVX-NEXT: vextractf128 $1, %ymm0, %xmm0 # encoding: [0xc4,0xe3,0x7d,0x19,0xc0,0x01]
	; X86-AVX-NEXT: vpsubb %xmm2, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf8,0xc2]			; X86-AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf8,0xc1]
	; X86-AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0x7d,0x18,0xc1,0x01]			; X86-AVX-NEXT: vmovdqu %xmm0, 16(%eax) # encoding: [0xc5,0xfa,0x7f,0x40,0x10]
	; X86-AVX-NEXT: vmovups %ymm0, (%eax) # encoding: [0xc5,0xfc,0x11,0x00]			; X86-AVX-NEXT: vmovdqu %xmm2, (%eax) # encoding: [0xc5,0xfa,0x7f,0x10]
	; X86-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X86-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-AVX-NEXT: retl # encoding: [0xc3]			; X86-AVX-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX512VL-LABEL: test_x86_avx_storeu_dq_256:			; X86-AVX512VL-LABEL: test_x86_avx_storeu_dq_256:
	; X86-AVX512VL: # %bb.0:			; X86-AVX512VL: # %bb.0:
	; X86-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX512VL-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1 # encoding: [0xc5,0xf5,0x76,0xc9]			; X86-AVX512VL-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1 # encoding: [0xc5,0xf5,0x76,0xc9]
	; X86-AVX512VL-NEXT: vpsubb %ymm1, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xf8,0xc1]			; X86-AVX512VL-NEXT: vpsubb %ymm1, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xf8,0xc1]
	; X86-AVX512VL-NEXT: vmovdqu %ymm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xfe,0x7f,0x00]			; X86-AVX512VL-NEXT: vmovdqu %ymm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xfe,0x7f,0x00]
	; X86-AVX512VL-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X86-AVX512VL-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-AVX512VL-NEXT: retl # encoding: [0xc3]			; X86-AVX512VL-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-AVX-LABEL: test_x86_avx_storeu_dq_256:			; X64-AVX-LABEL: test_x86_avx_storeu_dq_256:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm1 # encoding: [0xc4,0xe3,0x7d,0x19,0xc1,0x01]			; X64-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X64-AVX-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2 # encoding: [0xc5,0xe9,0x76,0xd2]			; X64-AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm2 # encoding: [0xc5,0xf9,0xf8,0xd1]
	; X64-AVX-NEXT: vpsubb %xmm2, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0xf8,0xca]			; X64-AVX-NEXT: vextractf128 $1, %ymm0, %xmm0 # encoding: [0xc4,0xe3,0x7d,0x19,0xc0,0x01]
	; X64-AVX-NEXT: vpsubb %xmm2, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf8,0xc2]			; X64-AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xf8,0xc1]
	; X64-AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0x7d,0x18,0xc1,0x01]			; X64-AVX-NEXT: vmovdqu %xmm0, 16(%rdi) # encoding: [0xc5,0xfa,0x7f,0x47,0x10]
	; X64-AVX-NEXT: vmovups %ymm0, (%rdi) # encoding: [0xc5,0xfc,0x11,0x07]			; X64-AVX-NEXT: vmovdqu %xmm2, (%rdi) # encoding: [0xc5,0xfa,0x7f,0x17]
	; X64-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]			; X64-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X64-AVX-NEXT: retq # encoding: [0xc3]			; X64-AVX-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX512VL-LABEL: test_x86_avx_storeu_dq_256:			; X64-AVX512VL-LABEL: test_x86_avx_storeu_dq_256:
	; X64-AVX512VL: # %bb.0:			; X64-AVX512VL: # %bb.0:
	; X64-AVX512VL-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1 # encoding: [0xc5,0xf5,0x76,0xc9]			; X64-AVX512VL-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1 # encoding: [0xc5,0xf5,0x76,0xc9]
	; X64-AVX512VL-NEXT: vpsubb %ymm1, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xf8,0xc1]			; X64-AVX512VL-NEXT: vpsubb %ymm1, %ymm0, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xf8,0xc1]
	; X64-AVX512VL-NEXT: vmovdqu %ymm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xfe,0x7f,0x07]			; X64-AVX512VL-NEXT: vmovdqu %ymm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xfe,0x7f,0x07]
	▲ Show 20 Lines • Show All 223 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86.ll

	Show First 20 Lines • Show All 910 Lines • ▼ Show 20 Lines
	declare void @llvm.x86.avx.vzeroupper() nounwind			declare void @llvm.x86.avx.vzeroupper() nounwind

	define void @movnt_dq(i8* %p, <2 x i64> %a1) nounwind {			define void @movnt_dq(i8* %p, <2 x i64> %a1) nounwind {
	; X86-AVX-LABEL: movnt_dq:			; X86-AVX-LABEL: movnt_dq:
	; X86-AVX: # %bb.0:			; X86-AVX: # %bb.0:
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]			; X86-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X86-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xfb,0xc1]			; X86-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xfb,0xc1]
	; X86-AVX-NEXT: vmovntdq %ymm0, (%eax) # encoding: [0xc5,0xfd,0xe7,0x00]			; X86-AVX-NEXT: vmovntdq %xmm0, (%eax) # encoding: [0xc5,0xf9,0xe7,0x00]
	; X86-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-AVX-NEXT: retl # encoding: [0xc3]			; X86-AVX-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX512VL-LABEL: movnt_dq:			; X86-AVX512VL-LABEL: movnt_dq:
	; X86-AVX512VL: # %bb.0:			; X86-AVX512VL: # %bb.0:
	; X86-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX512VL-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX512VL-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]			; X86-AVX512VL-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X86-AVX512VL-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xfb,0xc1]			; X86-AVX512VL-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xfb,0xc1]
	; X86-AVX512VL-NEXT: vmovntdq %ymm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe7,0x00]			; X86-AVX512VL-NEXT: vmovntdq %xmm0, (%eax) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe7,0x00]
	; X86-AVX512VL-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X86-AVX512VL-NEXT: retl # encoding: [0xc3]			; X86-AVX512VL-NEXT: retl # encoding: [0xc3]
	;			;
	; X64-AVX-LABEL: movnt_dq:			; X64-AVX-LABEL: movnt_dq:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]			; X64-AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X64-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xfb,0xc1]			; X64-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0xfb,0xc1]
	; X64-AVX-NEXT: vmovntdq %ymm0, (%rdi) # encoding: [0xc5,0xfd,0xe7,0x07]			; X64-AVX-NEXT: vmovntdq %xmm0, (%rdi) # encoding: [0xc5,0xf9,0xe7,0x07]
	; X64-AVX-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X64-AVX-NEXT: retq # encoding: [0xc3]			; X64-AVX-NEXT: retq # encoding: [0xc3]
	;			;
	; X64-AVX512VL-LABEL: movnt_dq:			; X64-AVX512VL-LABEL: movnt_dq:
	; X64-AVX512VL: # %bb.0:			; X64-AVX512VL: # %bb.0:
	; X64-AVX512VL-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]			; X64-AVX512VL-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1 # encoding: [0xc5,0xf1,0x76,0xc9]
	; X64-AVX512VL-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xfb,0xc1]			; X64-AVX512VL-NEXT: vpsubq %xmm1, %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xfb,0xc1]
	; X64-AVX512VL-NEXT: vmovntdq %ymm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe7,0x07]			; X64-AVX512VL-NEXT: vmovntdq %xmm0, (%rdi) # EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe7,0x07]
	; X64-AVX512VL-NEXT: vzeroupper # encoding: [0xc5,0xf8,0x77]
	; X64-AVX512VL-NEXT: retq # encoding: [0xc3]			; X64-AVX512VL-NEXT: retq # encoding: [0xc3]
	%a2 = add <2 x i64> %a1, <i64 1, i64 1>			%a2 = add <2 x i64> %a1, <i64 1, i64 1>
	%a3 = shufflevector <2 x i64> %a2, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>			%a3 = shufflevector <2 x i64> %a2, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
	tail call void @llvm.x86.avx.movnt.dq.256(i8* %p, <4 x i64> %a3) nounwind			tail call void @llvm.x86.avx.movnt.dq.256(i8* %p, <4 x i64> %a3) nounwind
	ret void			ret void
	}			}
	declare void @llvm.x86.avx.movnt.dq.256(i8*, <4 x i64>) nounwind			declare void @llvm.x86.avx.movnt.dq.256(i8*, <4 x i64>) nounwind

	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-trunc-widen.ll

Show First 20 Lines • Show All 456 Lines • ▼ Show 20 Lines
; SKX-NEXT: retq		; SKX-NEXT: retq
%x = trunc <32 x i16> %i to <32 x i8>		%x = trunc <32 x i16> %i to <32 x i8>
ret <32 x i8> %x		ret <32 x i8> %x
}		}

define void @trunc_wb_512_mem(<32 x i16> %i, <32 x i8>* %res) #0 {		define void @trunc_wb_512_mem(<32 x i16> %i, <32 x i8>* %res) #0 {
; KNL-LABEL: trunc_wb_512_mem:		; KNL-LABEL: trunc_wb_512_mem:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; KNL-NEXT: vpmovdb %zmm0, %xmm0
; KNL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero		; KNL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, 16(%rdi)
; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; KNL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; KNL-NEXT: vmovdqa %ymm0, (%rdi)		; KNL-NEXT: vpmovdb %zmm0, (%rdi)
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: trunc_wb_512_mem:		; SKX-LABEL: trunc_wb_512_mem:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovwb %zmm0, (%rdi)		; SKX-NEXT: vpmovwb %zmm0, (%rdi)
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
ret <32 x i8> %x6		ret <32 x i8> %x6
}		}

define void @usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {		define void @usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {
; ALL-LABEL: usat_trunc_db_1024_mem:		; ALL-LABEL: usat_trunc_db_1024_mem:
; ALL: ## %bb.0:		; ALL: ## %bb.0:
; ALL-NEXT: vpmovusdb %zmm0, %xmm0		; ALL-NEXT: vpmovusdb %zmm0, %xmm0
; ALL-NEXT: vpmovusdb %zmm1, %xmm1		; ALL-NEXT: vpmovusdb %zmm1, %xmm1
; ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vmovdqu %xmm1, 16(%rdi)
; ALL-NEXT: vmovdqu %ymm0, (%rdi)		; ALL-NEXT: vmovdqu %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%x3 = icmp ult <32 x i32> %i, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x3 = icmp ult <32 x i32> %i, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x5 = select <32 x i1> %x3, <32 x i32> %i, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x5 = select <32 x i1> %x3, <32 x i32> %i, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x6 = trunc <32 x i32> %x5 to <32 x i8>		%x6 = trunc <32 x i32> %x5 to <32 x i8>
store <32 x i8>%x6, <32 x i8>* %p, align 1		store <32 x i8>%x6, <32 x i8>* %p, align 1
ret void		ret void
}		}
▲ Show 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
define void @smax_usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {		define void @smax_usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {
; ALL-LABEL: smax_usat_trunc_db_1024_mem:		; ALL-LABEL: smax_usat_trunc_db_1024_mem:
; ALL: ## %bb.0:		; ALL: ## %bb.0:
; ALL-NEXT: vpxor %xmm2, %xmm2, %xmm2		; ALL-NEXT: vpxor %xmm2, %xmm2, %xmm2
; ALL-NEXT: vpmaxsd %zmm2, %zmm1, %zmm1		; ALL-NEXT: vpmaxsd %zmm2, %zmm1, %zmm1
; ALL-NEXT: vpmaxsd %zmm2, %zmm0, %zmm0		; ALL-NEXT: vpmaxsd %zmm2, %zmm0, %zmm0
; ALL-NEXT: vpmovusdb %zmm0, %xmm0		; ALL-NEXT: vpmovusdb %zmm0, %xmm0
; ALL-NEXT: vpmovusdb %zmm1, %xmm1		; ALL-NEXT: vpmovusdb %zmm1, %xmm1
; ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vmovdqu %xmm1, 16(%rdi)
; ALL-NEXT: vmovdqu %ymm0, (%rdi)		; ALL-NEXT: vmovdqu %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%x1 = icmp sgt <32 x i32> %i, <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>		%x1 = icmp sgt <32 x i32> %i, <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
%x2 = select <32 x i1> %x1, <32 x i32> %i, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>		%x2 = select <32 x i1> %x1, <32 x i32> %i, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
%x3 = icmp slt <32 x i32> %x2, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x3 = icmp slt <32 x i32> %x2, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x5 = select <32 x i1> %x3, <32 x i32> %x2, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x5 = select <32 x i1> %x3, <32 x i32> %x2, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x6 = trunc <32 x i32> %x5 to <32 x i8>		%x6 = trunc <32 x i32> %x5 to <32 x i8>
store <32 x i8>%x6, <32 x i8>* %p, align 1		store <32 x i8>%x6, <32 x i8>* %p, align 1
▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-trunc.ll

Show First 20 Lines • Show All 452 Lines • ▼ Show 20 Lines
; SKX-NEXT: retq		; SKX-NEXT: retq
%x = trunc <32 x i16> %i to <32 x i8>		%x = trunc <32 x i16> %i to <32 x i8>
ret <32 x i8> %x		ret <32 x i8> %x
}		}

define void @trunc_wb_512_mem(<32 x i16> %i, <32 x i8>* %res) #0 {		define void @trunc_wb_512_mem(<32 x i16> %i, <32 x i8>* %res) #0 {
; KNL-LABEL: trunc_wb_512_mem:		; KNL-LABEL: trunc_wb_512_mem:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; KNL-NEXT: vpmovdb %zmm0, %xmm0
; KNL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero		; KNL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, 16(%rdi)
; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; KNL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; KNL-NEXT: vmovdqa %ymm0, (%rdi)		; KNL-NEXT: vpmovdb %zmm0, (%rdi)
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: trunc_wb_512_mem:		; SKX-LABEL: trunc_wb_512_mem:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovwb %zmm0, (%rdi)		; SKX-NEXT: vpmovwb %zmm0, (%rdi)
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
▲ Show 20 Lines • Show All 187 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
ret <32 x i8> %x6		ret <32 x i8> %x6
}		}

define void @usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {		define void @usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {
; ALL-LABEL: usat_trunc_db_1024_mem:		; ALL-LABEL: usat_trunc_db_1024_mem:
; ALL: ## %bb.0:		; ALL: ## %bb.0:
; ALL-NEXT: vpmovusdb %zmm0, %xmm0		; ALL-NEXT: vpmovusdb %zmm0, %xmm0
; ALL-NEXT: vpmovusdb %zmm1, %xmm1		; ALL-NEXT: vpmovusdb %zmm1, %xmm1
; ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vmovdqu %xmm1, 16(%rdi)
; ALL-NEXT: vmovdqu %ymm0, (%rdi)		; ALL-NEXT: vmovdqu %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%x3 = icmp ult <32 x i32> %i, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x3 = icmp ult <32 x i32> %i, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x5 = select <32 x i1> %x3, <32 x i32> %i, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x5 = select <32 x i1> %x3, <32 x i32> %i, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x6 = trunc <32 x i32> %x5 to <32 x i8>		%x6 = trunc <32 x i32> %x5 to <32 x i8>
store <32 x i8>%x6, <32 x i8>* %p, align 1		store <32 x i8>%x6, <32 x i8>* %p, align 1
ret void		ret void
}		}
▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines
define void @smax_usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {		define void @smax_usat_trunc_db_1024_mem(<32 x i32> %i, <32 x i8>* %p) {
; ALL-LABEL: smax_usat_trunc_db_1024_mem:		; ALL-LABEL: smax_usat_trunc_db_1024_mem:
; ALL: ## %bb.0:		; ALL: ## %bb.0:
; ALL-NEXT: vpxor %xmm2, %xmm2, %xmm2		; ALL-NEXT: vpxor %xmm2, %xmm2, %xmm2
; ALL-NEXT: vpmaxsd %zmm2, %zmm1, %zmm1		; ALL-NEXT: vpmaxsd %zmm2, %zmm1, %zmm1
; ALL-NEXT: vpmaxsd %zmm2, %zmm0, %zmm0		; ALL-NEXT: vpmaxsd %zmm2, %zmm0, %zmm0
; ALL-NEXT: vpmovusdb %zmm0, %xmm0		; ALL-NEXT: vpmovusdb %zmm0, %xmm0
; ALL-NEXT: vpmovusdb %zmm1, %xmm1		; ALL-NEXT: vpmovusdb %zmm1, %xmm1
; ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vmovdqu %xmm1, 16(%rdi)
; ALL-NEXT: vmovdqu %ymm0, (%rdi)		; ALL-NEXT: vmovdqu %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%x1 = icmp sgt <32 x i32> %i, <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>		%x1 = icmp sgt <32 x i32> %i, <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
%x2 = select <32 x i1> %x1, <32 x i32> %i, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>		%x2 = select <32 x i1> %x1, <32 x i32> %i, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
%x3 = icmp slt <32 x i32> %x2, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x3 = icmp slt <32 x i32> %x2, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x5 = select <32 x i1> %x3, <32 x i32> %x2, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%x5 = select <32 x i1> %x3, <32 x i32> %x2, <32 x i32> <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%x6 = trunc <32 x i32> %x5 to <32 x i8>		%x6 = trunc <32 x i32> %x5 to <32 x i8>
store <32 x i8>%x6, <32 x i8>* %p, align 1		store <32 x i8>%x6, <32 x i8>* %p, align 1
▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/nontemporal-2.ll

	Show First 20 Lines • Show All 1,055 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddd %xmm2, %xmm0			; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: paddd %xmm3, %xmm1			; SSE-NEXT: paddd %xmm3, %xmm1
	; SSE-NEXT: movntdq %xmm1, 16(%rdi)			; SSE-NEXT: movntdq %xmm1, 16(%rdi)
	; SSE-NEXT: movntdq %xmm0, (%rdi)			; SSE-NEXT: movntdq %xmm0, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_op_v8i32:			; AVX1-LABEL: test_op_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovntdq %xmm0, 16(%rdi)
	; AVX1-NEXT: vmovntps %ymm0, (%rdi)			; AVX1-NEXT: vmovntdq %xmm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_op_v8i32:			; AVX2-LABEL: test_op_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovntdq %ymm0, (%rdi)			; AVX2-NEXT: vmovntdq %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm0			; SSE-NEXT: paddq %xmm2, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm1			; SSE-NEXT: paddq %xmm3, %xmm1
	; SSE-NEXT: movntdq %xmm1, 16(%rdi)			; SSE-NEXT: movntdq %xmm1, 16(%rdi)
	; SSE-NEXT: movntdq %xmm0, (%rdi)			; SSE-NEXT: movntdq %xmm0, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_op_v4i64:			; AVX1-LABEL: test_op_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovntdq %xmm0, 16(%rdi)
	; AVX1-NEXT: vmovntps %ymm0, (%rdi)			; AVX1-NEXT: vmovntdq %xmm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_op_v4i64:			; AVX2-LABEL: test_op_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovntdq %ymm0, (%rdi)			; AVX2-NEXT: vmovntdq %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 16 Lines
	; SSE-NEXT: paddw %xmm2, %xmm0			; SSE-NEXT: paddw %xmm2, %xmm0
	; SSE-NEXT: paddw %xmm3, %xmm1			; SSE-NEXT: paddw %xmm3, %xmm1
	; SSE-NEXT: movntdq %xmm1, 16(%rdi)			; SSE-NEXT: movntdq %xmm1, 16(%rdi)
	; SSE-NEXT: movntdq %xmm0, (%rdi)			; SSE-NEXT: movntdq %xmm0, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_op_v16i16:			; AVX1-LABEL: test_op_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovntdq %xmm0, 16(%rdi)
	; AVX1-NEXT: vmovntps %ymm0, (%rdi)			; AVX1-NEXT: vmovntdq %xmm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_op_v16i16:			; AVX2-LABEL: test_op_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovntdq %ymm0, (%rdi)			; AVX2-NEXT: vmovntdq %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	Show All 16 Lines
	; SSE-NEXT: paddb %xmm2, %xmm0			; SSE-NEXT: paddb %xmm2, %xmm0
	; SSE-NEXT: paddb %xmm3, %xmm1			; SSE-NEXT: paddb %xmm3, %xmm1
	; SSE-NEXT: movntdq %xmm1, 16(%rdi)			; SSE-NEXT: movntdq %xmm1, 16(%rdi)
	; SSE-NEXT: movntdq %xmm0, (%rdi)			; SSE-NEXT: movntdq %xmm0, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_op_v32i8:			; AVX1-LABEL: test_op_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vmovntdq %xmm0, 16(%rdi)
	; AVX1-NEXT: vmovntps %ymm0, (%rdi)			; AVX1-NEXT: vmovntdq %xmm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_op_v32i8:			; AVX2-LABEL: test_op_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovntdq %ymm0, (%rdi)			; AVX2-NEXT: vmovntdq %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/oddsubvector.ll

	Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movaps %xmm3, (%rsi)			; SSE-NEXT: movaps %xmm3, (%rsi)
	; SSE-NEXT: movaps %xmm2, 16(%rsi)			; SSE-NEXT: movaps %xmm2, 16(%rsi)
	; SSE-NEXT: movaps %xmm1, 32(%rsi)			; SSE-NEXT: movaps %xmm1, 32(%rsi)
	; SSE-NEXT: movaps %xmm0, 48(%rsi)			; SSE-NEXT: movaps %xmm0, 48(%rsi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: PR40815:			; AVX-LABEL: PR40815:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovaps 16(%rdi), %xmm0			; AVX-NEXT: vmovaps (%rdi), %xmm0
	; AVX-NEXT: vmovaps 48(%rdi), %xmm1			; AVX-NEXT: vmovaps 16(%rdi), %xmm1
	; AVX-NEXT: vinsertf128 $1, 32(%rdi), %ymm1, %ymm1			; AVX-NEXT: vmovaps 32(%rdi), %xmm2
	; AVX-NEXT: vinsertf128 $1, (%rdi), %ymm0, %ymm0			; AVX-NEXT: vmovaps 48(%rdi), %xmm3
	; AVX-NEXT: vmovups %ymm1, (%rsi)			; AVX-NEXT: vmovaps %xmm2, 16(%rsi)
	; AVX-NEXT: vmovups %ymm0, 32(%rsi)			; AVX-NEXT: vmovaps %xmm3, (%rsi)
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vmovaps %xmm0, 48(%rsi)
				; AVX-NEXT: vmovaps %xmm1, 32(%rsi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: PR40815:			; AVX512-LABEL: PR40815:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovaps 16(%rdi), %xmm0			; AVX512-NEXT: vmovaps 16(%rdi), %xmm0
	; AVX512-NEXT: vmovaps 48(%rdi), %xmm1			; AVX512-NEXT: vmovaps 48(%rdi), %xmm1
	; AVX512-NEXT: vinsertf128 $1, (%rdi), %ymm0, %ymm0			; AVX512-NEXT: vinsertf128 $1, (%rdi), %ymm0, %ymm0
	; AVX512-NEXT: vinsertf128 $1, 32(%rdi), %ymm1, %ymm1			; AVX512-NEXT: vinsertf128 $1, 32(%rdi), %ymm1, %ymm1
	Show All 26 Lines

llvm/trunk/test/CodeGen/X86/pmovsx-inreg.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test2:			; AVX1-LABEL: test2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbq 2(%rdi), %xmm0			; AVX1-NEXT: vpmovsxbq (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxbq (%rdi), %xmm1			; AVX1-NEXT: vpmovsxbq 2(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test2:			; AVX2-LABEL: test2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxbq (%rdi), %ymm0			; AVX2-NEXT: vpmovsxbq (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test4:			; AVX1-LABEL: test4:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbd 4(%rdi), %xmm0			; AVX1-NEXT: vpmovsxbd (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxbd (%rdi), %xmm1			; AVX1-NEXT: vpmovsxbd 4(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test4:			; AVX2-LABEL: test4:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxbd (%rdi), %ymm0			; AVX2-NEXT: vpmovsxbd (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test6:			; AVX1-LABEL: test6:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw 8(%rdi), %xmm0			; AVX1-NEXT: vpmovsxbw (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxbw (%rdi), %xmm1			; AVX1-NEXT: vpmovsxbw 8(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test6:			; AVX2-LABEL: test6:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxbw (%rdi), %ymm0			; AVX2-NEXT: vpmovsxbw (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test8:			; AVX1-LABEL: test8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxwq 4(%rdi), %xmm0			; AVX1-NEXT: vpmovsxwq (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxwq (%rdi), %xmm1			; AVX1-NEXT: vpmovsxwq 4(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test8:			; AVX2-LABEL: test8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxwq (%rdi), %ymm0			; AVX2-NEXT: vpmovsxwq (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test10:			; AVX1-LABEL: test10:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxwd 8(%rdi), %xmm0			; AVX1-NEXT: vpmovsxwd (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxwd (%rdi), %xmm1			; AVX1-NEXT: vpmovsxwd 8(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test10:			; AVX2-LABEL: test10:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxwd (%rdi), %ymm0			; AVX2-NEXT: vpmovsxwd (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: movups %xmm2, (%rax)			; SSE41-NEXT: movups %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm1, 16(%rsi)			; SSE41-NEXT: movdqu %xmm1, 16(%rsi)
	; SSE41-NEXT: movdqu %xmm0, (%rsi)			; SSE41-NEXT: movdqu %xmm0, (%rsi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test12:			; AVX1-LABEL: test12:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxdq 8(%rdi), %xmm0			; AVX1-NEXT: vpmovsxdq (%rdi), %xmm0
	; AVX1-NEXT: vpmovsxdq (%rdi), %xmm1			; AVX1-NEXT: vpmovsxdq 8(%rdi), %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vmovups %ymm2, (%rax)
	; AVX1-NEXT: vmovdqu %ymm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi)
	; AVX1-NEXT: vmovups %ymm0, (%rsi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test12:			; AVX2-LABEL: test12:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovsxdq (%rdi), %ymm0			; AVX2-NEXT: vpmovsxdq (%rdi), %ymm0
	; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vmovups %ymm1, (%rax)			; AVX2-NEXT: vmovups %ymm1, (%rax)
	Show All 20 Lines

llvm/trunk/test/CodeGen/X86/shrink_vmul-widen.ll

	Show First 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0			; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm0, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm1, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_8xi8:			; X86-AVX2-LABEL: mul_8xi8:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 26 Lines
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0			; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm0, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm1, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_8xi8:			; X64-AVX2-LABEL: mul_8xi8:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmaddwd %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vpmaddwd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0			; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2			; X86-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi8:			; X86-AVX2-LABEL: mul_16xi8:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0			; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi8:			; X64-AVX2-LABEL: mul_16xi8:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	▲ Show 20 Lines • Show All 210 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm0, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm1, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_8xi16:			; X86-AVX2-LABEL: mul_8xi16:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 25 Lines
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm0, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm1, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_8xi16:			; X64-AVX2-LABEL: mul_8xi16:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmulld %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vpmulld %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi16:			; X86-AVX2-LABEL: mul_16xi16:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi16:			; X64-AVX2-LABEL: mul_16xi16:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	▲ Show 20 Lines • Show All 416 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX1-LABEL: mul_16xi16_sext:			; X86-AVX1-LABEL: mul_16xi16_sext:
	; X86-AVX1: # %bb.0: # %entry			; X86-AVX1: # %bb.0: # %entry
	; X86-AVX1-NEXT: pushl %esi			; X86-AVX1-NEXT: pushl %esi
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovsxwd 16(%edx,%ecx), %xmm0			; X86-AVX1-NEXT: vpmovsxwd 24(%edx,%ecx), %xmm0
	; X86-AVX1-NEXT: vpmovsxwd 24(%edx,%ecx), %xmm1			; X86-AVX1-NEXT: vpmovsxwd 16(%edx,%ecx), %xmm1
	; X86-AVX1-NEXT: vpmovsxwd (%edx,%ecx), %xmm2			; X86-AVX1-NEXT: vpmovsxwd 8(%edx,%ecx), %xmm2
	; X86-AVX1-NEXT: vpmovsxwd 8(%edx,%ecx), %xmm3			; X86-AVX1-NEXT: vpmovsxwd (%edx,%ecx), %xmm3
	; X86-AVX1-NEXT: vpmovsxwd 16(%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovsxwd 24(%eax,%ecx), %xmm4			; X86-AVX1-NEXT: vpmovsxwd 24(%eax,%ecx), %xmm4
				; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
				; X86-AVX1-NEXT: vpmovsxwd 16(%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovsxwd (%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovsxwd 8(%eax,%ecx), %xmm4			; X86-AVX1-NEXT: vpmovsxwd 8(%eax,%ecx), %xmm4
				; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
				; X86-AVX1-NEXT: vpmovsxwd (%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi16_sext:			; X86-AVX2-LABEL: mul_16xi16_sext:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 33 Lines
	; X64-SSE-NEXT: movdqu %xmm1, 48(%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm1, 48(%rax,%rdx,4)
	; X64-SSE-NEXT: movdqu %xmm2, (%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm2, (%rax,%rdx,4)
	; X64-SSE-NEXT: movdqu %xmm0, 16(%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm0, 16(%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX1-LABEL: mul_16xi16_sext:			; X64-AVX1-LABEL: mul_16xi16_sext:
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovsxwd 16(%rdi,%rdx), %xmm0			; X64-AVX1-NEXT: vpmovsxwd 24(%rdi,%rdx), %xmm0
	; X64-AVX1-NEXT: vpmovsxwd 24(%rdi,%rdx), %xmm1			; X64-AVX1-NEXT: vpmovsxwd 16(%rdi,%rdx), %xmm1
	; X64-AVX1-NEXT: vpmovsxwd (%rdi,%rdx), %xmm2			; X64-AVX1-NEXT: vpmovsxwd 8(%rdi,%rdx), %xmm2
	; X64-AVX1-NEXT: vpmovsxwd 8(%rdi,%rdx), %xmm3			; X64-AVX1-NEXT: vpmovsxwd (%rdi,%rdx), %xmm3
	; X64-AVX1-NEXT: vpmovsxwd 16(%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovsxwd 24(%rsi,%rdx), %xmm4			; X64-AVX1-NEXT: vpmovsxwd 24(%rsi,%rdx), %xmm4
				; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
				; X64-AVX1-NEXT: vpmovsxwd 16(%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovsxwd (%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovsxwd 8(%rsi,%rdx), %xmm4			; X64-AVX1-NEXT: vpmovsxwd 8(%rsi,%rdx), %xmm4
				; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
				; X64-AVX1-NEXT: vpmovsxwd (%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi16_sext:			; X64-AVX2-LABEL: mul_16xi16_sext:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovsxwd 16(%rdi,%rdx), %ymm0			; X64-AVX2-NEXT: vpmovsxwd 16(%rdi,%rdx), %ymm0
	; X64-AVX2-NEXT: vpmovsxwd (%rdi,%rdx), %ymm1			; X64-AVX2-NEXT: vpmovsxwd (%rdi,%rdx), %ymm1
	; X64-AVX2-NEXT: vpmovsxwd 16(%rsi,%rdx), %ymm2			; X64-AVX2-NEXT: vpmovsxwd 16(%rsi,%rdx), %ymm2
	▲ Show 20 Lines • Show All 817 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vmovd %xmm1, %eax			; X86-AVX1-NEXT: vmovd %xmm1, %eax
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl 32(%ecx)			; X86-AVX1-NEXT: divl 32(%ecx)
	; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-AVX1-NEXT: vpextrd $3, %xmm2, %eax			; X86-AVX1-NEXT: vpextrd $3, %xmm2, %eax
	; X86-AVX1-NEXT: vmovdqa (%ecx), %xmm3			; X86-AVX1-NEXT: vmovdqa (%ecx), %xmm1
	; X86-AVX1-NEXT: vmovdqa 16(%ecx), %xmm1			; X86-AVX1-NEXT: vmovdqa 16(%ecx), %xmm3
	; X86-AVX1-NEXT: vpextrd $3, %xmm3, %ecx			; X86-AVX1-NEXT: vpextrd $3, %xmm3, %ecx
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl %ecx			; X86-AVX1-NEXT: divl %ecx
	; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-AVX1-NEXT: vpextrd $2, %xmm2, %eax			; X86-AVX1-NEXT: vpextrd $2, %xmm2, %eax
	; X86-AVX1-NEXT: vpextrd $2, %xmm3, %ecx			; X86-AVX1-NEXT: vpextrd $2, %xmm3, %ecx
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl %ecx			; X86-AVX1-NEXT: divl %ecx
	Show All 36 Lines
	; X86-AVX1-NEXT: vpinsrd $2, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload			; X86-AVX1-NEXT: vpinsrd $2, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload
	; X86-AVX1-NEXT: vpinsrd $3, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload			; X86-AVX1-NEXT: vpinsrd $3, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload
	; X86-AVX1-NEXT: imull $8199, {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload			; X86-AVX1-NEXT: imull $8199, {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
	; X86-AVX1-NEXT: # imm = 0x2007			; X86-AVX1-NEXT: # imm = 0x2007
	; X86-AVX1-NEXT: movl %eax, (%eax)			; X86-AVX1-NEXT: movl %eax, (%eax)
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [8199,8199,8199,8199]			; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [8199,8199,8199,8199]
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm1, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vmovdqa %xmm1, (%eax)
	; X86-AVX1-NEXT: vmovaps %ymm0, (%eax)			; X86-AVX1-NEXT: vmovdqa %xmm0, (%eax)
	; X86-AVX1-NEXT: addl $16, %esp			; X86-AVX1-NEXT: addl $16, %esp
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: popl %edi			; X86-AVX1-NEXT: popl %edi
	; X86-AVX1-NEXT: popl %ebx			; X86-AVX1-NEXT: popl %ebx
	; X86-AVX1-NEXT: popl %ebp			; X86-AVX1-NEXT: popl %ebp
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: PR34947:			; X86-AVX2-LABEL: PR34947:
	; X86-AVX2: # %bb.0:			; X86-AVX2: # %bb.0:
	; X86-AVX2-NEXT: pushl %edi			; X86-AVX2-NEXT: pushl %edi
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vmovd %xmm1, %eax			; X64-AVX1-NEXT: vmovd %xmm1, %eax
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl 32(%rsi)			; X64-AVX1-NEXT: divl 32(%rsi)
	; X64-AVX1-NEXT: movl %edx, %r8d			; X64-AVX1-NEXT: movl %edx, %r8d
	; X64-AVX1-NEXT: vpextrd $3, %xmm2, %eax			; X64-AVX1-NEXT: vpextrd $3, %xmm2, %eax
	; X64-AVX1-NEXT: vmovdqa (%rsi), %xmm3			; X64-AVX1-NEXT: vmovdqa (%rsi), %xmm1
	; X64-AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; X64-AVX1-NEXT: vmovdqa 16(%rsi), %xmm3
	; X64-AVX1-NEXT: vpextrd $3, %xmm3, %ecx			; X64-AVX1-NEXT: vpextrd $3, %xmm3, %ecx
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl %ecx			; X64-AVX1-NEXT: divl %ecx
	; X64-AVX1-NEXT: movl %edx, %r9d			; X64-AVX1-NEXT: movl %edx, %r9d
	; X64-AVX1-NEXT: vpextrd $2, %xmm2, %eax			; X64-AVX1-NEXT: vpextrd $2, %xmm2, %eax
	; X64-AVX1-NEXT: vpextrd $2, %xmm3, %ecx			; X64-AVX1-NEXT: vpextrd $2, %xmm3, %ecx
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl %ecx			; X64-AVX1-NEXT: divl %ecx
	Show All 33 Lines
	; X64-AVX1-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0			; X64-AVX1-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [8199,8199,8199,8199]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [8199,8199,8199,8199]
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; X64-AVX1-NEXT: vmovd %esi, %xmm2			; X64-AVX1-NEXT: vmovd %esi, %xmm2
	; X64-AVX1-NEXT: vpinsrd $1, %r11d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $1, %r11d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpinsrd $2, %r10d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $2, %r10d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpinsrd $3, %r9d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $3, %r9d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: imull $8199, %r8d, %eax # imm = 0x2007			; X64-AVX1-NEXT: imull $8199, %r8d, %eax # imm = 0x2007
	; X64-AVX1-NEXT: movl %eax, (%rax)			; X64-AVX1-NEXT: movl %eax, (%rax)
	; X64-AVX1-NEXT: vmovaps %ymm0, (%rax)			; X64-AVX1-NEXT: vmovdqa %xmm1, (%rax)
				; X64-AVX1-NEXT: vmovdqa %xmm0, (%rax)
	; X64-AVX1-NEXT: popq %rbx			; X64-AVX1-NEXT: popq %rbx
	; X64-AVX1-NEXT: popq %rbp			; X64-AVX1-NEXT: popq %rbp
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: PR34947:			; X64-AVX2-LABEL: PR34947:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vmovdqa (%rsi), %xmm2			; X64-AVX2-NEXT: vmovdqa (%rsi), %xmm2
	; X64-AVX2-NEXT: vmovdqa 16(%rsi), %xmm3			; X64-AVX2-NEXT: vmovdqa 16(%rsi), %xmm3
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shrink_vmul.ll

	Show First 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0			; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm0, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm1, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_8xi8:			; X86-AVX2-LABEL: mul_8xi8:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 26 Lines
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0			; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm0, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm1, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_8xi8:			; X64-AVX2-LABEL: mul_8xi8:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmaddwd %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vpmaddwd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0			; X86-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2			; X86-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X86-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X86-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi8:			; X86-AVX2-LABEL: mul_16xi8:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0			; X64-AVX1-NEXT: vpmaddwd %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmaddwd %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpmaddwd %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; X64-AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; X64-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmaddwd %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi8:			; X64-AVX2-LABEL: mul_16xi8:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; X64-AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm0, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm1, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_8xi16:			; X86-AVX2-LABEL: mul_8xi16:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 25 Lines
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm0, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm1, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_8xi16:			; X64-AVX2-LABEL: mul_8xi16:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmulld %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vpmulld %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi16:			; X86-AVX2-LABEL: mul_16xi16:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi16:			; X64-AVX2-LABEL: mul_16xi16:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	▲ Show 20 Lines • Show All 398 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX1-LABEL: mul_16xi16_sext:			; X86-AVX1-LABEL: mul_16xi16_sext:
	; X86-AVX1: # %bb.0: # %entry			; X86-AVX1: # %bb.0: # %entry
	; X86-AVX1-NEXT: pushl %esi			; X86-AVX1-NEXT: pushl %esi
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX1-NEXT: movl c, %esi			; X86-AVX1-NEXT: movl c, %esi
	; X86-AVX1-NEXT: vpmovsxwd 16(%edx,%ecx), %xmm0			; X86-AVX1-NEXT: vpmovsxwd 24(%edx,%ecx), %xmm0
	; X86-AVX1-NEXT: vpmovsxwd 24(%edx,%ecx), %xmm1			; X86-AVX1-NEXT: vpmovsxwd 16(%edx,%ecx), %xmm1
	; X86-AVX1-NEXT: vpmovsxwd (%edx,%ecx), %xmm2			; X86-AVX1-NEXT: vpmovsxwd 8(%edx,%ecx), %xmm2
	; X86-AVX1-NEXT: vpmovsxwd 8(%edx,%ecx), %xmm3			; X86-AVX1-NEXT: vpmovsxwd (%edx,%ecx), %xmm3
	; X86-AVX1-NEXT: vpmovsxwd 16(%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X86-AVX1-NEXT: vpmovsxwd 24(%eax,%ecx), %xmm4			; X86-AVX1-NEXT: vpmovsxwd 24(%eax,%ecx), %xmm4
				; X86-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
				; X86-AVX1-NEXT: vpmovsxwd 16(%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X86-AVX1-NEXT: vpmovsxwd (%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpmovsxwd 8(%eax,%ecx), %xmm4			; X86-AVX1-NEXT: vpmovsxwd 8(%eax,%ecx), %xmm4
				; X86-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
				; X86-AVX1-NEXT: vpmovsxwd (%eax,%ecx), %xmm4
	; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X86-AVX1-NEXT: vmovdqu %xmm0, 48(%esi,%ecx,4)
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X86-AVX1-NEXT: vmovdqu %xmm1, 32(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm0, 32(%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm2, 16(%esi,%ecx,4)
	; X86-AVX1-NEXT: vmovups %ymm2, (%esi,%ecx,4)			; X86-AVX1-NEXT: vmovdqu %xmm3, (%esi,%ecx,4)
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: mul_16xi16_sext:			; X86-AVX2-LABEL: mul_16xi16_sext:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %edx
	Show All 33 Lines
	; X64-SSE-NEXT: movdqu %xmm1, 48(%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm1, 48(%rax,%rdx,4)
	; X64-SSE-NEXT: movdqu %xmm2, (%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm2, (%rax,%rdx,4)
	; X64-SSE-NEXT: movdqu %xmm0, 16(%rax,%rdx,4)			; X64-SSE-NEXT: movdqu %xmm0, 16(%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX1-LABEL: mul_16xi16_sext:			; X64-AVX1-LABEL: mul_16xi16_sext:
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX1-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX1-NEXT: vpmovsxwd 16(%rdi,%rdx), %xmm0			; X64-AVX1-NEXT: vpmovsxwd 24(%rdi,%rdx), %xmm0
	; X64-AVX1-NEXT: vpmovsxwd 24(%rdi,%rdx), %xmm1			; X64-AVX1-NEXT: vpmovsxwd 16(%rdi,%rdx), %xmm1
	; X64-AVX1-NEXT: vpmovsxwd (%rdi,%rdx), %xmm2			; X64-AVX1-NEXT: vpmovsxwd 8(%rdi,%rdx), %xmm2
	; X64-AVX1-NEXT: vpmovsxwd 8(%rdi,%rdx), %xmm3			; X64-AVX1-NEXT: vpmovsxwd (%rdi,%rdx), %xmm3
	; X64-AVX1-NEXT: vpmovsxwd 16(%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
	; X64-AVX1-NEXT: vpmovsxwd 24(%rsi,%rdx), %xmm4			; X64-AVX1-NEXT: vpmovsxwd 24(%rsi,%rdx), %xmm4
				; X64-AVX1-NEXT: vpmulld %xmm0, %xmm4, %xmm0
				; X64-AVX1-NEXT: vpmovsxwd 16(%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm4, %xmm1
	; X64-AVX1-NEXT: vpmovsxwd (%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpmovsxwd 8(%rsi,%rdx), %xmm4			; X64-AVX1-NEXT: vpmovsxwd 8(%rsi,%rdx), %xmm4
				; X64-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
				; X64-AVX1-NEXT: vpmovsxwd (%rsi,%rdx), %xmm4
	; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, 48(%rax,%rdx,4)
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovdqu %xmm1, 32(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm0, 32(%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm2, 16(%rax,%rdx,4)
	; X64-AVX1-NEXT: vmovups %ymm2, (%rax,%rdx,4)			; X64-AVX1-NEXT: vmovdqu %xmm3, (%rax,%rdx,4)
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_16xi16_sext:			; X64-AVX2-LABEL: mul_16xi16_sext:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX2-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX2-NEXT: vpmovsxwd 16(%rdi,%rdx), %ymm0			; X64-AVX2-NEXT: vpmovsxwd 16(%rdi,%rdx), %ymm0
	; X64-AVX2-NEXT: vpmovsxwd (%rdi,%rdx), %ymm1			; X64-AVX2-NEXT: vpmovsxwd (%rdi,%rdx), %ymm1
	; X64-AVX2-NEXT: vpmovsxwd 16(%rsi,%rdx), %ymm2			; X64-AVX2-NEXT: vpmovsxwd 16(%rsi,%rdx), %ymm2
	▲ Show 20 Lines • Show All 799 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X86-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-AVX1-NEXT: vmovd %xmm1, %eax			; X86-AVX1-NEXT: vmovd %xmm1, %eax
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl 32(%ecx)			; X86-AVX1-NEXT: divl 32(%ecx)
	; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-AVX1-NEXT: vpextrd $3, %xmm2, %eax			; X86-AVX1-NEXT: vpextrd $3, %xmm2, %eax
	; X86-AVX1-NEXT: vmovdqa (%ecx), %xmm3			; X86-AVX1-NEXT: vmovdqa (%ecx), %xmm1
	; X86-AVX1-NEXT: vmovdqa 16(%ecx), %xmm1			; X86-AVX1-NEXT: vmovdqa 16(%ecx), %xmm3
	; X86-AVX1-NEXT: vpextrd $3, %xmm3, %ecx			; X86-AVX1-NEXT: vpextrd $3, %xmm3, %ecx
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl %ecx			; X86-AVX1-NEXT: divl %ecx
	; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-AVX1-NEXT: movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-AVX1-NEXT: vpextrd $2, %xmm2, %eax			; X86-AVX1-NEXT: vpextrd $2, %xmm2, %eax
	; X86-AVX1-NEXT: vpextrd $2, %xmm3, %ecx			; X86-AVX1-NEXT: vpextrd $2, %xmm3, %ecx
	; X86-AVX1-NEXT: xorl %edx, %edx			; X86-AVX1-NEXT: xorl %edx, %edx
	; X86-AVX1-NEXT: divl %ecx			; X86-AVX1-NEXT: divl %ecx
	Show All 36 Lines
	; X86-AVX1-NEXT: vpinsrd $2, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload			; X86-AVX1-NEXT: vpinsrd $2, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload
	; X86-AVX1-NEXT: vpinsrd $3, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload			; X86-AVX1-NEXT: vpinsrd $3, {{[-0-9]+}}(%e{{[sb]}}p), %xmm1, %xmm1 # 4-byte Folded Reload
	; X86-AVX1-NEXT: imull $8199, {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload			; X86-AVX1-NEXT: imull $8199, {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
	; X86-AVX1-NEXT: # imm = 0x2007			; X86-AVX1-NEXT: # imm = 0x2007
	; X86-AVX1-NEXT: movl %eax, (%eax)			; X86-AVX1-NEXT: movl %eax, (%eax)
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [8199,8199,8199,8199]			; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [8199,8199,8199,8199]
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0
	; X86-AVX1-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; X86-AVX1-NEXT: vpmulld %xmm2, %xmm1, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vmovdqa %xmm1, (%eax)
	; X86-AVX1-NEXT: vmovaps %ymm0, (%eax)			; X86-AVX1-NEXT: vmovdqa %xmm0, (%eax)
	; X86-AVX1-NEXT: addl $16, %esp			; X86-AVX1-NEXT: addl $16, %esp
	; X86-AVX1-NEXT: popl %esi			; X86-AVX1-NEXT: popl %esi
	; X86-AVX1-NEXT: popl %edi			; X86-AVX1-NEXT: popl %edi
	; X86-AVX1-NEXT: popl %ebx			; X86-AVX1-NEXT: popl %ebx
	; X86-AVX1-NEXT: popl %ebp			; X86-AVX1-NEXT: popl %ebp
	; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: PR34947:			; X86-AVX2-LABEL: PR34947:
	; X86-AVX2: # %bb.0:			; X86-AVX2: # %bb.0:
	; X86-AVX2-NEXT: pushl %edi			; X86-AVX2-NEXT: pushl %edi
	; X86-AVX2-NEXT: pushl %esi			; X86-AVX2-NEXT: pushl %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-AVX1-NEXT: vmovd %xmm1, %eax			; X64-AVX1-NEXT: vmovd %xmm1, %eax
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl 32(%rsi)			; X64-AVX1-NEXT: divl 32(%rsi)
	; X64-AVX1-NEXT: movl %edx, %r8d			; X64-AVX1-NEXT: movl %edx, %r8d
	; X64-AVX1-NEXT: vpextrd $3, %xmm2, %eax			; X64-AVX1-NEXT: vpextrd $3, %xmm2, %eax
	; X64-AVX1-NEXT: vmovdqa (%rsi), %xmm3			; X64-AVX1-NEXT: vmovdqa (%rsi), %xmm1
	; X64-AVX1-NEXT: vmovdqa 16(%rsi), %xmm1			; X64-AVX1-NEXT: vmovdqa 16(%rsi), %xmm3
	; X64-AVX1-NEXT: vpextrd $3, %xmm3, %ecx			; X64-AVX1-NEXT: vpextrd $3, %xmm3, %ecx
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl %ecx			; X64-AVX1-NEXT: divl %ecx
	; X64-AVX1-NEXT: movl %edx, %r9d			; X64-AVX1-NEXT: movl %edx, %r9d
	; X64-AVX1-NEXT: vpextrd $2, %xmm2, %eax			; X64-AVX1-NEXT: vpextrd $2, %xmm2, %eax
	; X64-AVX1-NEXT: vpextrd $2, %xmm3, %ecx			; X64-AVX1-NEXT: vpextrd $2, %xmm3, %ecx
	; X64-AVX1-NEXT: xorl %edx, %edx			; X64-AVX1-NEXT: xorl %edx, %edx
	; X64-AVX1-NEXT: divl %ecx			; X64-AVX1-NEXT: divl %ecx
	Show All 33 Lines
	; X64-AVX1-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0			; X64-AVX1-NEXT: vpinsrd $3, %edi, %xmm0, %xmm0
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [8199,8199,8199,8199]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [8199,8199,8199,8199]
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; X64-AVX1-NEXT: vmovd %esi, %xmm2			; X64-AVX1-NEXT: vmovd %esi, %xmm2
	; X64-AVX1-NEXT: vpinsrd $1, %r11d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $1, %r11d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpinsrd $2, %r10d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $2, %r10d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpinsrd $3, %r9d, %xmm2, %xmm2			; X64-AVX1-NEXT: vpinsrd $3, %r9d, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; X64-AVX1-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: imull $8199, %r8d, %eax # imm = 0x2007			; X64-AVX1-NEXT: imull $8199, %r8d, %eax # imm = 0x2007
	; X64-AVX1-NEXT: movl %eax, (%rax)			; X64-AVX1-NEXT: movl %eax, (%rax)
	; X64-AVX1-NEXT: vmovaps %ymm0, (%rax)			; X64-AVX1-NEXT: vmovdqa %xmm1, (%rax)
				; X64-AVX1-NEXT: vmovdqa %xmm0, (%rax)
	; X64-AVX1-NEXT: popq %rbx			; X64-AVX1-NEXT: popq %rbx
	; X64-AVX1-NEXT: popq %rbp			; X64-AVX1-NEXT: popq %rbp
	; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: PR34947:			; X64-AVX2-LABEL: PR34947:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; X64-AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; X64-AVX2-NEXT: vmovdqa (%rsi), %xmm2			; X64-AVX2-NEXT: vmovdqa (%rsi), %xmm2
	; X64-AVX2-NEXT: vmovdqa 16(%rsi), %xmm3			; X64-AVX2-NEXT: vmovdqa 16(%rsi), %xmm3
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512-widen.ll

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	; AVX512VBMIVL-NEXT: retq
%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>		%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>
store <32 x i8> %strided.vec, <32 x i8>* %S		store <32 x i8> %strided.vec, <32 x i8>* %S
ret void		ret void
}		}

define void @trunc_v32i16_to_v32i8(<64 x i8>* %L, <32 x i8>* %S) nounwind {		define void @trunc_v32i16_to_v32i8(<64 x i8>* %L, <32 x i8>* %S) nounwind {
; AVX512F-LABEL: trunc_v32i16_to_v32i8:		; AVX512F-LABEL: trunc_v32i16_to_v32i8:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
; AVX512F-NEXT: vpmovdb %zmm1, %xmm1		; AVX512F-NEXT: vpmovdb %zmm1, 16(%rsi)
; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512F-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512F-NEXT: vpmovdb %zmm0, (%rsi)
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc_v32i16_to_v32i8:		; AVX512VL-LABEL: trunc_v32i16_to_v32i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1		; AVX512VL-NEXT: vpmovdb %zmm1, 16(%rsi)
; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512VL-NEXT: vpmovdb %zmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc_v32i16_to_v32i8:		; AVX512BW-LABEL: trunc_v32i16_to_v32i8:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)		; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
▲ Show 20 Lines • Show All 809 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512.ll

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	; AVX512VBMIVL-NEXT: retq
%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>		%strided.vec = shufflevector <64 x i8> %vec, <64 x i8> undef, <32 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30, i32 32, i32 34, i32 36, i32 38, i32 40, i32 42, i32 44, i32 46, i32 48, i32 50, i32 52, i32 54, i32 56, i32 58, i32 60, i32 62>
store <32 x i8> %strided.vec, <32 x i8>* %S		store <32 x i8> %strided.vec, <32 x i8>* %S
ret void		ret void
}		}

define void @trunc_v32i16_to_v32i8(<64 x i8>* %L, <32 x i8>* %S) nounwind {		define void @trunc_v32i16_to_v32i8(<64 x i8>* %L, <32 x i8>* %S) nounwind {
; AVX512F-LABEL: trunc_v32i16_to_v32i8:		; AVX512F-LABEL: trunc_v32i16_to_v32i8:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
; AVX512F-NEXT: vpmovdb %zmm1, %xmm1		; AVX512F-NEXT: vpmovdb %zmm1, 16(%rsi)
; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512F-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512F-NEXT: vpmovdb %zmm0, (%rsi)
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: trunc_v32i16_to_v32i8:		; AVX512VL-LABEL: trunc_v32i16_to_v32i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1		; AVX512VL-NEXT: vpmovdb %zmm1, 16(%rsi)
; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512VL-NEXT: vpmovdb %zmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: trunc_v32i16_to_v32i8:		; AVX512BW-LABEL: trunc_v32i16_to_v32i8:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512BW-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)		; AVX512BW-NEXT: vpmovwb %zmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
▲ Show 20 Lines • Show All 799 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 829 Lines • ▼ Show 20 Lines
	;			;

	@ga4 = global <4 x i64> zeroinitializer, align 8			@ga4 = global <4 x i64> zeroinitializer, align 8
	@gb4 = global <8 x i64> zeroinitializer, align 8			@gb4 = global <8 x i64> zeroinitializer, align 8

	define void @fallback_broadcast_v4i64_to_v8i64(<4 x i64> %a, <8 x i64> %b) {			define void @fallback_broadcast_v4i64_to_v8i64(<4 x i64> %a, <8 x i64> %b) {
	; X32-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X32-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X32-AVX1: # %bb.0: # %entry			; X32-AVX1: # %bb.0: # %entry
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,2,0]
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [3,0,4,0]			; X32-AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm4
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [1,0,2,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [3,0,4,0]
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; X32-AVX1-NEXT: vmovaps {{.*#+}} ymm6 = [1,0,2,0,3,0,4,0]
	; X32-AVX1-NEXT: vmovaps {{.*#+}} ymm3 = [1,0,2,0,3,0,4,0]			; X32-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm7
	; X32-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm7, %xmm7
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm6			; X32-AVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm2, %xmm2			; X32-AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm2, %ymm2
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2			; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm7, %xmm5
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm4			; X32-AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1			; X32-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; X32-AVX1-NEXT: vandps %ymm6, %ymm1, %ymm1
	; X32-AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; X32-AVX1-NEXT: vandps %ymm6, %ymm2, %ymm2
	; X32-AVX1-NEXT: vandps %ymm3, %ymm2, %ymm2			; X32-AVX1-NEXT: vmovdqu %xmm0, ga4+16
	; X32-AVX1-NEXT: vmovups %ymm0, ga4			; X32-AVX1-NEXT: vmovdqu %xmm4, ga4
	; X32-AVX1-NEXT: vmovups %ymm2, gb4+32			; X32-AVX1-NEXT: vmovups %ymm2, gb4+32
	; X32-AVX1-NEXT: vmovups %ymm1, gb4			; X32-AVX1-NEXT: vmovups %ymm1, gb4
	; X32-AVX1-NEXT: vzeroupper			; X32-AVX1-NEXT: vzeroupper
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X32-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X32-AVX2: # %bb.0: # %entry			; X32-AVX2: # %bb.0: # %entry
	; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [1,0,2,0,3,0,4,0]			; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [1,0,2,0,3,0,4,0]
	Show All 17 Lines
	; X32-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1			; X32-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1
	; X32-AVX512-NEXT: vmovdqu %ymm0, ga4			; X32-AVX512-NEXT: vmovdqu %ymm0, ga4
	; X32-AVX512-NEXT: vmovdqu64 %zmm1, gb4			; X32-AVX512-NEXT: vmovdqu64 %zmm1, gb4
	; X32-AVX512-NEXT: vzeroupper			; X32-AVX512-NEXT: vzeroupper
	; X32-AVX512-NEXT: retl			; X32-AVX512-NEXT: retl
	;			;
	; X64-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X64-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,2]
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [3,4]			; X64-AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm4
	; X64-AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [1,2]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [3,4]
	; X64-AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0			; X64-AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; X64-AVX1-NEXT: vmovaps {{.*#+}} ymm6 = [1,2,3,4]
	; X64-AVX1-NEXT: vmovaps {{.*#+}} ymm3 = [1,2,3,4]			; X64-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm7
	; X64-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6			; X64-AVX1-NEXT: vpaddq %xmm5, %xmm7, %xmm7
	; X64-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm6			; X64-AVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpaddq %xmm5, %xmm2, %xmm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm2, %ymm2
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2			; X64-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; X64-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6			; X64-AVX1-NEXT: vpaddq %xmm5, %xmm7, %xmm5
	; X64-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm4			; X64-AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
	; X64-AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1			; X64-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; X64-AVX1-NEXT: vandps %ymm6, %ymm1, %ymm1
	; X64-AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; X64-AVX1-NEXT: vandps %ymm6, %ymm2, %ymm2
	; X64-AVX1-NEXT: vandps %ymm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vmovdqu %xmm0, ga4+{{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm0, {{.*}}(%rip)			; X64-AVX1-NEXT: vmovdqu %xmm4, {{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm2, gb4+{{.*}}(%rip)			; X64-AVX1-NEXT: vmovups %ymm2, gb4+{{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm1, {{.*}}(%rip)			; X64-AVX1-NEXT: vmovups %ymm1, {{.*}}(%rip)
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X64-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [1,2,3,4]			; X64-AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [1,2,3,4]
	▲ Show 20 Lines • Show All 821 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_fptrunc.ll

	Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	;			;
	; X32-AVX-LABEL: fptrunc_frommem8:			; X32-AVX-LABEL: fptrunc_frommem8:
	; X32-AVX: # %bb.0: # %entry			; X32-AVX: # %bb.0: # %entry
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX-NEXT: vcvtpd2psy (%ecx), %xmm0			; X32-AVX-NEXT: vcvtpd2psy (%ecx), %xmm0
	; X32-AVX-NEXT: vcvtpd2psy 32(%ecx), %xmm1			; X32-AVX-NEXT: vcvtpd2psy 32(%ecx), %xmm1
	; X32-AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X32-AVX-NEXT: vmovupd %xmm1, 16(%eax)
	; X32-AVX-NEXT: vmovups %ymm0, (%eax)			; X32-AVX-NEXT: vmovupd %xmm0, (%eax)
	; X32-AVX-NEXT: vzeroupper
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: fptrunc_frommem8:			; X64-SSE-LABEL: fptrunc_frommem8:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: cvtpd2ps 16(%rdi), %xmm0			; X64-SSE-NEXT: cvtpd2ps 16(%rdi), %xmm0
	; X64-SSE-NEXT: cvtpd2ps (%rdi), %xmm1			; X64-SSE-NEXT: cvtpd2ps (%rdi), %xmm1
	; X64-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; X64-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; X64-SSE-NEXT: cvtpd2ps 48(%rdi), %xmm0			; X64-SSE-NEXT: cvtpd2ps 48(%rdi), %xmm0
	; X64-SSE-NEXT: cvtpd2ps 32(%rdi), %xmm2			; X64-SSE-NEXT: cvtpd2ps 32(%rdi), %xmm2
	; X64-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm0[0]			; X64-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; X64-SSE-NEXT: movupd %xmm2, 16(%rsi)			; X64-SSE-NEXT: movupd %xmm2, 16(%rsi)
	; X64-SSE-NEXT: movupd %xmm1, (%rsi)			; X64-SSE-NEXT: movupd %xmm1, (%rsi)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: fptrunc_frommem8:			; X64-AVX-LABEL: fptrunc_frommem8:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: vcvtpd2psy (%rdi), %xmm0			; X64-AVX-NEXT: vcvtpd2psy (%rdi), %xmm0
	; X64-AVX-NEXT: vcvtpd2psy 32(%rdi), %xmm1			; X64-AVX-NEXT: vcvtpd2psy 32(%rdi), %xmm1
	; X64-AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX-NEXT: vmovupd %xmm1, 16(%rsi)
	; X64-AVX-NEXT: vmovups %ymm0, (%rsi)			; X64-AVX-NEXT: vmovupd %xmm0, (%rsi)
	; X64-AVX-NEXT: vzeroupper
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%0 = load <8 x double>, <8 x double>* %in			%0 = load <8 x double>, <8 x double>* %in
	%1 = fptrunc <8 x double> %0 to <8 x float>			%1 = fptrunc <8 x double> %0 to <8 x float>
	store <8 x float> %1, <8 x float>* %out, align 1			store <8 x float> %1, <8 x float>* %out, align 1
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_saddo.ll

	Show First 20 Lines • Show All 687 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm4, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: saddo_v8i32:			; AVX2-LABEL: saddo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm4
	; AVX1-NEXT: vpandn %xmm8, %xmm4, %xmm8			; AVX1-NEXT: vpandn %xmm8, %xmm4, %xmm8
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm5, %xmm7			; AVX1-NEXT: vpcmpgtd %xmm3, %xmm5, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm5, %xmm4			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm5, %xmm4
	; AVX1-NEXT: vpxor %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm7
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm10			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm10
	; AVX1-NEXT: vpcmpgtd %xmm10, %xmm5, %xmm3			; AVX1-NEXT: vpcmpgtd %xmm10, %xmm5, %xmm1
	; AVX1-NEXT: vpxor %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpandn %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpandn %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpackssdw %xmm8, %xmm3, %xmm8			; AVX1-NEXT: vpackssdw %xmm8, %xmm1, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm7			; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm5, %xmm1			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm5, %xmm3
				; AVX1-NEXT: vpxor %xmm6, %xmm3, %xmm3
				; AVX1-NEXT: vpcmpeqd %xmm7, %xmm3, %xmm7
				; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm4
				; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm1
	; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm1, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm5, %xmm4
	; AVX1-NEXT: vpxor %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpandn %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpandn %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm2, %xmm5, %xmm4			; AVX1-NEXT: vpcmpgtd %xmm2, %xmm5, %xmm3
	; AVX1-NEXT: vpxor %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm5, %xmm7			; AVX1-NEXT: vpcmpgtd %xmm0, %xmm5, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm7, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm7, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm5, %xmm2			; AVX1-NEXT: vpcmpgtd %xmm2, %xmm5, %xmm0
	; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm2, %xmm7, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm7, %xmm0
	; AVX1-NEXT: vpandn %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpandn %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm8, %xmm1, %xmm1			; AVX1-NEXT: vpacksswb %xmm8, %xmm0, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm9, %ymm10, %ymm3
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm3, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
	; AVX1-NEXT: vmovaps %ymm3, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm9, 48(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)			; AVX1-NEXT: vmovdqa %xmm10, 32(%rdi)
				; AVX1-NEXT: vmovdqa %xmm4, 16(%rdi)
				; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: saddo_v16i32:			; AVX2-LABEL: saddo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX2-NEXT: vpcmpgtd %ymm3, %ymm4, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm3, %ymm4, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6
	; AVX2-NEXT: vpxor %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm6, %ymm5, %ymm5
	▲ Show 20 Lines • Show All 1,030 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_smulo.ll

	Show First 20 Lines • Show All 967 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm0			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm5, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v8i32:			; AVX2-LABEL: smulo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3
	▲ Show 20 Lines • Show All 275 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm5, %xmm7, %xmm5			; AVX1-NEXT: vpmuldq %xmm5, %xmm7, %xmm5
	; AVX1-NEXT: vpmuldq %xmm4, %xmm6, %xmm7			; AVX1-NEXT: vpmuldq %xmm4, %xmm6, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]
	; AVX1-NEXT: vpmulld %xmm4, %xmm6, %xmm4			; AVX1-NEXT: vpmulld %xmm4, %xmm6, %xmm8
	; AVX1-NEXT: vpsrad $31, %xmm4, %xmm6			; AVX1-NEXT: vpsrad $31, %xmm8, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm5, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm5, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm8, %xmm8			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm8, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm7, %xmm5, %xmm5			; AVX1-NEXT: vpmuldq %xmm7, %xmm4, %xmm4
	; AVX1-NEXT: vpmuldq %xmm3, %xmm1, %xmm7			; AVX1-NEXT: vpmuldq %xmm3, %xmm1, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm7[0,1],xmm4[2,3],xmm7[4,5],xmm4[6,7]
	; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm3			; AVX1-NEXT: vpsrad $31, %xmm3, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpxor %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpackssdw %xmm6, %xmm3, %xmm9			; AVX1-NEXT: vpackssdw %xmm6, %xmm1, %xmm9
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpmuldq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpmuldq %xmm5, %xmm7, %xmm6			; AVX1-NEXT: vpmuldq %xmm4, %xmm7, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm6[0,1],xmm3[2,3],xmm6[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm6[0,1],xmm1[2,3],xmm6[4,5],xmm1[6,7]
	; AVX1-NEXT: vpmulld %xmm5, %xmm7, %xmm5			; AVX1-NEXT: vpmulld %xmm4, %xmm7, %xmm4
	; AVX1-NEXT: vpsrad $31, %xmm5, %xmm6			; AVX1-NEXT: vpsrad $31, %xmm4, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpmuldq %xmm6, %xmm7, %xmm6
	; AVX1-NEXT: vpmuldq %xmm2, %xmm0, %xmm7			; AVX1-NEXT: vpmuldq %xmm2, %xmm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm6 = xmm7[0,1],xmm6[2,3],xmm7[4,5],xmm6[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm6 = xmm7[0,1],xmm6[2,3],xmm7[4,5],xmm6[6,7]
	; AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm2, %xmm6, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm6, %xmm0
	; AVX1-NEXT: vpxor %xmm8, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm9, %xmm2, %xmm2			; AVX1-NEXT: vpacksswb %xmm9, %xmm0, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm3			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm4			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovsxbd %xmm2, %xmm0			; AVX1-NEXT: vpmovsxbd %xmm5, %xmm5
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[1,1,2,3]			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[2,3,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpmovsxbd %xmm5, %xmm5
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[3,3,0,1]			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm5, %ymm1
	; AVX1-NEXT: vpmovsxbd %xmm2, %xmm2			; AVX1-NEXT: vmovdqa %xmm8, 48(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm3, 32(%rdi)
	; AVX1-NEXT: vmovaps %ymm4, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm4, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm3, (%rdi)			; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v16i32:			; AVX2-LABEL: smulo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm4 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm4 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuldq %ymm4, %ymm5, %ymm4			; AVX2-NEXT: vpmuldq %ymm4, %ymm5, %ymm4
	; AVX2-NEXT: vpmuldq %ymm3, %ymm1, %ymm5			; AVX2-NEXT: vpmuldq %ymm3, %ymm1, %ymm5
	▲ Show 20 Lines • Show All 1,429 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_ssubo.ll

	Show First 20 Lines • Show All 708 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm6, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: ssubo_v8i32:			; AVX2-LABEL: ssubo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm6, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpandn %xmm6, %xmm8, %xmm6			; AVX1-NEXT: vpandn %xmm6, %xmm8, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm9, %xmm7			; AVX1-NEXT: vpcmpgtd %xmm3, %xmm9, %xmm7
	; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm9, %xmm4			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm9, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm4, %xmm7
	; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm9, %xmm3			; AVX1-NEXT: vpcmpgtd %xmm3, %xmm9, %xmm1
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpandn %xmm3, %xmm7, %xmm3			; AVX1-NEXT: vpandn %xmm1, %xmm7, %xmm1
	; AVX1-NEXT: vpackssdw %xmm6, %xmm3, %xmm8			; AVX1-NEXT: vpackssdw %xmm6, %xmm1, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm9, %xmm6			; AVX1-NEXT: vpcmpgtd %xmm4, %xmm9, %xmm6
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7
	; AVX1-NEXT: vpcmpgtd %xmm7, %xmm9, %xmm3			; AVX1-NEXT: vpcmpgtd %xmm7, %xmm9, %xmm1
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm1, %xmm6
	; AVX1-NEXT: vpsubd %xmm4, %xmm7, %xmm4			; AVX1-NEXT: vpsubd %xmm4, %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm9, %xmm7			; AVX1-NEXT: vpcmpgtd %xmm7, %xmm9, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpandn %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vpandn %xmm1, %xmm6, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm2, %xmm9, %xmm6			; AVX1-NEXT: vpcmpgtd %xmm2, %xmm9, %xmm4
				; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
				; AVX1-NEXT: vpcmpgtd %xmm0, %xmm9, %xmm6
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm9, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7			; AVX1-NEXT: vpsubd %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpcmpgtd %xmm2, %xmm9, %xmm0
	; AVX1-NEXT: vpsubd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm9, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm6, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm2, %xmm7, %xmm2			; AVX1-NEXT: vpandn %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpandn %xmm2, %xmm6, %xmm2			; AVX1-NEXT: vpacksswb %xmm8, %xmm0, %xmm1
	; AVX1-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0
	; AVX1-NEXT: vpacksswb %xmm8, %xmm2, %xmm2			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm3			; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4
	; AVX1-NEXT: vinsertf128 $1, %xmm10, %ymm1, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxbd %xmm2, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[1,1,2,3]			; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[2,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[3,3,0,1]			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm1
	; AVX1-NEXT: vpmovsxbd %xmm2, %xmm2			; AVX1-NEXT: vmovdqa %xmm10, 48(%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm3, 32(%rdi)
	; AVX1-NEXT: vmovaps %ymm4, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm7, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm3, (%rdi)			; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: ssubo_v16i32:			; AVX2-LABEL: ssubo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX2-NEXT: vpcmpgtd %ymm3, %ymm4, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm3, %ymm4, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6
	; AVX2-NEXT: vpxor %ymm6, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm6, %ymm5, %ymm5
	▲ Show 20 Lines • Show All 1,039 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_uaddo.ll

	Show First 20 Lines • Show All 495 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uaddo_v8i32:			; AVX2-LABEL: uaddo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm5, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm5, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpmaxud %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm6, %xmm6
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm6, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm6, %ymm1
	; AVX1-NEXT: vmovaps %ymm3, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm4, 48(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)			; AVX1-NEXT: vmovdqa %xmm3, 32(%rdi)
				; AVX1-NEXT: vmovdqa %xmm5, 16(%rdi)
				; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uaddo_v16i32:			; AVX2-LABEL: uaddo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm3			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm3
	; AVX2-NEXT: vpmaxud %ymm1, %ymm3, %ymm1			; AVX2-NEXT: vpmaxud %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm1, %ymm3, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	▲ Show 20 Lines • Show All 704 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_umulo.ll

	Show First 20 Lines • Show All 837 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm5, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm5, %ymm2
	; AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm1
	; AVX1-NEXT: vmovaps %ymm0, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, 16(%rdi)
				; AVX1-NEXT: vmovdqa %xmm0, (%rdi)
	; AVX1-NEXT: vmovaps %ymm2, %ymm0			; AVX1-NEXT: vmovaps %ymm2, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v8i32:			; AVX2-LABEL: umulo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	▲ Show 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm7			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm9, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm9, %xmm5, %xmm5
	; AVX1-NEXT: vpackssdw %xmm13, %xmm5, %xmm5			; AVX1-NEXT: vpackssdw %xmm13, %xmm5, %xmm5
	; AVX1-NEXT: vpacksswb %xmm11, %xmm5, %xmm5			; AVX1-NEXT: vpacksswb %xmm11, %xmm5, %xmm5
				; AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpmulld %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpmulld %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpmulld %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm2			; AVX1-NEXT: vpmulld %xmm10, %xmm12, %xmm6
	; AVX1-NEXT: vpmulld %xmm10, %xmm12, %xmm0
	; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm3
	; AVX1-NEXT: vpmovsxbd %xmm5, %xmm0			; AVX1-NEXT: vpmovsxbd %xmm5, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[1,1,2,3]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[2,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm5[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm5[3,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm5, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; AVX1-NEXT: vmovaps %ymm3, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm6, 48(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)			; AVX1-NEXT: vmovdqa %xmm3, 32(%rdi)
				; AVX1-NEXT: vmovdqa %xmm4, 16(%rdi)
				; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v16i32:			; AVX2-LABEL: umulo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm4 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm4 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuludq %ymm4, %ymm5, %ymm4			; AVX2-NEXT: vpmuludq %ymm4, %ymm5, %ymm4
	; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm5			; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm5
	▲ Show 20 Lines • Show All 1,485 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_usubo.ll

	Show First 20 Lines • Show All 519 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vmovdqa %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: usubo_v8i32:			; AVX2-LABEL: usubo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm7, %xmm5, %xmm7			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm5, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm7
	; AVX1-NEXT: vpsubd %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpsubd %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpminud %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpminud %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm6, %xmm6
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbd %xmm6, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxbd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm6, %ymm1
	; AVX1-NEXT: vmovaps %ymm3, 32(%rdi)			; AVX1-NEXT: vmovdqa %xmm4, 48(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)			; AVX1-NEXT: vmovdqa %xmm3, 32(%rdi)
				; AVX1-NEXT: vmovdqa %xmm5, 16(%rdi)
				; AVX1-NEXT: vmovdqa %xmm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: usubo_v16i32:			; AVX2-LABEL: usubo_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsubd %ymm3, %ymm1, %ymm3			; AVX2-NEXT: vpsubd %ymm3, %ymm1, %ymm3
	; AVX2-NEXT: vpminud %ymm1, %ymm3, %ymm1			; AVX2-NEXT: vpminud %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm1, %ymm3, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	▲ Show 20 Lines • Show All 708 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-gep.ll

	Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	}			}

	define <64 x i16> @AGEP9(i16 %param, <64 x i32> %off) nounwind {			define <64 x i16> @AGEP9(i16 %param, <64 x i32> %off) nounwind {
	; CHECK-LABEL: AGEP9:			; CHECK-LABEL: AGEP9:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushl %ebp			; CHECK-NEXT: pushl %ebp
	; CHECK-NEXT: movl %esp, %ebp			; CHECK-NEXT: movl %esp, %ebp
	; CHECK-NEXT: andl $-32, %esp			; CHECK-NEXT: andl $-32, %esp
	; CHECK-NEXT: subl $96, %esp			; CHECK-NEXT: subl $160, %esp
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm3			; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm3
	; CHECK-NEXT: vpaddd %xmm3, %xmm3, %xmm4			; CHECK-NEXT: vbroadcastss 12(%ebp), %xmm5
	; CHECK-NEXT: vbroadcastss 12(%ebp), %xmm3			; CHECK-NEXT: vpaddd %xmm3, %xmm5, %xmm3
	; CHECK-NEXT: vpaddd %xmm4, %xmm3, %xmm4			; CHECK-NEXT: vmovdqa %xmm3, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
	; CHECK-NEXT: vpaddd %xmm0, %xmm3, %xmm0			; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
	; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%e{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vextractf128 $1, %ymm1, %xmm4			; CHECK-NEXT: vpaddd %xmm1, %xmm1, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vextractf128 $1, %ymm1, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vpaddd %xmm2, %xmm2, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vmovdqa 40(%ebp), %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vmovdqa 56(%ebp), %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vmovdqa 72(%ebp), %xmm3
				; CHECK-NEXT: vpaddd %xmm3, %xmm3, %xmm3
				; CHECK-NEXT: vpaddd %xmm3, %xmm5, %xmm0
				; CHECK-NEXT: vmovdqa %xmm0, (%esp) # 16-byte Spill
				; CHECK-NEXT: vmovdqa 88(%ebp), %xmm4
	; CHECK-NEXT: vpaddd %xmm4, %xmm4, %xmm4			; CHECK-NEXT: vpaddd %xmm4, %xmm4, %xmm4
	; CHECK-NEXT: vpaddd %xmm4, %xmm3, %xmm4			; CHECK-NEXT: vpaddd %xmm4, %xmm5, %xmm4
				; CHECK-NEXT: vmovdqa 104(%ebp), %xmm1
	; CHECK-NEXT: vpaddd %xmm1, %xmm1, %xmm1			; CHECK-NEXT: vpaddd %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vpaddd %xmm1, %xmm3, %xmm1			; CHECK-NEXT: vpaddd %xmm1, %xmm5, %xmm1
	; CHECK-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm0			; CHECK-NEXT: vmovdqa 120(%ebp), %xmm6
	; CHECK-NEXT: vmovaps %ymm0, (%esp) # 32-byte Spill
	; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm4
	; CHECK-NEXT: vpaddd %xmm4, %xmm4, %xmm4
	; CHECK-NEXT: vpaddd %xmm4, %xmm3, %xmm4
	; CHECK-NEXT: vpaddd %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; CHECK-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; CHECK-NEXT: vmovdqa 40(%ebp), %xmm4
	; CHECK-NEXT: vmovdqa 56(%ebp), %xmm5
	; CHECK-NEXT: vpaddd %xmm5, %xmm5, %xmm5
	; CHECK-NEXT: vpaddd %xmm5, %xmm3, %xmm5
	; CHECK-NEXT: vpaddd %xmm4, %xmm4, %xmm4
	; CHECK-NEXT: vpaddd %xmm4, %xmm3, %xmm4
	; CHECK-NEXT: vinsertf128 $1, %xmm5, %ymm4, %ymm4
	; CHECK-NEXT: vmovdqa 72(%ebp), %xmm5
	; CHECK-NEXT: vmovdqa 88(%ebp), %xmm6
	; CHECK-NEXT: vpaddd %xmm6, %xmm6, %xmm6
	; CHECK-NEXT: vpaddd %xmm6, %xmm3, %xmm6
	; CHECK-NEXT: vpaddd %xmm5, %xmm5, %xmm5
	; CHECK-NEXT: vpaddd %xmm5, %xmm3, %xmm5
	; CHECK-NEXT: vinsertf128 $1, %xmm6, %ymm5, %ymm5
	; CHECK-NEXT: vmovdqa 104(%ebp), %xmm6
	; CHECK-NEXT: vmovdqa 120(%ebp), %xmm7
	; CHECK-NEXT: vpaddd %xmm7, %xmm7, %xmm7
	; CHECK-NEXT: vpaddd %xmm7, %xmm3, %xmm7
	; CHECK-NEXT: vpaddd %xmm6, %xmm6, %xmm6			; CHECK-NEXT: vpaddd %xmm6, %xmm6, %xmm6
	; CHECK-NEXT: vpaddd %xmm6, %xmm3, %xmm6			; CHECK-NEXT: vpaddd %xmm6, %xmm5, %xmm6
	; CHECK-NEXT: vinsertf128 $1, %xmm7, %ymm6, %ymm6			; CHECK-NEXT: vmovdqa 136(%ebp), %xmm2
				; CHECK-NEXT: vpaddd %xmm2, %xmm2, %xmm2
				; CHECK-NEXT: vpaddd %xmm2, %xmm5, %xmm2
	; CHECK-NEXT: vmovdqa 152(%ebp), %xmm7			; CHECK-NEXT: vmovdqa 152(%ebp), %xmm7
	; CHECK-NEXT: vpaddd %xmm7, %xmm7, %xmm7			; CHECK-NEXT: vpaddd %xmm7, %xmm7, %xmm7
	; CHECK-NEXT: vpaddd %xmm7, %xmm3, %xmm7			; CHECK-NEXT: vpaddd %xmm7, %xmm5, %xmm7
	; CHECK-NEXT: vmovdqa 136(%ebp), %xmm0			; CHECK-NEXT: vmovdqa 168(%ebp), %xmm0
	; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vpaddd %xmm0, %xmm3, %xmm0			; CHECK-NEXT: vpaddd %xmm0, %xmm5, %xmm0
	; CHECK-NEXT: vinsertf128 $1, %xmm7, %ymm0, %ymm0			; CHECK-NEXT: vmovdqa 184(%ebp), %xmm3
	; CHECK-NEXT: vmovdqa 184(%ebp), %xmm7			; CHECK-NEXT: vpaddd %xmm3, %xmm3, %xmm3
	; CHECK-NEXT: vpaddd %xmm7, %xmm7, %xmm7			; CHECK-NEXT: vpaddd %xmm3, %xmm5, %xmm3
	; CHECK-NEXT: vpaddd %xmm7, %xmm3, %xmm7
	; CHECK-NEXT: vmovdqa 168(%ebp), %xmm1
	; CHECK-NEXT: vpaddd %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vpaddd %xmm1, %xmm3, %xmm1
	; CHECK-NEXT: vinsertf128 $1, %xmm7, %ymm1, %ymm1
	; CHECK-NEXT: movl 8(%ebp), %eax			; CHECK-NEXT: movl 8(%ebp), %eax
	; CHECK-NEXT: vmovaps %ymm1, 224(%eax)			; CHECK-NEXT: vmovdqa %xmm3, 240(%eax)
	; CHECK-NEXT: vmovaps %ymm0, 192(%eax)			; CHECK-NEXT: vmovdqa %xmm0, 224(%eax)
	; CHECK-NEXT: vmovaps %ymm6, 160(%eax)			; CHECK-NEXT: vmovdqa %xmm7, 208(%eax)
	; CHECK-NEXT: vmovaps %ymm5, 128(%eax)			; CHECK-NEXT: vmovdqa %xmm2, 192(%eax)
	; CHECK-NEXT: vmovaps %ymm4, 96(%eax)			; CHECK-NEXT: vmovdqa %xmm6, 176(%eax)
	; CHECK-NEXT: vmovaps %ymm2, 64(%eax)			; CHECK-NEXT: vmovdqa %xmm1, 160(%eax)
	; CHECK-NEXT: vmovaps (%esp), %ymm0 # 32-byte Reload			; CHECK-NEXT: vmovdqa %xmm4, 144(%eax)
	; CHECK-NEXT: vmovaps %ymm0, 32(%eax)			; CHECK-NEXT: vmovaps (%esp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 # 32-byte Reload			; CHECK-NEXT: vmovaps %xmm0, 128(%eax)
	; CHECK-NEXT: vmovaps %ymm0, (%eax)			; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 112(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 96(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 80(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 64(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 48(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 32(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, 16(%eax)
				; CHECK-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; CHECK-NEXT: vmovaps %xmm0, (%eax)
	; CHECK-NEXT: movl %ebp, %esp			; CHECK-NEXT: movl %ebp, %esp
	; CHECK-NEXT: popl %ebp			; CHECK-NEXT: popl %ebp
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retl $4			; CHECK-NEXT: retl $4
	%A = getelementptr i16, i16* %param, <64 x i32> %off			%A = getelementptr i16, i16* %param, <64 x i32> %off
	ret <64 x i16*> %A			ret <64 x i16*> %A
	}			}

llvm/trunk/test/CodeGen/X86/vector-trunc-widen.ll

	Show First 20 Lines • Show All 662 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: packusdw %xmm3, %xmm2			; SSE41-NEXT: packusdw %xmm3, %xmm2
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16:			; AVX1-LABEL: trunc16i32_16i16:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
				; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16:			; AVX2-LABEL: trunc16i32_16i16:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vmovdqu %xmm1, (%rax)
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i16:			; AVX512-LABEL: trunc16i32_16i16:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovdw %zmm0, (%rax)			; AVX512-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	Show All 13 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: movdqu %xmm2, (%rax)			; SSE-NEXT: movdqu %xmm2, (%rax)
	; SSE-NEXT: movdqu %xmm0, (%rax)			; SSE-NEXT: movdqu %xmm0, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16_ashr:			; AVX1-LABEL: trunc16i32_16i16_ashr:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2			; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1
	; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
				; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
				; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_ashr:			; AVX2-LABEL: trunc16i32_16i16_ashr:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1
	; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0
	; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrld $16, %xmm0			; SSE41-NEXT: psrld $16, %xmm0
	; SSE41-NEXT: packusdw %xmm1, %xmm0			; SSE41-NEXT: packusdw %xmm1, %xmm0
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16_lshr:			; AVX1-LABEL: trunc16i32_16i16_lshr:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
				; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
				; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_lshr:			; AVX2-LABEL: trunc16i32_16i16_lshr:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1
	; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
	; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc32i16_32i8:			; AVX1-LABEL: trunc32i16_32i8:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
				; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc32i16_32i8:			; AVX2-LABEL: trunc32i16_32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpackuswb %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpackuswb %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc32i16_32i8:			; AVX512F-LABEL: trunc32i16_32i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512F-NEXT: vpmovdb %zmm1, %xmm1			; AVX512F-NEXT: vpmovdb %zmm1, (%rax)
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vpmovdb %zmm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: trunc32i16_32i8:			; AVX512VL-LABEL: trunc32i16_32i8:
	; AVX512VL: # %bb.0: # %entry			; AVX512VL: # %bb.0: # %entry
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1			; AVX512VL-NEXT: vpmovdb %zmm1, (%rax)
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512VL-NEXT: vmovdqu %ymm0, (%rax)			; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc32i16_32i8:			; AVX512BW-LABEL: trunc32i16_32i8:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpmovwb %zmm0, (%rax)			; AVX512BW-NEXT: vpmovwb %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	▲ Show 20 Lines • Show All 786 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 672 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: packusdw %xmm3, %xmm2			; SSE41-NEXT: packusdw %xmm3, %xmm2
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16:			; AVX1-LABEL: trunc16i32_16i16:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
				; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16:			; AVX2-LABEL: trunc16i32_16i16:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vmovdqu %xmm1, (%rax)
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i16:			; AVX512-LABEL: trunc16i32_16i16:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovdw %zmm0, (%rax)			; AVX512-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	Show All 13 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: movdqu %xmm2, (%rax)			; SSE-NEXT: movdqu %xmm2, (%rax)
	; SSE-NEXT: movdqu %xmm0, (%rax)			; SSE-NEXT: movdqu %xmm0, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16_ashr:			; AVX1-LABEL: trunc16i32_16i16_ashr:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2			; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $16, %xmm1, %xmm1
	; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vpsrad $16, %xmm2, %xmm2
				; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
				; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_ashr:			; AVX2-LABEL: trunc16i32_16i16_ashr:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $16, %ymm1, %ymm1
	; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrad $16, %ymm0, %ymm0
	; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrld $16, %xmm0			; SSE41-NEXT: psrld $16, %xmm0
	; SSE41-NEXT: packusdw %xmm1, %xmm0			; SSE41-NEXT: packusdw %xmm1, %xmm0
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc16i32_16i16_lshr:			; AVX1-LABEL: trunc16i32_16i16_lshr:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
				; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
				; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16_lshr:			; AVX2-LABEL: trunc16i32_16i16_lshr:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $16, %ymm1, %ymm1
	; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
	; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE41-NEXT: movdqu %xmm2, (%rax)			; SSE41-NEXT: movdqu %xmm2, (%rax)
	; SSE41-NEXT: movdqu %xmm0, (%rax)			; SSE41-NEXT: movdqu %xmm0, (%rax)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc32i16_32i8:			; AVX1-LABEL: trunc32i16_32i8:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vmovups %ymm0, (%rax)			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
				; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc32i16_32i8:			; AVX2-LABEL: trunc32i16_32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpackuswb %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpackuswb %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc32i16_32i8:			; AVX512F-LABEL: trunc32i16_32i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512F-NEXT: vpmovdb %zmm1, %xmm1			; AVX512F-NEXT: vpmovdb %zmm1, (%rax)
	; AVX512F-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vmovdqu %ymm0, (%rax)			; AVX512F-NEXT: vpmovdb %zmm0, (%rax)
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: trunc32i16_32i8:			; AVX512VL-LABEL: trunc32i16_32i8:
	; AVX512VL: # %bb.0: # %entry			; AVX512VL: # %bb.0: # %entry
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512VL-NEXT: vpmovdb %zmm1, %xmm1			; AVX512VL-NEXT: vpmovdb %zmm1, (%rax)
	; AVX512VL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512VL-NEXT: vmovdqu %ymm0, (%rax)			; AVX512VL-NEXT: vpmovdb %zmm0, (%rax)
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc32i16_32i8:			; AVX512BW-LABEL: trunc32i16_32i8:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpmovwb %zmm0, (%rax)			; AVX512BW-NEXT: vpmovwb %zmm0, (%rax)
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	▲ Show 20 Lines • Show All 656 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/x86-interleaved-access.ll

Show First 20 Lines • Show All 335 Lines • ▼ Show 20 Lines
; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]		; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]		; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]		; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm4 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm4 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]		; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1		; AVX1-NEXT: vmovdqa %xmm0, 48(%rdi)
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm4, %ymm0		; AVX1-NEXT: vmovdqa %xmm4, 32(%rdi)
; AVX1-NEXT: vmovaps %ymm0, 32(%rdi)		; AVX1-NEXT: vmovdqa %xmm1, 16(%rdi)
; AVX1-NEXT: vmovaps %ymm1, (%rdi)		; AVX1-NEXT: vmovdqa %xmm3, (%rdi)
; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: interleaved_store_vf16_i8_stride4:		; AVX2-LABEL: interleaved_store_vf16_i8_stride4:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]		; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]		; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]
; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]		; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]		; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm4 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm4 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]		; AVX2-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm3, %ymm1		; AVX2-NEXT: vmovdqa %xmm0, 48(%rdi)
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm0		; AVX2-NEXT: vmovdqa %xmm4, 32(%rdi)
; AVX2-NEXT: vmovdqa %ymm0, 32(%rdi)		; AVX2-NEXT: vmovdqa %xmm1, 16(%rdi)
; AVX2-NEXT: vmovdqa %ymm1, (%rdi)		; AVX2-NEXT: vmovdqa %xmm3, (%rdi)
; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: interleaved_store_vf16_i8_stride4:		; AVX512-LABEL: interleaved_store_vf16_i8_stride4:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX512-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]		; AVX512-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; AVX512-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]		; AVX512-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm2[8],xmm3[8],xmm2[9],xmm3[9],xmm2[10],xmm3[10],xmm2[11],xmm3[11],xmm2[12],xmm3[12],xmm2[13],xmm3[13],xmm2[14],xmm3[14],xmm2[15],xmm3[15]
▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%cmp1 = icmp eq <32 x i8> %v1, %v2		%cmp1 = icmp eq <32 x i8> %v1, %v2
%cmp2 = icmp eq <32 x i8> %v3, %v4		%cmp2 = icmp eq <32 x i8> %v3, %v4
%res = icmp eq <32 x i1> %cmp1, %cmp2		%res = icmp eq <32 x i1> %cmp1, %cmp2

ret <32 x i1> %res		ret <32 x i1> %res
}		}

define void @interleaved_store_vf8_i8_stride4(<8 x i8> %x1, <8 x i8> %x2, <8 x i8> %x3, <8 x i8> %x4, <32 x i8>* %p) {		define void @interleaved_store_vf8_i8_stride4(<8 x i8> %x1, <8 x i8> %x2, <8 x i8> %x3, <8 x i8> %x4, <32 x i8>* %p) {
; AVX1-LABEL: interleaved_store_vf8_i8_stride4:		; AVX-LABEL: interleaved_store_vf8_i8_stride4:
; AVX1: # %bb.0:		; AVX: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX-NEXT: vmovdqa {{.*#+}} xmm4 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX1-NEXT: vpshufb %xmm4, %xmm1, %xmm1		; AVX-NEXT: vpshufb %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm4, %xmm0, %xmm0		; AVX-NEXT: vpshufb %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX1-NEXT: vpshufb %xmm4, %xmm3, %xmm1		; AVX-NEXT: vpshufb %xmm4, %xmm3, %xmm1
; AVX1-NEXT: vpshufb %xmm4, %xmm2, %xmm2		; AVX-NEXT: vpshufb %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; AVX-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX-NEXT: vmovdqa %xmm0, 16(%rdi)
; AVX1-NEXT: vmovaps %ymm0, (%rdi)		; AVX-NEXT: vmovdqa %xmm2, (%rdi)
; AVX1-NEXT: vzeroupper		; AVX-NEXT: retq
; AVX1-NEXT: retq
;
; AVX2OR512-LABEL: interleaved_store_vf8_i8_stride4:
; AVX2OR512: # %bb.0:
; AVX2OR512-NEXT: vmovdqa {{.*#+}} xmm4 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX2OR512-NEXT: vpshufb %xmm4, %xmm1, %xmm1
; AVX2OR512-NEXT: vpshufb %xmm4, %xmm0, %xmm0
; AVX2OR512-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX2OR512-NEXT: vpshufb %xmm4, %xmm3, %xmm1
; AVX2OR512-NEXT: vpshufb %xmm4, %xmm2, %xmm2
; AVX2OR512-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; AVX2OR512-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX2OR512-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; AVX2OR512-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0
; AVX2OR512-NEXT: vmovdqa %ymm0, (%rdi)
; AVX2OR512-NEXT: vzeroupper
; AVX2OR512-NEXT: retq
%v1 = shufflevector <8 x i8> %x1, <8 x i8> %x2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%v1 = shufflevector <8 x i8> %x1, <8 x i8> %x2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%v2 = shufflevector <8 x i8> %x3, <8 x i8> %x4, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%v2 = shufflevector <8 x i8> %x3, <8 x i8> %x4, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%interleaved.vec = shufflevector <16 x i8> %v1, <16 x i8> %v2, <32 x i32> <i32 0,i32 8,i32 16,i32 24,i32 1,i32 9,i32 17,i32 25,i32 2,i32 10,i32 18,i32 26,i32 3,i32 11,i32 19,i32 27,i32 4,i32 12,i32 20,i32 28,i32 5,i32 13,i32 21,i32 29,i32 6,i32 14,i32 22,i32 30,i32 7,i32 15,i32 23,i32 31>		%interleaved.vec = shufflevector <16 x i8> %v1, <16 x i8> %v2, <32 x i32> <i32 0,i32 8,i32 16,i32 24,i32 1,i32 9,i32 17,i32 25,i32 2,i32 10,i32 18,i32 26,i32 3,i32 11,i32 19,i32 27,i32 4,i32 12,i32 20,i32 28,i32 5,i32 13,i32 21,i32 29,i32 6,i32 14,i32 22,i32 30,i32 7,i32 15,i32 23,i32 31>
store <32 x i8> %interleaved.vec, <32 x i8>* %p		store <32 x i8> %interleaved.vec, <32 x i8>* %p
ret void		ret void
}		}

define <32 x i8> @interleaved_load_vf32_i8_stride3(<96 x i8>* %ptr){		define <32 x i8> @interleaved_load_vf32_i8_stride3(<96 x i8>* %ptr){
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]		; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]		; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]		; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vmovdqu %xmm0, 16(%rdi)
		; AVX1-NEXT: vmovdqu %xmm1, (%rdi)
; AVX1-NEXT: vmovdqu %xmm2, 32(%rdi)		; AVX1-NEXT: vmovdqu %xmm2, 32(%rdi)
; AVX1-NEXT: vmovups %ymm0, (%rdi)
; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: interleaved_store_vf16_i8_stride3:		; AVX2-LABEL: interleaved_store_vf16_i8_stride3:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]		; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
; AVX2-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]		; AVX2-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
; AVX2-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]		; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1		; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1
; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0		; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]		; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2		; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vmovdqu %xmm0, 16(%rdi)
		; AVX2-NEXT: vmovdqu %xmm1, (%rdi)
; AVX2-NEXT: vmovdqu %xmm2, 32(%rdi)		; AVX2-NEXT: vmovdqu %xmm2, 32(%rdi)
; AVX2-NEXT: vmovdqu %ymm0, (%rdi)
; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: interleaved_store_vf16_i8_stride3:		; AVX512-LABEL: interleaved_store_vf16_i8_stride3:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]		; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
; AVX512-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]		; AVX512-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
; AVX512-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]		; AVX512-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]		; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
▲ Show 20 Lines • Show All 578 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] split 256-bit store of concatenated vectorsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 202962

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/avg.ll

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86-upgrade.ll

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/avx512-trunc-widen.ll

llvm/trunk/test/CodeGen/X86/avx512-trunc.ll

llvm/trunk/test/CodeGen/X86/nontemporal-2.ll

llvm/trunk/test/CodeGen/X86/oddsubvector.ll

llvm/trunk/test/CodeGen/X86/pmovsx-inreg.ll

llvm/trunk/test/CodeGen/X86/shrink_vmul-widen.ll

llvm/trunk/test/CodeGen/X86/shrink_vmul.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512-widen.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-512.ll

llvm/trunk/test/CodeGen/X86/subvector-broadcast.ll

llvm/trunk/test/CodeGen/X86/vec_fptrunc.ll

llvm/trunk/test/CodeGen/X86/vec_saddo.ll

llvm/trunk/test/CodeGen/X86/vec_smulo.ll

llvm/trunk/test/CodeGen/X86/vec_ssubo.ll

llvm/trunk/test/CodeGen/X86/vec_uaddo.ll

llvm/trunk/test/CodeGen/X86/vec_umulo.ll

llvm/trunk/test/CodeGen/X86/vec_usubo.ll

llvm/trunk/test/CodeGen/X86/vector-gep.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

llvm/trunk/test/CodeGen/X86/x86-interleaved-access.ll

[x86] split 256-bit store of concatenated vectors
ClosedPublic