This is an archive of the discontinued LLVM Phabricator instance.

[x86] allow movmsk with 2-element reductions
ClosedPublic

Authored by spatel on Mar 29 2019, 8:21 AM.

Download Raw Diff

Details

Reviewers

andreadb
RKSimon
lebedev.ri
craig.topper

Commits

rGe1bc360fc647: [x86] allow movmsk with 2-element reductions
rL357367: [x86] allow movmsk with 2-element reductions

Summary

One motivation for making this change is that the lack of using movmsk is likely a main source of perf difference between clang and gcc on the C-Ray benchmark as shown here:
https://www.phoronix.com/scan.php?page=article&item=gcc-clang-2019&num=5
...but this change alone isn't enough to solve that problem.

The 'all-of' examples show what is likely the worst case trade-off: we end up with an extra instruction (or 2 if we count the 'xor' register clearing). The 'any-of' examples look clearly better using movmsk because we've traded 2 vector instructions for 2 scalar instructions, and movmsk may have better timing than the generic 'movq'.

If we examine the llvm-mca output for these cases, it appears that even though the 'all-of' movmsk variant looks worse on paper, it would perform better on both Haswell and Jaguar.

$ llvm-mca -mcpu=haswell no_movmsk.s -timeline
Iterations:        100
Instructions:      400
Total Cycles:      504
Total uOps:        400

Dispatch Width:    4
uOps Per Cycle:    0.79
IPC:               0.79
Block RThroughput: 1.0

$ llvm-mca -mcpu=haswell movmsk.s -timeline
Iterations:        100
Instructions:      600
Total Cycles:      358
Total uOps:        600

Dispatch Width:    4
uOps Per Cycle:    1.68
IPC:               1.68
Block RThroughput: 1.5

$ llvm-mca -mcpu=btver2 no_movmsk.s -timeline
Iterations:        100
Instructions:      400
Total Cycles:      407
Total uOps:        400

Dispatch Width:    2
uOps Per Cycle:    0.98
IPC:               0.98
Block RThroughput: 2.0

$ llvm-mca -mcpu=btver2 movmsk.s -timeline
Iterations:        100
Instructions:      600
Total Cycles:      311
Total uOps:        600

Dispatch Width:    2
uOps Per Cycle:    1.93
IPC:               1.93
Block RThroughput: 3.0

Finally, there may be CPUs where movmsk is horribly slow (old AMD small cores?), but if that's true, then we're also almost certainly making the wrong transform already for reductions with >2 elements, so that should be fixed independently.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Mar 29 2019, 8:21 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 29 2019, 8:21 AM

Herald added subscribers: jdoerfert, hiraditya, mcrosier. · View Herald Transcript

spatel edited the summary of this revision. (Show Details)Mar 29 2019, 8:25 AM

llvm-mca numbers are quite accurate for btver2 (see below for the perf results):

vcmpltpd %xmm0, %xmm1, %xmm2
vmovmskpd %xmm0, %ecx
xorl %eax, %eax
cmpl $3, %ecx
sete %al
negq %rax

-->

cycles:           79314982                                        ( +- 0.36% )
instructions:     154000245        #   1.94 insn per cycle        ( +- 0.00% )
micro-opcodes:    154030776        #   1.94 uOps per cycle        ( +- 0.00% )

While..

vcmpltpd %xmm0, %xmm1, %xmm2
vpermilpd $1, %xmm2, %xmm1
vandpd %xmm1, %xmm2, %xmm2
vmovq %xmm2, %rax

Gives us this:

cycles:           114486380                                       ( +- 1.56% )
instructions:     102800331        #   0.90 insn per cycle        ( +- 0.00% )
micro-opcodes:    102844837        #   0.90 uOps per cycle        ( +- 0.00% )

In D59997#1448026, @andreadb wrote:

llvm-mca numbers are quite accurate for btver2 (see below for the perf results):

Great - thanks for checking that!
@craig.topper - are you aware of any Intel uarch outliers for movmsk?

I'm not aware of any outliers on Intel CPUs.

LGTM - thanks!

This revision is now accepted and ready to land.Mar 30 2019, 4:51 AM

Closed by commit rL357367: [x86] allow movmsk with 2-element reductions (authored by spatel). · Explain WhyMar 31 2019, 8:10 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

7 lines

test/

CodeGen/

X86/

vector-compare-all_of.ll

48 lines

vector-compare-any_of.ll

36 lines

Diff 193014

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 34,300 Lines • ▼ Show 20 Lines	static SDValue combineHorizontalPredicateResult(SDNode *Extract,

// We require AVX2 for PMOVMSKB for v16i16/v32i8;		// We require AVX2 for PMOVMSKB for v16i16/v32i8;
unsigned MatchSizeInBits = Match.getValueSizeInBits();		unsigned MatchSizeInBits = Match.getValueSizeInBits();
if (!(MatchSizeInBits == 128 \|\|		if (!(MatchSizeInBits == 128 \|\|
(MatchSizeInBits == 256 &&		(MatchSizeInBits == 256 &&
((Subtarget.hasAVX() && BitWidth >= 32) \|\| Subtarget.hasAVX2()))))		((Subtarget.hasAVX() && BitWidth >= 32) \|\| Subtarget.hasAVX2()))))
return SDValue();		return SDValue();

// Don't bother performing this for 2-element vectors.		// Make sure this isn't a vector of 1 element. The perf win from using MOVMSK
if (Match.getValueType().getVectorNumElements() <= 2)		// diminishes with less elements in the reduction, but it is generally better
		// to get the comparison over to the GPRs as soon as possible to reduce the
		// number of vector ops.
		if (Match.getValueType().getVectorNumElements() < 2)
return SDValue();		return SDValue();

// Check that we are extracting a reduction of all sign bits.		// Check that we are extracting a reduction of all sign bits.
if (DAG.ComputeNumSignBits(Match) != BitWidth)		if (DAG.ComputeNumSignBits(Match) != BitWidth)
return SDValue();		return SDValue();

// For 32/64 bit comparisons use MOVMSKPS/MOVMSKPD, else PMOVMSKB.		// For 32/64 bit comparisons use MOVMSKPS/MOVMSKPD, else PMOVMSKB.
MVT MaskSrcVT;		MVT MaskSrcVT;
▲ Show 20 Lines • Show All 9,688 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-compare-all_of.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512

define i64 @test_v2f64_sext(<2 x double> %a0, <2 x double> %a1) {		define i64 @test_v2f64_sext(<2 x double> %a0, <2 x double> %a1) {
; SSE-LABEL: test_v2f64_sext:		; SSE-LABEL: test_v2f64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cmpltpd %xmm0, %xmm1		; SSE-NEXT: cmpltpd %xmm0, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE-NEXT: movmskpd %xmm1, %ecx
; SSE-NEXT: pand %xmm1, %xmm0		; SSE-NEXT: xorl %eax, %eax
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: cmpl $3, %ecx
		; SSE-NEXT: sete %al
		; SSE-NEXT: negq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v2f64_sext:		; AVX-LABEL: test_v2f64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vmovmskpd %xmm0, %ecx
; AVX-NEXT: vandpd %xmm1, %xmm0, %xmm0		; AVX-NEXT: xorl %eax, %eax
; AVX-NEXT: vmovq %xmm0, %rax		; AVX-NEXT: cmpl $3, %ecx
		; AVX-NEXT: sete %al
		; AVX-NEXT: negq %rax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f64_sext:		; AVX512-LABEL: test_v2f64_sext:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX512-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovq %xmm0, %rax		; AVX512-NEXT: vmovq %xmm0, %rax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%c = fcmp ogt <2 x double> %a0, %a1		%c = fcmp ogt <2 x double> %a0, %a1
%s = sext <2 x i1> %c to <2 x i64>		%s = sext <2 x i1> %c to <2 x i64>
%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>		%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
%2 = and <2 x i64> %s, %1		%2 = and <2 x i64> %s, %1
%3 = extractelement <2 x i64> %2, i32 0		%3 = extractelement <2 x i64> %2, i32 0
ret i64 %3		ret i64 %3
}		}

define i64 @test_v4f64_sext(<4 x double> %a0, <4 x double> %a1) {		define i64 @test_v4f64_sext(<4 x double> %a0, <4 x double> %a1) {
; SSE-LABEL: test_v4f64_sext:		; SSE-LABEL: test_v4f64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cmpltpd %xmm1, %xmm3		; SSE-NEXT: cmpltpd %xmm1, %xmm3
; SSE-NEXT: cmpltpd %xmm0, %xmm2		; SSE-NEXT: cmpltpd %xmm0, %xmm2
; SSE-NEXT: andpd %xmm3, %xmm2		; SSE-NEXT: andpd %xmm3, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]		; SSE-NEXT: movmskpd %xmm2, %ecx
; SSE-NEXT: pand %xmm2, %xmm0		; SSE-NEXT: xorl %eax, %eax
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: cmpl $3, %ecx
		; SSE-NEXT: sete %al
		; SSE-NEXT: negq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v4f64_sext:		; AVX-LABEL: test_v4f64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0		; AVX-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
; AVX-NEXT: vmovmskpd %ymm0, %ecx		; AVX-NEXT: vmovmskpd %ymm0, %ecx
; AVX-NEXT: xorl %eax, %eax		; AVX-NEXT: xorl %eax, %eax
; AVX-NEXT: cmpl $15, %ecx		; AVX-NEXT: cmpl $15, %ecx
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%8 = sext i16 %7 to i32		%8 = sext i16 %7 to i32
ret i32 %8		ret i32 %8
}		}

define i64 @test_v2i64_sext(<2 x i64> %a0, <2 x i64> %a1) {		define i64 @test_v2i64_sext(<2 x i64> %a0, <2 x i64> %a1) {
; SSE-LABEL: test_v2i64_sext:		; SSE-LABEL: test_v2i64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pcmpgtq %xmm1, %xmm0		; SSE-NEXT: pcmpgtq %xmm1, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: movmskpd %xmm0, %ecx
; SSE-NEXT: pand %xmm0, %xmm1		; SSE-NEXT: xorl %eax, %eax
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: cmpl $3, %ecx
		; SSE-NEXT: sete %al
		; SSE-NEXT: negq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v2i64_sext:		; AVX-LABEL: test_v2i64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX-NEXT: vmovmskpd %xmm0, %ecx
; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0		; AVX-NEXT: xorl %eax, %eax
; AVX-NEXT: vmovq %xmm0, %rax		; AVX-NEXT: cmpl $3, %ecx
		; AVX-NEXT: sete %al
		; AVX-NEXT: negq %rax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2i64_sext:		; AVX512-LABEL: test_v2i64_sext:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovq %xmm0, %rax		; AVX512-NEXT: vmovq %xmm0, %rax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%c = icmp sgt <2 x i64> %a0, %a1		%c = icmp sgt <2 x i64> %a0, %a1
%s = sext <2 x i1> %c to <2 x i64>		%s = sext <2 x i1> %c to <2 x i64>
%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>		%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
%2 = and <2 x i64> %s, %1		%2 = and <2 x i64> %s, %1
%3 = extractelement <2 x i64> %2, i32 0		%3 = extractelement <2 x i64> %2, i32 0
ret i64 %3		ret i64 %3
}		}

define i64 @test_v4i64_sext(<4 x i64> %a0, <4 x i64> %a1) {		define i64 @test_v4i64_sext(<4 x i64> %a0, <4 x i64> %a1) {
; SSE-LABEL: test_v4i64_sext:		; SSE-LABEL: test_v4i64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pcmpgtq %xmm3, %xmm1		; SSE-NEXT: pcmpgtq %xmm3, %xmm1
; SSE-NEXT: pcmpgtq %xmm2, %xmm0		; SSE-NEXT: pcmpgtq %xmm2, %xmm0
; SSE-NEXT: pand %xmm1, %xmm0		; SSE-NEXT: pand %xmm1, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: movmskpd %xmm0, %ecx
; SSE-NEXT: pand %xmm0, %xmm1		; SSE-NEXT: xorl %eax, %eax
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: cmpl $3, %ecx
		; SSE-NEXT: sete %al
		; SSE-NEXT: negq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: test_v4i64_sext:		; AVX1-LABEL: test_v4i64_sext:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
▲ Show 20 Lines • Show All 1,284 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-compare-any_of.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512

define i64 @test_v2f64_sext(<2 x double> %a0, <2 x double> %a1) {		define i64 @test_v2f64_sext(<2 x double> %a0, <2 x double> %a1) {
; SSE-LABEL: test_v2f64_sext:		; SSE-LABEL: test_v2f64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cmpltpd %xmm0, %xmm1		; SSE-NEXT: cmpltpd %xmm0, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE-NEXT: movmskpd %xmm1, %eax
; SSE-NEXT: por %xmm1, %xmm0		; SSE-NEXT: negl %eax
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: sbbq %rax, %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v2f64_sext:		; AVX-LABEL: test_v2f64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vmovmskpd %xmm0, %eax
; AVX-NEXT: vorpd %xmm1, %xmm0, %xmm0		; AVX-NEXT: negl %eax
; AVX-NEXT: vmovq %xmm0, %rax		; AVX-NEXT: sbbq %rax, %rax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f64_sext:		; AVX512-LABEL: test_v2f64_sext:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX512-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovq %xmm0, %rax		; AVX512-NEXT: vmovq %xmm0, %rax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%c = fcmp ogt <2 x double> %a0, %a1		%c = fcmp ogt <2 x double> %a0, %a1
%s = sext <2 x i1> %c to <2 x i64>		%s = sext <2 x i1> %c to <2 x i64>
%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>		%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
%2 = or <2 x i64> %s, %1		%2 = or <2 x i64> %s, %1
%3 = extractelement <2 x i64> %2, i32 0		%3 = extractelement <2 x i64> %2, i32 0
ret i64 %3		ret i64 %3
}		}

define i64 @test_v4f64_sext(<4 x double> %a0, <4 x double> %a1) {		define i64 @test_v4f64_sext(<4 x double> %a0, <4 x double> %a1) {
; SSE-LABEL: test_v4f64_sext:		; SSE-LABEL: test_v4f64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cmpltpd %xmm1, %xmm3		; SSE-NEXT: cmpltpd %xmm1, %xmm3
; SSE-NEXT: cmpltpd %xmm0, %xmm2		; SSE-NEXT: cmpltpd %xmm0, %xmm2
; SSE-NEXT: orpd %xmm3, %xmm2		; SSE-NEXT: orpd %xmm3, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]		; SSE-NEXT: movmskpd %xmm2, %eax
; SSE-NEXT: por %xmm2, %xmm0		; SSE-NEXT: negl %eax
; SSE-NEXT: movq %xmm0, %rax		; SSE-NEXT: sbbq %rax, %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v4f64_sext:		; AVX-LABEL: test_v4f64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0		; AVX-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
; AVX-NEXT: vmovmskpd %ymm0, %eax		; AVX-NEXT: vmovmskpd %ymm0, %eax
; AVX-NEXT: negl %eax		; AVX-NEXT: negl %eax
; AVX-NEXT: sbbq %rax, %rax		; AVX-NEXT: sbbq %rax, %rax
▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%8 = sext i16 %7 to i32		%8 = sext i16 %7 to i32
ret i32 %8		ret i32 %8
}		}

define i64 @test_v2i64_sext(<2 x i64> %a0, <2 x i64> %a1) {		define i64 @test_v2i64_sext(<2 x i64> %a0, <2 x i64> %a1) {
; SSE-LABEL: test_v2i64_sext:		; SSE-LABEL: test_v2i64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pcmpgtq %xmm1, %xmm0		; SSE-NEXT: pcmpgtq %xmm1, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: movmskpd %xmm0, %eax
; SSE-NEXT: por %xmm0, %xmm1		; SSE-NEXT: negl %eax
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: sbbq %rax, %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: test_v2i64_sext:		; AVX-LABEL: test_v2i64_sext:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX-NEXT: vmovmskpd %xmm0, %eax
; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0		; AVX-NEXT: negl %eax
; AVX-NEXT: vmovq %xmm0, %rax		; AVX-NEXT: sbbq %rax, %rax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2i64_sext:		; AVX512-LABEL: test_v2i64_sext:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovq %xmm0, %rax		; AVX512-NEXT: vmovq %xmm0, %rax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%c = icmp sgt <2 x i64> %a0, %a1		%c = icmp sgt <2 x i64> %a0, %a1
%s = sext <2 x i1> %c to <2 x i64>		%s = sext <2 x i1> %c to <2 x i64>
%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>		%1 = shufflevector <2 x i64> %s, <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
%2 = or <2 x i64> %s, %1		%2 = or <2 x i64> %s, %1
%3 = extractelement <2 x i64> %2, i32 0		%3 = extractelement <2 x i64> %2, i32 0
ret i64 %3		ret i64 %3
}		}

define i64 @test_v4i64_sext(<4 x i64> %a0, <4 x i64> %a1) {		define i64 @test_v4i64_sext(<4 x i64> %a0, <4 x i64> %a1) {
; SSE-LABEL: test_v4i64_sext:		; SSE-LABEL: test_v4i64_sext:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pcmpgtq %xmm3, %xmm1		; SSE-NEXT: pcmpgtq %xmm3, %xmm1
; SSE-NEXT: pcmpgtq %xmm2, %xmm0		; SSE-NEXT: pcmpgtq %xmm2, %xmm0
; SSE-NEXT: por %xmm1, %xmm0		; SSE-NEXT: por %xmm1, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: movmskpd %xmm0, %eax
; SSE-NEXT: por %xmm0, %xmm1		; SSE-NEXT: negl %eax
; SSE-NEXT: movq %xmm1, %rax		; SSE-NEXT: sbbq %rax, %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: test_v4i64_sext:		; AVX1-LABEL: test_v4i64_sext:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
▲ Show 20 Lines • Show All 1,248 Lines • Show Last 20 Lines