This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Combine UNPCKL with vector_shuffle into UNPCKH to save one instruction for sext from v16i8 to v16i16 and v8i16 to v8i32.
ClosedPublic

Authored by congh on Nov 5 2015, 2:52 PM.

Download Raw Diff

Details

Reviewers

RKSimon
davidxl
hfinkel
dexonsmith

Commits

rGef4074bac29b: [X86][SSE] Combine UNPCKL with vector_shuffle into UNPCKH to save one…
rL253067: [X86][SSE] Combine UNPCKL with vector_shuffle into UNPCKH to save one…

Summary

This patch is enabling combining UNPCKL with vector_shuffle that moves the upper half of a vector into the lower half, into a UNPCKH instruction. For example:

t2: v16i8 = vector_shuffle<8,9,10,11,12,13,14,15,u,u,u,u,u,u,u,u> t1,
    undef:v16i8
t3: v16i8 = X86ISD::UNPCKL undef:v16i8, t2

will be combined to:

t3: v16i8 = X86ISD::UNPCKH undef:v16i8, t1

Diff Detail

Repository: rL LLVM

Event Timeline

congh updated this revision to Diff 39423.Nov 5 2015, 2:52 PM

congh retitled this revision from to [X86][SSE] Combine UNPCKL with vector_shuffle into UNPCKH to save one instruction for sext from v16i8 to v16i16 and v8i16 to v8i32..

congh updated this object.

congh added reviewers: hfinkel, RKSimon, dexonsmith, davidxl.

congh updated this object.

congh added a subscriber: llvm-commits.

Please can you either add tests for 256-bit shuffles or (if you can't get this to occur) limit the combine to 128-bit vectors only?

In D14399#283403, @RKSimon wrote:

Please can you either add tests for 256-bit shuffles or (if you can't get this to occur) limit the combine to 128-bit vectors only?

This combine is not for AVX or couldn't happen on 256-bit: SSE4.1 provides pmovsxbw and pmovsxwd which are better than unpack+shift. As I could not compose test cases for 256-bit vectors, I still added a check of 128-bit vector in this patch. Thank you for the advice!

Update the patch according to Simon's comment by checking 128-bit vectors.

Correct the patch.

Ping?

Sorry for the delay, I've been away this week. I have a couple of minor queries but overall I'm happy with this patch (and the code improvements) - thank you.

lib/Target/X86/X86ISelLowering.cpp
22774 ↗	(On Diff #39564)	Are you just seeing cases with ISD::VECTOR_SHUFFLE? I'd have expected some to be using X86 shuffle nodes as well.
22782 ↗	(On Diff #39564)	auto ShufOp = Op1.getOperand(0);

This revision is now accepted and ready to land.Nov 13 2015, 10:10 AM

Thank you very much for the review, Simon!

lib/Target/X86/X86ISelLowering.cpp
22774 ↗	(On Diff #39564)	Yes. I could not see X86's shuffle from my experiments in which integers are promoted.

Closed by commit rL253067: [X86][SSE] Combine UNPCKL with vector_shuffle into UNPCKH to save one… (authored by conghou). · Explain WhyNov 13 2015, 11:50 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

35 lines

test/

CodeGen/

X86/

vec_int_to_fp.ll

12 lines

vector-sext.ll

12 lines

Diff 40165

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 22,854 Lines • ▼ Show 20 Lines	static SDValue PerformTargetShuffleCombine(SDValue N, SelectionDAG &DAG,

switch (N.getOpcode()) {		switch (N.getOpcode()) {
case X86ISD::PSHUFD:		case X86ISD::PSHUFD:
case X86ISD::PSHUFLW:		case X86ISD::PSHUFLW:
case X86ISD::PSHUFHW:		case X86ISD::PSHUFHW:
Mask = getPSHUFShuffleMask(N);		Mask = getPSHUFShuffleMask(N);
assert(Mask.size() == 4);		assert(Mask.size() == 4);
break;		break;
		case X86ISD::UNPCKL: {
		// Combine X86ISD::UNPCKL and ISD::VECTOR_SHUFFLE into X86ISD::UNPCKH, in
		// which X86ISD::UNPCKL has a ISD::UNDEF operand, and ISD::VECTOR_SHUFFLE
		// moves upper half elements into the lower half part. For example:
		//
		// t2: v16i8 = vector_shuffle<8,9,10,11,12,13,14,15,u,u,u,u,u,u,u,u> t1,
		// undef:v16i8
		// t3: v16i8 = X86ISD::UNPCKL undef:v16i8, t2
		//
		// will be combined to:
		//
		// t3: v16i8 = X86ISD::UNPCKH undef:v16i8, t1

		// This is only for 128-bit vectors. From SSE4.1 onward this combine may not
		// happen due to advanced instructions.
		if (!VT.is128BitVector())
		return SDValue();

		auto Op0 = N.getOperand(0);
		auto Op1 = N.getOperand(1);
		if (Op0.getOpcode() == ISD::UNDEF &&
		Op1.getNode()->getOpcode() == ISD::VECTOR_SHUFFLE) {
		ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(Op1.getNode())->getMask();

		unsigned NumElts = VT.getVectorNumElements();
		SmallVector<int, 8> ExpectedMask(NumElts, -1);
		std::iota(ExpectedMask.begin(), ExpectedMask.begin() + NumElts / 2,
		NumElts / 2);

		auto ShufOp = Op1.getOperand(0);
		if (isShuffleEquivalent(Op1, ShufOp, Mask, ExpectedMask))
		return DAG.getNode(X86ISD::UNPCKH, DL, VT, N.getOperand(0), ShufOp);
		}
		return SDValue();
		}
default:		default:
return SDValue();		return SDValue();
}		}

// Nuke no-op shuffles that show up after combining.		// Nuke no-op shuffles that show up after combining.
if (isNoopShuffleMask(Mask))		if (isNoopShuffleMask(Mask))
return DCI.CombineTo(N.getNode(), N.getOperand(0), /AddTo/ true);		return DCI.CombineTo(N.getNode(), N.getOperand(0), /AddTo/ true);

▲ Show 20 Lines • Show All 4,707 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 1,029 Lines • ▼ Show 20 Lines
	}			}

	define <8 x float> @sitofp_8i16_to_8f32(<8 x i16> %a) {			define <8 x float> @sitofp_8i16_to_8f32(<8 x i16> %a) {
	; SSE-LABEL: sitofp_8i16_to_8f32:			; SSE-LABEL: sitofp_8i16_to_8f32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE-NEXT: psrad $16, %xmm1			; SSE-NEXT: psrad $16, %xmm1
	; SSE-NEXT: cvtdq2ps %xmm1, %xmm2			; SSE-NEXT: cvtdq2ps %xmm1, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
	; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: cvtdq2ps %xmm0, %xmm1			; SSE-NEXT: cvtdq2ps %xmm0, %xmm1
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: sitofp_8i16_to_8f32:			; AVX1-LABEL: sitofp_8i16_to_8f32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm1			; AVX1-NEXT: vpmovsxwd %xmm0, %xmm1
	▲ Show 20 Lines • Show All 767 Lines • ▼ Show 20 Lines
	;			;

	%Arguments = type <{ <8 x i8>, <8 x i16>, <8 x float>* }>			%Arguments = type <{ <8 x i8>, <8 x i16>, <8 x float>* }>
	define void @aggregate_sitofp_8i16_to_8f32(%Arguments* nocapture readonly %a0) {			define void @aggregate_sitofp_8i16_to_8f32(%Arguments* nocapture readonly %a0) {
	; SSE-LABEL: aggregate_sitofp_8i16_to_8f32:			; SSE-LABEL: aggregate_sitofp_8i16_to_8f32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movq 24(%rdi), %rax			; SSE-NEXT: movq 24(%rdi), %rax
	; SSE-NEXT: movdqu 8(%rdi), %xmm0			; SSE-NEXT: movdqu 8(%rdi), %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3]
	; SSE-NEXT: psrad $16, %xmm1			; SSE-NEXT: psrad $16, %xmm1
	; SSE-NEXT: cvtdq2ps %xmm1, %xmm1			; SSE-NEXT: cvtdq2ps %xmm1, %xmm1
	; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: cvtdq2ps %xmm0, %xmm0			; SSE-NEXT: cvtdq2ps %xmm0, %xmm0
	; SSE-NEXT: movaps %xmm0, (%rax)			; SSE-NEXT: movaps %xmm0, 16(%rax)
	; SSE-NEXT: movaps %xmm1, 16(%rax)			; SSE-NEXT: movaps %xmm1, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: aggregate_sitofp_8i16_to_8f32:			; AVX1-LABEL: aggregate_sitofp_8i16_to_8f32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: movq 24(%rdi), %rax			; AVX1-NEXT: movq 24(%rdi), %rax
	; AVX1-NEXT: vmovdqu 8(%rdi), %xmm0			; AVX1-NEXT: vmovdqu 8(%rdi), %xmm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm1			; AVX1-NEXT: vpmovsxwd %xmm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	Show All 22 Lines

llvm/trunk/test/CodeGen/X86/vector-sext.ll

Show All 39 Lines	entry:
ret <8 x i16> %C		ret <8 x i16> %C
}		}

define <16 x i16> @sext_16i8_to_16i16(<16 x i8> %A) nounwind uwtable readnone ssp {		define <16 x i16> @sext_16i8_to_16i16(<16 x i8> %A) nounwind uwtable readnone ssp {
; SSE2-LABEL: sext_16i8_to_16i16:		; SSE2-LABEL: sext_16i8_to_16i16:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE2-NEXT: psraw $8, %xmm2		; SSE2-NEXT: psraw $8, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-NEXT: psraw $8, %xmm1		; SSE2-NEXT: psraw $8, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm0		; SSE2-NEXT: movdqa %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: sext_16i8_to_16i16:		; SSSE3-LABEL: sext_16i8_to_16i16:
; SSSE3: # BB#0: # %entry		; SSSE3: # BB#0: # %entry
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSSE3-NEXT: psraw $8, %xmm2		; SSSE3-NEXT: psraw $8, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSSE3-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSSE3-NEXT: psraw $8, %xmm1		; SSSE3-NEXT: psraw $8, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm0		; SSSE3-NEXT: movdqa %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: sext_16i8_to_16i16:		; SSE41-LABEL: sext_16i8_to_16i16:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pmovsxbw %xmm0, %xmm2		; SSE41-NEXT: pmovsxbw %xmm0, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines	entry:
ret <4 x i32> %C		ret <4 x i32> %C
}		}

define <8 x i32> @sext_8i16_to_8i32(<8 x i16> %A) nounwind uwtable readnone ssp {		define <8 x i32> @sext_8i16_to_8i32(<8 x i16> %A) nounwind uwtable readnone ssp {
; SSE2-LABEL: sext_8i16_to_8i32:		; SSE2-LABEL: sext_8i16_to_8i32:
; SSE2: # BB#0: # %entry		; SSE2: # BB#0: # %entry
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSE2-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm0		; SSE2-NEXT: movdqa %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: sext_8i16_to_8i32:		; SSSE3-LABEL: sext_8i16_to_8i32:
; SSSE3: # BB#0: # %entry		; SSSE3: # BB#0: # %entry
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSSE3-NEXT: psrad $16, %xmm2		; SSSE3-NEXT: psrad $16, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSSE3-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: psrad $16, %xmm1		; SSSE3-NEXT: psrad $16, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm0		; SSSE3-NEXT: movdqa %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: sext_8i16_to_8i32:		; SSE41-LABEL: sext_8i16_to_8i32:
; SSE41: # BB#0: # %entry		; SSE41: # BB#0: # %entry
; SSE41-NEXT: pmovsxwd %xmm0, %xmm2		; SSE41-NEXT: pmovsxwd %xmm0, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
▲ Show 20 Lines • Show All 3,478 Lines • Show Last 20 Lines