This is an archive of the discontinued LLVM Phabricator instance.

[X86] Rework the logic in LowerBuildVectorv16i8 to make better use of any_extend and break false dependencies. Other improvements
ClosedPublic

Authored by craig.topper on Jun 23 2019, 11:43 PM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon

Commits

rG3d12971e1c2f: [X86] Rework the logic in LowerBuildVectorv16i8 to make better use of…
rL364469: [X86] Rework the logic in LowerBuildVectorv16i8 to make better use of…

Summary

This patch rewrites the loop iteration to only visit every other element starting with element 0. And we work on the "even" element and "next" element at the same time. The "First" logic has been moved to the bottom of the loop and doesn't run on every element. I believe it could create dangling nodes previously since we didn't check if we were going to use SCALAR_TO_VECTOR for the first insertion. I got rid of the "First" variable and just do a null check on V which should be equivalent. We also no longer use undef as the starting V for vectors with no zeroes to avoid false dependencies. This matches v8i16.

I've changed all the extends and OR operations to use MVT::i32 since that's what they'll be promoted to anyway. I've tried to use zero_extend only when necessary and use any_extend otherwise. This resulted in some improvements in tests where we are now able to promote aligned (i32 (extload i8)) to a 32-bit load.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Jun 23 2019, 11:43 PM

Herald added a project: Restricted Project. · View Herald TranscriptJun 23 2019, 11:44 PM

Herald added a subscriber: hiraditya. · View Herald Transcript

craig.topper added a parent revision: D63700: [X86] Don't a vzext_movl in LowerBuildVectorv16i8/LowerBuildVectorv8i16 if there are no zeroes in the vector we're building..Jun 23 2019, 11:44 PM

LGTM - cheers

This revision is now accepted and ready to land.Jun 26 2019, 11:24 AM

Closed by commit rL364469: [X86] Rework the logic in LowerBuildVectorv16i8 to make better use of… (authored by ctopper). · Explain WhyJun 26 2019, 1:17 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

72 lines

test/

CodeGen/

X86/

buildvec-insertvec.ll

13 lines

promote-vec3.ll

9 lines

vector-shuffle-128-v16.ll

3 lines

widen_conv-3.ll

2 lines

Diff 206733

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,169 Lines • ▼ Show 20 Lines	static SDValue LowerBuildVectorv16i8(SDValue Op, unsigned NonZeros,

// SSE4.1 - use PINSRB to insert each byte directly.		// SSE4.1 - use PINSRB to insert each byte directly.
if (Subtarget.hasSSE41())		if (Subtarget.hasSSE41())
return LowerBuildVectorAsInsert(Op, NonZeros, NumNonZero, NumZero, DAG,		return LowerBuildVectorAsInsert(Op, NonZeros, NumNonZero, NumZero, DAG,
Subtarget);		Subtarget);

SDLoc dl(Op);		SDLoc dl(Op);
SDValue V;		SDValue V;
bool First = true;

// Pre-SSE4.1 - merge byte pairs and insert with PINSRW.		// Pre-SSE4.1 - merge byte pairs and insert with PINSRW.
for (unsigned i = 0; i < 16; ++i) {		for (unsigned i = 0; i < 16; i += 2) {
bool ThisIsNonZero = (NonZeros & (1 << i)) != 0;		bool ThisIsNonZero = (NonZeros & (1 << i)) != 0;
if (ThisIsNonZero && First) {		bool NextIsNonZero = (NonZeros & (1 << (i + 1))) != 0;
if (NumZero)		if (!ThisIsNonZero && !NextIsNonZero)
V = getZeroVector(MVT::v8i16, Subtarget, DAG, dl);		continue;
else
V = DAG.getUNDEF(MVT::v8i16);
First = false;
}

if ((i & 1) != 0) {
// FIXME: Investigate extending to i32 instead of just i16.
// FIXME: Investigate combining the first 4 bytes as a i32 instead.		// FIXME: Investigate combining the first 4 bytes as a i32 instead.
SDValue ThisElt, LastElt;		SDValue Elt;
bool LastIsNonZero = (NonZeros & (1 << (i - 1))) != 0;
if (LastIsNonZero) {
LastElt =
DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Op.getOperand(i - 1));
}
if (ThisIsNonZero) {		if (ThisIsNonZero) {
ThisElt = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Op.getOperand(i));		if (NumZero \|\| NextIsNonZero)
ThisElt = DAG.getNode(ISD::SHL, dl, MVT::i16, ThisElt,		Elt = DAG.getZExtOrTrunc(Op.getOperand(i), dl, MVT::i32);
		else
		Elt = DAG.getAnyExtOrTrunc(Op.getOperand(i), dl, MVT::i32);
		}

		if (NextIsNonZero) {
		SDValue NextElt;
		if (i == 0 && NumZero)
		NextElt = DAG.getZExtOrTrunc(Op.getOperand(i+1), dl, MVT::i32);
		else
		NextElt = DAG.getAnyExtOrTrunc(Op.getOperand(i+1), dl, MVT::i32);
		NextElt = DAG.getNode(ISD::SHL, dl, MVT::i32, NextElt,
DAG.getConstant(8, dl, MVT::i8));		DAG.getConstant(8, dl, MVT::i8));
if (LastIsNonZero)		if (ThisIsNonZero)
ThisElt = DAG.getNode(ISD::OR, dl, MVT::i16, ThisElt, LastElt);		Elt = DAG.getNode(ISD::OR, dl, MVT::i32, NextElt, Elt);
} else		else
ThisElt = LastElt;		Elt = NextElt;
		}

if (ThisElt) {		// If our first insertion is not the first index then insert into zero
if (1 == i) {		// vector to break any register dependency else use SCALAR_TO_VECTOR.
V = NumZero ? DAG.getZExtOrTrunc(ThisElt, dl, MVT::i32)		if (!V) {
: DAG.getAnyExtOrTrunc(ThisElt, dl, MVT::i32);		if (i != 0)
V = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v4i32, V);		V = getZeroVector(MVT::v8i16, Subtarget, DAG, dl);
if (NumZero)		else {
V = DAG.getNode(X86ISD::VZEXT_MOVL, dl, MVT::v4i32, V);		V = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v4i32, Elt);
V = DAG.getBitcast(MVT::v8i16, V);		V = DAG.getBitcast(MVT::v8i16, V);
} else {		continue;
V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, MVT::v8i16, V, ThisElt,
DAG.getIntPtrConstant(i / 2, dl));
}
}		}
}		}
		Elt = DAG.getNode(ISD::TRUNCATE, dl, MVT::i16, Elt);
		V = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, MVT::v8i16, V, Elt,
		DAG.getIntPtrConstant(i / 2, dl));
}		}

return DAG.getBitcast(MVT::v16i8, V);		return DAG.getBitcast(MVT::v16i8, V);
}		}

/// Custom lower build_vector of v8i16.		/// Custom lower build_vector of v8i16.
static SDValue LowerBuildVectorv8i16(SDValue Op, unsigned NonZeros,		static SDValue LowerBuildVectorv8i16(SDValue Op, unsigned NonZeros,
unsigned NumNonZero, unsigned NumZero,		unsigned NumNonZero, unsigned NumZero,
▲ Show 20 Lines • Show All 37,886 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/buildvec-insertvec.ll

Show First 20 Lines • Show All 407 Lines • ▼ Show 20 Lines	; SSE41-NEXT: retq
%ins14 = insertelement <16 x i8> %ins13, i8 %a14, i32 14		%ins14 = insertelement <16 x i8> %ins13, i8 %a14, i32 14
%ins15 = insertelement <16 x i8> %ins14, i8 %a15, i32 15		%ins15 = insertelement <16 x i8> %ins14, i8 %a15, i32 15
ret <16 x i8> %ins15		ret <16 x i8> %ins15
}		}

define <16 x i8> @test_buildvector_v16i8_partial(i8 %a2, i8 %a6, i8 %a8, i8 %a11, i8 %a12, i8 %a15) {		define <16 x i8> @test_buildvector_v16i8_partial(i8 %a2, i8 %a6, i8 %a8, i8 %a11, i8 %a12, i8 %a15) {
; SSE2-LABEL: test_buildvector_v16i8_partial:		; SSE2-LABEL: test_buildvector_v16i8_partial:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movzbl %dil, %eax		; SSE2-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: pinsrw $1, %eax, %xmm0		; SSE2-NEXT: pinsrw $1, %edi, %xmm0
; SSE2-NEXT: movzbl %sil, %eax		; SSE2-NEXT: pinsrw $3, %esi, %xmm0
; SSE2-NEXT: pinsrw $3, %eax, %xmm0		; SSE2-NEXT: pinsrw $4, %edx, %xmm0
; SSE2-NEXT: movzbl %dl, %eax
; SSE2-NEXT: pinsrw $4, %eax, %xmm0
; SSE2-NEXT: shll $8, %ecx		; SSE2-NEXT: shll $8, %ecx
; SSE2-NEXT: pinsrw $5, %ecx, %xmm0		; SSE2-NEXT: pinsrw $5, %ecx, %xmm0
; SSE2-NEXT: movzbl %r8b, %eax		; SSE2-NEXT: pinsrw $6, %r8d, %xmm0
; SSE2-NEXT: pinsrw $6, %eax, %xmm0
; SSE2-NEXT: shll $8, %r9d		; SSE2-NEXT: shll $8, %r9d
; SSE2-NEXT: pinsrw $7, %r9d, %xmm0		; SSE2-NEXT: pinsrw $7, %r9d, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_buildvector_v16i8_partial:		; SSE41-LABEL: test_buildvector_v16i8_partial:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pxor %xmm0, %xmm0		; SSE41-NEXT: pxor %xmm0, %xmm0
; SSE41-NEXT: pinsrb $2, %edi, %xmm0		; SSE41-NEXT: pinsrb $2, %edi, %xmm0
▲ Show 20 Lines • Show All 140 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/promote-vec3.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; AVX-64-NEXT: retq			; AVX-64-NEXT: retq
	%2 = zext <3 x i8> %0 to <3 x i16>			%2 = zext <3 x i8> %0 to <3 x i16>
	ret <3 x i16> %2			ret <3 x i16> %2
	}			}

	define <3 x i16> @sext_i8(<3 x i8>) {			define <3 x i16> @sext_i8(<3 x i8>) {
	; SSE3-LABEL: sext_i8:			; SSE3-LABEL: sext_i8:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; SSE3-NEXT: movl {{[0-9]+}}(%esp), %eax
	; SSE3-NEXT: movzbl {{[0-9]+}}(%esp), %ecx			; SSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE3-NEXT: movzbl {{[0-9]+}}(%esp), %edx			; SSE3-NEXT: pinsrw $1, %eax, %xmm0
	; SSE3-NEXT: movd %edx, %xmm0			; SSE3-NEXT: movl {{[0-9]+}}(%esp), %eax
	; SSE3-NEXT: pinsrw $1, %ecx, %xmm0
	; SSE3-NEXT: pinsrw $2, %eax, %xmm0			; SSE3-NEXT: pinsrw $2, %eax, %xmm0
	; SSE3-NEXT: psllw $8, %xmm0			; SSE3-NEXT: psllw $8, %xmm0
	; SSE3-NEXT: psraw $8, %xmm0			; SSE3-NEXT: psraw $8, %xmm0
	; SSE3-NEXT: pextrw $0, %xmm0, %eax			; SSE3-NEXT: pextrw $0, %xmm0, %eax
	; SSE3-NEXT: pextrw $1, %xmm0, %edx			; SSE3-NEXT: pextrw $1, %xmm0, %edx
	; SSE3-NEXT: pextrw $2, %xmm0, %ecx			; SSE3-NEXT: pextrw $2, %xmm0, %ecx
	; SSE3-NEXT: # kill: def $ax killed $ax killed $eax			; SSE3-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE3-NEXT: # kill: def $dx killed $dx killed $edx			; SSE3-NEXT: # kill: def $dx killed $dx killed $edx
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v16.ll

	Show First 20 Lines • Show All 2,039 Lines • ▼ Show 20 Lines

	define <16 x i8> @PR31364(i8* nocapture readonly %a, i8* nocapture readonly %b) {			define <16 x i8> @PR31364(i8* nocapture readonly %a, i8* nocapture readonly %b) {
	; SSE2-LABEL: PR31364:			; SSE2-LABEL: PR31364:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movzbl (%rsi), %ecx			; SSE2-NEXT: movzbl (%rsi), %ecx
	; SSE2-NEXT: shll $8, %ecx			; SSE2-NEXT: shll $8, %ecx
	; SSE2-NEXT: orl %eax, %ecx			; SSE2-NEXT: orl %eax, %ecx
	; SSE2-NEXT: movzwl %cx, %eax			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[1,1,1,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[1,1,1,3,4,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[1,1,1,1,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[1,1,1,1,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,5,4,4,4]			; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,5,4,4,4]
	; SSE2-NEXT: packuswb %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm1, %xmm0
	▲ Show 20 Lines • Show All 103 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/widen_conv-3.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X86-SSE2-NEXT: movzwl (%ecx), %edx			; X86-SSE2-NEXT: movzwl (%ecx), %edx
	; X86-SSE2-NEXT: movd %edx, %xmm0			; X86-SSE2-NEXT: movd %edx, %xmm0
	; X86-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X86-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X86-SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; X86-SSE2-NEXT: movdqa %xmm0, (%esp)			; X86-SSE2-NEXT: movdqa %xmm0, (%esp)
	; X86-SSE2-NEXT: movl (%esp), %edx			; X86-SSE2-NEXT: movl (%esp), %edx
	; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-SSE2-NEXT: shll $8, %edx			; X86-SSE2-NEXT: shll $8, %edx
				; X86-SSE2-NEXT: pxor %xmm0, %xmm0
	; X86-SSE2-NEXT: pinsrw $1, %edx, %xmm0			; X86-SSE2-NEXT: pinsrw $1, %edx, %xmm0
	; X86-SSE2-NEXT: shll $8, %esi			; X86-SSE2-NEXT: shll $8, %esi
	; X86-SSE2-NEXT: pinsrw $3, %esi, %xmm0			; X86-SSE2-NEXT: pinsrw $3, %esi, %xmm0
	; X86-SSE2-NEXT: movzbl 2(%ecx), %ecx			; X86-SSE2-NEXT: movzbl 2(%ecx), %ecx
	; X86-SSE2-NEXT: shll $8, %ecx			; X86-SSE2-NEXT: shll $8, %ecx
	; X86-SSE2-NEXT: pinsrw $5, %ecx, %xmm0			; X86-SSE2-NEXT: pinsrw $5, %ecx, %xmm0
	; X86-SSE2-NEXT: psrad $24, %xmm0			; X86-SSE2-NEXT: psrad $24, %xmm0
	; X86-SSE2-NEXT: cvtdq2ps %xmm0, %xmm0			; X86-SSE2-NEXT: cvtdq2ps %xmm0, %xmm0
	Show All 32 Lines
	; X64-SSE2-NEXT: movzwl (%rsi), %eax			; X64-SSE2-NEXT: movzwl (%rsi), %eax
	; X64-SSE2-NEXT: movd %eax, %xmm0			; X64-SSE2-NEXT: movd %eax, %xmm0
	; X64-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X64-SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; X64-SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)			; X64-SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; X64-SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; X64-SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %eax
	; X64-SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %ecx			; X64-SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %ecx
	; X64-SSE2-NEXT: shll $8, %eax			; X64-SSE2-NEXT: shll $8, %eax
				; X64-SSE2-NEXT: pxor %xmm0, %xmm0
	; X64-SSE2-NEXT: pinsrw $1, %eax, %xmm0			; X64-SSE2-NEXT: pinsrw $1, %eax, %xmm0
	; X64-SSE2-NEXT: shll $8, %ecx			; X64-SSE2-NEXT: shll $8, %ecx
	; X64-SSE2-NEXT: pinsrw $3, %ecx, %xmm0			; X64-SSE2-NEXT: pinsrw $3, %ecx, %xmm0
	; X64-SSE2-NEXT: movzbl 2(%rsi), %eax			; X64-SSE2-NEXT: movzbl 2(%rsi), %eax
	; X64-SSE2-NEXT: shll $8, %eax			; X64-SSE2-NEXT: shll $8, %eax
	; X64-SSE2-NEXT: pinsrw $5, %eax, %xmm0			; X64-SSE2-NEXT: pinsrw $5, %eax, %xmm0
	; X64-SSE2-NEXT: psrad $24, %xmm0			; X64-SSE2-NEXT: psrad $24, %xmm0
	; X64-SSE2-NEXT: cvtdq2ps %xmm0, %xmm0			; X64-SSE2-NEXT: cvtdq2ps %xmm0, %xmm0
	Show All 24 Lines