This is an archive of the discontinued LLVM Phabricator instance.

[CodeGen] Replace the outgoing chain when reusing stores for extractelt expansion.
ClosedPublic

Authored by ab on Mar 9 2015, 1:26 PM.

Download Raw Diff

Details

Reviewers

Commits

rGc809761dc069: [CodeGen] Replace the reused stores' chain for extractelt expansion.
rL231721: [CodeGen] Replace the reused stores' chain for extractelt expansion.

Summary

This fixes a subtle issue that was introduced in r205153 [0].

When reusing a store for the extractelement expansion (to load directly from it, inserting of going through the stack), later stores to the same location might have overwritten the data we were expecting to extract from. To fix that, we need to explicitly replace the chain going out of the reused store, so that later stores also depend on the generated element-extracting loads.

Here's a small annotated testcase, convoluted as it may be (any simpler and we're able to realize this is just a vector shuffle):

typedef int32_t v4i32 __attribute__ ((vector_size (16)));

void test(int32_t *x, int32_t *y, int i) {
  v4i32 b = (*(v4i32*)y);
  x[i*4 + 1] = b[i*4 + 0];
  x[i*4 + 0] = b[i*4 + 1];
}

Let's assume i is dynamically always 0. Consider the case where x == y. The function then does something like the swap pattern:

b = *x;
x[1] = b[0];
x[0] = b[1];

The compiler used to generate:

movl    8(%ebp), %eax        ; eax <- x
movl    16(%ebp), %ecx       ; ecx <- i
movl    12(%ebp), %edx       ; edx <- y
movaps  (%edx), %xmm0        ; b <- *y

movaps  %xmm0, -40(%ebp)     ; tmp = b
shll    $4, %ecx             ; ecx <- ecx * 4;  ecx = i = 0
leal    -40(%ebp), %edx      ;
movl    (%ecx,%edx), %edx    ; edx <- tmp[0]
movl    %edx, 4(%eax,%ecx)   ; x[1] = tmp[0] = b[0]
movaps  %xmm0, -24(%ebp)     ; tmp2 = b
leal    -24(%ebp), %edx      ;
movl    4(%ecx,%edx), %edx   ; edx <- tmp2[1]
movl    %edx, (%eax,%ecx)    ; x[0] = tmp2[1] = b[1]

The new code however is sometimes problematic:

movl    8(%ebp), %eax        ; eax <- x
movl    16(%ebp), %ecx       ; ecx <- i
movl    12(%ebp), %edx       ; edx <- y
movaps  (%edx), %xmm0        ; b <- *y

movaps  %xmm0, -24(%ebp)     ; tmp = b
shll    $4, %ecx             ; ecx <- ecx * 4;  ecx = i = 0
leal    -24(%ebp), %edx      ;
movl    (%ecx,%edx), %esi    ; esi <- tmp[0]
movl    %esi, 4(%eax,%ecx)   ; 
movl    4(%ecx,%edx), %edx   ; edx <- tmp[0]
movl    %edx, (%eax,%ecx)    ; x[0] = tmp[0]

Broadcasting x[0].

[0] Quoting:

Make use of previously generated stores in SelectionDAGLegalize::ExpandExtractFromVectorThroughStack

When expanding EXTRACT_VECTOR_ELT and EXTRACT_SUBVECTOR using
SelectionDAGLegalize::ExpandExtractFromVectorThroughStack, we store the entire
vector and then load the piece we want. This is fine in isolation, but
generating a new store (and corresponding stack slot) for each extraction ends
up producing code of poor quality. When we scalarize a vector operation (using
SelectionDAG::UnrollVectorOp for example) we generate one EXTRACT_VECTOR_ELT
for each element in the vector. This used to generate one stored copy of the
vector for each element in the vector. Now we search the uses of the vector for
a suitable store before generating a new one, which results in much more
efficient scalarization code.

Diff Detail

Repository: rL LLVM

Event Timeline

ab updated this revision to Diff 21506.Mar 9 2015, 1:26 PM

ab retitled this revision from to [CodeGen] Replace the outgoing chain when reusing stores for extractelt expansion..

ab updated this object.

ab edited the test plan for this revision. (Show Details)

ab added a reviewer: hfinkel.

ab added a subscriber: Unknown Object (MLST).

LGTM (with simplification mentioned below), thanks for catching this!

lib/CodeGen/SelectionDAG/LegalizeDAG.cpp
1460 ↗	(On Diff #21506)	This code can be: SmallVector<SDValue, 6> NewLoadOperands(Node->op_begin(), Node->op_end()); NewLoadOperands[0] = Ch;

This revision is now accepted and ready to land.Mar 9 2015, 2:40 PM

Closed by commit rL231721: [CodeGen] Replace the reused stores' chain for extractelt expansion. (authored by ab). · Explain WhyMar 9 2015, 3:53 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

LegalizeDAG.cpp

26 lines

test/

CodeGen/

X86/

extractelement-legalization-store-ordering.ll

57 lines

vector-idiv.ll

250 lines

Diff 21526

llvm/trunk/lib/CodeGen/SelectionDAG/LegalizeDAG.cpp

Show First 20 Lines • Show All 1,436 Lines • ▼ Show 20 Lines	SDValue SelectionDAGLegalize::ExpandExtractFromVectorThroughStack(SDValue Op) {
unsigned EltSize =		unsigned EltSize =
Vec.getValueType().getVectorElementType().getSizeInBits()/8;		Vec.getValueType().getVectorElementType().getSizeInBits()/8;
Idx = DAG.getNode(ISD::MUL, dl, Idx.getValueType(), Idx,		Idx = DAG.getNode(ISD::MUL, dl, Idx.getValueType(), Idx,
DAG.getConstant(EltSize, Idx.getValueType()));		DAG.getConstant(EltSize, Idx.getValueType()));

Idx = DAG.getZExtOrTrunc(Idx, dl, TLI.getPointerTy());		Idx = DAG.getZExtOrTrunc(Idx, dl, TLI.getPointerTy());
StackPtr = DAG.getNode(ISD::ADD, dl, Idx.getValueType(), Idx, StackPtr);		StackPtr = DAG.getNode(ISD::ADD, dl, Idx.getValueType(), Idx, StackPtr);

		SDValue NewLoad;

if (Op.getValueType().isVector())		if (Op.getValueType().isVector())
return DAG.getLoad(Op.getValueType(), dl, Ch, StackPtr,MachinePointerInfo(),		NewLoad = DAG.getLoad(Op.getValueType(), dl, Ch, StackPtr,
false, false, false, 0);		MachinePointerInfo(), false, false, false, 0);
return DAG.getExtLoad(ISD::EXTLOAD, dl, Op.getValueType(), Ch, StackPtr,		else
MachinePointerInfo(),		NewLoad = DAG.getExtLoad(
Vec.getValueType().getVectorElementType(),		ISD::EXTLOAD, dl, Op.getValueType(), Ch, StackPtr, MachinePointerInfo(),
false, false, false, 0);		Vec.getValueType().getVectorElementType(), false, false, false, 0);

		// Replace the chain going out of the store, by the one out of the load.
		DAG.ReplaceAllUsesOfValueWith(Ch, SDValue(NewLoad.getNode(), 1));

		// We introduced a cycle though, so update the loads operands, making sure
		// to use the original store's chain as an incoming chain.
		SmallVector<SDValue, 6> NewLoadOperands(NewLoad->op_begin(),
		NewLoad->op_end());
		NewLoadOperands[0] = Ch;
		NewLoad =
		SDValue(DAG.UpdateNodeOperands(NewLoad.getNode(), NewLoadOperands), 0);
		return NewLoad;
}		}

SDValue SelectionDAGLegalize::ExpandInsertToVectorThroughStack(SDValue Op) {		SDValue SelectionDAGLegalize::ExpandInsertToVectorThroughStack(SDValue Op) {
assert(Op.getValueType().isVector() && "Non-vector insert subvector!");		assert(Op.getValueType().isVector() && "Non-vector insert subvector!");

SDValue Vec = Op.getOperand(0);		SDValue Vec = Op.getOperand(0);
SDValue Part = Op.getOperand(1);		SDValue Part = Op.getOperand(1);
SDValue Idx = Op.getOperand(2);		SDValue Idx = Op.getOperand(2);
▲ Show 20 Lines • Show All 2,801 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/extractelement-legalization-store-ordering.ll

				; RUN: llc < %s -mtriple i386-apple-darwin -mcpu=yonah \| FileCheck %s

				target datalayout = "e-m:o-p:32:32-f64:32:64-f80:128-n8:16:32-S128"

				; Make sure we don't break load/store ordering when turning an extractelement
				; into loads, off the stack or a previous store.
				; Be very explicit about the ordering/stack offsets.

				; CHECK-LABEL: test_extractelement_legalization_storereuse:
				; CHECK: # BB#0
				; CHECK-NEXT: pushl %ebx
				; CHECK-NEXT: pushl %edi
				; CHECK-NEXT: pushl %esi
				; CHECK-NEXT: movl 16(%esp), %eax
				; CHECK-NEXT: movl 24(%esp), %ecx
				; CHECK-NEXT: movl 20(%esp), %edx
				; CHECK-NEXT: paddd (%edx), %xmm0
				; CHECK-NEXT: movdqa %xmm0, (%edx)
				; CHECK-NEXT: shll $4, %ecx
				; CHECK-NEXT: movl (%ecx,%edx), %esi
				; CHECK-NEXT: movl 12(%ecx,%edx), %edi
				; CHECK-NEXT: movl 8(%ecx,%edx), %ebx
				; CHECK-NEXT: movl 4(%ecx,%edx), %edx
				; CHECK-NEXT: movl %esi, 12(%eax,%ecx)
				; CHECK-NEXT: movl %edx, (%eax,%ecx)
				; CHECK-NEXT: movl %ebx, 8(%eax,%ecx)
				; CHECK-NEXT: movl %edi, 4(%eax,%ecx)
				; CHECK-NEXT: popl %esi
				; CHECK-NEXT: popl %edi
				; CHECK-NEXT: popl %ebx
				; CHECK-NEXT: retl
				define void @test_extractelement_legalization_storereuse(<4 x i32> %a, i32* nocapture %x, i32* nocapture readonly %y, i32 %i) #0 {
				entry:
				%0 = bitcast i32* %y to <4 x i32>*
				%1 = load <4 x i32>, <4 x i32>* %0, align 16
				%am = add <4 x i32> %a, %1
				store <4 x i32> %am, <4 x i32>* %0, align 16
				%ip0 = shl nsw i32 %i, 2
				%ip1 = or i32 %ip0, 1
				%ip2 = or i32 %ip0, 2
				%ip3 = or i32 %ip0, 3
				%vecext = extractelement <4 x i32> %am, i32 %ip0
				%arrayidx = getelementptr inbounds i32, i32* %x, i32 %ip3
				store i32 %vecext, i32* %arrayidx, align 4
				%vecext5 = extractelement <4 x i32> %am, i32 %ip1
				%arrayidx8 = getelementptr inbounds i32, i32* %x, i32 %ip0
				store i32 %vecext5, i32* %arrayidx8, align 4
				%vecext11 = extractelement <4 x i32> %am, i32 %ip2
				%arrayidx14 = getelementptr inbounds i32, i32* %x, i32 %ip2
				store i32 %vecext11, i32* %arrayidx14, align 4
				%vecext17 = extractelement <4 x i32> %am, i32 %ip3
				%arrayidx20 = getelementptr inbounds i32, i32* %x, i32 %ip1
				store i32 %vecext17, i32* %arrayidx20, align 4
				ret void
				}

				attributes #0 = { nounwind }

llvm/trunk/test/CodeGen/X86/vector-idiv.ll

	Show First 20 Lines • Show All 454 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addb %cl, %al			; SSE41-NEXT: addb %cl, %al
	; SSE41-NEXT: movzbl %al, %eax			; SSE41-NEXT: movzbl %al, %eax
	; SSE41-NEXT: pinsrb $15, %eax, %xmm1			; SSE41-NEXT: pinsrb $15, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE-LABEL: test7:			; SSE-LABEL: test7:
	; SSE: # BB#0:			; SSE: # BB#0:
				; SSE-NEXT: pushq %rbp
				; SSE-NEXT: pushq %r14
				; SSE-NEXT: pushq %rbx
	; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: imull $-109, %eax, %ecx
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: shrl $8, %ecx
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: movb %cl, %al
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: shrb $7, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: sarb $2, %cl
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %cl
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
				; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %r14d
				; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %edx
				; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %r9d
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %r11d
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %r8d
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: imull $-109, %esi, %edi
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: shrl $8, %edi
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %sil, %dil
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movb %dil, %bl
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: shrb $7, %bl
				; SSE-NEXT: sarb $2, %dil
				; SSE-NEXT: addb %bl, %dil
				; SSE-NEXT: movzbl %dil, %esi
				; SSE-NEXT: movd %esi, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %eax, %esi
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %esi
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %al, %sil
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %sil, %al
	; SSE-NEXT: movb %cl, %al
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: shrb $7, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: sarb $2, %sil
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %sil
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movzbl %sil, %eax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %ebp
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %r10d
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %edi
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: imull $-109, %edi, %ebx
				; SSE-NEXT: shrl $8, %ebx
				; SSE-NEXT: addb %dil, %bl
				; SSE-NEXT: movb %bl, %al
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: shrb $7, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: sarb $2, %bl
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %bl
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movzbl %bl, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %edx, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %dl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %esi, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %sil, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %dl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %ecx, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %cl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
				; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: imull $-109, %eax, %edx
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: shrl $8, %edx
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: movb %dl, %al
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: shrb $7, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: sarb $2, %dl
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %dl
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movzbl %dl, %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %r14d, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %r14b, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %dl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %ebp, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %bpl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %dl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %r11d, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %r11b, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %dl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %dl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %dl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %ecx, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %cl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %r9d, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %r9b, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %cl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %r10d, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %r10b, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %cl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: imull $-109, %r8d, %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: shrl $8, %eax
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: addb %r8b, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: shrb $7, %cl
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: sarb $2, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: addb %cl, %al
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: movzbl %al, %eax
	; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm4			; SSE-NEXT: movd %eax, %xmm4
	; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movsbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: imull $-109, %eax, %ecx			; SSE-NEXT: imull $-109, %eax, %ecx
	; SSE-NEXT: shrl $8, %ecx			; SSE-NEXT: shrl $8, %ecx
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %cl
	; SSE-NEXT: movb %cl, %al			; SSE-NEXT: movb %cl, %al
	; SSE-NEXT: shrb $7, %al			; SSE-NEXT: shrb $7, %al
	; SSE-NEXT: sarb $2, %cl			; SSE-NEXT: sarb $2, %cl
	; SSE-NEXT: addb %al, %cl			; SSE-NEXT: addb %al, %cl
	; SSE-NEXT: movzbl %cl, %eax			; SSE-NEXT: movzbl %cl, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
				; SSE-NEXT: popq %rbx
				; SSE-NEXT: popq %r14
				; SSE-NEXT: popq %rbp
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test7:			; AVX-LABEL: test7:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrb $1, %xmm0, %eax			; AVX-NEXT: vpextrb $1, %xmm0, %eax
	; AVX-NEXT: movsbl %al, %eax			; AVX-NEXT: movsbl %al, %eax
	; AVX-NEXT: imull $-109, %eax, %ecx			; AVX-NEXT: imull $-109, %eax, %ecx
	; AVX-NEXT: shrl $8, %ecx			; AVX-NEXT: shrl $8, %ecx
	▲ Show 20 Lines • Show All 621 Lines • Show Last 20 Lines