This is an archive of the discontinued LLVM Phabricator instance.

[LegalizeVectorOps][X86] Don't defer BITREVERSE expansion to LegalizeDAG.
ClosedPublic

Authored by craig.topper on Oct 21 2021, 11:30 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel
pengfei

Commits

rGff37b1105d6e: [LegalizeVectorOps][X86] Don't defer BITREVERSE expansion to LegalizeDAG.

Summary

By expanding early it allows the shifts to be custom lowered in
LegalizeVectorOps. Then a DAG combine is able to run on them before
LegalizeDAG handles the BUILD_VECTORS for the masks used.

v16Xi8 shift lowering on X86 requires a mask to be applied to a v8i16
shift. The BITREVERSE expansion applied an AND mask before SHL ops and
after SRL ops. This was done to share the same mask constant for both shifts.
It looks like this patch allows DAG combine to remove the AND mask added
after v16i8 SHL by X86 lowering. This maintains the mask sharing that
BITREVERSE was trying to achieve. Prior to this patch it looks like
we kept the mask after the SHL instead which required an extra constant
pool or a PANDN to invert it.

This is dependent on D112248 because RISCV will end up scalarizing the BSWAP
portion of the BITREVERSE expansion if we don't disable BSWAP scalarization in
LegalizeVectorOps first.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	130 ms	x64 debian > LLVM.CodeGen/RISCV/rvv::fixed-vectors-bitreverse.ll

Event Timeline

craig.topper created this revision.Oct 21 2021, 11:30 AM

Herald added a subscriber: hiraditya. · View Herald TranscriptOct 21 2021, 11:30 AM

craig.topper requested review of this revision.Oct 21 2021, 11:30 AM

Herald added a project: Restricted Project. · View Herald TranscriptOct 21 2021, 11:30 AM

craig.topper added a parent revision: D112248: [TargetLowering][RISCV] Prevent scalarization of fixed vector bswap..Oct 21 2021, 11:30 AM

craig.topper edited the summary of this revision. (Show Details)

Herald added subscribers: luismarques, s.egerton, PkmX, simoncook. · View Herald TranscriptOct 21 2021, 11:32 AM

craig.topper edited the summary of this revision. (Show Details)Oct 21 2021, 11:34 AM

Harbormaster completed remote builds in B130000: Diff 381337.Oct 21 2021, 12:31 PM

LGTM

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorOps.cpp
1124	Do we have any consistency on when we use a &Results vs just return the SDValue?

This revision is now accepted and ready to land.Oct 21 2021, 1:55 PM

This revision was landed with ongoing or failed builds.Oct 21 2021, 3:23 PM

Closed by commit rGff37b1105d6e: [LegalizeVectorOps][X86] Don't defer BITREVERSE expansion to LegalizeDAG. (authored by craig.topper). · Explain Why

This revision was automatically updated to reflect the committed changes.

craig.topper added a commit: rGff37b1105d6e: [LegalizeVectorOps][X86] Don't defer BITREVERSE expansion to LegalizeDAG..

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

LegalizeVectorOps.cpp

5 lines

test/

CodeGen/

X86/

bitreverse.ll

9 lines

combine-bitreverse.ll

9 lines

vector-bitreverse.ll

704 lines

Diff 381337

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorOps.cpp

//===- LegalizeVectorOps.cpp - Implement SelectionDAG::LegalizeVectors ----===//		//===- LegalizeVectorOps.cpp - Implement SelectionDAG::LegalizeVectors ----===//
		Lint: Lint Inline Actions clang-format not found in user’s local PATH; not linting file. Lint: Lint: clang-format not found in user’s local PATH; not linting file.
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
▲ Show 20 Lines • Show All 1,107 Lines • ▼ Show 20 Lines	if (TLI.isOperationLegalOrCustom(ISD::SHL, VT) &&
TLI.isOperationLegalOrCustomOrPromote(ISD::OR, VT))		TLI.isOperationLegalOrCustomOrPromote(ISD::OR, VT))
return TLI.expandBSWAP(Node, DAG);		return TLI.expandBSWAP(Node, DAG);

// Otherwise unroll.		// Otherwise unroll.
return DAG.UnrollVectorOp(Node);		return DAG.UnrollVectorOp(Node);
}		}

void VectorLegalizer::ExpandBITREVERSE(SDNode *Node,		void VectorLegalizer::ExpandBITREVERSE(SDNode *Node,
SmallVectorImpl<SDValue> &Results) {		SmallVectorImpl<SDValue> &Results) {
		RKSimonUnsubmitted Not Done Reply Inline Actions Do we have any consistency on when we use a &Results vs just return the SDValue? RKSimon: Do we have any consistency on when we use a &Results vs just return the SDValue?
EVT VT = Node->getValueType(0);		EVT VT = Node->getValueType(0);

// If we have the scalar operation, it's probably cheaper to unroll it.		// If we have the scalar operation, it's probably cheaper to unroll it.
if (TLI.isOperationLegalOrCustom(ISD::BITREVERSE, VT.getScalarType())) {		if (TLI.isOperationLegalOrCustom(ISD::BITREVERSE, VT.getScalarType())) {
SDValue Tmp = DAG.UnrollVectorOp(Node);		SDValue Tmp = DAG.UnrollVectorOp(Node);
Results.push_back(Tmp);		Results.push_back(Tmp);
return;		return;
}		}
Show All 24 Lines	if (ScalarSizeInBits > 8 && (ScalarSizeInBits % 8) == 0) {
}		}
}		}

// If we have the appropriate vector bit operations, it is better to use them		// If we have the appropriate vector bit operations, it is better to use them
// than unrolling and expanding each component.		// than unrolling and expanding each component.
if (TLI.isOperationLegalOrCustom(ISD::SHL, VT) &&		if (TLI.isOperationLegalOrCustom(ISD::SHL, VT) &&
TLI.isOperationLegalOrCustom(ISD::SRL, VT) &&		TLI.isOperationLegalOrCustom(ISD::SRL, VT) &&
TLI.isOperationLegalOrCustomOrPromote(ISD::AND, VT) &&		TLI.isOperationLegalOrCustomOrPromote(ISD::AND, VT) &&
TLI.isOperationLegalOrCustomOrPromote(ISD::OR, VT))		TLI.isOperationLegalOrCustomOrPromote(ISD::OR, VT)) {
// Let LegalizeDAG handle this later.		Results.push_back(TLI.expandBITREVERSE(Node, DAG));
return;		return;
		}

// Otherwise unroll.		// Otherwise unroll.
SDValue Tmp = DAG.UnrollVectorOp(Node);		SDValue Tmp = DAG.UnrollVectorOp(Node);
Results.push_back(Tmp);		Results.push_back(Tmp);
}		}

SDValue VectorLegalizer::ExpandVSELECT(SDNode *Node) {		SDValue VectorLegalizer::ExpandVSELECT(SDNode *Node) {
// Implement VSELECT in terms of XOR, AND, OR		// Implement VSELECT in terms of XOR, AND, OR
▲ Show 20 Lines • Show All 375 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitreverse.ll

	Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	;			;
	; X64-LABEL: test_bitreverse_v2i16:			; X64-LABEL: test_bitreverse_v2i16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movdqa %xmm0, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: psrlw $8, %xmm1			; X64-NEXT: psrlw $8, %xmm1
	; X64-NEXT: psllw $8, %xmm0			; X64-NEXT: psllw $8, %xmm0
	; X64-NEXT: por %xmm1, %xmm0			; X64-NEXT: por %xmm1, %xmm0
	; X64-NEXT: movdqa %xmm0, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: psllw $4, %xmm1			; X64-NEXT: psrlw $4, %xmm1
	; X64-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; X64-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; X64-NEXT: psrlw $4, %xmm0			; X64-NEXT: pand %xmm2, %xmm1
	; X64-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: pand %xmm2, %xmm0
				; X64-NEXT: psllw $4, %xmm0
	; X64-NEXT: por %xmm1, %xmm0			; X64-NEXT: por %xmm1, %xmm0
	; X64-NEXT: movdqa %xmm0, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: psrlw $2, %xmm1			; X64-NEXT: psrlw $2, %xmm1
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; X64-NEXT: pand %xmm2, %xmm1			; X64-NEXT: pand %xmm2, %xmm1
	; X64-NEXT: pand %xmm2, %xmm0			; X64-NEXT: pand %xmm2, %xmm0
	; X64-NEXT: psllw $2, %xmm0			; X64-NEXT: psllw $2, %xmm0
	; X64-NEXT: por %xmm1, %xmm0			; X64-NEXT: por %xmm1, %xmm0
	▲ Show 20 Lines • Show All 1,244 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-bitreverse.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; X86-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]			; X86-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
	; X86-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]			; X86-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
	; X86-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]			; X86-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
	; X86-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X86-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X86-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]			; X86-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
	; X86-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]			; X86-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
	; X86-NEXT: packuswb %xmm2, %xmm0			; X86-NEXT: packuswb %xmm2, %xmm0
	; X86-NEXT: movdqa %xmm0, %xmm1			; X86-NEXT: movdqa %xmm0, %xmm1
	; X86-NEXT: psllw $4, %xmm1			; X86-NEXT: psrlw $4, %xmm1
	; X86-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1			; X86-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; X86-NEXT: psrlw $4, %xmm0			; X86-NEXT: pand %xmm2, %xmm1
	; X86-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0			; X86-NEXT: pand %xmm2, %xmm0
				; X86-NEXT: psllw $4, %xmm0
	; X86-NEXT: por %xmm1, %xmm0			; X86-NEXT: por %xmm1, %xmm0
	; X86-NEXT: movdqa %xmm0, %xmm1			; X86-NEXT: movdqa %xmm0, %xmm1
	; X86-NEXT: psrlw $2, %xmm1			; X86-NEXT: psrlw $2, %xmm1
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]			; X86-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; X86-NEXT: pand %xmm2, %xmm1			; X86-NEXT: pand %xmm2, %xmm1
	; X86-NEXT: pand %xmm2, %xmm0			; X86-NEXT: pand %xmm2, %xmm0
	; X86-NEXT: psllw $2, %xmm0			; X86-NEXT: psllw $2, %xmm0
	; X86-NEXT: por %xmm1, %xmm0			; X86-NEXT: por %xmm1, %xmm0
	Show All 29 Lines

llvm/test/CodeGen/X86/vector-bitreverse.ll

Show First 20 Lines • Show All 662 Lines • ▼ Show 20 Lines	; GFNIAVX512BW-NEXT: retq
%b = call i64 @llvm.bitreverse.i64(i64 %a)		%b = call i64 @llvm.bitreverse.i64(i64 %a)
ret i64 %b		ret i64 %b
}		}

define <16 x i8> @test_bitreverse_v16i8(<16 x i8> %a) nounwind {		define <16 x i8> @test_bitreverse_v16i8(<16 x i8> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v16i8:		; SSE2-LABEL: test_bitreverse_v16i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psllw $4, %xmm1		; SSE2-NEXT: psrlw $4, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlw $2, %xmm1		; SSE2-NEXT: psrlw $2, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand %xmm2, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
define <8 x i16> @test_bitreverse_v8i16(<8 x i16> %a) nounwind {		define <8 x i16> @test_bitreverse_v8i16(<8 x i16> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v8i16:		; SSE2-LABEL: test_bitreverse_v8i16:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlw $8, %xmm1		; SSE2-NEXT: psrlw $8, %xmm1
; SSE2-NEXT: psllw $8, %xmm0		; SSE2-NEXT: psllw $8, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psllw $4, %xmm1		; SSE2-NEXT: psrlw $4, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlw $2, %xmm1		; SSE2-NEXT: psrlw $2, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand %xmm2, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm2, %xmm0		; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psllw $4, %xmm1		; SSE2-NEXT: psrlw $4, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlw $2, %xmm1		; SSE2-NEXT: psrlw $2, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand %xmm2, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm2, %xmm0		; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psllw $4, %xmm1		; SSE2-NEXT: psrlw $4, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlw $2, %xmm1		; SSE2-NEXT: psrlw $2, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pand %xmm2, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %a)		%b = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %a)
ret <2 x i64> %b		ret <2 x i64> %b
}		}

define <32 x i8> @test_bitreverse_v32i8(<32 x i8> %a) nounwind {		define <32 x i8> @test_bitreverse_v32i8(<32 x i8> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v32i8:		; SSE2-LABEL: test_bitreverse_v32i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: psllw $4, %xmm3		; SSE2-NEXT: psrlw $4, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm1, %xmm4		; SSE2-NEXT: pand %xmm2, %xmm3
; SSE2-NEXT: pandn %xmm3, %xmm4		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm1, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm4, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm4, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm5
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: pand %xmm2, %xmm5
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pandn %xmm5, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $2, %xmm2		; SSE2-NEXT: psrlw $2, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: pand %xmm3, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $1, %xmm2		; SSE2-NEXT: psrlw $1, %xmm2
▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <32 x i8> @llvm.bitreverse.v32i8(<32 x i8> %a)		%b = call <32 x i8> @llvm.bitreverse.v32i8(<32 x i8> %a)
ret <32 x i8> %b		ret <32 x i8> %b
}		}

define <16 x i16> @test_bitreverse_v16i16(<16 x i16> %a) nounwind {		define <16 x i16> @test_bitreverse_v16i16(<16 x i16> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v16i16:		; SSE2-LABEL: test_bitreverse_v16i16:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: psrlw $8, %xmm2
; SSE2-NEXT: psrlw $8, %xmm1
; SSE2-NEXT: psllw $8, %xmm0		; SSE2-NEXT: psllw $8, %xmm0
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: psllw $4, %xmm3		; SSE2-NEXT: psrlw $4, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm1, %xmm4		; SSE2-NEXT: pand %xmm2, %xmm3
; SSE2-NEXT: pandn %xmm3, %xmm4		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm1, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm4, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm4, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: psrlw $8, %xmm5		; SSE2-NEXT: psrlw $8, %xmm5
; SSE2-NEXT: psllw $8, %xmm2		; SSE2-NEXT: psllw $8, %xmm1
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm5
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: pand %xmm2, %xmm5
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pandn %xmm5, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $2, %xmm2		; SSE2-NEXT: psrlw $2, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: pand %xmm3, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $1, %xmm2		; SSE2-NEXT: psrlw $1, %xmm2
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <16 x i16> @llvm.bitreverse.v16i16(<16 x i16> %a)		%b = call <16 x i16> @llvm.bitreverse.v16i16(<16 x i16> %a)
ret <16 x i16> %b		ret <16 x i16> %b
}		}

define <8 x i32> @test_bitreverse_v8i32(<8 x i32> %a) nounwind {		define <8 x i32> @test_bitreverse_v8i32(<8 x i32> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v8i32:		; SSE2-LABEL: test_bitreverse_v8i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm2[8],xmm3[9],xmm2[9],xmm3[10],xmm2[10],xmm3[11],xmm2[11],xmm3[12],xmm2[12],xmm3[13],xmm2[13],xmm3[14],xmm2[14],xmm3[15],xmm2[15]
; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm3[8],xmm1[9],xmm3[9],xmm1[10],xmm3[10],xmm1[11],xmm3[11],xmm1[12],xmm3[12],xmm1[13],xmm3[13],xmm1[14],xmm3[14],xmm1[15],xmm3[15]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm3, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psllw $4, %xmm4		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: pandn %xmm4, %xmm5		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm1, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: psrlw $2, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm4, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrlw $1, %xmm6		; SSE2-NEXT: psrlw $1, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm5, %xmm0		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm6		; SSE2-NEXT: movdqa %xmm1, %xmm6
; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm3[8],xmm6[9],xmm3[9],xmm6[10],xmm3[10],xmm6[11],xmm3[11],xmm6[12],xmm3[12],xmm6[13],xmm3[13],xmm6[14],xmm3[14],xmm6[15],xmm3[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm2[8],xmm6[9],xmm2[9],xmm6[10],xmm2[10],xmm6[11],xmm2[11],xmm6[12],xmm2[12],xmm6[13],xmm2[13],xmm6[14],xmm2[14],xmm6[15],xmm2[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm6[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm6[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm6, %xmm2		; SSE2-NEXT: packuswb %xmm6, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm3		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: psrlw $4, %xmm2
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pandn %xmm3, %xmm1		; SSE2-NEXT: pand %xmm3, %xmm1
		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $2, %xmm2		; SSE2-NEXT: psrlw $2, %xmm2
; SSE2-NEXT: pand %xmm4, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: pand %xmm4, %xmm1		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <8 x i32> @llvm.bitreverse.v8i32(<8 x i32> %a)		%b = call <8 x i32> @llvm.bitreverse.v8i32(<8 x i32> %a)
ret <8 x i32> %b		ret <8 x i32> %b
}		}

define <4 x i64> @test_bitreverse_v4i64(<4 x i64> %a) nounwind {		define <4 x i64> @test_bitreverse_v4i64(<4 x i64> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v4i64:		; SSE2-LABEL: test_bitreverse_v4i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm2[8],xmm3[9],xmm2[9],xmm3[10],xmm2[10],xmm3[11],xmm2[11],xmm3[12],xmm2[12],xmm3[13],xmm2[13],xmm3[14],xmm2[14],xmm3[15],xmm2[15]
; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm3[8],xmm1[9],xmm3[9],xmm1[10],xmm3[10],xmm1[11],xmm3[11],xmm1[12],xmm3[12],xmm1[13],xmm3[13],xmm1[14],xmm3[14],xmm1[15],xmm3[15]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm3, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psllw $4, %xmm4		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: pandn %xmm4, %xmm5		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm1, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: psrlw $2, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm4, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrlw $1, %xmm6		; SSE2-NEXT: psrlw $1, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm5, %xmm0		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm6		; SSE2-NEXT: movdqa %xmm1, %xmm6
; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm3[8],xmm6[9],xmm3[9],xmm6[10],xmm3[10],xmm6[11],xmm3[11],xmm6[12],xmm3[12],xmm6[13],xmm3[13],xmm6[14],xmm3[14],xmm6[15],xmm3[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm2[8],xmm6[9],xmm2[9],xmm6[10],xmm2[10],xmm6[11],xmm2[11],xmm6[12],xmm2[12],xmm6[13],xmm2[13],xmm6[14],xmm2[14],xmm6[15],xmm2[15]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm6[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm6 = xmm6[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm6, %xmm2		; SSE2-NEXT: packuswb %xmm6, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm3		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: psrlw $4, %xmm2
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pandn %xmm3, %xmm1		; SSE2-NEXT: pand %xmm3, %xmm1
		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrlw $2, %xmm2		; SSE2-NEXT: psrlw $2, %xmm2
; SSE2-NEXT: pand %xmm4, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: pand %xmm4, %xmm1		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm2, %xmm1		; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <4 x i64> @llvm.bitreverse.v4i64(<4 x i64> %a)		%b = call <4 x i64> @llvm.bitreverse.v4i64(<4 x i64> %a)
ret <4 x i64> %b		ret <4 x i64> %b
}		}

define <64 x i8> @test_bitreverse_v64i8(<64 x i8> %a) nounwind {		define <64 x i8> @test_bitreverse_v64i8(<64 x i8> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v64i8:		; SSE2-LABEL: test_bitreverse_v64i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrlw $2, %xmm6		; SSE2-NEXT: psrlw $2, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm8, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm8, %xmm0		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: movdqa %xmm0, %xmm7
; SSE2-NEXT: psrlw $1, %xmm7		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm6, %xmm7		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm0		; SSE2-NEXT: pand %xmm6, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0		; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm7		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: psllw $4, %xmm7		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: movdqa %xmm3, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pandn %xmm7, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: psrlw $4, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: psrlw $2, %xmm7
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm5, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm5		; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: pand %xmm8, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm1		; SSE2-NEXT: pand %xmm6, %xmm1
; SSE2-NEXT: paddb %xmm1, %xmm1		; SSE2-NEXT: paddb %xmm1, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: movdqa %xmm3, %xmm7		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pandn %xmm5, %xmm7		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: psllw $4, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: por %xmm7, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: psrlw $2, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm5		; SSE2-NEXT: pand %xmm5, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm2		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: psllw $2, %xmm2		; SSE2-NEXT: psllw $2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm2		; SSE2-NEXT: pand %xmm6, %xmm2
; SSE2-NEXT: paddb %xmm2, %xmm2		; SSE2-NEXT: paddb %xmm2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm7
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: psrlw $4, %xmm4		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pandn %xmm5, %xmm3		; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: pand %xmm8, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pand %xmm8, %xmm3		; SSE2-NEXT: pand %xmm5, %xmm3
; SSE2-NEXT: psllw $2, %xmm3		; SSE2-NEXT: psllw $2, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $1, %xmm4		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm4		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm3		; SSE2-NEXT: pand %xmm6, %xmm3
; SSE2-NEXT: paddb %xmm3, %xmm3		; SSE2-NEXT: paddb %xmm3, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <64 x i8> @llvm.bitreverse.v64i8(<64 x i8> %a)		%b = call <64 x i8> @llvm.bitreverse.v64i8(<64 x i8> %a)
ret <64 x i8> %b		ret <64 x i8> %b
}		}

define <32 x i16> @test_bitreverse_v32i16(<32 x i16> %a) nounwind {		define <32 x i16> @test_bitreverse_v32i16(<32 x i16> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v32i16:		; SSE2-LABEL: test_bitreverse_v32i16:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: psrlw $8, %xmm4
; SSE2-NEXT: psrlw $8, %xmm3
; SSE2-NEXT: psllw $8, %xmm0		; SSE2-NEXT: psllw $8, %xmm0
; SSE2-NEXT: por %xmm3, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm5
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrlw $2, %xmm6		; SSE2-NEXT: psrlw $2, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm8, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm8, %xmm0		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: movdqa %xmm0, %xmm7
; SSE2-NEXT: psrlw $1, %xmm7		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm6, %xmm7		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm0		; SSE2-NEXT: pand %xmm6, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0		; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm7		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: psrlw $8, %xmm7		; SSE2-NEXT: psrlw $8, %xmm7
; SSE2-NEXT: psllw $8, %xmm1		; SSE2-NEXT: psllw $8, %xmm1
; SSE2-NEXT: por %xmm7, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm7		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: psllw $4, %xmm7		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: movdqa %xmm3, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pandn %xmm7, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: psrlw $4, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: psrlw $2, %xmm7
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm5, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm5		; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: pand %xmm8, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm1		; SSE2-NEXT: pand %xmm6, %xmm1
; SSE2-NEXT: paddb %xmm1, %xmm1		; SSE2-NEXT: paddb %xmm1, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm7, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psrlw $8, %xmm5		; SSE2-NEXT: psrlw $8, %xmm7
; SSE2-NEXT: psllw $8, %xmm2		; SSE2-NEXT: psllw $8, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: psllw $4, %xmm5
; SSE2-NEXT: movdqa %xmm3, %xmm7
; SSE2-NEXT: pandn %xmm5, %xmm7
; SSE2-NEXT: psrlw $4, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: por %xmm7, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm5		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pand %xmm8, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm2
		; SSE2-NEXT: psllw $4, %xmm2
		; SSE2-NEXT: por %xmm7, %xmm2
		; SSE2-NEXT: movdqa %xmm2, %xmm7
		; SSE2-NEXT: psrlw $2, %xmm7
		; SSE2-NEXT: pand %xmm5, %xmm7
		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: psllw $2, %xmm2		; SSE2-NEXT: psllw $2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm6, %xmm2		; SSE2-NEXT: pand %xmm6, %xmm2
; SSE2-NEXT: paddb %xmm2, %xmm2		; SSE2-NEXT: paddb %xmm2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm7, %xmm2
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm7
; SSE2-NEXT: psrlw $8, %xmm5		; SSE2-NEXT: psrlw $8, %xmm7
; SSE2-NEXT: psllw $8, %xmm4		; SSE2-NEXT: psllw $8, %xmm3
; SSE2-NEXT: por %xmm5, %xmm4		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm7
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm7
; SSE2-NEXT: psrlw $4, %xmm4		; SSE2-NEXT: pand %xmm4, %xmm7
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pandn %xmm5, %xmm3		; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: pand %xmm8, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pand %xmm8, %xmm3		; SSE2-NEXT: pand %xmm5, %xmm3
; SSE2-NEXT: psllw $2, %xmm3		; SSE2-NEXT: psllw $2, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $1, %xmm4		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm4		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm3		; SSE2-NEXT: pand %xmm6, %xmm3
; SSE2-NEXT: paddb %xmm3, %xmm3		; SSE2-NEXT: paddb %xmm3, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <32 x i16> @llvm.bitreverse.v32i16(<32 x i16> %a)		%b = call <32 x i16> @llvm.bitreverse.v32i16(<32 x i16> %a)
ret <32 x i16> %b		ret <32 x i16> %b
}		}

define <16 x i32> @test_bitreverse_v16i32(<16 x i32> %a) nounwind {		define <16 x i32> @test_bitreverse_v16i32(<16 x i32> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v16i32:		; SSE2-LABEL: test_bitreverse_v16i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm8		; SSE2-NEXT: pxor %xmm8, %xmm8
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm8[8],xmm3[9],xmm8[9],xmm3[10],xmm8[10],xmm3[11],xmm8[11],xmm3[12],xmm8[12],xmm3[13],xmm8[13],xmm3[14],xmm8[14],xmm3[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm3, %xmm0		; SSE2-NEXT: packuswb %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psllw $4, %xmm6		; SSE2-NEXT: psrlw $4, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm3, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pandn %xmm6, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: movdqa %xmm0, %xmm7
; SSE2-NEXT: psrlw $2, %xmm7		; SSE2-NEXT: psrlw $2, %xmm7
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm9, %xmm7		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm9, %xmm0		; SSE2-NEXT: pand %xmm6, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0		; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm0		; SSE2-NEXT: pand %xmm7, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1],xmm1[2],xmm8[2],xmm1[3],xmm8[3],xmm1[4],xmm8[4],xmm1[5],xmm8[5],xmm1[6],xmm8[6],xmm1[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1],xmm1[2],xmm8[2],xmm1[3],xmm8[3],xmm1[4],xmm8[4],xmm1[5],xmm8[5],xmm1[6],xmm8[6],xmm1[7],xmm8[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm1		; SSE2-NEXT: packuswb %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: psrlw $4, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: por %xmm6, %xmm1		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm1
; SSE2-NEXT: pand %xmm9, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm1		; SSE2-NEXT: pand %xmm7, %xmm1
; SSE2-NEXT: paddb %xmm1, %xmm1		; SSE2-NEXT: paddb %xmm1, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm2		; SSE2-NEXT: packuswb %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: psllw $4, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: por %xmm6, %xmm2		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm2
; SSE2-NEXT: pand %xmm9, %xmm2
; SSE2-NEXT: psllw $2, %xmm2		; SSE2-NEXT: psllw $2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm2		; SSE2-NEXT: pand %xmm7, %xmm2
; SSE2-NEXT: paddb %xmm2, %xmm2		; SSE2-NEXT: paddb %xmm2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1],xmm4[2],xmm8[2],xmm4[3],xmm8[3],xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm4		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3],xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]
		; SSE2-NEXT: packuswb %xmm4, %xmm3
		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $4, %xmm4		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm3		; SSE2-NEXT: pand %xmm5, %xmm3
		; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm4		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm3		; SSE2-NEXT: pand %xmm6, %xmm3
; SSE2-NEXT: psllw $2, %xmm3		; SSE2-NEXT: psllw $2, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $1, %xmm4		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm4		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm3		; SSE2-NEXT: pand %xmm7, %xmm3
; SSE2-NEXT: paddb %xmm3, %xmm3		; SSE2-NEXT: paddb %xmm3, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
; GFNIAVX512BW-NEXT: retq		; GFNIAVX512BW-NEXT: retq
%b = call <16 x i32> @llvm.bitreverse.v16i32(<16 x i32> %a)		%b = call <16 x i32> @llvm.bitreverse.v16i32(<16 x i32> %a)
ret <16 x i32> %b		ret <16 x i32> %b
}		}

define <8 x i64> @test_bitreverse_v8i64(<8 x i64> %a) nounwind {		define <8 x i64> @test_bitreverse_v8i64(<8 x i64> %a) nounwind {
; SSE2-LABEL: test_bitreverse_v8i64:		; SSE2-LABEL: test_bitreverse_v8i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm8		; SSE2-NEXT: pxor %xmm8, %xmm8
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm8[8],xmm3[9],xmm8[9],xmm3[10],xmm8[10],xmm3[11],xmm8[11],xmm3[12],xmm8[12],xmm3[13],xmm8[13],xmm3[14],xmm8[14],xmm3[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm3, %xmm0		; SSE2-NEXT: packuswb %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psllw $4, %xmm6		; SSE2-NEXT: psrlw $4, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; SSE2-NEXT: movdqa %xmm3, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pandn %xmm6, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: psrlw $4, %xmm0		; SSE2-NEXT: psllw $4, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: movdqa %xmm0, %xmm7
; SSE2-NEXT: psrlw $2, %xmm7		; SSE2-NEXT: psrlw $2, %xmm7
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
; SSE2-NEXT: pand %xmm9, %xmm7		; SSE2-NEXT: pand %xmm6, %xmm7
; SSE2-NEXT: pand %xmm9, %xmm0		; SSE2-NEXT: pand %xmm6, %xmm0
; SSE2-NEXT: psllw $2, %xmm0		; SSE2-NEXT: psllw $2, %xmm0
; SSE2-NEXT: por %xmm7, %xmm0		; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]		; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [85,85,85,85,85,85,85,85,85,85,85,85,85,85,85,85]
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm0		; SSE2-NEXT: pand %xmm7, %xmm0
; SSE2-NEXT: paddb %xmm0, %xmm0		; SSE2-NEXT: paddb %xmm0, %xmm0
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1],xmm1[2],xmm8[2],xmm1[3],xmm8[3],xmm1[4],xmm8[4],xmm1[5],xmm8[5],xmm1[6],xmm8[6],xmm1[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1],xmm1[2],xmm8[2],xmm1[3],xmm8[3],xmm1[4],xmm8[4],xmm1[5],xmm8[5],xmm1[6],xmm8[6],xmm1[7],xmm8[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm1		; SSE2-NEXT: packuswb %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: psrlw $4, %xmm1		; SSE2-NEXT: psllw $4, %xmm1
; SSE2-NEXT: pand %xmm3, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: por %xmm6, %xmm1		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm1
; SSE2-NEXT: pand %xmm9, %xmm1
; SSE2-NEXT: psllw $2, %xmm1		; SSE2-NEXT: psllw $2, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm1		; SSE2-NEXT: pand %xmm7, %xmm1
; SSE2-NEXT: paddb %xmm1, %xmm1		; SSE2-NEXT: paddb %xmm1, %xmm1
; SSE2-NEXT: por %xmm5, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1],xmm2[2],xmm8[2],xmm2[3],xmm8[3],xmm2[4],xmm8[4],xmm2[5],xmm8[5],xmm2[6],xmm8[6],xmm2[7],xmm8[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm2		; SSE2-NEXT: packuswb %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: psrlw $4, %xmm2		; SSE2-NEXT: psllw $4, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: por %xmm6, %xmm2		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: psrlw $2, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm5		; SSE2-NEXT: pand %xmm6, %xmm2
; SSE2-NEXT: pand %xmm9, %xmm2
; SSE2-NEXT: psllw $2, %xmm2		; SSE2-NEXT: psllw $2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: psrlw $1, %xmm5		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm2		; SSE2-NEXT: pand %xmm7, %xmm2
; SSE2-NEXT: paddb %xmm2, %xmm2		; SSE2-NEXT: paddb %xmm2, %xmm2
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm5 = xmm5[8],xmm8[8],xmm5[9],xmm8[9],xmm5[10],xmm8[10],xmm5[11],xmm8[11],xmm5[12],xmm8[12],xmm5[13],xmm8[13],xmm5[14],xmm8[14],xmm5[15],xmm8[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm8[8],xmm4[9],xmm8[9],xmm4[10],xmm8[10],xmm4[11],xmm8[11],xmm4[12],xmm8[12],xmm4[13],xmm8[13],xmm4[14],xmm8[14],xmm4[15],xmm8[15]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,7,6,5,4]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1],xmm4[2],xmm8[2],xmm4[3],xmm8[3],xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[3,2,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,7,6,5,4]
; SSE2-NEXT: packuswb %xmm5, %xmm4		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1],xmm3[2],xmm8[2],xmm3[3],xmm8[3],xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
; SSE2-NEXT: psllw $4, %xmm5		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[3,2,1,0,4,5,6,7]
		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,6,5,4]
		; SSE2-NEXT: packuswb %xmm4, %xmm3
		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $4, %xmm4		; SSE2-NEXT: psrlw $4, %xmm4
; SSE2-NEXT: pand %xmm3, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm3		; SSE2-NEXT: pand %xmm5, %xmm3
		; SSE2-NEXT: psllw $4, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $2, %xmm4		; SSE2-NEXT: psrlw $2, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm4		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pand %xmm9, %xmm3		; SSE2-NEXT: pand %xmm6, %xmm3
; SSE2-NEXT: psllw $2, %xmm3		; SSE2-NEXT: psllw $2, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlw $1, %xmm4		; SSE2-NEXT: psrlw $1, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm4		; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pand %xmm7, %xmm3		; SSE2-NEXT: pand %xmm7, %xmm3
; SSE2-NEXT: paddb %xmm3, %xmm3		; SSE2-NEXT: paddb %xmm3, %xmm3
; SSE2-NEXT: por %xmm4, %xmm3		; SSE2-NEXT: por %xmm4, %xmm3
▲ Show 20 Lines • Show All 428 Lines • Show Last 20 Lines