This is an archive of the discontinued LLVM Phabricator instance.

[TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handling
ClosedPublic

Authored by RKSimon on Apr 9 2019, 6:39 AM.

Download Raw Diff

Details

Reviewers

arsenm
craig.topper
spatel
nhaehnle

Commits

rG6276ce014283: [TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handling
rL358887: [TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handling

Summary

This patch adds support for BigBitWidth -> SmallBitWidth bitcasts, splitting the DemandedBits/Elts accordingly.

Re: the AMDGPU regression - @arsenm it looks there isn't much that generates BFE U32/S32 nodes in the DAG its mostly done in ISEL - in this case we need to match srl(and(shl(x,c1),c2),c1) - is this something that needs fixing first or are you OK with this change for now?

The X86 changes are all definite wins.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Apr 9 2019, 6:39 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 9 2019, 6:39 AM

Herald added subscribers: t-tye, tpr, dstuttard and 5 others. · View Herald Transcript

RKSimon marked an inline comment as done.Apr 12 2019, 7:50 AM

RKSimon added inline comments.

test/CodeGen/AMDGPU/store-weird-sizes.ll
49 ↗	(On Diff #194306)	@arsenm Any suggestions on what to do here - is it better to add another isel pattern or start creating bfe_user dag nodes?

nhaehnle added inline comments.Apr 15 2019, 12:53 AM

test/CodeGen/AMDGPU/store-weird-sizes.ll
49 ↗	(On Diff #194306)	Why doesn't the DAGCombiner simplify this to a single AND node?

rebase

RKSimon added a reviewer: nhaehnle.Apr 17 2019, 8:23 AM

RKSimon added inline comments.

test/CodeGen/AMDGPU/store-weird-sizes.ll
49 ↗	(On Diff #194306)	The AND appears too late (from a bitcasted i64 -> v2i32) for visitShiftByConstant to be called from the SRL node - I'm working on a generic fix at the moment.

RKSimon mentioned this in rL358746: [AMDGPU] Regenerate extractelt->truncate test. .Apr 19 2019, 2:48 AM

RKSimon mentioned this in rG4c09b7d921b4: [AMDGPU] Regenerate extractelt->truncate test..

RKSimon mentioned this in rL358879: [AMDGPU] Regenerate uitofp i8 to float conversion tests. .Apr 22 2019, 3:19 AM

RKSimon mentioned this in rGffd67233d461: [AMDGPU] Regenerate uitofp i8 to float conversion tests..

Add AMDGPU srl(and(x,m),c) -> and(srl(x,c),srl(m,c)) canonicalization to improve BFE recognition

RKSimon marked an inline comment as done.Apr 22 2019, 6:49 AM

RKSimon added inline comments.

lib/Target/AMDGPU/AMDGPUISelLowering.cpp
3170 ↗	(On Diff #196065)	@nhaehnle @arsenm I think this handles the BFE issue - I investigated putting this in DAGCombine but it caused a lot of noise on other targets - some improvements, some regressions.

LGTM

lib/Target/AMDGPU/AMDGPUISelLowering.cpp
3162 ↗	(On Diff #196065)	Braecs around this

This revision is now accepted and ready to land.Apr 22 2019, 6:50 AM

Closed by commit rL358887: [TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handling (authored by RKSimon). · Explain WhyApr 22 2019, 7:02 AM

This revision was automatically updated to reflect the committed changes.

RKSimon mentioned this in rL360263: [AMDGPU] Reapplied BFE canonicalization from D60462.May 8 2019, 8:51 AM

RKSimon mentioned this in rGe3eec06ddeac: [AMDGPU] Reapplied BFE canonicalization from D60462.

sidorovd mentioned this in rG9e5632dbd127: [AMDGPU] Reapplied BFE canonicalization from D60462.May 30 2019, 8:51 AM

sidorovd mentioned this in rG17961eb8a92d: [AMDGPU] Reapplied BFE canonicalization from D60462.May 30 2019, 9:55 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

TargetLowering.cpp

26 lines

Target/

AMDGPU/

AMDGPUISelLowering.cpp

36 lines

test/

CodeGen/

AMDGPU/

store-weird-sizes.ll

4 lines

X86/

16 lines

8 lines

13 lines

82 lines

112 lines

Diff 196068

llvm/trunk/lib/CodeGen/SelectionDAG/TargetLowering.cpp

Show First 20 Lines • Show All 1,465 Lines • ▼ Show 20 Lines	if (SrcVT.isVector() && NumSrcEltBits > 1 &&
if (SimplifyDemandedVectorElts(Src, DemandedSrcElts, KnownSrcUndef,		if (SimplifyDemandedVectorElts(Src, DemandedSrcElts, KnownSrcUndef,
KnownSrcZero, TLO, Depth + 1))		KnownSrcZero, TLO, Depth + 1))
return true;		return true;

KnownBits KnownSrcBits;		KnownBits KnownSrcBits;
if (SimplifyDemandedBits(Src, DemandedSrcBits, DemandedSrcElts,		if (SimplifyDemandedBits(Src, DemandedSrcBits, DemandedSrcElts,
KnownSrcBits, TLO, Depth + 1))		KnownSrcBits, TLO, Depth + 1))
return true;		return true;
		} else if ((NumSrcEltBits % BitWidth) == 0 &&
		TLO.DAG.getDataLayout().isLittleEndian()) {
		unsigned Scale = NumSrcEltBits / BitWidth;
		unsigned NumSrcElts = SrcVT.isVector() ? SrcVT.getVectorNumElements() : 1;
		APInt DemandedSrcBits = APInt::getNullValue(NumSrcEltBits);
		APInt DemandedSrcElts = APInt::getNullValue(NumSrcElts);
		for (unsigned i = 0; i != NumElts; ++i)
		if (DemandedElts[i]) {
		unsigned Offset = (i % Scale) * BitWidth;
		DemandedSrcBits.insertBits(DemandedBits, Offset);
		DemandedSrcElts.setBit(i / Scale);
		}

		if (SrcVT.isVector()) {
		APInt KnownSrcUndef, KnownSrcZero;
		if (SimplifyDemandedVectorElts(Src, DemandedSrcElts, KnownSrcUndef,
		KnownSrcZero, TLO, Depth + 1))
		return true;
		}

		KnownBits KnownSrcBits;
		if (SimplifyDemandedBits(Src, DemandedSrcBits, DemandedSrcElts,
		KnownSrcBits, TLO, Depth + 1))
		return true;
}		}

// If this is a bitcast, let computeKnownBits handle it. Only do this on a		// If this is a bitcast, let computeKnownBits handle it. Only do this on a
// recursive call where Known may be useful to the caller.		// recursive call where Known may be useful to the caller.
if (Depth > 0) {		if (Depth > 0) {
Known = TLO.DAG.computeKnownBits(Op, Depth);		Known = TLO.DAG.computeKnownBits(Op, DemandedElts, Depth);
return false;		return false;
}		}
break;		break;
}		}
case ISD::ADD:		case ISD::ADD:
case ISD::MUL:		case ISD::MUL:
case ISD::SUB: {		case ISD::SUB: {
// Add, Sub, and Mul don't demand any bits in positions beyond that		// Add, Sub, and Mul don't demand any bits in positions beyond that
▲ Show 20 Lines • Show All 4,317 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 3,141 Lines • ▼ Show 20 Lines	if (RHSVal == 63) {
return DAG.getNode(ISD::BITCAST, SL, MVT::i64, BuildVec);		return DAG.getNode(ISD::BITCAST, SL, MVT::i64, BuildVec);
}		}

return SDValue();		return SDValue();
}		}

SDValue AMDGPUTargetLowering::performSrlCombine(SDNode *N,		SDValue AMDGPUTargetLowering::performSrlCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
if (N->getValueType(0) != MVT::i64)		auto *RHS = dyn_cast<ConstantSDNode>(N->getOperand(1));
return SDValue();

const ConstantSDNode *RHS = dyn_cast<ConstantSDNode>(N->getOperand(1));
if (!RHS)		if (!RHS)
return SDValue();		return SDValue();

		EVT VT = N->getValueType(0);
		SDValue LHS = N->getOperand(0);
unsigned ShiftAmt = RHS->getZExtValue();		unsigned ShiftAmt = RHS->getZExtValue();
		SelectionDAG &DAG = DCI.DAG;
		SDLoc SL(N);

		// fold (srl (and x, c1 << c2), c2) -> (and (srl(x, c2), c1)
		// this improves the ability to match BFE patterns in isel.
		if (LHS.getOpcode() == ISD::AND) {
		if (auto *Mask = dyn_cast<ConstantSDNode>(LHS.getOperand(1))) {
		if (Mask->getAPIntValue().isShiftedMask() &&
		Mask->getAPIntValue().countTrailingZeros() == ShiftAmt) {
		return DAG.getNode(
		ISD::AND, SL, VT,
		DAG.getNode(ISD::SRL, SL, VT, LHS.getOperand(0), N->getOperand(1)),
		DAG.getNode(ISD::SRL, SL, VT, LHS.getOperand(1), N->getOperand(1)));
		}
		}
		}

		if (VT != MVT::i64)
		return SDValue();

if (ShiftAmt < 32)		if (ShiftAmt < 32)
return SDValue();		return SDValue();

// srl i64:x, C for C >= 32		// srl i64:x, C for C >= 32
// =>		// =>
// build_pair (srl hi_32(x), C - 32), 0		// build_pair (srl hi_32(x), C - 32), 0

SelectionDAG &DAG = DCI.DAG;
SDLoc SL(N);

SDValue One = DAG.getConstant(1, SL, MVT::i32);		SDValue One = DAG.getConstant(1, SL, MVT::i32);
SDValue Zero = DAG.getConstant(0, SL, MVT::i32);		SDValue Zero = DAG.getConstant(0, SL, MVT::i32);

SDValue VecOp = DAG.getNode(ISD::BITCAST, SL, MVT::v2i32, N->getOperand(0));		SDValue VecOp = DAG.getNode(ISD::BITCAST, SL, MVT::v2i32, LHS);
SDValue Hi = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32,		SDValue Hi = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, VecOp, One);
VecOp, One);

SDValue NewConst = DAG.getConstant(ShiftAmt - 32, SL, MVT::i32);		SDValue NewConst = DAG.getConstant(ShiftAmt - 32, SL, MVT::i32);
SDValue NewShift = DAG.getNode(ISD::SRL, SL, MVT::i32, Hi, NewConst);		SDValue NewShift = DAG.getNode(ISD::SRL, SL, MVT::i32, Hi, NewConst);

SDValue BuildPair = DAG.getBuildVector(MVT::v2i32, SL, {NewShift, Zero});		SDValue BuildPair = DAG.getBuildVector(MVT::v2i32, SL, {NewShift, Zero});

return DAG.getNode(ISD::BITCAST, SL, MVT::i64, BuildPair);		return DAG.getNode(ISD::BITCAST, SL, MVT::i64, BuildPair);
}		}
▲ Show 20 Lines • Show All 1,487 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/store-weird-sizes.ll

	Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8			; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8
	; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc			; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: ds_write_b16 v1, v2 offset:4			; GFX9-NEXT: ds_write_b16 v1, v2 offset:4
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0x7f0000, v0			; GFX9-NEXT: v_bfe_u32 v0, v0, 16, 7
	; GFX9-NEXT: ds_write_b8_d16_hi v1, v0 offset:6			; GFX9-NEXT: ds_write_b8 v1, v0 offset:6
	; GFX9-NEXT: ds_write_b32 v1, v3			; GFX9-NEXT: ds_write_b32 v1, v3
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	store i55 %arg, i55 addrspace(3)* %ptr, align 8			store i55 %arg, i55 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @local_store_i48(i48 addrspace(3)* %ptr, i48 %arg) #0 {			define amdgpu_kernel void @local_store_i48(i48 addrspace(3)* %ptr, i48 %arg) #0 {
	; HAWAII-LABEL: local_store_i48:			; HAWAII-LABEL: local_store_i48:
	▲ Show 20 Lines • Show All 139 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-setcc-256.ll

Show First 20 Lines • Show All 442 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%a2 = bitcast <8 x i1> %a1 to i8		%a2 = bitcast <8 x i1> %a1 to i8
store i8 %a2, i8* %p		store i8 %a2, i8* %p
ret void		ret void
}		}

define void @bitcast_4i64_store(i4* %p, <4 x i64> %a0) {		define void @bitcast_4i64_store(i4* %p, <4 x i64> %a0) {
; SSE2-SSSE3-LABEL: bitcast_4i64_store:		; SSE2-SSSE3-LABEL: bitcast_4i64_store:
; SSE2-SSSE3: # %bb.0:		; SSE2-SSSE3: # %bb.0:
; SSE2-SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-SSSE3-NEXT: pxor %xmm2, %xmm1
; SSE2-SSSE3-NEXT: movdqa %xmm2, %xmm3
; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm3
; SSE2-SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSE2-SSSE3-NEXT: pcmpgtd %xmm1, %xmm4
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm4[0,0,2,2]
; SSE2-SSSE3-NEXT: pand %xmm3, %xmm1
; SSE2-SSSE3-NEXT: por %xmm4, %xmm1
; SSE2-SSSE3-NEXT: pxor %xmm2, %xmm0
; SSE2-SSSE3-NEXT: movdqa %xmm2, %xmm3
; SSE2-SSSE3-NEXT: pcmpeqd %xmm0, %xmm3
; SSE2-SSSE3-NEXT: pcmpgtd %xmm0, %xmm2
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0
; SSE2-SSSE3-NEXT: por %xmm2, %xmm0
; SSE2-SSSE3-NEXT: packssdw %xmm1, %xmm0		; SSE2-SSSE3-NEXT: packssdw %xmm1, %xmm0
; SSE2-SSSE3-NEXT: movmskps %xmm0, %eax		; SSE2-SSSE3-NEXT: movmskps %xmm0, %eax
; SSE2-SSSE3-NEXT: movb %al, (%rdi)		; SSE2-SSSE3-NEXT: movb %al, (%rdi)
; SSE2-SSSE3-NEXT: retq		; SSE2-SSSE3-NEXT: retq
;		;
; AVX12-LABEL: bitcast_4i64_store:		; AVX12-LABEL: bitcast_4i64_store:
; AVX12: # %bb.0:		; AVX12: # %bb.0:
; AVX12-NEXT: vmovmskpd %ymm0, %eax		; AVX12-NEXT: vmovmskpd %ymm0, %eax
Show All 26 Lines

llvm/trunk/test/CodeGen/X86/bitcast-setcc-512.ll

	Show First 20 Lines • Show All 603 Lines • ▼ Show 20 Lines
	; SSE-NEXT: packssdw %xmm3, %xmm4			; SSE-NEXT: packssdw %xmm3, %xmm4
	; SSE-NEXT: packsswb %xmm0, %xmm4			; SSE-NEXT: packsswb %xmm0, %xmm4
	; SSE-NEXT: pmovmskb %xmm4, %eax			; SSE-NEXT: pmovmskb %xmm4, %eax
	; SSE-NEXT: movb %al, (%rdi)			; SSE-NEXT: movb %al, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: bitcast_8i64_store:			; AVX1-LABEL: bitcast_8i64_store:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
				; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovmskps %ymm0, %eax			; AVX1-NEXT: vmovmskps %ymm0, %eax
	; AVX1-NEXT: movb %al, (%rdi)			; AVX1-NEXT: movb %al, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: bitcast_8i64_store:			; AVX2-LABEL: bitcast_8i64_store:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	Show All 32 Lines

llvm/trunk/test/CodeGen/X86/dagcombine-cse.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i386-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=X64

	define i32 @t(i8* %ref_frame_ptr, i32 %ref_frame_stride, i32 %idxX, i32 %idxY) nounwind {			define i32 @t(i8* %ref_frame_ptr, i32 %ref_frame_stride, i32 %idxX, i32 %idxY) nounwind {
	; X32-LABEL: t:			; X32-LABEL: t:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: imull {{[0-9]+}}(%esp), %ecx			; X32-NEXT: imull {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: addl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: addl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl (%eax,%ecx), %eax			; X32-NEXT: movl (%eax,%ecx), %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t:			; X64-LABEL: t:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: ## kill: def $edx killed $edx def $rdx
	; X64-NEXT: ## kill: def $esi killed $esi def $rsi
	; X64-NEXT: imull %ecx, %esi			; X64-NEXT: imull %ecx, %esi
	; X64-NEXT: leal (%rsi,%rdx), %eax			; X64-NEXT: addl %edx, %esi
	; X64-NEXT: cltq			; X64-NEXT: movslq %esi, %rax
	; X64-NEXT: movl (%rdi,%rax), %eax			; X64-NEXT: movl (%rdi,%rax), %eax
	; X64-NEXT: leal 4(%rsi,%rdx), %ecx			; X64-NEXT: movq %rax, %xmm0
	; X64-NEXT: movslq %ecx, %rcx
	; X64-NEXT: movzwl (%rdi,%rcx), %ecx
	; X64-NEXT: shlq $32, %rcx
	; X64-NEXT: orq %rax, %rcx
	; X64-NEXT: movq %rcx, %xmm0
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%tmp7 = mul i32 %idxY, %ref_frame_stride ; <i32> [#uses=2]			%tmp7 = mul i32 %idxY, %ref_frame_stride ; <i32> [#uses=2]
	%tmp9 = add i32 %tmp7, %idxX ; <i32> [#uses=1]			%tmp9 = add i32 %tmp7, %idxX ; <i32> [#uses=1]
	%tmp11 = getelementptr i8, i8* %ref_frame_ptr, i32 %tmp9 ; <i8*> [#uses=1]			%tmp11 = getelementptr i8, i8* %ref_frame_ptr, i32 %tmp9 ; <i8*> [#uses=1]
	%tmp1112 = bitcast i8* %tmp11 to i32* ; <i32*> [#uses=1]			%tmp1112 = bitcast i8* %tmp11 to i32* ; <i32*> [#uses=1]
	%tmp13 = load i32, i32* %tmp1112, align 4 ; <i32> [#uses=1]			%tmp13 = load i32, i32* %tmp1112, align 4 ; <i32> [#uses=1]
	Show All 18 Lines

llvm/trunk/test/CodeGen/X86/masked_store.ll

Show All 30 Lines	; AVX-NEXT: retq
%mask = icmp slt <1 x i64> %trigger, zeroinitializer		%mask = icmp slt <1 x i64> %trigger, zeroinitializer
call void @llvm.masked.store.v1f64.p0v1f64(<1 x double> %val, <1 x double>* %addr, i32 4, <1 x i1> %mask)		call void @llvm.masked.store.v1f64.p0v1f64(<1 x double> %val, <1 x double>* %addr, i32 4, <1 x i1> %mask)
ret void		ret void
}		}

define void @store_v2f64_v2i64(<2 x i64> %trigger, <2 x double>* %addr, <2 x double> %val) {		define void @store_v2f64_v2i64(<2 x i64> %trigger, <2 x double>* %addr, <2 x double> %val) {
; SSE2-LABEL: store_v2f64_v2i64:		; SSE2-LABEL: store_v2f64_v2i64:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm3, %xmm0		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm2		; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm0, %xmm2		; SSE2-NEXT: pcmpgtd %xmm0, %xmm3
; SSE2-NEXT: pcmpeqd %xmm3, %xmm0		; SSE2-NEXT: pcmpeqd %xmm2, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pand %xmm2, %xmm4		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: por %xmm3, %xmm4		; SSE2-NEXT: movd %xmm0, %eax
; SSE2-NEXT: movd %xmm4, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB1_2		; SSE2-NEXT: je LBB1_2
; SSE2-NEXT: ## %bb.1: ## %cond.store		; SSE2-NEXT: ## %bb.1: ## %cond.store
; SSE2-NEXT: movlpd %xmm1, (%rdi)		; SSE2-NEXT: movlpd %xmm1, (%rdi)
; SSE2-NEXT: LBB1_2: ## %else		; SSE2-NEXT: LBB1_2: ## %else
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: pextrw $4, %xmm0, %eax		; SSE2-NEXT: pextrw $4, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB1_4		; SSE2-NEXT: je LBB1_4
; SSE2-NEXT: ## %bb.3: ## %cond.store1		; SSE2-NEXT: ## %bb.3: ## %cond.store1
; SSE2-NEXT: movhpd %xmm1, 8(%rdi)		; SSE2-NEXT: movhpd %xmm1, 8(%rdi)
; SSE2-NEXT: LBB1_4: ## %else2		; SSE2-NEXT: LBB1_4: ## %else2
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
define void @store_v4f64_v4i64(<4 x i64> %trigger, <4 x double>* %addr, <4 x double> %val) {		define void @store_v4f64_v4i64(<4 x i64> %trigger, <4 x double>* %addr, <4 x double> %val) {
; SSE2-LABEL: store_v4f64_v4i64:		; SSE2-LABEL: store_v4f64_v4i64:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm4, %xmm0		; SSE2-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm0, %xmm5		; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; SSE2-NEXT: pcmpeqd %xmm4, %xmm0		; SSE2-NEXT: pcmpeqd %xmm4, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm5, %xmm7		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: por %xmm6, %xmm7		; SSE2-NEXT: movd %xmm0, %eax
; SSE2-NEXT: movd %xmm7, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB2_2		; SSE2-NEXT: je LBB2_2
; SSE2-NEXT: ## %bb.1: ## %cond.store		; SSE2-NEXT: ## %bb.1: ## %cond.store
; SSE2-NEXT: movlpd %xmm2, (%rdi)		; SSE2-NEXT: movlpd %xmm2, (%rdi)
; SSE2-NEXT: LBB2_2: ## %else		; SSE2-NEXT: LBB2_2: ## %else
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,0,2,2]
; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: pextrw $4, %xmm0, %eax		; SSE2-NEXT: pextrw $4, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB2_4		; SSE2-NEXT: je LBB2_4
; SSE2-NEXT: ## %bb.3: ## %cond.store1		; SSE2-NEXT: ## %bb.3: ## %cond.store1
; SSE2-NEXT: movhpd %xmm2, 8(%rdi)		; SSE2-NEXT: movhpd %xmm2, 8(%rdi)
; SSE2-NEXT: LBB2_4: ## %else2		; SSE2-NEXT: LBB2_4: ## %else2
; SSE2-NEXT: pxor %xmm4, %xmm1		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm4, %xmm0		; SSE2-NEXT: movdqa %xmm4, %xmm0
; SSE2-NEXT: pcmpgtd %xmm1, %xmm0		; SSE2-NEXT: pcmpgtd %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm4, %xmm1		; SSE2-NEXT: pcmpeqd %xmm4, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pextrw $0, %xmm0, %eax		; SSE2-NEXT: pextrw $0, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB2_6		; SSE2-NEXT: je LBB2_6
; SSE2-NEXT: ## %bb.5: ## %cond.store3		; SSE2-NEXT: ## %bb.5: ## %cond.store3
; SSE2-NEXT: movlpd %xmm3, 16(%rdi)		; SSE2-NEXT: movlpd %xmm3, 16(%rdi)
; SSE2-NEXT: LBB2_6: ## %else4		; SSE2-NEXT: LBB2_6: ## %else4
▲ Show 20 Lines • Show All 703 Lines • ▼ Show 20 Lines

;		;
; vXi64		; vXi64
;		;

define void @store_v2i64_v2i64(<2 x i64> %trigger, <2 x i64>* %addr, <2 x i64> %val) {		define void @store_v2i64_v2i64(<2 x i64> %trigger, <2 x i64>* %addr, <2 x i64> %val) {
; SSE2-LABEL: store_v2i64_v2i64:		; SSE2-LABEL: store_v2i64_v2i64:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm3, %xmm0		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm2		; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm0, %xmm2		; SSE2-NEXT: pcmpgtd %xmm0, %xmm3
; SSE2-NEXT: pcmpeqd %xmm3, %xmm0		; SSE2-NEXT: pcmpeqd %xmm2, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: pand %xmm3, %xmm2
; SSE2-NEXT: pand %xmm2, %xmm4		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: por %xmm3, %xmm4		; SSE2-NEXT: movd %xmm0, %eax
; SSE2-NEXT: movd %xmm4, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB7_2		; SSE2-NEXT: je LBB7_2
; SSE2-NEXT: ## %bb.1: ## %cond.store		; SSE2-NEXT: ## %bb.1: ## %cond.store
; SSE2-NEXT: movq %xmm1, (%rdi)		; SSE2-NEXT: movq %xmm1, (%rdi)
; SSE2-NEXT: LBB7_2: ## %else		; SSE2-NEXT: LBB7_2: ## %else
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: pextrw $4, %xmm0, %eax		; SSE2-NEXT: pextrw $4, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB7_4		; SSE2-NEXT: je LBB7_4
; SSE2-NEXT: ## %bb.3: ## %cond.store1		; SSE2-NEXT: ## %bb.3: ## %cond.store1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE2-NEXT: movq %xmm0, 8(%rdi)		; SSE2-NEXT: movq %xmm0, 8(%rdi)
; SSE2-NEXT: LBB7_4: ## %else2		; SSE2-NEXT: LBB7_4: ## %else2
; SSE2-NEXT: retq		; SSE2-NEXT: retq
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
define void @store_v4i64_v4i64(<4 x i64> %trigger, <4 x i64>* %addr, <4 x i64> %val) {		define void @store_v4i64_v4i64(<4 x i64> %trigger, <4 x i64>* %addr, <4 x i64> %val) {
; SSE2-LABEL: store_v4i64_v4i64:		; SSE2-LABEL: store_v4i64_v4i64:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm4, %xmm0		; SSE2-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm0, %xmm5		; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; SSE2-NEXT: pcmpeqd %xmm4, %xmm0		; SSE2-NEXT: pcmpeqd %xmm4, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
; SSE2-NEXT: movdqa %xmm0, %xmm7		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pand %xmm5, %xmm7		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]		; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: por %xmm6, %xmm7		; SSE2-NEXT: movd %xmm0, %eax
; SSE2-NEXT: movd %xmm7, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB8_2		; SSE2-NEXT: je LBB8_2
; SSE2-NEXT: ## %bb.1: ## %cond.store		; SSE2-NEXT: ## %bb.1: ## %cond.store
; SSE2-NEXT: movq %xmm2, (%rdi)		; SSE2-NEXT: movq %xmm2, (%rdi)
; SSE2-NEXT: LBB8_2: ## %else		; SSE2-NEXT: LBB8_2: ## %else
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,0,2,2]
; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: pextrw $4, %xmm0, %eax		; SSE2-NEXT: pextrw $4, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB8_4		; SSE2-NEXT: je LBB8_4
; SSE2-NEXT: ## %bb.3: ## %cond.store1		; SSE2-NEXT: ## %bb.3: ## %cond.store1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE2-NEXT: movq %xmm0, 8(%rdi)		; SSE2-NEXT: movq %xmm0, 8(%rdi)
; SSE2-NEXT: LBB8_4: ## %else2		; SSE2-NEXT: LBB8_4: ## %else2
; SSE2-NEXT: pxor %xmm4, %xmm1		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm4, %xmm0		; SSE2-NEXT: movdqa %xmm4, %xmm0
; SSE2-NEXT: pcmpgtd %xmm1, %xmm0		; SSE2-NEXT: pcmpgtd %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm4, %xmm1		; SSE2-NEXT: pcmpeqd %xmm4, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pextrw $0, %xmm0, %eax		; SSE2-NEXT: pextrw $0, %xmm0, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: je LBB8_6		; SSE2-NEXT: je LBB8_6
; SSE2-NEXT: ## %bb.5: ## %cond.store3		; SSE2-NEXT: ## %bb.5: ## %cond.store3
; SSE2-NEXT: movq %xmm3, 16(%rdi)		; SSE2-NEXT: movq %xmm3, 16(%rdi)
; SSE2-NEXT: LBB8_6: ## %else4		; SSE2-NEXT: LBB8_6: ## %else4
▲ Show 20 Lines • Show All 3,673 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

Show First 20 Lines • Show All 923 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%tmp1 = bitcast <16 x i1> %tmp to i16		%tmp1 = bitcast <16 x i1> %tmp to i16
%tmp2 = icmp eq i16 %tmp1, 0		%tmp2 = icmp eq i16 %tmp1, 0
ret i1 %tmp2		ret i1 %tmp2
}		}

define i1 @allones_v4i64_sign(<4 x i64> %arg) {		define i1 @allones_v4i64_sign(<4 x i64> %arg) {
; SSE2-LABEL: allones_v4i64_sign:		; SSE2-LABEL: allones_v4i64_sign:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE2-NEXT: movmskps %xmm0, %eax		; SSE2-NEXT: movmskps %xmm0, %eax
; SSE2-NEXT: cmpb $15, %al		; SSE2-NEXT: cmpb $15, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: allones_v4i64_sign:		; AVX-LABEL: allones_v4i64_sign:
; AVX: # %bb.0:		; AVX: # %bb.0:
Show All 28 Lines	; SKX-NEXT: retq
%tmp1 = bitcast <4 x i1> %tmp to i4		%tmp1 = bitcast <4 x i1> %tmp to i4
%tmp2 = icmp eq i4 %tmp1, -1		%tmp2 = icmp eq i4 %tmp1, -1
ret i1 %tmp2		ret i1 %tmp2
}		}

define i1 @allzeros_v4i64_sign(<4 x i64> %arg) {		define i1 @allzeros_v4i64_sign(<4 x i64> %arg) {
; SSE2-LABEL: allzeros_v4i64_sign:		; SSE2-LABEL: allzeros_v4i64_sign:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE2-NEXT: movmskps %xmm0, %eax		; SSE2-NEXT: movmskps %xmm0, %eax
; SSE2-NEXT: testb %al, %al		; SSE2-NEXT: testb %al, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: allzeros_v4i64_sign:		; AVX-LABEL: allzeros_v4i64_sign:
; AVX: # %bb.0:		; AVX: # %bb.0:
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm1		; SSE2-NEXT: packsswb %xmm0, %xmm1
; SSE2-NEXT: pmovmskb %xmm1, %eax		; SSE2-NEXT: pmovmskb %xmm1, %eax
; SSE2-NEXT: cmpb $-1, %al		; SSE2-NEXT: cmpb $-1, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allones_v8i64_sign:		; AVX1-LABEL: allones_v8i64_sign:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: cmpb $-1, %al		; AVX1-NEXT: cmpb $-1, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allones_v8i64_sign:		; AVX2-LABEL: allones_v8i64_sign:
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm1		; SSE2-NEXT: packsswb %xmm0, %xmm1
; SSE2-NEXT: pmovmskb %xmm1, %eax		; SSE2-NEXT: pmovmskb %xmm1, %eax
; SSE2-NEXT: testb %al, %al		; SSE2-NEXT: testb %al, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allzeros_v8i64_sign:		; AVX1-LABEL: allzeros_v8i64_sign:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: testb %al, %al		; AVX1-NEXT: testb %al, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allzeros_v8i64_sign:		; AVX2-LABEL: allzeros_v8i64_sign:
▲ Show 20 Lines • Show All 1,316 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm0		; SSE2-NEXT: packsswb %xmm0, %xmm0
; SSE2-NEXT: pmovmskb %xmm0, %eax		; SSE2-NEXT: pmovmskb %xmm0, %eax
; SSE2-NEXT: cmpb $-1, %al		; SSE2-NEXT: cmpb $-1, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allones_v8i64_and1:		; AVX1-LABEL: allones_v8i64_and1:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2		; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $63, %xmm0, %xmm0
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
		; AVX1-NEXT: vpsllq $63, %xmm1, %xmm1
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: cmpb $-1, %al		; AVX1-NEXT: cmpb $-1, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allones_v8i64_and1:		; AVX2-LABEL: allones_v8i64_and1:
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm0		; SSE2-NEXT: packsswb %xmm0, %xmm0
; SSE2-NEXT: pmovmskb %xmm0, %eax		; SSE2-NEXT: pmovmskb %xmm0, %eax
; SSE2-NEXT: testb %al, %al		; SSE2-NEXT: testb %al, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allzeros_v8i64_and1:		; AVX1-LABEL: allzeros_v8i64_and1:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2		; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $63, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $63, %xmm0, %xmm0
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpsllq $63, %xmm2, %xmm2
		; AVX1-NEXT: vpsllq $63, %xmm1, %xmm1
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: testb %al, %al		; AVX1-NEXT: testb %al, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allzeros_v8i64_and1:		; AVX2-LABEL: allzeros_v8i64_and1:
▲ Show 20 Lines • Show All 1,318 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm0		; SSE2-NEXT: packsswb %xmm0, %xmm0
; SSE2-NEXT: pmovmskb %xmm0, %eax		; SSE2-NEXT: pmovmskb %xmm0, %eax
; SSE2-NEXT: cmpb $-1, %al		; SSE2-NEXT: cmpb $-1, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allones_v8i64_and4:		; AVX1-LABEL: allones_v8i64_and4:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2		; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $61, %xmm0, %xmm0
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
		; AVX1-NEXT: vpsllq $61, %xmm1, %xmm1
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: cmpb $-1, %al		; AVX1-NEXT: cmpb $-1, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allones_v8i64_and4:		; AVX2-LABEL: allones_v8i64_and4:
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
; SSE2-NEXT: packsswb %xmm0, %xmm0		; SSE2-NEXT: packsswb %xmm0, %xmm0
; SSE2-NEXT: pmovmskb %xmm0, %eax		; SSE2-NEXT: pmovmskb %xmm0, %eax
; SSE2-NEXT: testb %al, %al		; SSE2-NEXT: testb %al, %al
; SSE2-NEXT: sete %al		; SSE2-NEXT: sete %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX1-LABEL: allzeros_v8i64_and4:		; AVX1-LABEL: allzeros_v8i64_and4:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2		; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
		; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsllq $61, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $61, %xmm0, %xmm0
; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0		; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
		; AVX1-NEXT: vpsllq $61, %xmm2, %xmm2
		; AVX1-NEXT: vpsllq $61, %xmm1, %xmm1
		; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovmskps %ymm0, %eax		; AVX1-NEXT: vmovmskps %ymm0, %eax
; AVX1-NEXT: testb %al, %al		; AVX1-NEXT: testb %al, %al
; AVX1-NEXT: sete %al		; AVX1-NEXT: sete %al
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: allzeros_v8i64_and4:		; AVX2-LABEL: allzeros_v8i64_and4:
▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%c = bitcast <4 x i1> %b to i4		%c = bitcast <4 x i1> %b to i4
%d = zext i4 %c to i32		%d = zext i4 %c to i32
ret i32 %d		ret i32 %d
}		}

define i32 @movmskpd256(<4 x double> %x) {		define i32 @movmskpd256(<4 x double> %x) {
; SSE2-LABEL: movmskpd256:		; SSE2-LABEL: movmskpd256:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
; SSE2-NEXT: pxor %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm1, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpeqd %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: packssdw %xmm1, %xmm0		; SSE2-NEXT: packssdw %xmm1, %xmm0
; SSE2-NEXT: movmskps %xmm0, %eax		; SSE2-NEXT: movmskps %xmm0, %eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmskpd256:		; AVX-LABEL: movmskpd256:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovmskpd %ymm0, %eax		; AVX-NEXT: vmovmskpd %ymm0, %eax
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
▲ Show 20 Lines • Show All 553 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handlingClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 196068

llvm/trunk/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/test/CodeGen/AMDGPU/store-weird-sizes.ll

llvm/trunk/test/CodeGen/X86/bitcast-setcc-256.ll

llvm/trunk/test/CodeGen/X86/bitcast-setcc-512.ll

llvm/trunk/test/CodeGen/X86/dagcombine-cse.ll

llvm/trunk/test/CodeGen/X86/masked_store.ll

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

[TargetLowering][AMDGPU][X86] Improve SimplifyDemandedBits bitcast handling
ClosedPublic