This is an archive of the discontinued LLVM Phabricator instance.

[SelectionDAG] Use SimplifyDemandedBits on truncated SCALAR_TO_VECTORs
AbandonedPublic

Authored by RKSimon on Mar 15 2019, 10:22 AM.

Download Raw Diff

Details

Reviewers

craig.topper
efriedma
t.p.northover
spatel

Summary

Definite win on AVX512 as it allows us to avoid some gpr2mask transfers when a rematerializable 'allones' constant could be used.

I don't think the aarch64 fmov -> dup change is a regression, but would like confirmation if possible.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Mar 15 2019, 10:22 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 15 2019, 10:22 AM

Herald added subscribers: kristof.beyls, javed.absar. · View Herald Transcript

efriedma added inline comments.Mar 15 2019, 11:39 AM

test/CodeGen/AArch64/arm64-build-vector.ll
28	This is in fact a regression, at least on some targets; on an A57, it has higher latency and uses an extra execution unit. I'm guessing there's some issue with the priority between splat vs. zeroing in the case where the high elements are all undef?

RKSimon added a reviewer: spatel.Apr 22 2019, 6:52 AM

RKSimon marked an inline comment as done.

RKSimon added a subscriber: spatel.

RKSimon added inline comments.

test/CodeGen/AArch64/arm64-build-vector.ll
28	Adding @spatel who I think hit some similar issue with splat vector vs scalarization combines recently

Abandoning - the x86 improvements were handled by rL358019

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

	DAGCombiner.cpp
	DAGCombiner.cpp (revision 356264)

5 lines

test/

CodeGen/

AArch64/

	arm64-build-vector.ll
	arm64-build-vector.ll (revision 356274)

2 lines

X86/

	avx512-mask-op.ll
	avx512-mask-op.ll (revision 356264)

27 lines

Diff 190847

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 18,247 Lines • ▼ Show 20 Lines	if (ConstantSDNode *C0 = dyn_cast<ConstantSDNode>(EltNo)) {
Val = DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), SubVT, Val,		Val = DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), SubVT, Val,
ZeroIdx);		ZeroIdx);
return Val;		return Val;
}		}
}		}
}		}
}		}

		// If we have implicit truncation, attempt to simplify InVal.
		if (InVal.getScalarValueSizeInBits() > VT.getScalarSizeInBits())
		if (SimplifyDemandedBits(SDValue(N, 0)))
		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

SDValue DAGCombiner::visitINSERT_SUBVECTOR(SDNode *N) {		SDValue DAGCombiner::visitINSERT_SUBVECTOR(SDNode *N) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
SDValue N2 = N->getOperand(2);		SDValue N2 = N->getOperand(2);
▲ Show 20 Lines • Show All 1,490 Lines • Show Last 20 Lines

test/CodeGen/AArch64/arm64-build-vector.ll

Show All 19 Lines	; CHECK-NEXT: ret
%4 = insertelement <4 x float> %3, float %d, i32 3		%4 = insertelement <4 x float> %3, float %d, i32 3
ret <4 x float> %4		ret <4 x float> %4
}		}

define <8 x i16> @build_all_zero(<8 x i16> %a) #1 {		define <8 x i16> @build_all_zero(<8 x i16> %a) #1 {
; CHECK-LABEL: build_all_zero:		; CHECK-LABEL: build_all_zero:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mov w8, #44672		; CHECK-NEXT: mov w8, #44672
; CHECK-NEXT: fmov s1, w8		; CHECK-NEXT: dup.8h v1, w8
		efriedmaUnsubmitted Not Done Reply Inline Actions This is in fact a regression, at least on some targets; on an A57, it has higher latency and uses an extra execution unit. I'm guessing there's some issue with the priority between splat vs. zeroing in the case where the high elements are all undef? efriedma: This is in fact a regression, at least on some targets; on an A57, it has higher latency and…
		RKSimonAuthorUnsubmitted Done Reply Inline Actions Adding @spatel who I think hit some similar issue with splat vector vs scalarization combines recently RKSimon: Adding @spatel who I think hit some similar issue with splat vector vs scalarization combines…
; CHECK-NEXT: mul.8h v0, v0, v1		; CHECK-NEXT: mul.8h v0, v0, v1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%b = add <8 x i16> %a, <i16 -32768, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef>		%b = add <8 x i16> %a, <i16 -32768, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef>
%c = mul <8 x i16> %b, <i16 -20864, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef>		%c = mul <8 x i16> %b, <i16 -20864, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef, i16 undef>
ret <8 x i16> %c		ret <8 x i16> %c
}		}

; There is an optimization in DAG Combiner as following:		; There is an optimization in DAG Combiner as following:
▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 1,063 Lines • ▼ Show 20 Lines
	; KNL-NEXT: movl %edi, %ecx			; KNL-NEXT: movl %edi, %ecx
	; KNL-NEXT: kmovw %edi, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: shrq $32, %rdi			; KNL-NEXT: shrq $32, %rdi
	; KNL-NEXT: shrq $48, %rax			; KNL-NEXT: shrq $48, %rax
	; KNL-NEXT: shrl $16, %ecx			; KNL-NEXT: shrl $16, %ecx
	; KNL-NEXT: kmovw %ecx, %k1			; KNL-NEXT: kmovw %ecx, %k1
	; KNL-NEXT: kmovw %eax, %k2			; KNL-NEXT: kmovw %eax, %k2
	; KNL-NEXT: kmovw %edi, %k3			; KNL-NEXT: kmovw %edi, %k3
	; KNL-NEXT: movb $1, %al			; KNL-NEXT: kshiftrw $5, %k0, %k4
	; KNL-NEXT: kmovw %eax, %k4			; KNL-NEXT: kxnorw %k0, %k0, %k5
	; KNL-NEXT: kshiftrw $5, %k0, %k5			; KNL-NEXT: kxorw %k5, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k5, %k4
	; KNL-NEXT: kshiftlw $15, %k4, %k4			; KNL-NEXT: kshiftlw $15, %k4, %k4
	; KNL-NEXT: kshiftrw $10, %k4, %k4			; KNL-NEXT: kshiftrw $10, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k0, %k4			; KNL-NEXT: kxorw %k4, %k0, %k4
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}
	; KNL-NEXT: vpmovdb %zmm0, %xmm0			; KNL-NEXT: vpmovdb %zmm0, %xmm0
	; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}			; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}
	; KNL-NEXT: vpmovdb %zmm1, %xmm1			; KNL-NEXT: vpmovdb %zmm1, %xmm1
	; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1			; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1
	; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k4} {z}			; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k4} {z}
	; KNL-NEXT: vpmovdb %zmm0, %xmm0			; KNL-NEXT: vpmovdb %zmm0, %xmm0
	; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}			; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}
	; KNL-NEXT: vpmovdb %zmm2, %xmm2			; KNL-NEXT: vpmovdb %zmm2, %xmm2
	; KNL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; KNL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: kmovq %rdi, %k0			; SKX-NEXT: kmovq %rdi, %k0
	; SKX-NEXT: movb $1, %al			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: kmovd %eax, %k1
	; SKX-NEXT: kshiftrq $5, %k0, %k2			; SKX-NEXT: kshiftrq $5, %k0, %k2
	; SKX-NEXT: kxorq %k1, %k2, %k1			; SKX-NEXT: kxorq %k1, %k2, %k1
	; SKX-NEXT: kshiftlq $63, %k1, %k1			; SKX-NEXT: kshiftlq $63, %k1, %k1
	; SKX-NEXT: kshiftrq $58, %k1, %k1			; SKX-NEXT: kshiftrq $58, %k1, %k1
	; SKX-NEXT: kxorq %k1, %k0, %k0			; SKX-NEXT: kxorq %k1, %k0, %k0
	; SKX-NEXT: vpmovm2b %k0, %zmm0			; SKX-NEXT: vpmovm2b %k0, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test16:			; AVX512BW-LABEL: test16:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k0			; AVX512BW-NEXT: kmovq %rdi, %k0
	; AVX512BW-NEXT: movb $1, %al			; AVX512BW-NEXT: kxnorw %k0, %k0, %k1
	; AVX512BW-NEXT: kmovd %eax, %k1
	; AVX512BW-NEXT: kshiftrq $5, %k0, %k2			; AVX512BW-NEXT: kshiftrq $5, %k0, %k2
	; AVX512BW-NEXT: kxorq %k1, %k2, %k1			; AVX512BW-NEXT: kxorq %k1, %k2, %k1
	; AVX512BW-NEXT: kshiftlq $63, %k1, %k1			; AVX512BW-NEXT: kshiftlq $63, %k1, %k1
	; AVX512BW-NEXT: kshiftrq $58, %k1, %k1			; AVX512BW-NEXT: kshiftrq $58, %k1, %k1
	; AVX512BW-NEXT: kxorq %k1, %k0, %k0			; AVX512BW-NEXT: kxorq %k1, %k0, %k0
	; AVX512BW-NEXT: vpmovm2b %k0, %zmm0			; AVX512BW-NEXT: vpmovm2b %k0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test16:			; AVX512DQ-LABEL: test16:
	; AVX512DQ: ## %bb.0:			; AVX512DQ: ## %bb.0:
	; AVX512DQ-NEXT: movq %rdi, %rax			; AVX512DQ-NEXT: movq %rdi, %rax
	; AVX512DQ-NEXT: movl %edi, %ecx			; AVX512DQ-NEXT: movl %edi, %ecx
	; AVX512DQ-NEXT: kmovw %edi, %k0			; AVX512DQ-NEXT: kmovw %edi, %k0
	; AVX512DQ-NEXT: shrq $32, %rdi			; AVX512DQ-NEXT: shrq $32, %rdi
	; AVX512DQ-NEXT: shrq $48, %rax			; AVX512DQ-NEXT: shrq $48, %rax
	; AVX512DQ-NEXT: shrl $16, %ecx			; AVX512DQ-NEXT: shrl $16, %ecx
	; AVX512DQ-NEXT: kmovw %ecx, %k1			; AVX512DQ-NEXT: kmovw %ecx, %k1
	; AVX512DQ-NEXT: kmovw %eax, %k2			; AVX512DQ-NEXT: kmovw %eax, %k2
	; AVX512DQ-NEXT: kmovw %edi, %k3			; AVX512DQ-NEXT: kmovw %edi, %k3
	; AVX512DQ-NEXT: movb $1, %al			; AVX512DQ-NEXT: kshiftrw $5, %k0, %k4
	; AVX512DQ-NEXT: kmovw %eax, %k4			; AVX512DQ-NEXT: kxnorw %k0, %k0, %k5
	; AVX512DQ-NEXT: kshiftrw $5, %k0, %k5			; AVX512DQ-NEXT: kxorw %k5, %k4, %k4
	; AVX512DQ-NEXT: kxorw %k4, %k5, %k4
	; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4			; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4
	; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4			; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4
	; AVX512DQ-NEXT: kxorw %k4, %k0, %k0			; AVX512DQ-NEXT: kxorw %k4, %k0, %k0
	; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0			; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0
	; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0			; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1			; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1
	; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1			; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1			; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm1
	; AVX512DQ-NEXT: vpmovm2d %k0, %zmm0			; AVX512DQ-NEXT: vpmovm2d %k0, %zmm0
	; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0			; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512DQ-NEXT: vpmovm2d %k1, %zmm2			; AVX512DQ-NEXT: vpmovm2d %k1, %zmm2
	; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2			; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; X86-LABEL: test16:			; X86-LABEL: test16:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0			; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0
	; X86-NEXT: movb $1, %al			; X86-NEXT: kshiftrq $5, %k0, %k1
	; X86-NEXT: kmovd %eax, %k1			; X86-NEXT: kxnorw %k0, %k0, %k2
	; X86-NEXT: kshiftrq $5, %k0, %k2			; X86-NEXT: kxorq %k2, %k1, %k1
	; X86-NEXT: kxorq %k1, %k2, %k1
	; X86-NEXT: kshiftlq $63, %k1, %k1			; X86-NEXT: kshiftlq $63, %k1, %k1
	; X86-NEXT: kshiftrq $58, %k1, %k1			; X86-NEXT: kshiftrq $58, %k1, %k1
	; X86-NEXT: kxorq %k1, %k0, %k0			; X86-NEXT: kxorq %k1, %k0, %k0
	; X86-NEXT: vpmovm2b %k0, %zmm0			; X86-NEXT: vpmovm2b %k0, %zmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	%a = bitcast i64 %x to <64 x i1>			%a = bitcast i64 %x to <64 x i1>
	%b = insertelement <64 x i1>%a, i1 true, i32 5			%b = insertelement <64 x i1>%a, i1 true, i32 5
	%c = sext <64 x i1>%b to <64 x i8>			%c = sext <64 x i1>%b to <64 x i8>
	▲ Show 20 Lines • Show All 3,095 Lines • Show Last 20 Lines