This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
SelectionDAG.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
4
avx512-trunc.ll
-
known-bits-vector.ll
3/5
masked_store_trunc_usat.ll
1
vector-trunc-usat.ll

Differential D87145

[SelectionDAG] Remove an early-out from computeKnownBits for smin/smax
ClosedPublic

Authored by foad on Sep 4 2020, 8:24 AM.

Download Raw Diff

Details

Reviewers

nikic
RKSimon
craig.topper
pengfei
yubing

Commits

rG868da2ea939b: [SelectionDAG] Remove an early-out from computeKnownBits for smin/smax

Summary

Even if we know nothing about LHS, it can still be useful to know that
smax(LHS, RHS) >= RHS and smin(LHS, RHS) <= RHS.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Sep 4 2020, 8:24 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 4 2020, 8:24 AM

Herald added subscribers: llvm-commits, ecnelises, hiraditya. · View Herald Transcript

foad requested review of this revision.Sep 4 2020, 8:24 AM

foad added a parent revision: D87034: [KnownBits] Implement accurate unsigned and signed max and min.Sep 4 2020, 8:25 AM

Harbormaster completed remote builds in B70662: Diff 289963.Sep 4 2020, 8:25 AM

N.B without D87034, this change wouldn't affect any codegen tests. So this is one case where the improved known bits analysis actually makes a difference.

RKSimon added a reviewer: craig.topper.Sep 7 2020, 11:18 AM

RKSimon added a subscriber: craig.topper.

RKSimon added inline comments.

llvm/test/CodeGen/X86/avx512-trunc.ll
1020	Is this testing what it means to? I can't remember offhand what the test is for - @craig.topper any ideas?
llvm/test/CodeGen/X86/masked_store_trunc_usat.ll
5199	regression?
6420	regression?
llvm/test/CodeGen/X86/vector-trunc-usat.ll
4266	we appear to have 3 constant loads now instead of 2

craig.topper added inline comments.Sep 7 2020, 6:22 PM

llvm/test/CodeGen/X86/avx512-trunc.ll
1020	Not sure either. InstCombine simplifies it to a store of all ones.

foad added inline comments.Sep 8 2020, 2:48 AM

llvm/test/CodeGen/X86/masked_store_trunc_usat.ll
5199	Wel, yes... It has spotted that the result of the pminsw is always negative, so rather than XOR with 0x8000 to flip (i.e. clear) the sign bit, it can AND with 0x7fff to clear the sign bit. But unfortunately that means materialising another constant. I don't know where this XOR -> AND "optimization" happens, or whether it can be finessed. The other regressions you pointed out below are basically the same issue.

foad added inline comments.Sep 10 2020, 5:45 AM

llvm/test/CodeGen/X86/masked_store_trunc_usat.ll
5199	I don't know where this XOR -> AND "optimization" happens, or whether it can be finessed. We have done this basically forever, in the XOR case in TargetLowering::SimplifyDemandedBits: // If one side is a constant, and all of the known set bits on the other // side are also set in the constant, turn this into an AND, as we know // the bits will be cleared. // e.g. (X \| C1) ^ C2 --> (X \| C1) & ~C2 iff (C1&C2) == C2 It seems to me that this is just bad luck, that we transform X^0x8000 into X&0x7FFF, but that happens to regress code quality because now we can't share with another use of the constant 0x8000. Is there any systematic way of fixing this, e.g. by doing the reverse transformation once we know what constants are already available in registers? Or can I commit this patch even with a known regression like this? After all, I'm sure if I looked hard enough I could find another test that got better by luck instead of worse.

foad added inline comments.Sep 10 2020, 9:25 AM

llvm/test/CodeGen/X86/masked_store_trunc_usat.ll
5199	If you buy the argument that SimplifyDemandedBits replacing XOR -> AND is not an optimization and is unhelpful in this case, D87464 + D87465 is my attempt at fixing that. If I rebase this patch on those two then all the bad diffs go away, leaving only the good diffs in `avx512-trunc.ll`.

RKSimon added a subscriber: ArturGainullin.Sep 10 2020, 12:45 PM

RKSimon added inline comments.

llvm/test/CodeGen/X86/avx512-trunc.ll
1020	The test was added as part of D45315 - @ArturGainullin hasn't been an active for some time afaict. I think we might be able to get away with adjusting the -1 splat to be a non-uniform mix of -ve constant values.

reverse ping?

Herald added a subscriber: pengfei. · View Herald TranscriptDec 15 2020, 9:42 AM

yubing added a subscriber: yubing.Dec 16 2020, 4:54 AM

RKSimon added reviewers: pengfei, yubing.Jan 2 2021, 7:39 AM

RKSimon added inline comments.

llvm/test/CodeGen/X86/avx512-trunc.ll
1020	Any recommendations on what to do with these tests?

foad mentioned this in D94693: Improve KnownBits analyses for SMIN/SMAX DAG nodes..Jan 14 2021, 8:08 AM

aymanmus added a subscriber: aymanmus.Jan 14 2021, 8:32 AM

Rebase. D87236 seems to have fixed the code quality regressions.

Harbormaster completed remote builds in B85180: Diff 316673.Jan 14 2021, 8:44 AM

RKSimon mentioned this in rGb99782cf7850: [X86][AVX] Adjust unsigned saturation downconvert negative test.Jan 14 2021, 9:57 AM

@foad Please can you rebase? I think I've replaced the dodgy test with something useful now

Rebase.

LGTM - cheers!

This revision is now accepted and ready to land.Jan 14 2021, 10:09 AM

This revision was landed with ongoing or failed builds.Jan 14 2021, 10:15 AM

Closed by commit rG868da2ea939b: [SelectionDAG] Remove an early-out from computeKnownBits for smin/smax (authored by foad). · Explain Why

This revision was automatically updated to reflect the committed changes.

foad added a commit: rG868da2ea939b: [SelectionDAG] Remove an early-out from computeKnownBits for smin/smax.

Harbormaster completed remote builds in B85196: Diff 316697.Jan 14 2021, 10:16 AM

foad mentioned this in D87465: [TargetLowering] Change SimplifyDemandedBits for XOR.Mar 15 2021, 4:36 AM

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

SelectionDAG.cpp

1 line

test/

CodeGen/

X86/

avx512-trunc.ll

11 lines

known-bits-vector.ll

12 lines

masked_store_trunc_usat.ll

29 lines

vector-trunc-usat.ll

94 lines

Diff 289963

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,425 Lines • ▼ Show 20 Lines	if (CstLow && CstHigh) {
if (ValueLow.isNonNegative() && ValueHigh.isNonNegative()) {		if (ValueLow.isNonNegative() && ValueHigh.isNonNegative()) {
Known.Zero.setHighBits(MinSignBits);		Known.Zero.setHighBits(MinSignBits);
break;		break;
}		}
}		}
}		}

Known = computeKnownBits(Op.getOperand(0), DemandedElts, Depth + 1);		Known = computeKnownBits(Op.getOperand(0), DemandedElts, Depth + 1);
if (Known.isUnknown()) break; // Early-out
Known2 = computeKnownBits(Op.getOperand(1), DemandedElts, Depth + 1);		Known2 = computeKnownBits(Op.getOperand(1), DemandedElts, Depth + 1);
if (IsMax)		if (IsMax)
Known = KnownBits::smax(Known, Known2);		Known = KnownBits::smax(Known, Known2);
else		else
Known = KnownBits::smin(Known, Known2);		Known = KnownBits::smin(Known, Known2);
break;		break;
}		}
case ISD::FrameIndex:		case ISD::FrameIndex:
▲ Show 20 Lines • Show All 6,553 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-trunc.ll

Show First 20 Lines • Show All 1,001 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%x5 = select <16 x i1> %x3, <16 x i32> %x2, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%x5 = select <16 x i1> %x3, <16 x i32> %x2, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%x6 = trunc <16 x i32> %x5 to <16 x i16>		%x6 = trunc <16 x i32> %x5 to <16 x i16>
ret <16 x i16> %x6		ret <16 x i16> %x6
}		}

define void @negative_test1_smax_usat_trunc_wb_256_mem(<16 x i16> %i, <16 x i8>* %res) {		define void @negative_test1_smax_usat_trunc_wb_256_mem(<16 x i16> %i, <16 x i8>* %res) {
; KNL-LABEL: negative_test1_smax_usat_trunc_wb_256_mem:		; KNL-LABEL: negative_test1_smax_usat_trunc_wb_256_mem:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpxor %xmm1, %xmm1, %xmm1		; KNL-NEXT: vpbroadcastd {{.*#+}} zmm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
; KNL-NEXT: vpmaxsw %ymm1, %ymm0, %ymm0
; KNL-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
; KNL-NEXT: vpminsw %ymm1, %ymm0, %ymm0
; KNL-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
; KNL-NEXT: vpmovdb %zmm0, (%rdi)		; KNL-NEXT: vpmovdb %zmm0, (%rdi)
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: negative_test1_smax_usat_trunc_wb_256_mem:		; SKX-LABEL: negative_test1_smax_usat_trunc_wb_256_mem:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; SKX-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0
; SKX-NEXT: vpmaxsw %ymm1, %ymm0, %ymm0
; SKX-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
; SKX-NEXT: vpminsw %ymm1, %ymm0, %ymm0
; SKX-NEXT: vpmovwb %ymm0, (%rdi)		; SKX-NEXT: vpmovwb %ymm0, (%rdi)
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
		RKSimonUnsubmitted Not Done Reply Inline Actions Is this testing what it means to? I can't remember offhand what the test is for - @craig.topper any ideas? RKSimon: Is this testing what it means to? I can't remember offhand what the test is for - @craig.topper…
		craig.topperUnsubmitted Not Done Reply Inline Actions Not sure either. InstCombine simplifies it to a store of all ones. craig.topper: Not sure either. InstCombine simplifies it to a store of all ones.
		RKSimonUnsubmitted Not Done Reply Inline Actions The test was added as part of D45315 - @ArturGainullin hasn't been an active for some time afaict. I think we might be able to get away with adjusting the -1 splat to be a non-uniform mix of -ve constant values. RKSimon: The test was added as part of D45315 - @ArturGainullin hasn't been an active for some time…
		RKSimonUnsubmitted Not Done Reply Inline Actions Any recommendations on what to do with these tests? RKSimon: Any recommendations on what to do with these tests?
%x1 = icmp sgt <16 x i16> %i, <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>		%x1 = icmp sgt <16 x i16> %i, <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>
%x2 = select <16 x i1> %x1, <16 x i16> %i, <16 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>		%x2 = select <16 x i1> %x1, <16 x i16> %i, <16 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>
%x3 = icmp slt <16 x i16> %x2, <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>		%x3 = icmp slt <16 x i16> %x2, <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>
%x5 = select <16 x i1> %x3, <16 x i16> %x2, <16 x i16> <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>		%x5 = select <16 x i1> %x3, <16 x i16> %x2, <16 x i16> <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>
%x6 = trunc <16 x i16> %x5 to <16 x i8>		%x6 = trunc <16 x i16> %x5 to <16 x i8>
store <16 x i8> %x6, <16 x i8>* %res, align 1		store <16 x i8> %x6, <16 x i8>* %res, align 1
ret void		ret void
}		}
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/known-bits-vector.ll

	Show First 20 Lines • Show All 429 Lines • ▼ Show 20 Lines
	}			}

	define <4 x float> @knownbits_smax_smin_shuffle_uitofp(<4 x i32> %a0) {			define <4 x float> @knownbits_smax_smin_shuffle_uitofp(<4 x i32> %a0) {
	; X32-LABEL: knownbits_smax_smin_shuffle_uitofp:			; X32-LABEL: knownbits_smax_smin_shuffle_uitofp:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: vpminsd {{\.LCPI.*}}, %xmm0, %xmm0			; X32-NEXT: vpminsd {{\.LCPI.*}}, %xmm0, %xmm0
	; X32-NEXT: vpmaxsd {{\.LCPI.*}}, %xmm0, %xmm0			; X32-NEXT: vpmaxsd {{\.LCPI.*}}, %xmm0, %xmm0
	; X32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,3,3]			; X32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,3,3]
	; X32-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],mem[1],xmm0[2],mem[3],xmm0[4],mem[5],xmm0[6],mem[7]			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vpsrld $16, %xmm0, %xmm0
	; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],mem[1],xmm0[2],mem[3],xmm0[4],mem[5],xmm0[6],mem[7]
	; X32-NEXT: vsubps {{\.LCPI.*}}, %xmm0, %xmm0
	; X32-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: knownbits_smax_smin_shuffle_uitofp:			; X64-LABEL: knownbits_smax_smin_shuffle_uitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpminsd {{.*}}(%rip), %xmm0, %xmm0			; X64-NEXT: vpminsd {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpmaxsd {{.*}}(%rip), %xmm0, %xmm0			; X64-NEXT: vpmaxsd {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,3,3]			; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,3,3]
	; X64-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],mem[1],xmm0[2],mem[3],xmm0[4],mem[5],xmm0[6],mem[7]			; X64-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X64-NEXT: vpsrld $16, %xmm0, %xmm0
	; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],mem[1],xmm0[2],mem[3],xmm0[4],mem[5],xmm0[6],mem[7]
	; X64-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = call <4 x i32> @llvm.x86.sse41.pminsd(<4 x i32> %a0, <4 x i32> <i32 0, i32 -65535, i32 -65535, i32 0>)			%1 = call <4 x i32> @llvm.x86.sse41.pminsd(<4 x i32> %a0, <4 x i32> <i32 0, i32 -65535, i32 -65535, i32 0>)
	%2 = call <4 x i32> @llvm.x86.sse41.pmaxsd(<4 x i32> %1, <4 x i32> <i32 65535, i32 -1, i32 -1, i32 131071>)			%2 = call <4 x i32> @llvm.x86.sse41.pmaxsd(<4 x i32> %1, <4 x i32> <i32 65535, i32 -1, i32 -1, i32 131071>)
	%3 = shufflevector <4 x i32> %2, <4 x i32> undef, <4 x i32> <i32 0, i32 0, i32 3, i32 3>			%3 = shufflevector <4 x i32> %2, <4 x i32> undef, <4 x i32> <i32 0, i32 0, i32 3, i32 3>
	%4 = uitofp <4 x i32> %3 to <4 x float>			%4 = uitofp <4 x i32> %3 to <4 x float>
	ret <4 x float> %4			ret <4 x float> %4
	}			}
	declare <4 x i32> @llvm.x86.sse41.pmaxsd(<4 x i32>, <4 x i32>) nounwind readnone			declare <4 x i32> @llvm.x86.sse41.pmaxsd(<4 x i32>, <4 x i32>) nounwind readnone
	▲ Show 20 Lines • Show All 226 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_store_trunc_usat.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,184 Lines • ▼ Show 20 Lines
}		}

define void @truncstore_v32i16_v32i8(<32 x i16> %x, <32 x i8>* %p, <32 x i8> %mask) {		define void @truncstore_v32i16_v32i8(<32 x i16> %x, <32 x i8>* %p, <32 x i8> %mask) {
; SSE2-LABEL: truncstore_v32i16_v32i8:		; SSE2-LABEL: truncstore_v32i16_v32i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pxor %xmm7, %xmm7		; SSE2-NEXT: pxor %xmm7, %xmm7
; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSE2-NEXT: pxor %xmm6, %xmm1		; SSE2-NEXT: pxor %xmm6, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSE2-NEXT: pminsw %xmm8, %xmm1		; SSE2-NEXT: pminsw %xmm9, %xmm1
; SSE2-NEXT: pxor %xmm6, %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [32767,32767,32767,32767,32767,32767,32767,32767]
; SSE2-NEXT: pxor %xmm6, %xmm0		; SSE2-NEXT: pand %xmm8, %xmm1
; SSE2-NEXT: pminsw %xmm8, %xmm0
; SSE2-NEXT: pxor %xmm6, %xmm0		; SSE2-NEXT: pxor %xmm6, %xmm0
		; SSE2-NEXT: pminsw %xmm9, %xmm0
		; SSE2-NEXT: pand %xmm8, %xmm0
		RKSimonUnsubmitted Not Done Reply Inline Actions regression? RKSimon: regression?
		foadAuthorUnsubmitted Done Reply Inline Actions Wel, yes... It has spotted that the result of the pminsw is always negative, so rather than XOR with 0x8000 to flip (i.e. clear) the sign bit, it can AND with 0x7fff to clear the sign bit. But unfortunately that means materialising another constant. I don't know where this XOR -> AND "optimization" happens, or whether it can be finessed. The other regressions you pointed out below are basically the same issue. foad: Wel, yes... It has spotted that the result of the pminsw is always negative, so rather than XOR…
		foadAuthorUnsubmitted Done Reply Inline Actions I don't know where this XOR -> AND "optimization" happens, or whether it can be finessed. We have done this basically forever, in the XOR case in TargetLowering::SimplifyDemandedBits: // If one side is a constant, and all of the known set bits on the other // side are also set in the constant, turn this into an AND, as we know // the bits will be cleared. // e.g. (X \| C1) ^ C2 --> (X \| C1) & ~C2 iff (C1&C2) == C2 It seems to me that this is just bad luck, that we transform X^0x8000 into X&0x7FFF, but that happens to regress code quality because now we can't share with another use of the constant 0x8000. Is there any systematic way of fixing this, e.g. by doing the reverse transformation once we know what constants are already available in registers? Or can I commit this patch even with a known regression like this? After all, I'm sure if I looked hard enough I could find another test that got better by luck instead of worse. foad: > I don't know where this XOR -> AND "optimization" happens, or whether it can be finessed. We…
		foadAuthorUnsubmitted Done Reply Inline Actions If you buy the argument that SimplifyDemandedBits replacing XOR -> AND is not an optimization and is unhelpful in this case, D87464 + D87465 is my attempt at fixing that. If I rebase this patch on those two then all the bad diffs go away, leaving only the good diffs in `avx512-trunc.ll`. foad: If you buy the argument that SimplifyDemandedBits replacing XOR -> AND is not an…
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE2-NEXT: pcmpeqb %xmm7, %xmm4		; SSE2-NEXT: pcmpeqb %xmm7, %xmm4
; SSE2-NEXT: pmovmskb %xmm4, %ecx		; SSE2-NEXT: pmovmskb %xmm4, %ecx
; SSE2-NEXT: xorl $65535, %ecx # imm = 0xFFFF		; SSE2-NEXT: xorl $65535, %ecx # imm = 0xFFFF
; SSE2-NEXT: pcmpeqb %xmm7, %xmm5		; SSE2-NEXT: pcmpeqb %xmm7, %xmm5
; SSE2-NEXT: pmovmskb %xmm5, %eax		; SSE2-NEXT: pmovmskb %xmm5, %eax
; SSE2-NEXT: notl %eax		; SSE2-NEXT: notl %eax
; SSE2-NEXT: shll $16, %eax		; SSE2-NEXT: shll $16, %eax
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
; SSE2-NEXT: pxor %xmm6, %xmm3		; SSE2-NEXT: pxor %xmm6, %xmm3
; SSE2-NEXT: pxor %xmm6, %xmm2		; SSE2-NEXT: pxor %xmm6, %xmm2
; SSE2-NEXT: testl $4096, %eax # imm = 0x1000		; SSE2-NEXT: testl $4096, %eax # imm = 0x1000
; SSE2-NEXT: pextrw $6, %xmm0, %ecx		; SSE2-NEXT: pextrw $6, %xmm0, %ecx
; SSE2-NEXT: je .LBB15_26		; SSE2-NEXT: je .LBB15_26
; SSE2-NEXT: # %bb.25: # %cond.store23		; SSE2-NEXT: # %bb.25: # %cond.store23
; SSE2-NEXT: movb %cl, 12(%rdi)		; SSE2-NEXT: movb %cl, 12(%rdi)
; SSE2-NEXT: .LBB15_26: # %else24		; SSE2-NEXT: .LBB15_26: # %else24
; SSE2-NEXT: pminsw %xmm8, %xmm3		; SSE2-NEXT: pminsw %xmm9, %xmm3
; SSE2-NEXT: pminsw %xmm8, %xmm2		; SSE2-NEXT: pminsw %xmm9, %xmm2
; SSE2-NEXT: testl $8192, %eax # imm = 0x2000		; SSE2-NEXT: testl $8192, %eax # imm = 0x2000
; SSE2-NEXT: je .LBB15_28		; SSE2-NEXT: je .LBB15_28
; SSE2-NEXT: # %bb.27: # %cond.store25		; SSE2-NEXT: # %bb.27: # %cond.store25
; SSE2-NEXT: movb %ch, 13(%rdi)		; SSE2-NEXT: movb %ch, 13(%rdi)
; SSE2-NEXT: .LBB15_28: # %else26		; SSE2-NEXT: .LBB15_28: # %else26
; SSE2-NEXT: pxor %xmm6, %xmm3		; SSE2-NEXT: pand %xmm8, %xmm3
; SSE2-NEXT: pxor %xmm6, %xmm2		; SSE2-NEXT: pand %xmm8, %xmm2
; SSE2-NEXT: testl $16384, %eax # imm = 0x4000		; SSE2-NEXT: testl $16384, %eax # imm = 0x4000
; SSE2-NEXT: pextrw $7, %xmm0, %ecx		; SSE2-NEXT: pextrw $7, %xmm0, %ecx
; SSE2-NEXT: je .LBB15_30		; SSE2-NEXT: je .LBB15_30
; SSE2-NEXT: # %bb.29: # %cond.store27		; SSE2-NEXT: # %bb.29: # %cond.store27
; SSE2-NEXT: movb %cl, 14(%rdi)		; SSE2-NEXT: movb %cl, 14(%rdi)
; SSE2-NEXT: .LBB15_30: # %else28		; SSE2-NEXT: .LBB15_30: # %else28
; SSE2-NEXT: packuswb %xmm3, %xmm2		; SSE2-NEXT: packuswb %xmm3, %xmm2
; SSE2-NEXT: testl $32768, %eax # imm = 0x8000		; SSE2-NEXT: testl $32768, %eax # imm = 0x8000
▲ Show 20 Lines • Show All 1,114 Lines • ▼ Show 20 Lines
define void @truncstore_v16i16_v16i8(<16 x i16> %x, <16 x i8>* %p, <16 x i8> %mask) {		define void @truncstore_v16i16_v16i8(<16 x i16> %x, <16 x i8>* %p, <16 x i8> %mask) {
; SSE2-LABEL: truncstore_v16i16_v16i8:		; SSE2-LABEL: truncstore_v16i16_v16i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSE2-NEXT: pxor %xmm4, %xmm1		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSE2-NEXT: pminsw %xmm5, %xmm1		; SSE2-NEXT: pminsw %xmm5, %xmm1
; SSE2-NEXT: pxor %xmm4, %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [32767,32767,32767,32767,32767,32767,32767,32767]
		; SSE2-NEXT: pand %xmm6, %xmm1
; SSE2-NEXT: pxor %xmm4, %xmm0		; SSE2-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: pminsw %xmm5, %xmm0		; SSE2-NEXT: pminsw %xmm5, %xmm0
; SSE2-NEXT: pxor %xmm4, %xmm0		; SSE2-NEXT: pand %xmm6, %xmm0
		RKSimonUnsubmitted Not Done Reply Inline Actions regression? RKSimon: regression?
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE2-NEXT: pcmpeqb %xmm2, %xmm3		; SSE2-NEXT: pcmpeqb %xmm2, %xmm3
; SSE2-NEXT: pmovmskb %xmm3, %eax		; SSE2-NEXT: pmovmskb %xmm3, %eax
; SSE2-NEXT: xorl $65535, %eax # imm = 0xFFFF		; SSE2-NEXT: xorl $65535, %eax # imm = 0xFFFF
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: movd %xmm0, %ecx		; SSE2-NEXT: movd %xmm0, %ecx
; SSE2-NEXT: jne .LBB16_1		; SSE2-NEXT: jne .LBB16_1
; SSE2-NEXT: # %bb.2: # %else		; SSE2-NEXT: # %bb.2: # %else
▲ Show 20 Lines • Show All 617 Lines • ▼ Show 20 Lines	; AVX512BWVL-NEXT: retq
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %d, <16 x i8>* %p, i32 1, <16 x i1> %a)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %d, <16 x i8>* %p, i32 1, <16 x i1> %a)
ret void		ret void
}		}

define void @truncstore_v8i16_v8i8(<8 x i16> %x, <8 x i8>* %p, <8 x i16> %mask) {		define void @truncstore_v8i16_v8i8(<8 x i16> %x, <8 x i8>* %p, <8 x i16> %mask) {
; SSE2-LABEL: truncstore_v8i16_v8i8:		; SSE2-LABEL: truncstore_v8i16_v8i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm3, %xmm0
; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0		; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm3, %xmm0		; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
; SSE2-NEXT: packuswb %xmm0, %xmm0		; SSE2-NEXT: packuswb %xmm0, %xmm0
; SSE2-NEXT: pcmpeqw %xmm1, %xmm2		; SSE2-NEXT: pcmpeqw %xmm1, %xmm2
; SSE2-NEXT: pcmpeqd %xmm1, %xmm1		; SSE2-NEXT: pcmpeqd %xmm1, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm1		; SSE2-NEXT: pxor %xmm2, %xmm1
; SSE2-NEXT: packsswb %xmm1, %xmm1		; SSE2-NEXT: packsswb %xmm1, %xmm1
; SSE2-NEXT: pmovmskb %xmm1, %eax		; SSE2-NEXT: pmovmskb %xmm1, %eax
; SSE2-NEXT: testb $1, %al		; SSE2-NEXT: testb $1, %al
; SSE2-NEXT: movd %xmm0, %ecx		; SSE2-NEXT: movd %xmm0, %ecx
▲ Show 20 Lines • Show All 297 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-usat.ll

Show First 20 Lines • Show All 4,255 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%3 = trunc <16 x i32> %2 to <16 x i8>		%3 = trunc <16 x i32> %2 to <16 x i8>
store <16 x i8> %3, <16 x i8>* %p1		store <16 x i8> %3, <16 x i8>* %p1
ret void		ret void
}		}

define <8 x i8> @trunc_usat_v8i16_v8i8(<8 x i16> %a0) {		define <8 x i8> @trunc_usat_v8i16_v8i8(<8 x i16> %a0) {
; SSE2-LABEL: trunc_usat_v8i16_v8i8:		; SSE2-LABEL: trunc_usat_v8i16_v8i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm0
; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0		; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm0		; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
		RKSimonUnsubmitted Not Done Reply Inline Actions we appear to have 3 constant loads now instead of 2 RKSimon: we appear to have 3 constant loads now instead of 2
; SSE2-NEXT: packuswb %xmm0, %xmm0		; SSE2-NEXT: packuswb %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: trunc_usat_v8i16_v8i8:		; SSSE3-LABEL: trunc_usat_v8i16_v8i8:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSSE3-NEXT: pxor {{.*}}(%rip), %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm0
; SSSE3-NEXT: pminsw {{.*}}(%rip), %xmm0		; SSSE3-NEXT: pminsw {{.*}}(%rip), %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm0		; SSSE3-NEXT: pand {{.*}}(%rip), %xmm0
; SSSE3-NEXT: packuswb %xmm0, %xmm0		; SSSE3-NEXT: packuswb %xmm0, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: trunc_usat_v8i16_v8i8:		; SSE41-LABEL: trunc_usat_v8i16_v8i8:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pminuw {{.*}}(%rip), %xmm0		; SSE41-NEXT: pminuw {{.*}}(%rip), %xmm0
; SSE41-NEXT: packuswb %xmm0, %xmm0		; SSE41-NEXT: packuswb %xmm0, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
Show All 37 Lines	; SKX-NEXT: retq
%2 = select <8 x i1> %1, <8 x i16> %a0, <8 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%2 = select <8 x i1> %1, <8 x i16> %a0, <8 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
%3 = trunc <8 x i16> %2 to <8 x i8>		%3 = trunc <8 x i16> %2 to <8 x i8>
ret <8 x i8> %3		ret <8 x i8> %3
}		}

define void @trunc_usat_v8i16_v8i8_store(<8 x i16> %a0, <8 x i8> *%p1) {		define void @trunc_usat_v8i16_v8i8_store(<8 x i16> %a0, <8 x i8> *%p1) {
; SSE2-LABEL: trunc_usat_v8i16_v8i8_store:		; SSE2-LABEL: trunc_usat_v8i16_v8i8_store:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm0
; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0		; SSE2-NEXT: pminsw {{.*}}(%rip), %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm0		; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
; SSE2-NEXT: packuswb %xmm0, %xmm0		; SSE2-NEXT: packuswb %xmm0, %xmm0
; SSE2-NEXT: movq %xmm0, (%rdi)		; SSE2-NEXT: movq %xmm0, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: trunc_usat_v8i16_v8i8_store:		; SSSE3-LABEL: trunc_usat_v8i16_v8i8_store:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSSE3-NEXT: pxor {{.*}}(%rip), %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm0
; SSSE3-NEXT: pminsw {{.*}}(%rip), %xmm0		; SSSE3-NEXT: pminsw {{.*}}(%rip), %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm0		; SSSE3-NEXT: pand {{.*}}(%rip), %xmm0
; SSSE3-NEXT: packuswb %xmm0, %xmm0		; SSSE3-NEXT: packuswb %xmm0, %xmm0
; SSSE3-NEXT: movq %xmm0, (%rdi)		; SSSE3-NEXT: movq %xmm0, (%rdi)
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: trunc_usat_v8i16_v8i8_store:		; SSE41-LABEL: trunc_usat_v8i16_v8i8_store:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pminuw {{.*}}(%rip), %xmm0		; SSE41-NEXT: pminuw {{.*}}(%rip), %xmm0
; SSE41-NEXT: packuswb %xmm0, %xmm0		; SSE41-NEXT: packuswb %xmm0, %xmm0
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines

define <16 x i8> @trunc_usat_v16i16_v16i8(<16 x i16> %a0) {		define <16 x i8> @trunc_usat_v16i16_v16i8(<16 x i16> %a0) {
; SSE2-LABEL: trunc_usat_v16i16_v16i8:		; SSE2-LABEL: trunc_usat_v16i16_v16i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSE2-NEXT: pxor %xmm2, %xmm1		; SSE2-NEXT: pxor %xmm2, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSE2-NEXT: pminsw %xmm3, %xmm1		; SSE2-NEXT: pminsw %xmm3, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm1		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32767,32767,32767,32767,32767,32767,32767,32767]
		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pminsw %xmm3, %xmm0		; SSE2-NEXT: pminsw %xmm3, %xmm0
; SSE2-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: packuswb %xmm1, %xmm0		; SSE2-NEXT: packuswb %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: trunc_usat_v16i16_v16i8:		; SSSE3-LABEL: trunc_usat_v16i16_v16i8:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSSE3-NEXT: pxor %xmm2, %xmm1		; SSSE3-NEXT: pxor %xmm2, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSSE3-NEXT: pminsw %xmm3, %xmm1		; SSSE3-NEXT: pminsw %xmm3, %xmm1
; SSSE3-NEXT: pxor %xmm2, %xmm1		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [32767,32767,32767,32767,32767,32767,32767,32767]
		; SSSE3-NEXT: pand %xmm4, %xmm1
; SSSE3-NEXT: pxor %xmm2, %xmm0		; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: pminsw %xmm3, %xmm0		; SSSE3-NEXT: pminsw %xmm3, %xmm0
; SSSE3-NEXT: pxor %xmm2, %xmm0		; SSSE3-NEXT: pand %xmm4, %xmm0
; SSSE3-NEXT: packuswb %xmm1, %xmm0		; SSSE3-NEXT: packuswb %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: trunc_usat_v16i16_v16i8:		; SSE41-LABEL: trunc_usat_v16i16_v16i8:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]		; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
; SSE41-NEXT: pminuw %xmm2, %xmm1		; SSE41-NEXT: pminuw %xmm2, %xmm1
; SSE41-NEXT: pminuw %xmm2, %xmm0		; SSE41-NEXT: pminuw %xmm2, %xmm0
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%2 = select <16 x i1> %1, <16 x i16> %a0, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%2 = select <16 x i1> %1, <16 x i16> %a0, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
%3 = trunc <16 x i16> %2 to <16 x i8>		%3 = trunc <16 x i16> %2 to <16 x i8>
ret <16 x i8> %3		ret <16 x i8> %3
}		}

define <32 x i8> @trunc_usat_v32i16_v32i8(<32 x i16>* %p0) {		define <32 x i8> @trunc_usat_v32i16_v32i8(<32 x i16>* %p0) {
; SSE2-LABEL: trunc_usat_v32i16_v32i8:		; SSE2-LABEL: trunc_usat_v32i16_v32i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSE2-NEXT: movdqa 48(%rdi), %xmm0		; SSE2-NEXT: movdqa 48(%rdi), %xmm2
; SSE2-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: pxor %xmm0, %xmm2
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSE2-NEXT: pminsw %xmm3, %xmm0		; SSE2-NEXT: pminsw %xmm3, %xmm2
; SSE2-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32767,32767,32767,32767,32767,32767,32767,32767]
		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: movdqa 32(%rdi), %xmm1		; SSE2-NEXT: movdqa 32(%rdi), %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm1		; SSE2-NEXT: pxor %xmm0, %xmm1
; SSE2-NEXT: pminsw %xmm3, %xmm1		; SSE2-NEXT: pminsw %xmm3, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm1		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: packuswb %xmm0, %xmm1		; SSE2-NEXT: packuswb %xmm2, %xmm1
; SSE2-NEXT: movdqa 16(%rdi), %xmm4		; SSE2-NEXT: movdqa 16(%rdi), %xmm2
; SSE2-NEXT: pxor %xmm2, %xmm4		; SSE2-NEXT: pxor %xmm0, %xmm2
; SSE2-NEXT: pminsw %xmm3, %xmm4		; SSE2-NEXT: pminsw %xmm3, %xmm2
; SSE2-NEXT: pxor %xmm2, %xmm4		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: movdqa (%rdi), %xmm0		; SSE2-NEXT: pxor (%rdi), %xmm0
; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pminsw %xmm3, %xmm0		; SSE2-NEXT: pminsw %xmm3, %xmm0
; SSE2-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: packuswb %xmm4, %xmm0		; SSE2-NEXT: packuswb %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: trunc_usat_v32i16_v32i8:		; SSSE3-LABEL: trunc_usat_v32i16_v32i8:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [32768,32768,32768,32768,32768,32768,32768,32768]
; SSSE3-NEXT: movdqa 48(%rdi), %xmm0		; SSSE3-NEXT: movdqa 48(%rdi), %xmm2
; SSSE3-NEXT: pxor %xmm2, %xmm0		; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]		; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [33023,33023,33023,33023,33023,33023,33023,33023]
; SSSE3-NEXT: pminsw %xmm3, %xmm0		; SSSE3-NEXT: pminsw %xmm3, %xmm2
; SSSE3-NEXT: pxor %xmm2, %xmm0		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [32767,32767,32767,32767,32767,32767,32767,32767]
		; SSSE3-NEXT: pand %xmm4, %xmm2
; SSSE3-NEXT: movdqa 32(%rdi), %xmm1		; SSSE3-NEXT: movdqa 32(%rdi), %xmm1
; SSSE3-NEXT: pxor %xmm2, %xmm1		; SSSE3-NEXT: pxor %xmm0, %xmm1
; SSSE3-NEXT: pminsw %xmm3, %xmm1		; SSSE3-NEXT: pminsw %xmm3, %xmm1
; SSSE3-NEXT: pxor %xmm2, %xmm1		; SSSE3-NEXT: pand %xmm4, %xmm1
; SSSE3-NEXT: packuswb %xmm0, %xmm1		; SSSE3-NEXT: packuswb %xmm2, %xmm1
; SSSE3-NEXT: movdqa 16(%rdi), %xmm4		; SSSE3-NEXT: movdqa 16(%rdi), %xmm2
; SSSE3-NEXT: pxor %xmm2, %xmm4		; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: pminsw %xmm3, %xmm4		; SSSE3-NEXT: pminsw %xmm3, %xmm2
; SSSE3-NEXT: pxor %xmm2, %xmm4		; SSSE3-NEXT: pand %xmm4, %xmm2
; SSSE3-NEXT: movdqa (%rdi), %xmm0		; SSSE3-NEXT: pxor (%rdi), %xmm0
; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: pminsw %xmm3, %xmm0		; SSSE3-NEXT: pminsw %xmm3, %xmm0
; SSSE3-NEXT: pxor %xmm2, %xmm0		; SSSE3-NEXT: pand %xmm4, %xmm0
; SSSE3-NEXT: packuswb %xmm4, %xmm0		; SSSE3-NEXT: packuswb %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: trunc_usat_v32i16_v32i8:		; SSE41-LABEL: trunc_usat_v32i16_v32i8:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]		; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]
; SSE41-NEXT: movdqa 48(%rdi), %xmm2		; SSE41-NEXT: movdqa 48(%rdi), %xmm2
; SSE41-NEXT: pminuw %xmm0, %xmm2		; SSE41-NEXT: pminuw %xmm0, %xmm2
; SSE41-NEXT: movdqa 32(%rdi), %xmm1		; SSE41-NEXT: movdqa 32(%rdi), %xmm1
▲ Show 20 Lines • Show All 312 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[SelectionDAG] Remove an early-out from computeKnownBits for smin/smaxClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 289963

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/test/CodeGen/X86/avx512-trunc.ll

llvm/test/CodeGen/X86/known-bits-vector.ll

llvm/test/CodeGen/X86/masked_store_trunc_usat.ll

llvm/test/CodeGen/X86/vector-trunc-usat.ll

[SelectionDAG] Remove an early-out from computeKnownBits for smin/smax
ClosedPublic