This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
1/1
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
avx512-logic.ll
-
known-signbits-vector.ll
-
memcmp-more-load-pairs.ll
-
memcmp-optsize.ll
-
memcmp-pgso.ll
-
memcmp.ll
-
merge-consecutive-loads-512.ll
1/1
pr40891.ll
2
sse2.ll
1/4
vec_saddo.ll
-
vec_ssubo.ll
-
vector-idiv-v2i32.ll
1
vector-reduce-and-cmp.ll
2
vector-reduce-and.ll
-
vector-reduce-or.ll
-
vector-reduce-xor.ll
-
vector-trunc-packus.ll
-
widen_cast-5.ll
-
xor.ll

Differential D96206

[X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int bitcasts
ClosedPublic

Authored by RKSimon on Feb 6 2021, 8:20 AM.

Download Raw Diff

Details

Reviewers

spatel
craig.topper
pengfei

Commits

rGa6a258f1da37: [X86][AVX] Fold concat(extract_subvector(v0,c0), extract_subvector(v1,c1)) ->…
rG2885d1251f29: [X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int…

Summary

Extend the existing combine that handles bitcasting for fp-logic ops to also help remove logic ops across bitcasts to/from the same integer types.

This helps improve AVX512 predicate handling for D/Q logic ops and also allows DAGCombine's scalarizeExtractedBinop to remove some annoying gpr->simd->gpr transfers.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Feb 6 2021, 8:20 AM

Herald added subscribers: steven.zhang, hiraditya. · View Herald TranscriptFeb 6 2021, 8:20 AM

RKSimon requested review of this revision.Feb 6 2021, 8:20 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 6 2021, 8:20 AM

RKSimon added inline comments.Feb 6 2021, 8:25 AM

llvm/test/CodeGen/X86/pr40891.ll
16	I missed this regression, will take a look.

xbolva00 added a subscriber: xbolva00.Feb 6 2021, 8:34 AM

xbolva00 added inline comments.

llvm/test/CodeGen/X86/vector-reduce-and-cmp.ll
592	Regression

Add regression fix for concat of extract_subvector through bitcasts

Harbormaster completed remote builds in B88183: Diff 321939.Feb 6 2021, 9:01 AM

Harbormaster completed remote builds in B88184: Diff 321941.Feb 6 2021, 9:25 AM

pengfei added inline comments.Feb 6 2021, 10:09 PM

llvm/test/CodeGen/X86/sse2.ll
689	Should `pand` be better for integer vector?
llvm/test/CodeGen/X86/vec_saddo.ll
816	I haven't figured the math here out yet, but the removal of this doesn't look correct to me. The previous math is `xmm4[0] & xmm2[1] \| xmm4[1]`, but we are changing it to `xmm4[1] & xmm2[1] \| xmm4[1]`.
llvm/test/CodeGen/X86/vector-reduce-and.ll
560	Is this still regression?

RKSimon added inline comments.Feb 7 2021, 2:21 AM

llvm/test/CodeGen/X86/sse2.ll
689	it would use pand if there was any int domain instructions around (if it fed a shift etc.) - but otherwise the default is to use the ps domain if possible.
llvm/test/CodeGen/X86/vec_saddo.ll
816	I think this is SimplifyDemandedElts (called from one of the shuffles below) being able to remove the shuffle now that it can see everything as <4 x i32> - but I haven't confirmed that yet.
llvm/test/CodeGen/X86/vector-reduce-and.ll
560	Yes - I'm going to have a look at this

Still investigating the reduction regressions

Add missing hasOneUse check to fix reduction regressions

Harbormaster completed remote builds in B89730: Diff 324638.Feb 18 2021, 8:42 AM

Any more comments?

llvm/lib/Target/X86/X86ISelLowering.cpp
49366	For the record I'm intending to commit this fold as a followup commit to the fix the temporary regression.

LGTM.

llvm/test/CodeGen/X86/vec_saddo.ll
816	Verified it locally by random number https://godbolt.org/z/61eTfr, the change here should be correct.

This revision is now accepted and ready to land.Feb 21 2021, 5:24 AM

RKSimon added inline comments.Feb 21 2021, 6:09 AM

llvm/test/CodeGen/X86/vec_saddo.ll
816	Nice! Thank you.

Closed by commit rG2885d1251f29: [X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int… (authored by RKSimon). · Explain WhyFeb 21 2021, 6:51 AM

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rG2885d1251f29: [X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int….

RKSimon added a commit: rGa6a258f1da37: [X86][AVX] Fold concat(extract_subvector(v0,c0), extract_subvector(v1,c1)) ->….

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

21 lines

test/

CodeGen/

X86/

avx512-logic.ll

8 lines

known-signbits-vector.ll

2 lines

memcmp-more-load-pairs.ll

2 lines

memcmp-optsize.ll

2 lines

memcmp-pgso.ll

2 lines

memcmp.ll

2 lines

merge-consecutive-loads-512.ll

2 lines

6 lines

34 lines

3 lines

6 lines

6 lines

vector-reduce-and-cmp.ll

6 lines

vector-reduce-and.ll

6 lines

vector-reduce-or.ll

6 lines

vector-reduce-xor.ll

6 lines

vector-trunc-packus.ll

168 lines

widen_cast-5.ll

6 lines

xor.ll

11 lines

Diff 325296

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 39,593 Lines • ▼ Show 20 Lines
}		}

static SDValue combineBitcast(SDNode *N, SelectionDAG &DAG,		static SDValue combineBitcast(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
EVT SrcVT = N0.getValueType();		EVT SrcVT = N0.getValueType();
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();

// Try to match patterns such as		// Try to match patterns such as
// (i16 bitcast (v16i1 x))		// (i16 bitcast (v16i1 x))
// ->		// ->
// (i16 movmsk (16i8 sext (v16i1 x)))		// (i16 movmsk (16i8 sext (v16i1 x)))
// before the setcc result is scalarized on subtargets that don't have legal		// before the setcc result is scalarized on subtargets that don't have legal
// vxi1 types.		// vxi1 types.
if (DCI.isBeforeLegalize()) {		if (DCI.isBeforeLegalize()) {
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	if ((SrcVT == MVT::v4i1 \|\| SrcVT == MVT::v2i1) && VT.isScalarInteger() &&
N0 = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v8i1, Ops);		N0 = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v8i1, Ops);
N0 = DAG.getBitcast(MVT::i8, N0);		N0 = DAG.getBitcast(MVT::i8, N0);
return DAG.getNode(ISD::TRUNCATE, dl, VT, N0);		return DAG.getNode(ISD::TRUNCATE, dl, VT, N0);
}		}
} else {		} else {
// If we're bitcasting from iX to vXi1, see if the integer originally		// If we're bitcasting from iX to vXi1, see if the integer originally
// began as a vXi1 and whether we can remove the bitcast entirely.		// began as a vXi1 and whether we can remove the bitcast entirely.
if (VT.isVector() && VT.getScalarType() == MVT::i1 &&		if (VT.isVector() && VT.getScalarType() == MVT::i1 &&
SrcVT.isScalarInteger() &&		SrcVT.isScalarInteger() && TLI.isTypeLegal(VT)) {
DAG.getTargetLoweringInfo().isTypeLegal(VT)) {
if (SDValue V =		if (SDValue V =
combineBitcastToBoolVector(VT, N0, SDLoc(N), DAG, Subtarget))		combineBitcastToBoolVector(VT, N0, SDLoc(N), DAG, Subtarget))
return V;		return V;
}		}
}		}

// Look for (i8 (bitcast (v8i1 (extract_subvector (v16i1 X), 0)))) and		// Look for (i8 (bitcast (v8i1 (extract_subvector (v16i1 X), 0)))) and
// replace with (i8 (trunc (i16 (bitcast (v16i1 X))))). This can occur		// replace with (i8 (trunc (i16 (bitcast (v16i1 X))))). This can occur
▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	static SDValue combineBitcast(SDNode *N, SelectionDAG &DAG,
unsigned FPOpcode;		unsigned FPOpcode;
switch (N0.getOpcode()) {		switch (N0.getOpcode()) {
case ISD::AND: FPOpcode = X86ISD::FAND; break;		case ISD::AND: FPOpcode = X86ISD::FAND; break;
case ISD::OR: FPOpcode = X86ISD::FOR; break;		case ISD::OR: FPOpcode = X86ISD::FOR; break;
case ISD::XOR: FPOpcode = X86ISD::FXOR; break;		case ISD::XOR: FPOpcode = X86ISD::FXOR; break;
default: return SDValue();		default: return SDValue();
}		}

		// Check if we have a bitcast from another integer type as well.
if (!((Subtarget.hasSSE1() && VT == MVT::f32) \|\|		if (!((Subtarget.hasSSE1() && VT == MVT::f32) \|\|
(Subtarget.hasSSE2() && VT == MVT::f64)))		(Subtarget.hasSSE2() && VT == MVT::f64) \|\|
		(Subtarget.hasSSE2() && VT.isInteger() && VT.isVector() &&
		TLI.isTypeLegal(VT))))
return SDValue();		return SDValue();

SDValue LogicOp0 = N0.getOperand(0);		SDValue LogicOp0 = N0.getOperand(0);
SDValue LogicOp1 = N0.getOperand(1);		SDValue LogicOp1 = N0.getOperand(1);
SDLoc DL0(N0);		SDLoc DL0(N0);

// bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y))		// bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y))
if (N0.hasOneUse() && LogicOp0.getOpcode() == ISD::BITCAST &&		if (N0.hasOneUse() && LogicOp0.getOpcode() == ISD::BITCAST &&
LogicOp0.hasOneUse() && LogicOp0.getOperand(0).getValueType() == VT &&		LogicOp0.hasOneUse() && LogicOp0.getOperand(0).hasOneUse() &&
		LogicOp0.getOperand(0).getValueType() == VT &&
!isa<ConstantSDNode>(LogicOp0.getOperand(0))) {		!isa<ConstantSDNode>(LogicOp0.getOperand(0))) {
SDValue CastedOp1 = DAG.getBitcast(VT, LogicOp1);		SDValue CastedOp1 = DAG.getBitcast(VT, LogicOp1);
return DAG.getNode(FPOpcode, DL0, VT, LogicOp0.getOperand(0), CastedOp1);		unsigned Opcode = VT.isFloatingPoint() ? FPOpcode : N0.getOpcode();
		return DAG.getNode(Opcode, DL0, VT, LogicOp0.getOperand(0), CastedOp1);
}		}
// bitcast(logic(X, bitcast(Y))) --> logic'(bitcast(X), Y)		// bitcast(logic(X, bitcast(Y))) --> logic'(bitcast(X), Y)
if (N0.hasOneUse() && LogicOp1.getOpcode() == ISD::BITCAST &&		if (N0.hasOneUse() && LogicOp1.getOpcode() == ISD::BITCAST &&
LogicOp1.hasOneUse() && LogicOp1.getOperand(0).getValueType() == VT &&		LogicOp1.hasOneUse() && LogicOp1.getOperand(0).hasOneUse() &&
		LogicOp1.getOperand(0).getValueType() == VT &&
!isa<ConstantSDNode>(LogicOp1.getOperand(0))) {		!isa<ConstantSDNode>(LogicOp1.getOperand(0))) {
SDValue CastedOp0 = DAG.getBitcast(VT, LogicOp0);		SDValue CastedOp0 = DAG.getBitcast(VT, LogicOp0);
return DAG.getNode(FPOpcode, DL0, VT, LogicOp1.getOperand(0), CastedOp0);		unsigned Opcode = VT.isFloatingPoint() ? FPOpcode : N0.getOpcode();
		return DAG.getNode(Opcode, DL0, VT, LogicOp1.getOperand(0), CastedOp0);
}		}

return SDValue();		return SDValue();
}		}

// Given a ABS node, detect the following pattern:		// Given a ABS node, detect the following pattern:
// (ABS (SUB (ZERO_EXTEND a), (ZERO_EXTEND b))).		// (ABS (SUB (ZERO_EXTEND a), (ZERO_EXTEND b))).
// This is useful as it is the input into a SAD pattern.		// This is useful as it is the input into a SAD pattern.
▲ Show 20 Lines • Show All 9,474 Lines • ▼ Show 20 Lines	case X86ISD::VROTRI:
return Op0.getOperand(1) == Op.getOperand(1);		return Op0.getOperand(1) == Op.getOperand(1);
})) {		})) {
SmallVector<SDValue, 2> Src;		SmallVector<SDValue, 2> Src;
for (unsigned i = 0; i != NumOps; ++i)		for (unsigned i = 0; i != NumOps; ++i)
Src.push_back(Ops[i].getOperand(0));		Src.push_back(Ops[i].getOperand(0));
return DAG.getNode(Op0.getOpcode(), DL, VT,		return DAG.getNode(Op0.getOpcode(), DL, VT,
DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, Src),		DAG.getNode(ISD::CONCAT_VECTORS, DL, VT, Src),
Op0.getOperand(1));		Op0.getOperand(1));
}		}
		RKSimonAuthorUnsubmitted Done Reply Inline Actions For the record I'm intending to commit this fold as a followup commit to the fix the temporary regression. RKSimon: For the record I'm intending to commit this fold as a followup commit to the fix the temporary…
break;		break;
case ISD::AND:		case ISD::AND:
case ISD::OR:		case ISD::OR:
case ISD::XOR:		case ISD::XOR:
case X86ISD::ANDNP:		case X86ISD::ANDNP:
// TODO: Add 256-bit support.		// TODO: Add 256-bit support.
if (!IsSplat && VT.is512BitVector()) {		if (!IsSplat && VT.is512BitVector()) {
SmallVector<SDValue, 2> LHS, RHS;		SmallVector<SDValue, 2> LHS, RHS;
▲ Show 20 Lines • Show All 2,285 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-logic.ll

Show First 20 Lines • Show All 905 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
ret <8 x i64> %b		ret <8 x i64> %b
}		}

define <16 x i32> @ternlog_maskz_or_and_mask(<16 x i32> %x, <16 x i32> %y, <16 x i32> %mask) {		define <16 x i32> @ternlog_maskz_or_and_mask(<16 x i32> %x, <16 x i32> %y, <16 x i32> %mask) {
; KNL-LABEL: ternlog_maskz_or_and_mask:		; KNL-LABEL: ternlog_maskz_or_and_mask:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; KNL-NEXT: vpcmpgtd %zmm2, %zmm3, %k1		; KNL-NEXT: vpcmpgtd %zmm2, %zmm3, %k1
; KNL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0		; KNL-NEXT: vpandd {{.*}}(%rip), %zmm0, %zmm0
; KNL-NEXT: vpord %zmm1, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpord %zmm1, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: ternlog_maskz_or_and_mask:		; SKX-LABEL: ternlog_maskz_or_and_mask:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovd2m %zmm2, %k1		; SKX-NEXT: vpmovd2m %zmm2, %k1
; SKX-NEXT: vandps {{.*}}(%rip), %zmm0, %zmm0		; SKX-NEXT: vandps {{.*}}(%rip), %zmm0, %zmm0
; SKX-NEXT: vorps %zmm1, %zmm0, %zmm0 {%k1} {z}		; SKX-NEXT: vorps %zmm1, %zmm0, %zmm0 {%k1} {z}
; SKX-NEXT: retq		; SKX-NEXT: retq
%m = icmp slt <16 x i32> %mask, zeroinitializer		%m = icmp slt <16 x i32> %mask, zeroinitializer
%a = and <16 x i32> %x, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%a = and <16 x i32> %x, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%b = or <16 x i32> %a, %y		%b = or <16 x i32> %a, %y
%c = select <16 x i1> %m, <16 x i32> %b, <16 x i32> zeroinitializer		%c = select <16 x i1> %m, <16 x i32> %b, <16 x i32> zeroinitializer
ret <16 x i32> %c		ret <16 x i32> %c
}		}

define <8 x i64> @ternlog_maskz_xor_and_mask(<8 x i64> %x, <8 x i64> %y, <8 x i64> %mask) {		define <8 x i64> @ternlog_maskz_xor_and_mask(<8 x i64> %x, <8 x i64> %y, <8 x i64> %mask) {
; KNL-LABEL: ternlog_maskz_xor_and_mask:		; KNL-LABEL: ternlog_maskz_xor_and_mask:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; KNL-NEXT: vpcmpgtq %zmm2, %zmm3, %k1		; KNL-NEXT: vpcmpgtq %zmm2, %zmm3, %k1
; KNL-NEXT: vpandd {{.*}}(%rip), %zmm0, %zmm0		; KNL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; KNL-NEXT: vpxorq %zmm1, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpxorq %zmm1, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: ternlog_maskz_xor_and_mask:		; SKX-LABEL: ternlog_maskz_xor_and_mask:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovq2m %zmm2, %k1		; SKX-NEXT: vpmovq2m %zmm2, %k1
; SKX-NEXT: vandpd {{.*}}(%rip), %zmm0, %zmm0		; SKX-NEXT: vandpd {{.*}}(%rip), %zmm0, %zmm0
; SKX-NEXT: vxorpd %zmm1, %zmm0, %zmm0 {%k1} {z}		; SKX-NEXT: vxorpd %zmm1, %zmm0, %zmm0 {%k1} {z}
Show All 27 Lines	; SKX-NEXT: retq
ret <16 x i32> %c		ret <16 x i32> %c
}		}

define <16 x i32> @ternlog_masky_or_and_mask(<16 x i32> %x, <16 x i32> %y, <16 x i32> %mask) {		define <16 x i32> @ternlog_masky_or_and_mask(<16 x i32> %x, <16 x i32> %y, <16 x i32> %mask) {
; KNL-LABEL: ternlog_masky_or_and_mask:		; KNL-LABEL: ternlog_masky_or_and_mask:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; KNL-NEXT: vpcmpgtd %zmm2, %zmm3, %k1		; KNL-NEXT: vpcmpgtd %zmm2, %zmm3, %k1
; KNL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0		; KNL-NEXT: vpandd {{.*}}(%rip), %zmm0, %zmm0
; KNL-NEXT: vpord %zmm1, %zmm0, %zmm1 {%k1}		; KNL-NEXT: vpord %zmm1, %zmm0, %zmm1 {%k1}
; KNL-NEXT: vmovdqa64 %zmm1, %zmm0		; KNL-NEXT: vmovdqa64 %zmm1, %zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: ternlog_masky_or_and_mask:		; SKX-LABEL: ternlog_masky_or_and_mask:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovd2m %zmm2, %k1		; SKX-NEXT: vpmovd2m %zmm2, %k1
; SKX-NEXT: vandps {{.*}}(%rip), %zmm0, %zmm0		; SKX-NEXT: vandps {{.*}}(%rip), %zmm0, %zmm0
Show All 29 Lines	; SKX-NEXT: retq
ret <8 x i64> %c		ret <8 x i64> %c
}		}

define <8 x i64> @ternlog_masky_xor_and_mask(<8 x i64> %x, <8 x i64> %y, <8 x i64> %mask) {		define <8 x i64> @ternlog_masky_xor_and_mask(<8 x i64> %x, <8 x i64> %y, <8 x i64> %mask) {
; KNL-LABEL: ternlog_masky_xor_and_mask:		; KNL-LABEL: ternlog_masky_xor_and_mask:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; KNL-NEXT: vpcmpgtq %zmm2, %zmm3, %k1		; KNL-NEXT: vpcmpgtq %zmm2, %zmm3, %k1
; KNL-NEXT: vpandd {{.*}}(%rip), %zmm0, %zmm0		; KNL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; KNL-NEXT: vpxorq %zmm1, %zmm0, %zmm1 {%k1}		; KNL-NEXT: vpxorq %zmm1, %zmm0, %zmm1 {%k1}
; KNL-NEXT: vmovdqa64 %zmm1, %zmm0		; KNL-NEXT: vmovdqa64 %zmm1, %zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: ternlog_masky_xor_and_mask:		; SKX-LABEL: ternlog_masky_xor_and_mask:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpmovq2m %zmm2, %k1		; SKX-NEXT: vpmovq2m %zmm2, %k1
; SKX-NEXT: vandpd {{.*}}(%rip), %zmm0, %zmm0		; SKX-NEXT: vandpd {{.*}}(%rip), %zmm0, %zmm0
Show All 9 Lines

llvm/test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 335 Lines • ▼ Show 20 Lines

	define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {			define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {
	; X86-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:			; X86-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %eax			; X86-NEXT: pushl %eax
	; X86-NEXT: vpsrad $29, %xmm0, %xmm0			; X86-NEXT: vpsrad $29, %xmm0, %xmm0
	; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: vpand %xmm1, %xmm0, %xmm0			; X86-NEXT: vpand %xmm0, %xmm1, %xmm0
	; X86-NEXT: vcvtdq2ps %xmm0, %xmm0			; X86-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%esp)			; X86-NEXT: vmovss %xmm0, (%esp)
	; X86-NEXT: flds (%esp)			; X86-NEXT: flds (%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:			; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	▲ Show 20 Lines • Show All 446 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memcmp-more-load-pairs.ll

	Show First 20 Lines • Show All 1,665 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX-LABEL: length24_eq:			; X64-AVX-LABEL: length24_eq:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0			; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0
	; X64-AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vptest %xmm0, %xmm0			; X64-AVX-NEXT: vptest %xmm0, %xmm0
	; X64-AVX-NEXT: sete %al			; X64-AVX-NEXT: sete %al
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-MIC-AVX-LABEL: length24_eq:			; X64-MIC-AVX-LABEL: length24_eq:
	; X64-MIC-AVX: # %bb.0:			; X64-MIC-AVX: # %bb.0:
	; X64-MIC-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-MIC-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-MIC-AVX-NEXT: vmovdqu (%rsi), %xmm1			; X64-MIC-AVX-NEXT: vmovdqu (%rsi), %xmm1
	▲ Show 20 Lines • Show All 4,769 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memcmp-optsize.ll

	Show First 20 Lines • Show All 682 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX-LABEL: length24_eq:			; X64-AVX-LABEL: length24_eq:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0			; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0
	; X64-AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vptest %xmm0, %xmm0			; X64-AVX-NEXT: vptest %xmm0, %xmm0
	; X64-AVX-NEXT: sete %al			; X64-AVX-NEXT: sete %al
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%call = tail call i32 @memcmp(i8* %x, i8* %y, i64 24) nounwind			%call = tail call i32 @memcmp(i8* %x, i8* %y, i64 24) nounwind
	%cmp = icmp eq i32 %call, 0			%cmp = icmp eq i32 %call, 0
	ret i1 %cmp			ret i1 %cmp
	}			}

	▲ Show 20 Lines • Show All 349 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memcmp-pgso.ll

	Show First 20 Lines • Show All 682 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX-LABEL: length24_eq:			; X64-AVX-LABEL: length24_eq:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0			; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0
	; X64-AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vptest %xmm0, %xmm0			; X64-AVX-NEXT: vptest %xmm0, %xmm0
	; X64-AVX-NEXT: sete %al			; X64-AVX-NEXT: sete %al
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%call = tail call i32 @memcmp(i8* %x, i8* %y, i64 24) nounwind			%call = tail call i32 @memcmp(i8* %x, i8* %y, i64 24) nounwind
	%cmp = icmp eq i32 %call, 0			%cmp = icmp eq i32 %call, 0
	ret i1 %cmp			ret i1 %cmp
	}			}

	▲ Show 20 Lines • Show All 365 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memcmp.ll

	Show First 20 Lines • Show All 1,644 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX-LABEL: length24_eq:			; X64-AVX-LABEL: length24_eq:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; X64-AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; X64-AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0			; X64-AVX-NEXT: vpxor (%rsi), %xmm0, %xmm0
	; X64-AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vptest %xmm0, %xmm0			; X64-AVX-NEXT: vptest %xmm0, %xmm0
	; X64-AVX-NEXT: sete %al			; X64-AVX-NEXT: sete %al
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-MIC-AVX-LABEL: length24_eq:			; X64-MIC-AVX-LABEL: length24_eq:
	; X64-MIC-AVX: # %bb.0:			; X64-MIC-AVX: # %bb.0:
	; X64-MIC-AVX-NEXT: vmovdqu (%rdi), %xmm0			; X64-MIC-AVX-NEXT: vmovdqu (%rdi), %xmm0
	; X64-MIC-AVX-NEXT: vmovdqu (%rsi), %xmm1			; X64-MIC-AVX-NEXT: vmovdqu (%rsi), %xmm1
	▲ Show 20 Lines • Show All 3,353 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/merge-consecutive-loads-512.ll

	Show First 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; ALL-NEXT: vmovdqu64 8(%rdi), %zmm0			; ALL-NEXT: vmovdqu64 8(%rdi), %zmm0
	; ALL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0			; ALL-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	;			;
	; X86-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:			; X86-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:
	; X86-AVX512F: # %bb.0:			; X86-AVX512F: # %bb.0:
	; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX512F-NEXT: vmovdqu64 8(%eax), %zmm0			; X86-AVX512F-NEXT: vmovdqu64 8(%eax), %zmm0
	; X86-AVX512F-NEXT: vpandq {{\.LCPI.*}}, %zmm0, %zmm0			; X86-AVX512F-NEXT: vpandd {{\.LCPI.*}}, %zmm0, %zmm0
	; X86-AVX512F-NEXT: retl			; X86-AVX512F-NEXT: retl
	%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1			%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1
	%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3			%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3
	%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5			%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5
	%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8			%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8
	%val0 = load i64, i64* %ptr0			%val0 = load i64, i64* %ptr0
	%val2 = load i64, i64* %ptr2			%val2 = load i64, i64* %ptr2
	%val4 = load i64, i64* %ptr4			%val4 = load i64, i64* %ptr4
	▲ Show 20 Lines • Show All 438 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr40891.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s

	; Make sure this sequence doesn't hang in DAG combine.			; Make sure this sequence doesn't hang in DAG combine.

	define <8 x i32> @foo(<8 x i64> %x, <4 x i64> %y) {			define <8 x i32> @foo(<8 x i64> %x, <4 x i64> %y) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vandps %ymm2, %ymm0, %ymm0			; CHECK-NEXT: vandps %ymm2, %ymm0, %ymm0
	; CHECK-NEXT: vandps {{\.LCPI.*}}, %ymm1, %ymm1			; CHECK-NEXT: vandps {{\.LCPI.*}}, %ymm1, %ymm1
	; CHECK-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; CHECK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm2
				; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
				; CHECK-NEXT: vextractf128 $1, %ymm1, %xmm1
	; CHECK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; CHECK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; CHECK-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; CHECK-NEXT: vshufps {{.*#+}} ymm0 = ymm2[0,2],ymm0[0,2],ymm2[4,6],ymm0[4,6]
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
				RKSimonAuthorUnsubmitted Done Reply Inline Actions I missed this regression, will take a look. RKSimon: I missed this regression, will take a look.
	%a = shufflevector <4 x i64> %y, <4 x i64> <i64 12345, i64 67890, i64 13579, i64 24680>, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%a = shufflevector <4 x i64> %y, <4 x i64> <i64 12345, i64 67890, i64 13579, i64 24680>, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%b = and <8 x i64> %x, %a			%b = and <8 x i64> %x, %a
	%c = trunc <8 x i64> %b to <8 x i32>			%c = trunc <8 x i64> %b to <8 x i32>
	ret <8 x i32> %c			ret <8 x i32> %c
	}			}

llvm/test/CodeGen/X86/sse2.ll

	Show First 20 Lines • Show All 672 Lines • ▼ Show 20 Lines
	}			}

	define <4 x i32> @PR19721(<4 x i32> %i) {			define <4 x i32> @PR19721(<4 x i32> %i) {
	; X86-SSE-LABEL: PR19721:			; X86-SSE-LABEL: PR19721:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: andps {{\.LCPI.*}}, %xmm0			; X86-SSE-NEXT: andps {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: PR19721:			; AVX-LABEL: PR19721:
	; X86-AVX: # %bb.0:			; AVX: # %bb.0:
	; X86-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X86-AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; X86-AVX-NEXT: retl			; AVX-NEXT: ret{{[l\|q]}}
	;			;
	; X64-SSE-LABEL: PR19721:			; X64-SSE-LABEL: PR19721:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: movq %xmm0, %rax			; X64-SSE-NEXT: andps {{.*}}(%rip), %xmm0
				pengfeiUnsubmitted Not Done Reply Inline Actions Should `pand` be better for integer vector? pengfei: Should `pand` be better for integer vector?
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions it would use pand if there was any int domain instructions around (if it fed a shift etc.) - but otherwise the default is to use the ps domain if possible. RKSimon: it would use pand if there was any int domain instructions around (if it fed a shift etc.)…
	; X64-SSE-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-SSE-NEXT: andq %rax, %rcx
	; X64-SSE-NEXT: movq %rcx, %xmm1
	; X64-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;
	; X64-AVX1-LABEL: PR19721:
	; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-AVX1-NEXT: andq %rax, %rcx
	; X64-AVX1-NEXT: vmovq %rcx, %xmm1
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; X64-AVX1-NEXT: retq
	;
	; X64-AVX512-LABEL: PR19721:
	; X64-AVX512: # %bb.0:
	; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-AVX512-NEXT: andq %rax, %rcx
	; X64-AVX512-NEXT: vmovq %rcx, %xmm1
	; X64-AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; X64-AVX512-NEXT: retq
	%bc = bitcast <4 x i32> %i to i128			%bc = bitcast <4 x i32> %i to i128
	%insert = and i128 %bc, -4294967296			%insert = and i128 %bc, -4294967296
	%bc2 = bitcast i128 %insert to <4 x i32>			%bc2 = bitcast i128 %insert to <4 x i32>
	ret <4 x i32> %bc2			ret <4 x i32> %bc2
	}			}

	define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {			define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {
	; SSE-LABEL: test_mul:			; SSE-LABEL: test_mul:
	Show All 17 Lines

llvm/test/CodeGen/X86/vec_saddo.ll

	Show First 20 Lines • Show All 807 Lines • ▼ Show 20 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: pxor %xmm2, %xmm3			; SSE-NEXT: pxor %xmm2, %xmm3
	; SSE-NEXT: paddq %xmm1, %xmm0			; SSE-NEXT: paddq %xmm1, %xmm0
	; SSE-NEXT: pxor %xmm0, %xmm2			; SSE-NEXT: pxor %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm3, %xmm4			; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: pcmpgtd %xmm2, %xmm4			; SSE-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	pengfeiUnsubmitted Not Done Reply Inline Actions I haven't figured the math here out yet, but the removal of this doesn't look correct to me. The previous math is `xmm4[0] & xmm2[1] \| xmm4[1]`, but we are changing it to `xmm4[1] & xmm2[1] \| xmm4[1]`. pengfei: I haven't figured the math here out yet, but the removal of this doesn't look correct to me.
	RKSimonAuthorUnsubmitted Done Reply Inline Actions I think this is SimplifyDemandedElts (called from one of the shuffles below) being able to remove the shuffle now that it can see everything as <4 x i32> - but I haven't confirmed that yet. RKSimon: I think this is SimplifyDemandedElts (called from one of the shuffles below) being able to…
	pengfeiUnsubmitted Not Done Reply Inline Actions Verified it locally by random number https://godbolt.org/z/61eTfr, the change here should be correct. pengfei: Verified it locally by random number https://godbolt.org/z/61eTfr, the change here should be…
	RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Nice! Thank you. RKSimon: Nice! Thank you.
	; SSE-NEXT: pcmpeqd %xmm3, %xmm2			; SSE-NEXT: pcmpeqd %xmm3, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE-NEXT: pand %xmm5, %xmm2			; SSE-NEXT: pand %xmm4, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE-NEXT: por %xmm2, %xmm3			; SSE-NEXT: por %xmm2, %xmm3
	; SSE-NEXT: pxor %xmm2, %xmm2			; SSE-NEXT: pxor %xmm2, %xmm2
	; SSE-NEXT: pcmpgtd %xmm1, %xmm2			; SSE-NEXT: pcmpgtd %xmm1, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE-NEXT: pxor %xmm3, %xmm1			; SSE-NEXT: pxor %xmm3, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: movdqa %xmm0, (%rdi)			; SSE-NEXT: movdqa %xmm0, (%rdi)
	▲ Show 20 Lines • Show All 455 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_ssubo.ll

	Show First 20 Lines • Show All 813 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: pxor %xmm2, %xmm3			; SSE-NEXT: pxor %xmm2, %xmm3
	; SSE-NEXT: psubq %xmm1, %xmm0			; SSE-NEXT: psubq %xmm1, %xmm0
	; SSE-NEXT: movdqa %xmm0, (%rdi)			; SSE-NEXT: movdqa %xmm0, (%rdi)
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: movdqa %xmm3, %xmm4			; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: pcmpgtd %xmm0, %xmm4			; SSE-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE-NEXT: pcmpeqd %xmm3, %xmm0			; SSE-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE-NEXT: pand %xmm5, %xmm0			; SSE-NEXT: pand %xmm4, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE-NEXT: por %xmm0, %xmm3			; SSE-NEXT: por %xmm0, %xmm3
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: pcmpgtd %xmm2, %xmm0			; SSE-NEXT: pcmpgtd %xmm2, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,0,2,2]
	; SSE-NEXT: pcmpeqd %xmm2, %xmm1			; SSE-NEXT: pcmpeqd %xmm2, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE-NEXT: pand %xmm4, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: pxor %xmm3, %xmm0			; SSE-NEXT: pxor %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: ssubo_v2i64:			; AVX1-LABEL: ssubo_v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 449 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-v2i32.ll

Show First 20 Lines • Show All 243 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%b = udiv <2 x i32> %a, <i32 8, i32 8>		%b = udiv <2 x i32> %a, <i32 8, i32 8>
store <2 x i32> %b, <2 x i32>* %y		store <2 x i32> %b, <2 x i32>* %y
ret void		ret void
}		}

define void @test_urem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {		define void @test_urem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
; X64-LABEL: test_urem_pow2_v2i32:		; X64-LABEL: test_urem_pow2_v2i32:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X64-NEXT: movabsq $30064771079, %rax # imm = 0x700000007
; X64-NEXT: andps {{.*}}(%rip), %xmm0		; X64-NEXT: andq (%rdi), %rax
; X64-NEXT: movlps %xmm0, (%rsi)		; X64-NEXT: movq %rax, (%rsi)
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: test_urem_pow2_v2i32:		; X86-LABEL: test_urem_pow2_v2i32:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; X86-NEXT: andps {{\.LCPI.*}}, %xmm0		; X86-NEXT: andps {{\.LCPI.*}}, %xmm0
▲ Show 20 Lines • Show All 275 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-and-cmp.ll

	Show First 20 Lines • Show All 471 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: testw %ax, %ax			; SSE-NEXT: testw %ax, %ax
	; SSE-NEXT: sete %al			; SSE-NEXT: sete %al
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i16:			; AVX-LABEL: test_v2i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: testw %ax, %ax			; AVX-NEXT: testw %ax, %ax
	; AVX-NEXT: sete %al			; AVX-NEXT: sete %al
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v2i16(<2 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v2i16(<2 x i16> %a0)
	%2 = icmp eq i16 %1, 0			%2 = icmp eq i16 %1, 0
	ret i1 %2			ret i1 %2
	}			}
	Show All 11 Lines
	; SSE-NEXT: setne %al			; SSE-NEXT: setne %al
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4i16:			; AVX-LABEL: test_v4i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: testw %ax, %ax			; AVX-NEXT: testw %ax, %ax
	; AVX-NEXT: setne %al			; AVX-NEXT: setne %al
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v4i16(<4 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v4i16(<4 x i16> %a0)
	%2 = icmp ne i16 %1, 0			%2 = icmp ne i16 %1, 0
	ret i1 %2			ret i1 %2
	}			}
	Show All 15 Lines
	;			;
	; AVX-LABEL: test_v8i16:			; AVX-LABEL: test_v8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: testw %ax, %ax			; AVX-NEXT: testw %ax, %ax
	; AVX-NEXT: sete %al			; AVX-NEXT: sete %al
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v8i16(<8 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v8i16(<8 x i16> %a0)
	%2 = icmp eq i16 %1, 0			%2 = icmp eq i16 %1, 0
	ret i1 %2			ret i1 %2
	}			}
	Show All 35 Lines
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
				xbolva00Unsubmitted Not Done Reply Inline Actions Regression xbolva00: Regression
	; AVX2-NEXT: testw %ax, %ax			; AVX2-NEXT: testw %ax, %ax
	; AVX2-NEXT: setne %al			; AVX2-NEXT: setne %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 578 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-and.ll

	Show First 20 Lines • Show All 401 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i16:			; AVX-LABEL: test_v2i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v2i16(<2 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v2i16(<2 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v4i16(<4 x i16> %a0) {			define i16 @test_v4i16(<4 x i16> %a0) {
	; SSE-LABEL: test_v4i16:			; SSE-LABEL: test_v4i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: psrld $16, %xmm0			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4i16:			; AVX-LABEL: test_v4i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v4i16(<4 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v4i16(<4 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v8i16(<8 x i16> %a0) {			define i16 @test_v8i16(<8 x i16> %a0) {
	Show All 12 Lines
	;			;
	; AVX-LABEL: test_v8i16:			; AVX-LABEL: test_v8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.and.v8i16(<8 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.and.v8i16(<8 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v16i16(<16 x i16> %a0) {			define i16 @test_v16i16(<16 x i16> %a0) {
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
				pengfeiUnsubmitted Not Done Reply Inline Actions Is this still regression? pengfei: Is this still regression?
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Yes - I'm going to have a look at this RKSimon: Yes - I'm going to have a look at this
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	▲ Show 20 Lines • Show All 490 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-or.ll

	Show First 20 Lines • Show All 401 Lines • ▼ Show 20 Lines
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i16:			; AVX-LABEL: test_v2i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.or.v2i16(<2 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.or.v2i16(<2 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v4i16(<4 x i16> %a0) {			define i16 @test_v4i16(<4 x i16> %a0) {
	; SSE-LABEL: test_v4i16:			; SSE-LABEL: test_v4i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: psrld $16, %xmm0			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4i16:			; AVX-LABEL: test_v4i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.or.v4i16(<4 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.or.v4i16(<4 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v8i16(<8 x i16> %a0) {			define i16 @test_v8i16(<8 x i16> %a0) {
	Show All 12 Lines
	;			;
	; AVX-LABEL: test_v8i16:			; AVX-LABEL: test_v8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.or.v8i16(<8 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.or.v8i16(<8 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v16i16(<16 x i16> %a0) {			define i16 @test_v16i16(<16 x i16> %a0) {
	▲ Show 20 Lines • Show All 586 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-xor.ll

	Show First 20 Lines • Show All 401 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i16:			; AVX-LABEL: test_v2i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.xor.v2i16(<2 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.xor.v2i16(<2 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v4i16(<4 x i16> %a0) {			define i16 @test_v4i16(<4 x i16> %a0) {
	; SSE-LABEL: test_v4i16:			; SSE-LABEL: test_v4i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: psrld $16, %xmm0			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4i16:			; AVX-LABEL: test_v4i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.xor.v4i16(<4 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.xor.v4i16(<4 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v8i16(<8 x i16> %a0) {			define i16 @test_v8i16(<8 x i16> %a0) {
	Show All 12 Lines
	;			;
	; AVX-LABEL: test_v8i16:			; AVX-LABEL: test_v8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpxor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = call i16 @llvm.vector.reduce.xor.v8i16(<8 x i16> %a0)			%1 = call i16 @llvm.vector.reduce.xor.v8i16(<8 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	define i16 @test_v16i16(<16 x i16> %a0) {			define i16 @test_v16i16(<16 x i16> %a0) {
	▲ Show 20 Lines • Show All 586 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-packus.ll

	Show All 31 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn {{.*}}(%rip), %xmm3			; SSE2-NEXT: pandn {{.*}}(%rip), %xmm3
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm0			; SSE2-NEXT: movdqa %xmm3, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: pxor %xmm1, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm2			; SSE2-NEXT: pcmpgtd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm0			; SSE2-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pand %xmm4, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm1			; SSE2-NEXT: por %xmm0, %xmm1
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: trunc_packus_v2i64_v2i32:			; SSSE3-LABEL: trunc_packus_v2i64_v2i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	Show All 11 Lines
	; SSSE3-NEXT: por %xmm2, %xmm3			; SSSE3-NEXT: por %xmm2, %xmm3
	; SSSE3-NEXT: pand %xmm3, %xmm0			; SSSE3-NEXT: pand %xmm3, %xmm0
	; SSSE3-NEXT: pandn {{.*}}(%rip), %xmm3			; SSSE3-NEXT: pandn {{.*}}(%rip), %xmm3
	; SSSE3-NEXT: por %xmm0, %xmm3			; SSSE3-NEXT: por %xmm0, %xmm3
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm0			; SSSE3-NEXT: pxor %xmm1, %xmm0
	; SSSE3-NEXT: movdqa %xmm0, %xmm2			; SSSE3-NEXT: movdqa %xmm0, %xmm2
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm2			; SSSE3-NEXT: pcmpgtd %xmm1, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm1, %xmm0			; SSSE3-NEXT: pcmpeqd %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pand %xmm4, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSSE3-NEXT: por %xmm0, %xmm1			; SSSE3-NEXT: por %xmm0, %xmm1
	; SSSE3-NEXT: pand %xmm3, %xmm1			; SSSE3-NEXT: pand %xmm3, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v2i64_v2i32:			; SSE41-LABEL: trunc_packus_v2i64_v2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn {{.*}}(%rip), %xmm3			; SSE2-NEXT: pandn {{.*}}(%rip), %xmm3
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm0			; SSE2-NEXT: movdqa %xmm3, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: pxor %xmm1, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm2			; SSE2-NEXT: pcmpgtd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm0			; SSE2-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pand %xmm4, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm1			; SSE2-NEXT: por %xmm0, %xmm1
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE2-NEXT: movq %xmm0, (%rdi)			; SSE2-NEXT: movq %xmm0, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: trunc_packus_v2i64_v2i32_store:			; SSSE3-LABEL: trunc_packus_v2i64_v2i32_store:
	Show All 12 Lines
	; SSSE3-NEXT: por %xmm2, %xmm3			; SSSE3-NEXT: por %xmm2, %xmm3
	; SSSE3-NEXT: pand %xmm3, %xmm0			; SSSE3-NEXT: pand %xmm3, %xmm0
	; SSSE3-NEXT: pandn {{.*}}(%rip), %xmm3			; SSSE3-NEXT: pandn {{.*}}(%rip), %xmm3
	; SSSE3-NEXT: por %xmm0, %xmm3			; SSSE3-NEXT: por %xmm0, %xmm3
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm0			; SSSE3-NEXT: pxor %xmm1, %xmm0
	; SSSE3-NEXT: movdqa %xmm0, %xmm2			; SSSE3-NEXT: movdqa %xmm0, %xmm2
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm2			; SSSE3-NEXT: pcmpgtd %xmm1, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm1, %xmm0			; SSSE3-NEXT: pcmpeqd %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pand %xmm4, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSSE3-NEXT: por %xmm0, %xmm1			; SSSE3-NEXT: por %xmm0, %xmm1
	; SSSE3-NEXT: pand %xmm3, %xmm1			; SSSE3-NEXT: pand %xmm3, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSSE3-NEXT: movq %xmm0, (%rdi)			; SSSE3-NEXT: movq %xmm0, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v2i64_v2i32_store:			; SSE41-LABEL: trunc_packus_v2i64_v2i32_store:
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm0, %xmm4			; SSE2-NEXT: por %xmm0, %xmm4
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: pandn %xmm8, %xmm4			; SSE2-NEXT: pandn %xmm8, %xmm4
	; SSE2-NEXT: por %xmm1, %xmm4			; SSE2-NEXT: por %xmm1, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm0			; SSE2-NEXT: movdqa %xmm4, %xmm0
	; SSE2-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm1			; SSE2-NEXT: pcmpgtd %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm0			; SSE2-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm0			; SSE2-NEXT: pand %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm1			; SSE2-NEXT: por %xmm0, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: movdqa %xmm3, %xmm0			; SSE2-NEXT: movdqa %xmm3, %xmm0
	; SSE2-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm4			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm4			; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm0			; SSE2-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE2-NEXT: pand %xmm4, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: trunc_packus_v4i64_v4i32:			; SSSE3-LABEL: trunc_packus_v4i64_v4i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	Show All 25 Lines
	; SSSE3-NEXT: por %xmm0, %xmm4			; SSSE3-NEXT: por %xmm0, %xmm4
	; SSSE3-NEXT: pand %xmm4, %xmm1			; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: pandn %xmm8, %xmm4			; SSSE3-NEXT: pandn %xmm8, %xmm4
	; SSSE3-NEXT: por %xmm1, %xmm4			; SSSE3-NEXT: por %xmm1, %xmm4
	; SSSE3-NEXT: movdqa %xmm4, %xmm0			; SSSE3-NEXT: movdqa %xmm4, %xmm0
	; SSSE3-NEXT: pxor %xmm2, %xmm0			; SSSE3-NEXT: pxor %xmm2, %xmm0
	; SSSE3-NEXT: movdqa %xmm0, %xmm1			; SSSE3-NEXT: movdqa %xmm0, %xmm1
	; SSSE3-NEXT: pcmpgtd %xmm2, %xmm1			; SSSE3-NEXT: pcmpgtd %xmm2, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm2, %xmm0			; SSSE3-NEXT: pcmpeqd %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm0			; SSSE3-NEXT: pand %xmm1, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: por %xmm0, %xmm1			; SSSE3-NEXT: por %xmm0, %xmm1
	; SSSE3-NEXT: pand %xmm4, %xmm1			; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: pxor %xmm2, %xmm0			; SSSE3-NEXT: pxor %xmm2, %xmm0
	; SSSE3-NEXT: movdqa %xmm0, %xmm4			; SSSE3-NEXT: movdqa %xmm0, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm2, %xmm0			; SSSE3-NEXT: pcmpeqd %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm2			; SSSE3-NEXT: pand %xmm4, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm2, %xmm0			; SSSE3-NEXT: por %xmm2, %xmm0
	; SSSE3-NEXT: pand %xmm3, %xmm0			; SSSE3-NEXT: pand %xmm3, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v4i64_v4i32:			; SSE41-LABEL: trunc_packus_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines
	define <8 x i32> @trunc_packus_v8i64_v8i32(<8 x i64>* %p0) "min-legal-vector-width"="256" {			define <8 x i32> @trunc_packus_v8i64_v8i32(<8 x i64>* %p0) "min-legal-vector-width"="256" {
	; SSE2-LABEL: trunc_packus_v8i64_v8i32:			; SSE2-LABEL: trunc_packus_v8i64_v8i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa (%rdi), %xmm3			; SSE2-NEXT: movdqa (%rdi), %xmm3
	; SSE2-NEXT: movdqa 16(%rdi), %xmm7			; SSE2-NEXT: movdqa 16(%rdi), %xmm7
	; SSE2-NEXT: movdqa 32(%rdi), %xmm6			; SSE2-NEXT: movdqa 32(%rdi), %xmm6
	; SSE2-NEXT: movdqa 48(%rdi), %xmm9			; SSE2-NEXT: movdqa 48(%rdi), %xmm9
	; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]			; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]
	; SSE2-NEXT: movdqa {{.*#+}} xmm11 = [2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm3, %xmm2			; SSE2-NEXT: movdqa %xmm3, %xmm2
	; SSE2-NEXT: pxor %xmm11, %xmm2			; SSE2-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm10 = [2147483647,2147483647]			; SSE2-NEXT: movdqa {{.*#+}} xmm10 = [2147483647,2147483647]
	; SSE2-NEXT: movdqa %xmm10, %xmm5			; SSE2-NEXT: movdqa %xmm10, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm5			; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm10, %xmm2			; SSE2-NEXT: pcmpeqd %xmm10, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
	; SSE2-NEXT: pand %xmm1, %xmm4			; SSE2-NEXT: pand %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm2			; SSE2-NEXT: por %xmm4, %xmm2
	; SSE2-NEXT: pand %xmm2, %xmm3			; SSE2-NEXT: pand %xmm2, %xmm3
	; SSE2-NEXT: pandn %xmm8, %xmm2			; SSE2-NEXT: pandn %xmm8, %xmm2
	; SSE2-NEXT: por %xmm3, %xmm2			; SSE2-NEXT: por %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm7, %xmm1			; SSE2-NEXT: movdqa %xmm7, %xmm1
	; SSE2-NEXT: pxor %xmm11, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm10, %xmm3			; SSE2-NEXT: movdqa %xmm10, %xmm3
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm3			; SSE2-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm10, %xmm1			; SSE2-NEXT: pcmpeqd %xmm10, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: pand %xmm3, %xmm7			; SSE2-NEXT: pand %xmm3, %xmm7
	; SSE2-NEXT: pandn %xmm8, %xmm3			; SSE2-NEXT: pandn %xmm8, %xmm3
	; SSE2-NEXT: por %xmm7, %xmm3			; SSE2-NEXT: por %xmm7, %xmm3
	; SSE2-NEXT: movdqa %xmm6, %xmm1			; SSE2-NEXT: movdqa %xmm6, %xmm1
	; SSE2-NEXT: pxor %xmm11, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm10, %xmm4			; SSE2-NEXT: movdqa %xmm10, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm4			; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm10, %xmm1			; SSE2-NEXT: pcmpeqd %xmm10, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm1			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm7			; SSE2-NEXT: por %xmm1, %xmm7
	; SSE2-NEXT: pand %xmm7, %xmm6			; SSE2-NEXT: pand %xmm7, %xmm6
	; SSE2-NEXT: pandn %xmm8, %xmm7			; SSE2-NEXT: pandn %xmm8, %xmm7
	; SSE2-NEXT: por %xmm6, %xmm7			; SSE2-NEXT: por %xmm6, %xmm7
	; SSE2-NEXT: movdqa %xmm9, %xmm1			; SSE2-NEXT: movdqa %xmm9, %xmm1
	; SSE2-NEXT: pxor %xmm11, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm10, %xmm4			; SSE2-NEXT: movdqa %xmm10, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm4			; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm10, %xmm1			; SSE2-NEXT: pcmpeqd %xmm10, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm1			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm4			; SSE2-NEXT: por %xmm1, %xmm4
	; SSE2-NEXT: pand %xmm4, %xmm9			; SSE2-NEXT: pand %xmm4, %xmm9
	; SSE2-NEXT: pandn %xmm8, %xmm4			; SSE2-NEXT: pandn %xmm8, %xmm4
	; SSE2-NEXT: por %xmm9, %xmm4			; SSE2-NEXT: por %xmm9, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm1			; SSE2-NEXT: movdqa %xmm4, %xmm1
	; SSE2-NEXT: pxor %xmm11, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm5			; SSE2-NEXT: movdqa %xmm1, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm11, %xmm5			; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE2-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE2-NEXT: pcmpeqd %xmm11, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm1			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm1, %xmm5			; SSE2-NEXT: por %xmm1, %xmm5
	; SSE2-NEXT: pand %xmm4, %xmm5			; SSE2-NEXT: pand %xmm4, %xmm5
	; SSE2-NEXT: movdqa %xmm7, %xmm1			; SSE2-NEXT: movdqa %xmm7, %xmm1
	; SSE2-NEXT: pxor %xmm11, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm4			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm11, %xmm4			; SSE2-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE2-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE2-NEXT: pcmpeqd %xmm11, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE2-NEXT: pand %xmm4, %xmm6
	; SSE2-NEXT: pand %xmm6, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm1			; SSE2-NEXT: por %xmm6, %xmm1
	; SSE2-NEXT: pand %xmm7, %xmm1			; SSE2-NEXT: pand %xmm7, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; SSE2-NEXT: movdqa %xmm3, %xmm0			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: pxor %xmm11, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm4
	; SSE2-NEXT: movdqa %xmm0, %xmm4			; SSE2-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm11, %xmm4			; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE2-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE2-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm0, %xmm4			; SSE2-NEXT: pand %xmm5, %xmm4
	; SSE2-NEXT: pand %xmm3, %xmm4			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pxor %xmm11, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm5
	; SSE2-NEXT: movdqa %xmm0, %xmm3			; SSE2-NEXT: movdqa %xmm2, %xmm3
	; SSE2-NEXT: pcmpgtd %xmm11, %xmm3			; SSE2-NEXT: pxor %xmm0, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: pcmpeqd %xmm11, %xmm0			; SSE2-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]			; SSE2-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE2-NEXT: pand %xmm5, %xmm6			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE2-NEXT: pand %xmm4, %xmm3
	; SSE2-NEXT: por %xmm6, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
				; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: trunc_packus_v8i64_v8i32:			; SSSE3-LABEL: trunc_packus_v8i64_v8i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa (%rdi), %xmm3			; SSSE3-NEXT: movdqa (%rdi), %xmm3
	; SSSE3-NEXT: movdqa 16(%rdi), %xmm7			; SSSE3-NEXT: movdqa 16(%rdi), %xmm7
	; SSSE3-NEXT: movdqa 32(%rdi), %xmm6			; SSSE3-NEXT: movdqa 32(%rdi), %xmm6
	; SSSE3-NEXT: movdqa 48(%rdi), %xmm9			; SSSE3-NEXT: movdqa 48(%rdi), %xmm9
	; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]			; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]
	; SSSE3-NEXT: movdqa {{.*#+}} xmm11 = [2147483648,2147483648]			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSSE3-NEXT: movdqa %xmm3, %xmm2			; SSSE3-NEXT: movdqa %xmm3, %xmm2
	; SSSE3-NEXT: pxor %xmm11, %xmm2			; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: movdqa {{.*#+}} xmm10 = [2147483647,2147483647]			; SSSE3-NEXT: movdqa {{.*#+}} xmm10 = [2147483647,2147483647]
	; SSSE3-NEXT: movdqa %xmm10, %xmm5			; SSSE3-NEXT: movdqa %xmm10, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5			; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm5[0,0,2,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm5[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm10, %xmm2			; SSSE3-NEXT: pcmpeqd %xmm10, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
	; SSSE3-NEXT: pand %xmm1, %xmm4			; SSSE3-NEXT: pand %xmm1, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
	; SSSE3-NEXT: por %xmm4, %xmm2			; SSSE3-NEXT: por %xmm4, %xmm2
	; SSSE3-NEXT: pand %xmm2, %xmm3			; SSSE3-NEXT: pand %xmm2, %xmm3
	; SSSE3-NEXT: pandn %xmm8, %xmm2			; SSSE3-NEXT: pandn %xmm8, %xmm2
	; SSSE3-NEXT: por %xmm3, %xmm2			; SSSE3-NEXT: por %xmm3, %xmm2
	; SSSE3-NEXT: movdqa %xmm7, %xmm1			; SSSE3-NEXT: movdqa %xmm7, %xmm1
	; SSSE3-NEXT: pxor %xmm11, %xmm1			; SSSE3-NEXT: pxor %xmm0, %xmm1
	; SSSE3-NEXT: movdqa %xmm10, %xmm3			; SSSE3-NEXT: movdqa %xmm10, %xmm3
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm3			; SSSE3-NEXT: pcmpgtd %xmm1, %xmm3
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1			; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: pand %xmm4, %xmm1			; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSSE3-NEXT: por %xmm1, %xmm3			; SSSE3-NEXT: por %xmm1, %xmm3
	; SSSE3-NEXT: pand %xmm3, %xmm7			; SSSE3-NEXT: pand %xmm3, %xmm7
	; SSSE3-NEXT: pandn %xmm8, %xmm3			; SSSE3-NEXT: pandn %xmm8, %xmm3
	; SSSE3-NEXT: por %xmm7, %xmm3			; SSSE3-NEXT: por %xmm7, %xmm3
	; SSSE3-NEXT: movdqa %xmm6, %xmm1			; SSSE3-NEXT: movdqa %xmm6, %xmm1
	; SSSE3-NEXT: pxor %xmm11, %xmm1			; SSSE3-NEXT: pxor %xmm0, %xmm1
	; SSSE3-NEXT: movdqa %xmm10, %xmm4			; SSSE3-NEXT: movdqa %xmm10, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm1, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1			; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm1			; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm7 = xmm4[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm7 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm1, %xmm7			; SSSE3-NEXT: por %xmm1, %xmm7
	; SSSE3-NEXT: pand %xmm7, %xmm6			; SSSE3-NEXT: pand %xmm7, %xmm6
	; SSSE3-NEXT: pandn %xmm8, %xmm7			; SSSE3-NEXT: pandn %xmm8, %xmm7
	; SSSE3-NEXT: por %xmm6, %xmm7			; SSSE3-NEXT: por %xmm6, %xmm7
	; SSSE3-NEXT: movdqa %xmm9, %xmm1			; SSSE3-NEXT: movdqa %xmm9, %xmm1
	; SSSE3-NEXT: pxor %xmm11, %xmm1			; SSSE3-NEXT: pxor %xmm0, %xmm1
	; SSSE3-NEXT: movdqa %xmm10, %xmm4			; SSSE3-NEXT: movdqa %xmm10, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm1, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1			; SSSE3-NEXT: pcmpeqd %xmm10, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm1			; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm1, %xmm4			; SSSE3-NEXT: por %xmm1, %xmm4
	; SSSE3-NEXT: pand %xmm4, %xmm9			; SSSE3-NEXT: pand %xmm4, %xmm9
	; SSSE3-NEXT: pandn %xmm8, %xmm4			; SSSE3-NEXT: pandn %xmm8, %xmm4
	; SSSE3-NEXT: por %xmm9, %xmm4			; SSSE3-NEXT: por %xmm9, %xmm4
	; SSSE3-NEXT: movdqa %xmm4, %xmm1			; SSSE3-NEXT: movdqa %xmm4, %xmm1
	; SSSE3-NEXT: pxor %xmm11, %xmm1			; SSSE3-NEXT: pxor %xmm0, %xmm1
	; SSSE3-NEXT: movdqa %xmm1, %xmm5			; SSSE3-NEXT: movdqa %xmm1, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm11, %xmm5			; SSSE3-NEXT: pcmpgtd %xmm0, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSSE3-NEXT: pcmpeqd %xmm0, %xmm1
	; SSSE3-NEXT: pcmpeqd %xmm11, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: pand %xmm6, %xmm1			; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSSE3-NEXT: por %xmm1, %xmm5			; SSSE3-NEXT: por %xmm1, %xmm5
	; SSSE3-NEXT: pand %xmm4, %xmm5			; SSSE3-NEXT: pand %xmm4, %xmm5
	; SSSE3-NEXT: movdqa %xmm7, %xmm1			; SSSE3-NEXT: movdqa %xmm7, %xmm1
	; SSSE3-NEXT: pxor %xmm11, %xmm1			; SSSE3-NEXT: pxor %xmm0, %xmm1
	; SSSE3-NEXT: movdqa %xmm1, %xmm4			; SSSE3-NEXT: movdqa %xmm1, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm11, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm0, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSSE3-NEXT: pcmpeqd %xmm0, %xmm1
	; SSSE3-NEXT: pcmpeqd %xmm11, %xmm1			; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSSE3-NEXT: pand %xmm4, %xmm6
	; SSSE3-NEXT: pand %xmm6, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm0, %xmm1			; SSSE3-NEXT: por %xmm6, %xmm1
	; SSSE3-NEXT: pand %xmm7, %xmm1			; SSSE3-NEXT: pand %xmm7, %xmm1
	; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm4
	; SSSE3-NEXT: pxor %xmm11, %xmm0			; SSSE3-NEXT: pxor %xmm0, %xmm4
	; SSSE3-NEXT: movdqa %xmm0, %xmm4			; SSSE3-NEXT: movdqa %xmm4, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm11, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm0, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSSE3-NEXT: pcmpeqd %xmm0, %xmm4
	; SSSE3-NEXT: pcmpeqd %xmm11, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm0, %xmm4			; SSSE3-NEXT: pand %xmm5, %xmm4
	; SSSE3-NEXT: pand %xmm3, %xmm4			; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSSE3-NEXT: movdqa %xmm2, %xmm0			; SSSE3-NEXT: por %xmm4, %xmm5
	; SSSE3-NEXT: pxor %xmm11, %xmm0			; SSSE3-NEXT: pand %xmm3, %xmm5
	; SSSE3-NEXT: movdqa %xmm0, %xmm3			; SSSE3-NEXT: movdqa %xmm2, %xmm3
	; SSSE3-NEXT: pcmpgtd %xmm11, %xmm3			; SSSE3-NEXT: pxor %xmm0, %xmm3
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSSE3-NEXT: movdqa %xmm3, %xmm4
	; SSSE3-NEXT: pcmpeqd %xmm11, %xmm0			; SSSE3-NEXT: pcmpgtd %xmm0, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]			; SSSE3-NEXT: pcmpeqd %xmm0, %xmm3
	; SSSE3-NEXT: pand %xmm5, %xmm6			; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSSE3-NEXT: pand %xmm4, %xmm3
	; SSSE3-NEXT: por %xmm6, %xmm0			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
				; SSSE3-NEXT: por %xmm3, %xmm0
	; SSSE3-NEXT: pand %xmm2, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i32:			; SSE41-LABEL: trunc_packus_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa (%rdi), %xmm5			; SSE41-NEXT: movdqa (%rdi), %xmm5
	; SSE41-NEXT: movdqa 16(%rdi), %xmm4			; SSE41-NEXT: movdqa 16(%rdi), %xmm4
	; SSE41-NEXT: movdqa 32(%rdi), %xmm10			; SSE41-NEXT: movdqa 32(%rdi), %xmm10
	; SSE41-NEXT: movdqa 48(%rdi), %xmm9			; SSE41-NEXT: movdqa 48(%rdi), %xmm9
	▲ Show 20 Lines • Show All 5,029 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/widen_cast-5.ll

	Show All 9 Lines
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: xorps LCPI0_0, %xmm0			; X86-NEXT: xorps LCPI0_0, %xmm0
	; X86-NEXT: movlps %xmm0, (%eax)			; X86-NEXT: movlps %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: convert:			; X64-LABEL: convert:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: movq %rsi, %xmm0			; X64-NEXT: movabsq $140733193388287, %rax ## imm = 0x7FFF000000FF
	; X64-NEXT: pxor {{.*}}(%rip), %xmm0			; X64-NEXT: xorq %rsi, %rax
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %rax, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%conv = bitcast i64 %src to <2 x i32>			%conv = bitcast i64 %src to <2 x i32>
	%xor = xor <2 x i32> %conv, < i32 255, i32 32767 >			%xor = xor <2 x i32> %conv, < i32 255, i32 32767 >
	store <2 x i32> %xor, <2 x i32>* %dst.addr			store <2 x i32> %xor, <2 x i32>* %dst.addr
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/xor.ll

Show First 20 Lines • Show All 388 Lines • ▼ Show 20 Lines	; X64-WIN-NEXT: retq
%1 = and <4 x i32> %a, <i32 4096, i32 4096, i32 4096, i32 4096>		%1 = and <4 x i32> %a, <i32 4096, i32 4096, i32 4096, i32 4096>
%2 = xor <4 x i32> %1, <i32 4096, i32 4096, i32 4096, i32 4096>		%2 = xor <4 x i32> %1, <i32 4096, i32 4096, i32 4096, i32 4096>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define i32 @PR17487(i1 %tobool) {		define i32 @PR17487(i1 %tobool) {
; X86-LABEL: PR17487:		; X86-LABEL: PR17487:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X86-NEXT: movb {{[0-9]+}}(%esp), %cl
; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]		; X86-NEXT: notb %cl
; X86-NEXT: pandn {{\.LCPI.*}}, %xmm0
; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
; X86-NEXT: movd %xmm0, %ecx
; X86-NEXT: xorl %eax, %eax		; X86-NEXT: xorl %eax, %eax
; X86-NEXT: cmpl $1, %ecx		; X86-NEXT: testb $1, %cl
; X86-NEXT: setne %al		; X86-NEXT: sete %al
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LIN-LABEL: PR17487:		; X64-LIN-LABEL: PR17487:
; X64-LIN: # %bb.0:		; X64-LIN: # %bb.0:
; X64-LIN-NEXT: movl %edi, %eax		; X64-LIN-NEXT: movl %edi, %eax
; X64-LIN-NEXT: andl $1, %eax		; X64-LIN-NEXT: andl $1, %eax
; X64-LIN-NEXT: retq		; X64-LIN-NEXT: retq
;		;
▲ Show 20 Lines • Show All 266 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int bitcastsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 325296

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avx512-logic.ll

llvm/test/CodeGen/X86/known-signbits-vector.ll

llvm/test/CodeGen/X86/memcmp-more-load-pairs.ll

llvm/test/CodeGen/X86/memcmp-optsize.ll

llvm/test/CodeGen/X86/memcmp-pgso.ll

llvm/test/CodeGen/X86/memcmp.ll

llvm/test/CodeGen/X86/merge-consecutive-loads-512.ll

llvm/test/CodeGen/X86/pr40891.ll

llvm/test/CodeGen/X86/sse2.ll

llvm/test/CodeGen/X86/vec_saddo.ll

llvm/test/CodeGen/X86/vec_ssubo.ll

llvm/test/CodeGen/X86/vector-idiv-v2i32.ll

llvm/test/CodeGen/X86/vector-reduce-and-cmp.ll

llvm/test/CodeGen/X86/vector-reduce-and.ll

llvm/test/CodeGen/X86/vector-reduce-or.ll

llvm/test/CodeGen/X86/vector-reduce-xor.ll

llvm/test/CodeGen/X86/vector-trunc-packus.ll

llvm/test/CodeGen/X86/widen_cast-5.ll

llvm/test/CodeGen/X86/xor.ll

[X86] Fold bitcast(logic(bitcast(X), Y)) --> logic'(X, bitcast(Y)) for int-int bitcasts
ClosedPublic