This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/
-
CodeGen/SelectionDAG/
-
SelectionDAG/
1
LegalizeIntegerTypes.cpp
1
SelectionDAG.cpp
-
Target/X86/
-
X86/
-
X86ISelLowering.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
vec_uaddo.ll
-
vec_umulo.ll
-
X86/
-
vec_saddo.ll
-
vec_smulo.ll
-
vec_ssubo.ll
-
vec_uaddo.ll
-
vec_umulo.ll
-
vec_usubo.ll

Differential D58567

[LegalizeTypes][AArch64][X86] Make type legalization of vector (S/U)ADD/SUB/MULO follow getSetCCResultType for the overflow bits. Make UnrollVectorOverflowOp properly convert from scalar boolean contents to vector boolean contents
ClosedPublic

Authored by craig.topper on Feb 22 2019, 5:37 PM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon
nikic

Commits

rGbe3348573ec1: [LegalizeTypes][AArch64][X86] Make type legalization of vector…
rL354753: [LegalizeTypes][AArch64][X86] Make type legalization of vector…

Summary

When promoting the over flow vector for these ops we should use the target's desired setcc result type. This way a v8i32 result type will use a v8i32 overflow vector instead of a v8i16 overflow vector. A v8i16 overflow vector will cause LegalizeDAG/LegalizeVectorOps to have to use v8i32 and truncate to v8i16 in its expansion. By doing this in type legalization instead, we get the truncate into the DAG earlier and give DAG combine more of a chance to optimize it.

We also have to fix unrolling to use the scalar setcc result type for the scalarized operation, and convert it to the required vector element type after the scalar operation. We have to observe the vector boolean contents when doing this conversion. The previous code was just taking the scalar result and putting it in the vector. But for X86 and AArch64 that would have only put a the boolean value in bit 0 of the element and left all other bits in the element 0. We need to ensure all bits in the element are the same. I'm using a select with constants here because that's what setcc unrolling in LegalizeVectorOps used.

Diff Detail

Repository

rL LLVM

Build Status

Buildable 28450
Build 28449: arc lint + arc unit

Event Timeline

craig.topper created this revision.Feb 22 2019, 5:37 PM

Herald added subscribers: dmgreen, kristof.beyls, javed.absar. · View Herald TranscriptFeb 22 2019, 5:37 PM

Sorry for the incorrect unrolling, really messed up there.

lib/CodeGen/SelectionDAG/LegalizeIntegerTypes.cpp
605	Should this be `getBoolExtOrTrunc()`?
lib/CodeGen/SelectionDAG/SelectionDAG.cpp
8987	With this change, you should be able to drop the size check that I added in X86ISelLowering::LowerXALUO().

Use getBoolExtOrTrunc. Remove unneeded code from LowerXALU0

Herald added a project: Restricted Project. · View Herald TranscriptFeb 23 2019, 12:42 PM

Harbormaster completed remote builds in B28450: Diff 188055.Feb 23 2019, 12:44 PM

LGTM

This revision is now accepted and ready to land.Feb 24 2019, 6:05 AM

Closed by commit rL354753: [LegalizeTypes][AArch64][X86] Make type legalization of vector… (authored by ctopper). · Explain WhyFeb 24 2019, 11:24 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

LegalizeIntegerTypes.cpp

14 lines

SelectionDAG.cpp

10 lines

Target/

X86/

X86ISelLowering.cpp

3 lines

test/

CodeGen/

AArch64/

vec_uaddo.ll

66 lines

vec_umulo.ll

37 lines

X86/

36 lines

138 lines

36 lines

18 lines

282 lines

18 lines

Diff 188055

lib/CodeGen/SelectionDAG/LegalizeIntegerTypes.cpp

Show First 20 Lines • Show All 576 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::PromoteIntRes_MGATHER(MaskedGatherSDNode *N) {
// Legalize the chain result - switch anything that used the old chain to		// Legalize the chain result - switch anything that used the old chain to
// use the new one.		// use the new one.
ReplaceValueWith(SDValue(N, 1), Res.getValue(1));		ReplaceValueWith(SDValue(N, 1), Res.getValue(1));
return Res;		return Res;
}		}

/// Promote the overflow flag of an overflowing arithmetic node.		/// Promote the overflow flag of an overflowing arithmetic node.
SDValue DAGTypeLegalizer::PromoteIntRes_Overflow(SDNode *N) {		SDValue DAGTypeLegalizer::PromoteIntRes_Overflow(SDNode *N) {
// Simply change the return type of the boolean result.		// Change the return type of the boolean result while obeying
		// getSetCCResultType.
EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(1));		EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(1));
EVT ValueVTs[] = { N->getValueType(0), NVT };		EVT VT = N->getValueType(0);
		EVT SVT = getSetCCResultType(VT);
SDValue Ops[3] = { N->getOperand(0), N->getOperand(1) };		SDValue Ops[3] = { N->getOperand(0), N->getOperand(1) };
unsigned NumOps = N->getNumOperands();		unsigned NumOps = N->getNumOperands();
assert(NumOps <= 3 && "Too many operands");		assert(NumOps <= 3 && "Too many operands");
if (NumOps == 3)		if (NumOps == 3)
Ops[2] = N->getOperand(2);		Ops[2] = N->getOperand(2);

SDValue Res = DAG.getNode(N->getOpcode(), SDLoc(N),		SDLoc dl(N);
DAG.getVTList(ValueVTs), makeArrayRef(Ops, NumOps));		SDValue Res = DAG.getNode(N->getOpcode(), dl, DAG.getVTList(VT, SVT),
		makeArrayRef(Ops, NumOps));

// Modified the sum result - switch anything that used the old sum to use		// Modified the sum result - switch anything that used the old sum to use
// the new one.		// the new one.
ReplaceValueWith(SDValue(N, 0), Res);		ReplaceValueWith(SDValue(N, 0), Res);

return SDValue(Res.getNode(), 1);		// Convert to the expected type.
		return DAG.getBoolExtOrTrunc(Res.getValue(1), dl, NVT, VT);
		nikicUnsubmitted Not Done Reply Inline Actions Should this be `getBoolExtOrTrunc()`? nikic: Should this be `getBoolExtOrTrunc()`?
}		}

SDValue DAGTypeLegalizer::PromoteIntRes_ADDSUBSAT(SDNode *N) {		SDValue DAGTypeLegalizer::PromoteIntRes_ADDSUBSAT(SDNode *N) {
// For promoting iN -> iM, this can be expanded by		// For promoting iN -> iM, this can be expanded by
// 1. ANY_EXTEND iN to iM		// 1. ANY_EXTEND iN to iM
// 2. SHL by M-N		// 2. SHL by M-N
// 3. [US][ADD\|SUB]SAT		// 3. [US][ADD\|SUB]SAT
// 4. L/ASHR by M-N		// 4. L/ASHR by M-N
▲ Show 20 Lines • Show All 3,280 Lines • Show Last 20 Lines

lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,978 Lines • ▼ Show 20 Lines	std::pair<SDValue, SDValue> SelectionDAG::UnrollVectorOverflowOp(
else if (NE > ResNE)		else if (NE > ResNE)
NE = ResNE;		NE = ResNE;

SmallVector<SDValue, 8> LHSScalars;		SmallVector<SDValue, 8> LHSScalars;
SmallVector<SDValue, 8> RHSScalars;		SmallVector<SDValue, 8> RHSScalars;
ExtractVectorElements(N->getOperand(0), LHSScalars, 0, NE);		ExtractVectorElements(N->getOperand(0), LHSScalars, 0, NE);
ExtractVectorElements(N->getOperand(1), RHSScalars, 0, NE);		ExtractVectorElements(N->getOperand(1), RHSScalars, 0, NE);

SDVTList VTs = getVTList(ResEltVT, OvEltVT);		EVT SVT = TLI->getSetCCResultType(getDataLayout(), *getContext(), ResEltVT);
		nikicUnsubmitted Not Done Reply Inline Actions With this change, you should be able to drop the size check that I added in X86ISelLowering::LowerXALUO(). nikic: With this change, you should be able to drop the size check that I added in X86ISelLowering…
		SDVTList VTs = getVTList(ResEltVT, SVT);
SmallVector<SDValue, 8> ResScalars;		SmallVector<SDValue, 8> ResScalars;
SmallVector<SDValue, 8> OvScalars;		SmallVector<SDValue, 8> OvScalars;
for (unsigned i = 0; i < NE; ++i) {		for (unsigned i = 0; i < NE; ++i) {
SDValue Res = getNode(Opcode, dl, VTs, LHSScalars[i], RHSScalars[i]);		SDValue Res = getNode(Opcode, dl, VTs, LHSScalars[i], RHSScalars[i]);
		SDValue Ov =
		getSelect(dl, OvEltVT, Res.getValue(1),
		getBoolConstant(true, dl, OvEltVT, ResVT),
		getConstant(0, dl, OvEltVT));

ResScalars.push_back(Res);		ResScalars.push_back(Res);
OvScalars.push_back(SDValue(Res.getNode(), 1));		OvScalars.push_back(Ov);
}		}

ResScalars.append(ResNE - NE, getUNDEF(ResEltVT));		ResScalars.append(ResNE - NE, getUNDEF(ResEltVT));
OvScalars.append(ResNE - NE, getUNDEF(OvEltVT));		OvScalars.append(ResNE - NE, getUNDEF(OvEltVT));

EVT NewResVT = EVT::getVectorVT(*getContext(), ResEltVT, ResNE);		EVT NewResVT = EVT::getVectorVT(*getContext(), ResEltVT, ResNE);
EVT NewOvVT = EVT::getVectorVT(*getContext(), OvEltVT, ResNE);		EVT NewOvVT = EVT::getVectorVT(*getContext(), OvEltVT, ResNE);
return std::make_pair(getBuildVector(NewResVT, dl, ResScalars),		return std::make_pair(getBuildVector(NewResVT, dl, ResScalars),
▲ Show 20 Lines • Show All 375 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 20,222 Lines • ▼ Show 20 Lines	static SDValue LowerXALUO(SDValue Op, SelectionDAG &DAG) {
// looks for this combo and may remove the "setcc" instruction if the "setcc"		// looks for this combo and may remove the "setcc" instruction if the "setcc"
// has only one use.		// has only one use.
SDLoc DL(Op);		SDLoc DL(Op);
X86::CondCode Cond;		X86::CondCode Cond;
SDValue Value, Overflow;		SDValue Value, Overflow;
std::tie(Value, Overflow) = getX86XALUOOp(Cond, Op, DAG);		std::tie(Value, Overflow) = getX86XALUOOp(Cond, Op, DAG);

SDValue SetCC = getSETCC(Cond, Overflow, DL, DAG);		SDValue SetCC = getSETCC(Cond, Overflow, DL, DAG);
if (Op->getValueType(1) != MVT::i8)		assert(Op->getValueType(1) == MVT::i8 && "Unexpected VT!");
SetCC = DAG.getNode(ISD::ZERO_EXTEND, DL, Op->getValueType(1), SetCC);
return DAG.getNode(ISD::MERGE_VALUES, DL, Op->getVTList(), Value, SetCC);		return DAG.getNode(ISD::MERGE_VALUES, DL, Op->getVTList(), Value, SetCC);
}		}

/// Return true if opcode is a X86 logical comparison.		/// Return true if opcode is a X86 logical comparison.
static bool isX86LogicalCmp(SDValue Op) {		static bool isX86LogicalCmp(SDValue Op) {
unsigned Opc = Op.getOpcode();		unsigned Opc = Op.getOpcode();
if (Opc == X86ISD::CMP \|\| Opc == X86ISD::COMI \|\| Opc == X86ISD::UCOMI \|\|		if (Opc == X86ISD::CMP \|\| Opc == X86ISD::COMI \|\| Opc == X86ISD::UCOMI \|\|
Opc == X86ISD::SAHF)		Opc == X86ISD::SAHF)
▲ Show 20 Lines • Show All 23,260 Lines • Show Last 20 Lines

test/CodeGen/AArch64/vec_uaddo.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
store <2 x i32> %val, <2 x i32>* %p2		store <2 x i32> %val, <2 x i32>* %p2
ret <2 x i32> %res		ret <2 x i32> %res
}		}

define <3 x i32> @uaddo_v3i32(<3 x i32> %a0, <3 x i32> %a1, <3 x i32>* %p2) nounwind {		define <3 x i32> @uaddo_v3i32(<3 x i32> %a0, <3 x i32> %a1, <3 x i32>* %p2) nounwind {
; CHECK-LABEL: uaddo_v3i32:		; CHECK-LABEL: uaddo_v3i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: add v1.4s, v0.4s, v1.4s		; CHECK-NEXT: add v1.4s, v0.4s, v1.4s
; CHECK-NEXT: cmhi v0.4s, v0.4s, v1.4s
; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: add x8, x0, #8 // =8		; CHECK-NEXT: add x8, x0, #8 // =8
; CHECK-NEXT: sshll v0.4s, v0.4h, #0		; CHECK-NEXT: cmhi v0.4s, v0.4s, v1.4s
; CHECK-NEXT: st1 { v1.s }[2], [x8]		; CHECK-NEXT: st1 { v1.s }[2], [x8]
; CHECK-NEXT: str d1, [x0]		; CHECK-NEXT: str d1, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<3 x i32>, <3 x i1>} @llvm.uadd.with.overflow.v3i32(<3 x i32> %a0, <3 x i32> %a1)		%t = call {<3 x i32>, <3 x i1>} @llvm.uadd.with.overflow.v3i32(<3 x i32> %a0, <3 x i32> %a1)
%val = extractvalue {<3 x i32>, <3 x i1>} %t, 0		%val = extractvalue {<3 x i32>, <3 x i1>} %t, 0
%obit = extractvalue {<3 x i32>, <3 x i1>} %t, 1		%obit = extractvalue {<3 x i32>, <3 x i1>} %t, 1
%res = sext <3 x i1> %obit to <3 x i32>		%res = sext <3 x i1> %obit to <3 x i32>
store <3 x i32> %val, <3 x i32>* %p2		store <3 x i32> %val, <3 x i32>* %p2
ret <3 x i32> %res		ret <3 x i32> %res
}		}

define <4 x i32> @uaddo_v4i32(<4 x i32> %a0, <4 x i32> %a1, <4 x i32>* %p2) nounwind {		define <4 x i32> @uaddo_v4i32(<4 x i32> %a0, <4 x i32> %a1, <4 x i32>* %p2) nounwind {
; CHECK-LABEL: uaddo_v4i32:		; CHECK-LABEL: uaddo_v4i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: add v1.4s, v0.4s, v1.4s		; CHECK-NEXT: add v1.4s, v0.4s, v1.4s
; CHECK-NEXT: cmhi v0.4s, v0.4s, v1.4s		; CHECK-NEXT: cmhi v0.4s, v0.4s, v1.4s
; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: sshll v0.4s, v0.4h, #0
; CHECK-NEXT: str q1, [x0]		; CHECK-NEXT: str q1, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<4 x i32>, <4 x i1>} @llvm.uadd.with.overflow.v4i32(<4 x i32> %a0, <4 x i32> %a1)		%t = call {<4 x i32>, <4 x i1>} @llvm.uadd.with.overflow.v4i32(<4 x i32> %a0, <4 x i32> %a1)
%val = extractvalue {<4 x i32>, <4 x i1>} %t, 0		%val = extractvalue {<4 x i32>, <4 x i1>} %t, 0
%obit = extractvalue {<4 x i32>, <4 x i1>} %t, 1		%obit = extractvalue {<4 x i32>, <4 x i1>} %t, 1
%res = sext <4 x i1> %obit to <4 x i32>		%res = sext <4 x i1> %obit to <4 x i32>
store <4 x i32> %val, <4 x i32>* %p2		store <4 x i32> %val, <4 x i32>* %p2
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <6 x i32> @uaddo_v6i32(<6 x i32> %a0, <6 x i32> %a1, <6 x i32>* %p2) nounwind {		define <6 x i32> @uaddo_v6i32(<6 x i32> %a0, <6 x i32> %a1, <6 x i32>* %p2) nounwind {
; CHECK-LABEL: uaddo_v6i32:		; CHECK-LABEL: uaddo_v6i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: fmov s0, w6		; CHECK-NEXT: fmov s2, w6
; CHECK-NEXT: mov x8, sp		; CHECK-NEXT: ldr s0, [sp, #16]
; CHECK-NEXT: mov v0.s[1], w7		; CHECK-NEXT: mov x9, sp
; CHECK-NEXT: ldr s2, [sp, #16]		; CHECK-NEXT: mov v2.s[1], w7
; CHECK-NEXT: ld1 { v0.s }[2], [x8]		; CHECK-NEXT: ld1 { v2.s }[2], [x9]
; CHECK-NEXT: add x9, sp, #8 // =8		; CHECK-NEXT: add x8, sp, #24 // =24
; CHECK-NEXT: add x10, sp, #24 // =24		; CHECK-NEXT: add x10, sp, #8 // =8
; CHECK-NEXT: fmov s1, w0		; CHECK-NEXT: ld1 { v0.s }[1], [x8]
; CHECK-NEXT: ld1 { v2.s }[1], [x10]		; CHECK-NEXT: fmov s3, w0
; CHECK-NEXT: ld1 { v0.s }[3], [x9]
; CHECK-NEXT: mov v1.s[1], w1
; CHECK-NEXT: fmov s3, w4
; CHECK-NEXT: ldr x11, [sp, #32]		; CHECK-NEXT: ldr x11, [sp, #32]
; CHECK-NEXT: mov v1.s[2], w2		; CHECK-NEXT: ld1 { v2.s }[3], [x10]
; CHECK-NEXT: mov v3.s[1], w5		; CHECK-NEXT: fmov s1, w4
; CHECK-NEXT: mov v1.s[3], w3		; CHECK-NEXT: mov v3.s[1], w1
; CHECK-NEXT: add v2.4s, v3.4s, v2.4s		; CHECK-NEXT: mov v1.s[1], w5
		; CHECK-NEXT: mov v3.s[2], w2
		; CHECK-NEXT: mov v3.s[3], w3
; CHECK-NEXT: add v0.4s, v1.4s, v0.4s		; CHECK-NEXT: add v0.4s, v1.4s, v0.4s
; CHECK-NEXT: cmhi v3.4s, v3.4s, v2.4s
; CHECK-NEXT: cmhi v1.4s, v1.4s, v0.4s		; CHECK-NEXT: cmhi v1.4s, v1.4s, v0.4s
; CHECK-NEXT: str d2, [x11, #16]		; CHECK-NEXT: str d0, [x11, #16]
; CHECK-NEXT: xtn v2.4h, v3.4s		; CHECK-NEXT: add v0.4s, v3.4s, v2.4s
; CHECK-NEXT: xtn v1.4h, v1.4s		; CHECK-NEXT: cmhi v2.4s, v3.4s, v0.4s
; CHECK-NEXT: sshll v2.4s, v2.4h, #0		; CHECK-NEXT: mov w5, v1.s[1]
; CHECK-NEXT: sshll v1.4s, v1.4h, #0		; CHECK-NEXT: mov w1, v2.s[1]
; CHECK-NEXT: mov w5, v2.s[1]		; CHECK-NEXT: mov w2, v2.s[2]
; CHECK-NEXT: mov w1, v1.s[1]		; CHECK-NEXT: mov w3, v2.s[3]
; CHECK-NEXT: mov w2, v1.s[2]		; CHECK-NEXT: fmov w4, s1
; CHECK-NEXT: mov w3, v1.s[3]		; CHECK-NEXT: fmov w0, s2
; CHECK-NEXT: fmov w4, s2
; CHECK-NEXT: fmov w0, s1
; CHECK-NEXT: str q0, [x11]		; CHECK-NEXT: str q0, [x11]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<6 x i32>, <6 x i1>} @llvm.uadd.with.overflow.v6i32(<6 x i32> %a0, <6 x i32> %a1)		%t = call {<6 x i32>, <6 x i1>} @llvm.uadd.with.overflow.v6i32(<6 x i32> %a0, <6 x i32> %a1)
%val = extractvalue {<6 x i32>, <6 x i1>} %t, 0		%val = extractvalue {<6 x i32>, <6 x i1>} %t, 0
%obit = extractvalue {<6 x i32>, <6 x i1>} %t, 1		%obit = extractvalue {<6 x i32>, <6 x i1>} %t, 1
%res = sext <6 x i1> %obit to <6 x i32>		%res = sext <6 x i1> %obit to <6 x i32>
store <6 x i32> %val, <6 x i32>* %p2		store <6 x i32> %val, <6 x i32>* %p2
ret <6 x i32> %res		ret <6 x i32> %res
}		}

define <8 x i32> @uaddo_v8i32(<8 x i32> %a0, <8 x i32> %a1, <8 x i32>* %p2) nounwind {		define <8 x i32> @uaddo_v8i32(<8 x i32> %a0, <8 x i32> %a1, <8 x i32>* %p2) nounwind {
; CHECK-LABEL: uaddo_v8i32:		; CHECK-LABEL: uaddo_v8i32:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: add v3.4s, v1.4s, v3.4s
; CHECK-NEXT: add v2.4s, v0.4s, v2.4s		; CHECK-NEXT: add v2.4s, v0.4s, v2.4s
; CHECK-NEXT: cmhi v1.4s, v1.4s, v3.4s		; CHECK-NEXT: add v3.4s, v1.4s, v3.4s
; CHECK-NEXT: cmhi v0.4s, v0.4s, v2.4s		; CHECK-NEXT: cmhi v0.4s, v0.4s, v2.4s
; CHECK-NEXT: xtn v1.4h, v1.4s		; CHECK-NEXT: cmhi v1.4s, v1.4s, v3.4s
; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: sshll v0.4s, v0.4h, #0
; CHECK-NEXT: sshll v1.4s, v1.4h, #0
; CHECK-NEXT: stp q2, q3, [x0]		; CHECK-NEXT: stp q2, q3, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<8 x i32>, <8 x i1>} @llvm.uadd.with.overflow.v8i32(<8 x i32> %a0, <8 x i32> %a1)		%t = call {<8 x i32>, <8 x i1>} @llvm.uadd.with.overflow.v8i32(<8 x i32> %a0, <8 x i32> %a1)
%val = extractvalue {<8 x i32>, <8 x i1>} %t, 0		%val = extractvalue {<8 x i32>, <8 x i1>} %t, 0
%obit = extractvalue {<8 x i32>, <8 x i1>} %t, 1		%obit = extractvalue {<8 x i32>, <8 x i1>} %t, 1
%res = sext <8 x i1> %obit to <8 x i32>		%res = sext <8 x i1> %obit to <8 x i32>
store <8 x i32> %val, <8 x i32>* %p2		store <8 x i32> %val, <8 x i32>* %p2
ret <8 x i32> %res		ret <8 x i32> %res
▲ Show 20 Lines • Show All 172 Lines • Show Last 20 Lines

test/CodeGen/AArch64/vec_umulo.ll

Show First 20 Lines • Show All 227 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%res = sext <8 x i1> %obit to <8 x i32>		%res = sext <8 x i1> %obit to <8 x i32>
store <8 x i16> %val, <8 x i16>* %p2		store <8 x i16> %val, <8 x i16>* %p2
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <2 x i32> @umulo_v2i64(<2 x i64> %a0, <2 x i64> %a1, <2 x i64>* %p2) nounwind {		define <2 x i32> @umulo_v2i64(<2 x i64> %a0, <2 x i64> %a1, <2 x i64>* %p2) nounwind {
; CHECK-LABEL: umulo_v2i64:		; CHECK-LABEL: umulo_v2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: fmov x10, d1
; CHECK-NEXT: fmov x11, d0
; CHECK-NEXT: mov x8, v1.d[1]		; CHECK-NEXT: mov x8, v1.d[1]
; CHECK-NEXT: mov x9, v0.d[1]		; CHECK-NEXT: fmov x9, d1
; CHECK-NEXT: umulh x12, x11, x10		; CHECK-NEXT: mov x10, v0.d[1]
; CHECK-NEXT: mul x10, x11, x10		; CHECK-NEXT: fmov x11, d0
; CHECK-NEXT: cmp xzr, x12		; CHECK-NEXT: umulh x12, x11, x9
; CHECK-NEXT: umulh x11, x9, x8		; CHECK-NEXT: mul x9, x11, x9
; CHECK-NEXT: mul x8, x9, x8		; CHECK-NEXT: umulh x11, x10, x8
; CHECK-NEXT: cset w9, ne
; CHECK-NEXT: cmp xzr, x11		; CHECK-NEXT: cmp xzr, x11
; CHECK-NEXT: fmov d1, x10		; CHECK-NEXT: csetm x11, ne
; CHECK-NEXT: fmov s0, w9		; CHECK-NEXT: cmp xzr, x12
; CHECK-NEXT: cset w9, ne		; CHECK-NEXT: csetm x12, ne
; CHECK-NEXT: mov v0.s[1], w9		; CHECK-NEXT: fmov d0, x12
		; CHECK-NEXT: mul x8, x10, x8
		; CHECK-NEXT: fmov d1, x9
		; CHECK-NEXT: mov v0.d[1], x11
		; CHECK-NEXT: xtn v0.2s, v0.2d
; CHECK-NEXT: mov v1.d[1], x8		; CHECK-NEXT: mov v1.d[1], x8
; CHECK-NEXT: str q1, [x0]		; CHECK-NEXT: str q1, [x0]
; CHECK-NEXT: // kill: def $d0 killed $d0 killed $q0
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<2 x i64>, <2 x i1>} @llvm.umul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)		%t = call {<2 x i64>, <2 x i1>} @llvm.umul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)
%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0		%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0
%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1		%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1
%res = sext <2 x i1> %obit to <2 x i32>		%res = sext <2 x i1> %obit to <2 x i32>
store <2 x i64> %val, <2 x i64>* %p2		store <2 x i64> %val, <2 x i64>* %p2
ret <2 x i32> %res		ret <2 x i32> %res
}		}
Show All 9 Lines
; CHECK-NEXT: uzp2 v1.4s, v3.4s, v2.4s		; CHECK-NEXT: uzp2 v1.4s, v3.4s, v2.4s
; CHECK-NEXT: ushr v2.4s, v0.4s, #24		; CHECK-NEXT: ushr v2.4s, v0.4s, #24
; CHECK-NEXT: mov w8, v0.s[3]		; CHECK-NEXT: mov w8, v0.s[3]
; CHECK-NEXT: mov w9, v0.s[2]		; CHECK-NEXT: mov w9, v0.s[2]
; CHECK-NEXT: mov w10, v0.s[1]		; CHECK-NEXT: mov w10, v0.s[1]
; CHECK-NEXT: fmov w11, s0		; CHECK-NEXT: fmov w11, s0
; CHECK-NEXT: cmeq v0.4s, v1.4s, #0		; CHECK-NEXT: cmeq v0.4s, v1.4s, #0
; CHECK-NEXT: cmeq v1.4s, v2.4s, #0		; CHECK-NEXT: cmeq v1.4s, v2.4s, #0
; CHECK-NEXT: mvn v0.16b, v0.16b
; CHECK-NEXT: mvn v1.16b, v1.16b
; CHECK-NEXT: xtn v0.4h, v0.4s
; CHECK-NEXT: xtn v1.4h, v1.4s
; CHECK-NEXT: sturh w8, [x0, #9]		; CHECK-NEXT: sturh w8, [x0, #9]
; CHECK-NEXT: lsr w8, w8, #16		; CHECK-NEXT: lsr w8, w8, #16
; CHECK-NEXT: orr v0.8b, v1.8b, v0.8b		; CHECK-NEXT: mvn v0.16b, v0.16b
		; CHECK-NEXT: mvn v1.16b, v1.16b
; CHECK-NEXT: strh w9, [x0, #6]		; CHECK-NEXT: strh w9, [x0, #6]
; CHECK-NEXT: sturh w10, [x0, #3]		; CHECK-NEXT: sturh w10, [x0, #3]
; CHECK-NEXT: lsr w9, w9, #16		; CHECK-NEXT: lsr w9, w9, #16
; CHECK-NEXT: lsr w10, w10, #16		; CHECK-NEXT: lsr w10, w10, #16
; CHECK-NEXT: strb w8, [x0, #11]		; CHECK-NEXT: strb w8, [x0, #11]
; CHECK-NEXT: sshll v0.4s, v0.4h, #0		; CHECK-NEXT: orr v0.16b, v1.16b, v0.16b
; CHECK-NEXT: lsr w8, w11, #16		; CHECK-NEXT: lsr w8, w11, #16
; CHECK-NEXT: strh w11, [x0]		; CHECK-NEXT: strh w11, [x0]
; CHECK-NEXT: strb w9, [x0, #8]		; CHECK-NEXT: strb w9, [x0, #8]
; CHECK-NEXT: strb w10, [x0, #5]		; CHECK-NEXT: strb w10, [x0, #5]
; CHECK-NEXT: strb w8, [x0, #2]		; CHECK-NEXT: strb w8, [x0, #2]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t = call {<4 x i24>, <4 x i1>} @llvm.umul.with.overflow.v4i24(<4 x i24> %a0, <4 x i24> %a1)		%t = call {<4 x i24>, <4 x i1>} @llvm.umul.with.overflow.v4i24(<4 x i24> %a0, <4 x i24> %a1)
%val = extractvalue {<4 x i24>, <4 x i1>} %t, 0		%val = extractvalue {<4 x i24>, <4 x i1>} %t, 0
▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_saddo.ll

	Show First 20 Lines • Show All 575 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm4, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vmovq %xmm2, 16(%rdi)			; AVX1-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: saddo_v6i32:			; AVX2-LABEL: saddo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5
	; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpandn %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpandn %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)			; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: saddo_v6i32:			; AVX512-LABEL: saddo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm9, %xmm4, %xmm9			; AVX1-NEXT: vpcmpeqd %xmm9, %xmm4, %xmm9
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm9, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm9, %ymm8
	; AVX1-NEXT: vpaddd %xmm2, %xmm6, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm6			; AVX1-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm6
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm7, %xmm6
	; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm6, %xmm6
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm3, %xmm1			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm1, %ymm8, %ymm1			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vpackssdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm2
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: saddo_v8i32:			; AVX2-LABEL: saddo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5
	; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpandn %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpandn %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)			; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: saddo_v8i32:			; AVX512-LABEL: saddo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512-NEXT: vpcmpnltd %ymm2, %ymm1, %k0			; AVX512-NEXT: vpcmpnltd %ymm2, %ymm1, %k0
	; AVX512-NEXT: vpcmpnltd %ymm2, %ymm0, %k1			; AVX512-NEXT: vpcmpnltd %ymm2, %ymm0, %k1
	▲ Show 20 Lines • Show All 1,281 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_smulo.ll

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE2-NEXT: movq %xmm0, %rcx			; SSE2-NEXT: movq %xmm0, %rcx
	; SSE2-NEXT: movq %xmm2, %rdx			; SSE2-NEXT: movq %xmm2, %rdx
	; SSE2-NEXT: movq %xmm1, %rsi			; SSE2-NEXT: movq %xmm1, %rsi
	; SSE2-NEXT: xorl %eax, %eax			; SSE2-NEXT: xorl %eax, %eax
	; SSE2-NEXT: imulq %rdx, %rsi			; SSE2-NEXT: imulq %rdx, %rsi
	; SSE2-NEXT: seto %al			; SSE2-NEXT: movq $-1, %r9
				; SSE2-NEXT: movl $0, %edx
				; SSE2-NEXT: cmovoq %r9, %rdx
	; SSE2-NEXT: movq %rsi, %xmm1			; SSE2-NEXT: movq %rsi, %xmm1
	; SSE2-NEXT: imulq %r8, %rcx			; SSE2-NEXT: imulq %r8, %rcx
	; SSE2-NEXT: movq %rcx, %xmm0			; SSE2-NEXT: movq %rcx, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: psllq $32, %xmm0			; SSE2-NEXT: psllq $32, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: pcmpeqd %xmm1, %xmm2			; SSE2-NEXT: pcmpeqd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm2			; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE2-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movq %rax, %xmm0			; SSE2-NEXT: movq %rdx, %xmm0
	; SSE2-NEXT: seto %al			; SSE2-NEXT: cmovoq %r9, %rax
	; SSE2-NEXT: movzbl %al, %eax
	; SSE2-NEXT: movq %rax, %xmm3			; SSE2-NEXT: movq %rax, %xmm3
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: movq %xmm1, (%rdi)			; SSE2-NEXT: movq %xmm1, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: smulo_v2i32:			; SSSE3-LABEL: smulo_v2i32:
	Show All 11 Lines
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSSE3-NEXT: movq %xmm0, %rcx			; SSSE3-NEXT: movq %xmm0, %rcx
	; SSSE3-NEXT: movq %xmm2, %rdx			; SSSE3-NEXT: movq %xmm2, %rdx
	; SSSE3-NEXT: movq %xmm1, %rsi			; SSSE3-NEXT: movq %xmm1, %rsi
	; SSSE3-NEXT: xorl %eax, %eax			; SSSE3-NEXT: xorl %eax, %eax
	; SSSE3-NEXT: imulq %rdx, %rsi			; SSSE3-NEXT: imulq %rdx, %rsi
	; SSSE3-NEXT: seto %al			; SSSE3-NEXT: movq $-1, %r9
				; SSSE3-NEXT: movl $0, %edx
				; SSSE3-NEXT: cmovoq %r9, %rdx
	; SSSE3-NEXT: movq %rsi, %xmm1			; SSSE3-NEXT: movq %rsi, %xmm1
	; SSSE3-NEXT: imulq %r8, %rcx			; SSSE3-NEXT: imulq %r8, %rcx
	; SSSE3-NEXT: movq %rcx, %xmm0			; SSSE3-NEXT: movq %rcx, %xmm0
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0			; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: psllq $32, %xmm0			; SSSE3-NEXT: psllq $32, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]
	; SSSE3-NEXT: psrad $31, %xmm0			; SSSE3-NEXT: psrad $31, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSSE3-NEXT: pcmpeqd %xmm1, %xmm2			; SSSE3-NEXT: pcmpeqd %xmm1, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]
	; SSSE3-NEXT: pand %xmm2, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2			; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
	; SSSE3-NEXT: pxor %xmm0, %xmm2			; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: movq %rax, %xmm0			; SSSE3-NEXT: movq %rdx, %xmm0
	; SSSE3-NEXT: seto %al			; SSSE3-NEXT: cmovoq %r9, %rax
	; SSSE3-NEXT: movzbl %al, %eax
	; SSSE3-NEXT: movq %rax, %xmm3			; SSSE3-NEXT: movq %rax, %xmm3
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSSE3-NEXT: por %xmm2, %xmm0			; SSSE3-NEXT: por %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSSE3-NEXT: movq %xmm1, (%rdi)			; SSSE3-NEXT: movq %xmm1, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: smulo_v2i32:			; SSE41-LABEL: smulo_v2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psllq $32, %xmm2			; SSE41-NEXT: psllq $32, %xmm2
	; SSE41-NEXT: psrad $31, %xmm2			; SSE41-NEXT: psrad $31, %xmm2
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE41-NEXT: movq %xmm2, %r8			; SSE41-NEXT: movq %xmm2, %r8
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psllq $32, %xmm1			; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: movq %xmm1, %rcx			; SSE41-NEXT: movq %xmm1, %rcx
	; SSE41-NEXT: pextrq $1, %xmm2, %rdx			; SSE41-NEXT: pextrq $1, %xmm2, %rdx
	; SSE41-NEXT: pextrq $1, %xmm1, %rsi			; SSE41-NEXT: pextrq $1, %xmm1, %rsi
	; SSE41-NEXT: xorl %eax, %eax			; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: imulq %rdx, %rsi			; SSE41-NEXT: imulq %rdx, %rsi
	; SSE41-NEXT: seto %al			; SSE41-NEXT: movq $-1, %r9
				; SSE41-NEXT: movl $0, %edx
				; SSE41-NEXT: cmovoq %r9, %rdx
	; SSE41-NEXT: movq %rsi, %xmm0			; SSE41-NEXT: movq %rsi, %xmm0
	; SSE41-NEXT: xorl %edx, %edx
	; SSE41-NEXT: imulq %r8, %rcx			; SSE41-NEXT: imulq %r8, %rcx
	; SSE41-NEXT: movq %rcx, %xmm1			; SSE41-NEXT: movq %rcx, %xmm1
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psllq $32, %xmm0			; SSE41-NEXT: psllq $32, %xmm0
	; SSE41-NEXT: psrad $31, %xmm0			; SSE41-NEXT: psrad $31, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE41-NEXT: pcmpeqq %xmm1, %xmm0			; SSE41-NEXT: pcmpeqq %xmm1, %xmm0
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm2			; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
	; SSE41-NEXT: pxor %xmm0, %xmm2			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: movq %rax, %xmm3			; SSE41-NEXT: movq %rdx, %xmm3
	; SSE41-NEXT: seto %dl			; SSE41-NEXT: cmovoq %r9, %rax
	; SSE41-NEXT: movq %rdx, %xmm0			; SSE41-NEXT: movq %rax, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE41-NEXT: movq %xmm1, (%rdi)			; SSE41-NEXT: movq %xmm1, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: smulo_v2i32:			; AVX1-LABEL: smulo_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vmovq %xmm1, %r8			; AVX1-NEXT: vmovq %xmm1, %r8
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vmovq %xmm0, %rcx			; AVX1-NEXT: vmovq %xmm0, %rcx
	; AVX1-NEXT: vpextrq $1, %xmm1, %rdx			; AVX1-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX1-NEXT: vpextrq $1, %xmm0, %rsi			; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
	; AVX1-NEXT: xorl %eax, %eax			; AVX1-NEXT: xorl %eax, %eax
	; AVX1-NEXT: imulq %rdx, %rsi			; AVX1-NEXT: imulq %rdx, %rsi
	; AVX1-NEXT: seto %al			; AVX1-NEXT: movq $-1, %r9
				; AVX1-NEXT: movl $0, %edx
				; AVX1-NEXT: cmovoq %r9, %rdx
	; AVX1-NEXT: vmovq %rsi, %xmm0			; AVX1-NEXT: vmovq %rsi, %xmm0
	; AVX1-NEXT: xorl %edx, %edx
	; AVX1-NEXT: imulq %r8, %rcx			; AVX1-NEXT: imulq %r8, %rcx
	; AVX1-NEXT: vmovq %rcx, %xmm1			; AVX1-NEXT: vmovq %rcx, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm0
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm0			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rdx, %xmm2
	; AVX1-NEXT: seto %dl			; AVX1-NEXT: cmovoq %r9, %rax
	; AVX1-NEXT: vmovq %rdx, %xmm3			; AVX1-NEXT: vmovq %rax, %xmm3
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vmovq %xmm1, (%rdi)			; AVX1-NEXT: vmovq %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v2i32:			; AVX2-LABEL: smulo_v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $32, %xmm1, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm1, %xmm2
	; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2			; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vmovq %xmm1, %r8			; AVX2-NEXT: vmovq %xmm1, %r8
	; AVX2-NEXT: vpsllq $32, %xmm0, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2			; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vmovq %xmm0, %rcx			; AVX2-NEXT: vmovq %xmm0, %rcx
	; AVX2-NEXT: vpextrq $1, %xmm1, %rdx			; AVX2-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX2-NEXT: vpextrq $1, %xmm0, %rsi			; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: imulq %rdx, %rsi			; AVX2-NEXT: imulq %rdx, %rsi
	; AVX2-NEXT: seto %al			; AVX2-NEXT: movq $-1, %r9
				; AVX2-NEXT: movl $0, %edx
				; AVX2-NEXT: cmovoq %r9, %rdx
	; AVX2-NEXT: vmovq %rsi, %xmm0			; AVX2-NEXT: vmovq %rsi, %xmm0
	; AVX2-NEXT: xorl %edx, %edx
	; AVX2-NEXT: imulq %r8, %rcx			; AVX2-NEXT: imulq %r8, %rcx
	; AVX2-NEXT: vmovq %rcx, %xmm1			; AVX2-NEXT: vmovq %rcx, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; AVX2-NEXT: vpsllq $32, %xmm1, %xmm0			; AVX2-NEXT: vpsllq $32, %xmm1, %xmm0
	; AVX2-NEXT: vpsrad $31, %xmm0, %xmm0			; AVX2-NEXT: vpsrad $31, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2],xmm0[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2],xmm0[3]
	; AVX2-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rdx, %xmm2
	; AVX2-NEXT: seto %dl			; AVX2-NEXT: cmovoq %r9, %rax
	; AVX2-NEXT: vmovq %rdx, %xmm3			; AVX2-NEXT: vmovq %rax, %xmm3
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX2-NEXT: vpor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX2-NEXT: vmovq %xmm1, (%rdi)			; AVX2-NEXT: vmovq %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: smulo_v2i32:			; AVX512-LABEL: smulo_v2i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 507 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuldq %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpmuldq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm0			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm5, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vmovq %xmm2, 16(%rdi)			; AVX1-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v6i32:			; AVX2-LABEL: smulo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpsrad $31, %ymm1, %ymm0			; AVX2-NEXT: vpsrad $31, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)			; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: smulo_v6i32:			; AVX512-LABEL: smulo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpmuldq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm6
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1],xmm5[2,3],xmm6[4,5],xmm5[6,7]
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm5, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm0			; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v8i32:			; AVX2-LABEL: smulo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm3
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpsrad $31, %ymm1, %ymm0			; AVX2-NEXT: vpsrad $31, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)			; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: smulo_v8i32:			; AVX512-LABEL: smulo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpmuldq %ymm2, %ymm3, %ymm2			; AVX512-NEXT: vpmuldq %ymm2, %ymm3, %ymm2
	▲ Show 20 Lines • Show All 726 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE2-NEXT: movq %xmm2, %r8			; SSE2-NEXT: movq %xmm2, %r8
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE2-NEXT: movq %xmm2, %rcx			; SSE2-NEXT: movq %xmm2, %rcx
	; SSE2-NEXT: movq %xmm1, %rdx			; SSE2-NEXT: movq %xmm1, %rdx
	; SSE2-NEXT: movq %xmm0, %rsi			; SSE2-NEXT: movq %xmm0, %rsi
	; SSE2-NEXT: xorl %eax, %eax			; SSE2-NEXT: xorl %eax, %eax
	; SSE2-NEXT: imulq %rdx, %rsi			; SSE2-NEXT: imulq %rdx, %rsi
	; SSE2-NEXT: seto %al			; SSE2-NEXT: movq $-1, %r9
	; SSE2-NEXT: movq %rax, %xmm0			; SSE2-NEXT: movl $0, %edx
	; SSE2-NEXT: xorl %eax, %eax			; SSE2-NEXT: cmovoq %r9, %rdx
				; SSE2-NEXT: movq %rdx, %xmm0
	; SSE2-NEXT: imulq %r8, %rcx			; SSE2-NEXT: imulq %r8, %rcx
	; SSE2-NEXT: seto %al			; SSE2-NEXT: cmovoq %r9, %rax
	; SSE2-NEXT: movq %rax, %xmm1			; SSE2-NEXT: movq %rax, %xmm1
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: movq %rsi, %xmm1			; SSE2-NEXT: movq %rsi, %xmm1
	; SSE2-NEXT: movq %rcx, %xmm2			; SSE2-NEXT: movq %rcx, %xmm2
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: movdqa %xmm1, (%rdi)			; SSE2-NEXT: movdqa %xmm1, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: smulo_v2i64:			; SSSE3-LABEL: smulo_v2i64:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSSE3-NEXT: movq %xmm2, %r8			; SSSE3-NEXT: movq %xmm2, %r8
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSSE3-NEXT: movq %xmm2, %rcx			; SSSE3-NEXT: movq %xmm2, %rcx
	; SSSE3-NEXT: movq %xmm1, %rdx			; SSSE3-NEXT: movq %xmm1, %rdx
	; SSSE3-NEXT: movq %xmm0, %rsi			; SSSE3-NEXT: movq %xmm0, %rsi
	; SSSE3-NEXT: xorl %eax, %eax			; SSSE3-NEXT: xorl %eax, %eax
	; SSSE3-NEXT: imulq %rdx, %rsi			; SSSE3-NEXT: imulq %rdx, %rsi
	; SSSE3-NEXT: seto %al			; SSSE3-NEXT: movq $-1, %r9
	; SSSE3-NEXT: movq %rax, %xmm0			; SSSE3-NEXT: movl $0, %edx
	; SSSE3-NEXT: xorl %eax, %eax			; SSSE3-NEXT: cmovoq %r9, %rdx
				; SSSE3-NEXT: movq %rdx, %xmm0
	; SSSE3-NEXT: imulq %r8, %rcx			; SSSE3-NEXT: imulq %r8, %rcx
	; SSSE3-NEXT: seto %al			; SSSE3-NEXT: cmovoq %r9, %rax
	; SSSE3-NEXT: movq %rax, %xmm1			; SSSE3-NEXT: movq %rax, %xmm1
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: movq %rsi, %xmm1			; SSSE3-NEXT: movq %rsi, %xmm1
	; SSSE3-NEXT: movq %rcx, %xmm2			; SSSE3-NEXT: movq %rcx, %xmm2
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSSE3-NEXT: movdqa %xmm1, (%rdi)			; SSSE3-NEXT: movdqa %xmm1, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: smulo_v2i64:			; SSE41-LABEL: smulo_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movq %xmm1, %r8			; SSE41-NEXT: movq %xmm1, %r8
	; SSE41-NEXT: movq %xmm0, %rcx			; SSE41-NEXT: movq %xmm0, %rcx
	; SSE41-NEXT: pextrq $1, %xmm1, %rdx			; SSE41-NEXT: pextrq $1, %xmm1, %rdx
	; SSE41-NEXT: pextrq $1, %xmm0, %rsi			; SSE41-NEXT: pextrq $1, %xmm0, %rsi
	; SSE41-NEXT: xorl %eax, %eax			; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: imulq %rdx, %rsi			; SSE41-NEXT: imulq %rdx, %rsi
	; SSE41-NEXT: seto %al			; SSE41-NEXT: movq $-1, %r9
	; SSE41-NEXT: movq %rax, %xmm1			; SSE41-NEXT: movl $0, %edx
	; SSE41-NEXT: xorl %eax, %eax			; SSE41-NEXT: cmovoq %r9, %rdx
				; SSE41-NEXT: movq %rdx, %xmm1
	; SSE41-NEXT: imulq %r8, %rcx			; SSE41-NEXT: imulq %r8, %rcx
	; SSE41-NEXT: seto %al			; SSE41-NEXT: cmovoq %r9, %rax
	; SSE41-NEXT: movq %rax, %xmm0			; SSE41-NEXT: movq %rax, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: movq %rsi, %xmm1			; SSE41-NEXT: movq %rsi, %xmm1
	; SSE41-NEXT: movq %rcx, %xmm2			; SSE41-NEXT: movq %rcx, %xmm2
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE41-NEXT: movdqa %xmm2, (%rdi)			; SSE41-NEXT: movdqa %xmm2, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: smulo_v2i64:			; AVX1-LABEL: smulo_v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq %xmm1, %r8			; AVX1-NEXT: vmovq %xmm1, %r8
	; AVX1-NEXT: vmovq %xmm0, %rcx			; AVX1-NEXT: vmovq %xmm0, %rcx
	; AVX1-NEXT: vpextrq $1, %xmm1, %rdx			; AVX1-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX1-NEXT: vpextrq $1, %xmm0, %rsi			; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
	; AVX1-NEXT: xorl %eax, %eax			; AVX1-NEXT: xorl %eax, %eax
	; AVX1-NEXT: imulq %rdx, %rsi			; AVX1-NEXT: imulq %rdx, %rsi
	; AVX1-NEXT: seto %al			; AVX1-NEXT: movq $-1, %r9
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: movl $0, %edx
	; AVX1-NEXT: xorl %eax, %eax			; AVX1-NEXT: cmovoq %r9, %rdx
				; AVX1-NEXT: vmovq %rdx, %xmm0
	; AVX1-NEXT: imulq %r8, %rcx			; AVX1-NEXT: imulq %r8, %rcx
	; AVX1-NEXT: seto %al			; AVX1-NEXT: cmovoq %r9, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq %rsi, %xmm1			; AVX1-NEXT: vmovq %rsi, %xmm1
	; AVX1-NEXT: vmovq %rcx, %xmm2			; AVX1-NEXT: vmovq %rcx, %xmm2
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: smulo_v2i64:			; AVX2-LABEL: smulo_v2i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovq %xmm1, %r8			; AVX2-NEXT: vmovq %xmm1, %r8
	; AVX2-NEXT: vmovq %xmm0, %rcx			; AVX2-NEXT: vmovq %xmm0, %rcx
	; AVX2-NEXT: vpextrq $1, %xmm1, %rdx			; AVX2-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX2-NEXT: vpextrq $1, %xmm0, %rsi			; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: imulq %rdx, %rsi			; AVX2-NEXT: imulq %rdx, %rsi
	; AVX2-NEXT: seto %al			; AVX2-NEXT: movq $-1, %r9
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: movl $0, %edx
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: cmovoq %r9, %rdx
				; AVX2-NEXT: vmovq %rdx, %xmm0
	; AVX2-NEXT: imulq %r8, %rcx			; AVX2-NEXT: imulq %r8, %rcx
	; AVX2-NEXT: seto %al			; AVX2-NEXT: cmovoq %r9, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-NEXT: vmovq %rsi, %xmm1			; AVX2-NEXT: vmovq %rsi, %xmm1
	; AVX2-NEXT: vmovq %rcx, %xmm2			; AVX2-NEXT: vmovq %rcx, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 510 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: movl %eax, %r8d			; AVX512-NEXT: movl %eax, %r8d
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: movl %r8d, %ecx			; AVX512-NEXT: movl %r8d, %ecx
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: negb %cl			; AVX512-NEXT: negb %cl
	; AVX512-NEXT: cmpb %r8b, %cl			; AVX512-NEXT: cmpb %r8b, %cl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k0			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: kshiftrw $1, %k0, %k1			; AVX512-NEXT: kshiftrw $1, %k0, %k1
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: imulb %sil			; AVX512-NEXT: imulb %sil
	; AVX512-NEXT: movl %eax, %edx			; AVX512-NEXT: movl %eax, %edx
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: movl %edx, %ecx			; AVX512-NEXT: movl %edx, %ecx
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: negb %cl			; AVX512-NEXT: negb %cl
	; AVX512-NEXT: cmpb %dl, %cl			; AVX512-NEXT: cmpb %dl, %cl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $14, %k1, %k1			; AVX512-NEXT: kshiftrw $14, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kxorw %k1, %k0, %k0
	; AVX512-NEXT: kshiftrw $2, %k0, %k1			; AVX512-NEXT: kshiftrw $2, %k0, %k1
	; AVX512-NEXT: movl %r11d, %eax			; AVX512-NEXT: movl %r11d, %eax
	; AVX512-NEXT: imulb %bl			; AVX512-NEXT: imulb %bl
	; AVX512-NEXT: movl %eax, %esi			; AVX512-NEXT: movl %eax, %esi
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: movl %esi, %ecx			; AVX512-NEXT: movl %esi, %ecx
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: negb %cl			; AVX512-NEXT: negb %cl
	; AVX512-NEXT: cmpb %sil, %cl			; AVX512-NEXT: cmpb %sil, %cl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $13, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kxorw %k1, %k0, %k0
	; AVX512-NEXT: kshiftlw $13, %k0, %k0			; AVX512-NEXT: kshiftlw $13, %k0, %k0
	; AVX512-NEXT: kshiftrw $13, %k0, %k0			; AVX512-NEXT: kshiftrw $13, %k0, %k0
	; AVX512-NEXT: movl %r10d, %eax			; AVX512-NEXT: movl %r10d, %eax
	; AVX512-NEXT: imulb %r9b			; AVX512-NEXT: imulb %r9b
	; AVX512-NEXT: # kill: def $al killed $al def $eax			; AVX512-NEXT: # kill: def $al killed $al def $eax
	; AVX512-NEXT: seto %cl			; AVX512-NEXT: seto %cl
	; AVX512-NEXT: movl %eax, %ebx			; AVX512-NEXT: movl %eax, %ebx
	; AVX512-NEXT: andb $1, %bl			; AVX512-NEXT: andb $1, %bl
	; AVX512-NEXT: negb %bl			; AVX512-NEXT: negb %bl
	; AVX512-NEXT: cmpb %al, %bl			; AVX512-NEXT: cmpb %al, %bl
	; AVX512-NEXT: setne %bl			; AVX512-NEXT: setne %bl
	; AVX512-NEXT: orb %cl, %bl			; AVX512-NEXT: orb %cl, %bl
	; AVX512-NEXT: kmovd %ebx, %k1			; AVX512-NEXT: setne %cl
				; AVX512-NEXT: kmovd %ecx, %k1
	; AVX512-NEXT: kshiftlw $3, %k1, %k1			; AVX512-NEXT: kshiftlw $3, %k1, %k1
	; AVX512-NEXT: korw %k1, %k0, %k1			; AVX512-NEXT: korw %k1, %k0, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: kmovd %r8d, %k0			; AVX512-NEXT: kmovd %r8d, %k0
	; AVX512-NEXT: kshiftrw $1, %k0, %k1			; AVX512-NEXT: kshiftrw $1, %k0, %k1
	; AVX512-NEXT: kmovd %edx, %k2			; AVX512-NEXT: kmovd %edx, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	▲ Show 20 Lines • Show All 348 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_ssubo.ll

	Show First 20 Lines • Show All 591 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; AVX1-NEXT: vmovq %xmm6, 16(%rdi)			; AVX1-NEXT: vmovq %xmm6, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: ssubo_v6i32:			; AVX2-LABEL: ssubo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5
	; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpandn %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpandn %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)			; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: ssubo_v6i32:			; AVX512-LABEL: ssubo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm4, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm8, %ymm4, %ymm8
	; AVX1-NEXT: vpsubd %xmm9, %xmm6, %xmm6			; AVX1-NEXT: vpsubd %xmm9, %xmm6, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm6, %xmm3, %xmm4			; AVX1-NEXT: vpcmpgtd %xmm6, %xmm3, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm7, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm7, %xmm4
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm3, %xmm1			; AVX1-NEXT: vpcmpgtd %xmm1, %xmm3, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm1, %ymm8, %ymm1			; AVX1-NEXT: vandps %ymm0, %ymm8, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm0, %ymm2
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: ssubo_v8i32:			; AVX2-LABEL: ssubo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm4, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5			; AVX2-NEXT: vpcmpgtd %ymm0, %ymm2, %ymm5
	; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5			; AVX2-NEXT: vpxor %ymm4, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm5, %ymm3
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0			; AVX2-NEXT: vpcmpgtd %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpandn %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpandn %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)			; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: ssubo_v8i32:			; AVX512-LABEL: ssubo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512-NEXT: vpcmpnltd %ymm2, %ymm1, %k0			; AVX512-NEXT: vpcmpnltd %ymm2, %ymm1, %k0
	; AVX512-NEXT: vpcmpnltd %ymm2, %ymm0, %k1			; AVX512-NEXT: vpcmpnltd %ymm2, %ymm0, %k1
	▲ Show 20 Lines • Show All 1,309 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_uaddo.ll

	Show First 20 Lines • Show All 400 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmaxud %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpmaxud %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vmovq %xmm2, 16(%rdi)			; AVX1-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uaddo_v6i32:			; AVX2-LABEL: uaddo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)			; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: uaddo_v6i32:			; AVX512-LABEL: uaddo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmaxud %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpmaxud %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uaddo_v8i32:			; AVX2-LABEL: uaddo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)			; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: uaddo_v8i32:			; AVX512-LABEL: uaddo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	; AVX512-NEXT: vpcmpltud %ymm0, %ymm1, %k1			; AVX512-NEXT: vpcmpltud %ymm0, %ymm1, %k1
	; AVX512-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 837 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_umulo.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: umulo_v2i32:			; SSE2-LABEL: umulo_v2i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE2-NEXT: movq %xmm3, %r8			; SSE2-NEXT: movq %xmm3, %r8
	; SSE2-NEXT: pand %xmm2, %xmm1			; SSE2-NEXT: pand %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE2-NEXT: movq %xmm2, %r9			; SSE2-NEXT: movq %xmm2, %r10
	; SSE2-NEXT: movq %xmm0, %rax			; SSE2-NEXT: movq %xmm0, %rax
	; SSE2-NEXT: movq %xmm1, %rcx			; SSE2-NEXT: movq %xmm1, %rdx
	; SSE2-NEXT: xorl %esi, %esi			; SSE2-NEXT: xorl %esi, %esi
	; SSE2-NEXT: mulq %rcx			; SSE2-NEXT: mulq %rdx
	; SSE2-NEXT: seto %sil			; SSE2-NEXT: movq $-1, %r9
				; SSE2-NEXT: movl $0, %ecx
				; SSE2-NEXT: cmovoq %r9, %rcx
	; SSE2-NEXT: movq %rax, %xmm0			; SSE2-NEXT: movq %rax, %xmm0
	; SSE2-NEXT: xorl %ecx, %ecx
	; SSE2-NEXT: movq %r8, %rax			; SSE2-NEXT: movq %r8, %rax
	; SSE2-NEXT: mulq %r9			; SSE2-NEXT: mulq %r10
	; SSE2-NEXT: movq %rax, %xmm1			; SSE2-NEXT: movq %rax, %xmm1
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; SSE2-NEXT: psrlq $32, %xmm0			; SSE2-NEXT: psrlq $32, %xmm0
	; SSE2-NEXT: pxor %xmm2, %xmm2			; SSE2-NEXT: pxor %xmm2, %xmm2
	; SSE2-NEXT: pcmpeqd %xmm0, %xmm2			; SSE2-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]
	; SSE2-NEXT: pand %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm2			; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE2-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movq %rsi, %xmm0			; SSE2-NEXT: movq %rcx, %xmm0
	; SSE2-NEXT: seto %cl			; SSE2-NEXT: cmovoq %r9, %rsi
	; SSE2-NEXT: movq %rcx, %xmm3			; SSE2-NEXT: movq %rsi, %xmm3
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: movq %xmm1, (%rdi)			; SSE2-NEXT: movq %xmm1, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: umulo_v2i32:			; SSSE3-LABEL: umulo_v2i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]			; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]
	; SSSE3-NEXT: pand %xmm2, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSSE3-NEXT: movq %xmm3, %r8			; SSSE3-NEXT: movq %xmm3, %r8
	; SSSE3-NEXT: pand %xmm2, %xmm1			; SSSE3-NEXT: pand %xmm2, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSSE3-NEXT: movq %xmm2, %r9			; SSSE3-NEXT: movq %xmm2, %r10
	; SSSE3-NEXT: movq %xmm0, %rax			; SSSE3-NEXT: movq %xmm0, %rax
	; SSSE3-NEXT: movq %xmm1, %rcx			; SSSE3-NEXT: movq %xmm1, %rdx
	; SSSE3-NEXT: xorl %esi, %esi			; SSSE3-NEXT: xorl %esi, %esi
	; SSSE3-NEXT: mulq %rcx			; SSSE3-NEXT: mulq %rdx
	; SSSE3-NEXT: seto %sil			; SSSE3-NEXT: movq $-1, %r9
				; SSSE3-NEXT: movl $0, %ecx
				; SSSE3-NEXT: cmovoq %r9, %rcx
	; SSSE3-NEXT: movq %rax, %xmm0			; SSSE3-NEXT: movq %rax, %xmm0
	; SSSE3-NEXT: xorl %ecx, %ecx
	; SSSE3-NEXT: movq %r8, %rax			; SSSE3-NEXT: movq %r8, %rax
	; SSSE3-NEXT: mulq %r9			; SSSE3-NEXT: mulq %r10
	; SSSE3-NEXT: movq %rax, %xmm1			; SSSE3-NEXT: movq %rax, %xmm1
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; SSSE3-NEXT: psrlq $32, %xmm0			; SSSE3-NEXT: psrlq $32, %xmm0
	; SSSE3-NEXT: pxor %xmm2, %xmm2			; SSSE3-NEXT: pxor %xmm2, %xmm2
	; SSSE3-NEXT: pcmpeqd %xmm0, %xmm2			; SSSE3-NEXT: pcmpeqd %xmm0, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,0,3,2]
	; SSSE3-NEXT: pand %xmm2, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2			; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
	; SSSE3-NEXT: pxor %xmm0, %xmm2			; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: movq %rsi, %xmm0			; SSSE3-NEXT: movq %rcx, %xmm0
	; SSSE3-NEXT: seto %cl			; SSSE3-NEXT: cmovoq %r9, %rsi
	; SSSE3-NEXT: movq %rcx, %xmm3			; SSSE3-NEXT: movq %rsi, %xmm3
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSSE3-NEXT: por %xmm2, %xmm0			; SSSE3-NEXT: por %xmm2, %xmm0
	; SSSE3-NEXT: movq %xmm1, (%rdi)			; SSSE3-NEXT: movq %xmm1, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: umulo_v2i32:			; SSE41-LABEL: umulo_v2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: movq %xmm0, %r9			; SSE41-NEXT: movq %xmm0, %r8
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE41-NEXT: movq %xmm1, %rsi			; SSE41-NEXT: movq %xmm1, %rcx
	; SSE41-NEXT: pextrq $1, %xmm0, %rax			; SSE41-NEXT: pextrq $1, %xmm0, %rax
	; SSE41-NEXT: pextrq $1, %xmm1, %rdx			; SSE41-NEXT: pextrq $1, %xmm1, %rdx
	; SSE41-NEXT: xorl %ecx, %ecx			; SSE41-NEXT: xorl %esi, %esi
	; SSE41-NEXT: mulq %rdx			; SSE41-NEXT: mulq %rdx
	; SSE41-NEXT: movq %rax, %r8			; SSE41-NEXT: movq %rax, %r9
	; SSE41-NEXT: seto %cl			; SSE41-NEXT: movq $-1, %r10
	; SSE41-NEXT: movq %rcx, %xmm0			; SSE41-NEXT: movl $0, %eax
	; SSE41-NEXT: xorl %ecx, %ecx			; SSE41-NEXT: cmovoq %r10, %rax
	; SSE41-NEXT: movq %r9, %rax			; SSE41-NEXT: movq %rax, %xmm0
	; SSE41-NEXT: mulq %rsi			; SSE41-NEXT: movq %r8, %rax
	; SSE41-NEXT: seto %cl			; SSE41-NEXT: mulq %rcx
	; SSE41-NEXT: movq %rcx, %xmm1			; SSE41-NEXT: cmovoq %r10, %rsi
				; SSE41-NEXT: movq %rsi, %xmm1
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE41-NEXT: movq %r8, %xmm0			; SSE41-NEXT: movq %r9, %xmm0
	; SSE41-NEXT: movq %rax, %xmm3			; SSE41-NEXT: movq %rax, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,2,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,2,2,3]
	; SSE41-NEXT: psrlq $32, %xmm3			; SSE41-NEXT: psrlq $32, %xmm3
	; SSE41-NEXT: pcmpeqq %xmm2, %xmm3			; SSE41-NEXT: pcmpeqq %xmm2, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movq %xmm4, (%rdi)			; SSE41-NEXT: movq %xmm4, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: umulo_v2i32:			; AVX1-LABEL: umulo_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vmovq %xmm0, %r9			; AVX1-NEXT: vmovq %xmm0, %r8
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vmovq %xmm1, %rsi			; AVX1-NEXT: vmovq %xmm1, %rcx
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: vpextrq $1, %xmm1, %rdx			; AVX1-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX1-NEXT: xorl %ecx, %ecx			; AVX1-NEXT: xorl %esi, %esi
	; AVX1-NEXT: mulq %rdx			; AVX1-NEXT: mulq %rdx
	; AVX1-NEXT: movq %rax, %r8			; AVX1-NEXT: movq %rax, %r9
	; AVX1-NEXT: seto %cl			; AVX1-NEXT: movq $-1, %r10
	; AVX1-NEXT: vmovq %rcx, %xmm0			; AVX1-NEXT: movl $0, %eax
	; AVX1-NEXT: xorl %ecx, %ecx			; AVX1-NEXT: cmovoq %r10, %rax
	; AVX1-NEXT: movq %r9, %rax			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: mulq %rsi			; AVX1-NEXT: movq %r8, %rax
	; AVX1-NEXT: seto %cl			; AVX1-NEXT: mulq %rcx
	; AVX1-NEXT: vmovq %rcx, %xmm1			; AVX1-NEXT: cmovoq %r10, %rsi
				; AVX1-NEXT: vmovq %rsi, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq %r8, %xmm1			; AVX1-NEXT: vmovq %r9, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm3			; AVX1-NEXT: vmovq %rax, %xmm3
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpor %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpor %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vmovq %xmm1, (%rdi)			; AVX1-NEXT: vmovq %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v2i32:			; AVX2-LABEL: umulo_v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vmovq %xmm0, %r9			; AVX2-NEXT: vmovq %xmm0, %r8
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vmovq %xmm1, %rsi			; AVX2-NEXT: vmovq %xmm1, %rcx
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vpextrq $1, %xmm1, %rdx			; AVX2-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX2-NEXT: xorl %ecx, %ecx			; AVX2-NEXT: xorl %esi, %esi
	; AVX2-NEXT: mulq %rdx			; AVX2-NEXT: mulq %rdx
	; AVX2-NEXT: movq %rax, %r8			; AVX2-NEXT: movq %rax, %r9
	; AVX2-NEXT: seto %cl			; AVX2-NEXT: movq $-1, %r10
	; AVX2-NEXT: vmovq %rcx, %xmm0			; AVX2-NEXT: movl $0, %eax
	; AVX2-NEXT: xorl %ecx, %ecx			; AVX2-NEXT: cmovoq %r10, %rax
	; AVX2-NEXT: movq %r9, %rax			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: mulq %rsi			; AVX2-NEXT: movq %r8, %rax
	; AVX2-NEXT: seto %cl			; AVX2-NEXT: mulq %rcx
	; AVX2-NEXT: vmovq %rcx, %xmm1			; AVX2-NEXT: cmovoq %r10, %rsi
				; AVX2-NEXT: vmovq %rsi, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-NEXT: vmovq %r8, %xmm1			; AVX2-NEXT: vmovq %r9, %xmm1
	; AVX2-NEXT: vmovq %rax, %xmm3			; AVX2-NEXT: vmovq %rax, %xmm3
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm1[0]
	; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpcmpeqq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	▲ Show 20 Lines • Show All 421 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movq %xmm2, 16(%rcx)			; SSE41-NEXT: movq %xmm2, 16(%rcx)
	; SSE41-NEXT: movdqa %xmm3, (%rcx)			; SSE41-NEXT: movdqa %xmm3, (%rcx)
	; SSE41-NEXT: movq %xmm7, 16(%rdi)			; SSE41-NEXT: movq %xmm7, 16(%rdi)
	; SSE41-NEXT: movdqa %xmm4, (%rdi)			; SSE41-NEXT: movdqa %xmm4, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: umulo_v6i32:			; AVX1-LABEL: umulo_v6i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm5			; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm5
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm5[0,1],xmm3[2,3],xmm5[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3],xmm5[4,5],xmm2[6,7]
	; AVX1-NEXT: vpxor %xmm8, %xmm8, %xmm8			; AVX1-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm6, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm6, %xmm6
	; AVX1-NEXT: vpxor %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpackssdw %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm5, %ymm2
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm1
	; AVX1-NEXT: vpmovsxwd %xmm3, %xmm0			; AVX1-NEXT: vmovq %xmm1, 16(%rdi)
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; AVX1-NEXT: vmovdqa %xmm0, (%rdi)
	; AVX1-NEXT: vpmovsxwd %xmm3, %xmm3			; AVX1-NEXT: vmovaps %ymm2, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v6i32:			; AVX2-LABEL: umulo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm3
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vmovq %xmm1, 16(%rdi)
	; AVX2-NEXT: vpmovsxwd %xmm2, %ymm0			; AVX2-NEXT: vmovdqa %xmm0, (%rdi)
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vmovdqa %ymm2, %ymm0
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: umulo_v6i32:			; AVX512-LABEL: umulo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX512-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm3			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm3
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movdqa %xmm1, 16(%rdi)			; SSE41-NEXT: movdqa %xmm1, 16(%rdi)
	; SSE41-NEXT: movdqa %xmm0, (%rdi)			; SSE41-NEXT: movdqa %xmm0, (%rdi)
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: umulo_v8i32:			; AVX1-LABEL: umulo_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm5			; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm5
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm5[0,1],xmm3[2,3],xmm5[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm5[0,1],xmm2[2,3],xmm5[4,5],xmm2[6,7]
	; AVX1-NEXT: vpxor %xmm8, %xmm8, %xmm8			; AVX1-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm6, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm6, %xmm6
	; AVX1-NEXT: vpxor %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1],xmm5[2,3],xmm7[4,5],xmm5[6,7]
	; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm8, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpackssdw %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm5, %ymm2
	; AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpmulld %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxwd %xmm3, %xmm0			; AVX1-NEXT: vmovaps %ymm0, (%rdi)
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[2,3,0,1]			; AVX1-NEXT: vmovaps %ymm2, %ymm0
	; AVX1-NEXT: vpmovsxwd %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v8i32:			; AVX2-LABEL: umulo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm3
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2],ymm2[3],ymm3[4],ymm2[5],ymm3[6],ymm2[7]
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vmovdqa %ymm0, (%rdi)
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vmovdqa %ymm2, %ymm0
	; AVX2-NEXT: vpmovsxwd %xmm2, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: umulo_v8i32:			; AVX512-LABEL: umulo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX512-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX512-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX512-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm3			; AVX512-NEXT: vpmuludq %ymm1, %ymm0, %ymm3
	▲ Show 20 Lines • Show All 636 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movq %xmm2, %r9			; SSE2-NEXT: movq %xmm2, %r9
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE2-NEXT: movq %xmm2, %rsi			; SSE2-NEXT: movq %xmm2, %rsi
	; SSE2-NEXT: movq %xmm0, %rax			; SSE2-NEXT: movq %xmm0, %rax
	; SSE2-NEXT: movq %xmm1, %rdx			; SSE2-NEXT: movq %xmm1, %rdx
	; SSE2-NEXT: xorl %ecx, %ecx			; SSE2-NEXT: xorl %ecx, %ecx
	; SSE2-NEXT: mulq %rdx			; SSE2-NEXT: mulq %rdx
	; SSE2-NEXT: movq %rax, %r8			; SSE2-NEXT: movq %rax, %r8
	; SSE2-NEXT: seto %cl			; SSE2-NEXT: movq $-1, %r10
	; SSE2-NEXT: movq %rcx, %xmm0			; SSE2-NEXT: movl $0, %eax
	; SSE2-NEXT: xorl %ecx, %ecx			; SSE2-NEXT: cmovoq %r10, %rax
				; SSE2-NEXT: movq %rax, %xmm0
	; SSE2-NEXT: movq %r9, %rax			; SSE2-NEXT: movq %r9, %rax
	; SSE2-NEXT: mulq %rsi			; SSE2-NEXT: mulq %rsi
	; SSE2-NEXT: seto %cl			; SSE2-NEXT: cmovoq %r10, %rcx
	; SSE2-NEXT: movq %rcx, %xmm1			; SSE2-NEXT: movq %rcx, %xmm1
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: movq %r8, %xmm1			; SSE2-NEXT: movq %r8, %xmm1
	; SSE2-NEXT: movq %rax, %xmm2			; SSE2-NEXT: movq %rax, %xmm2
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: movdqa %xmm1, (%rdi)			; SSE2-NEXT: movdqa %xmm1, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: umulo_v2i64:			; SSSE3-LABEL: umulo_v2i64:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSSE3-NEXT: movq %xmm2, %r9			; SSSE3-NEXT: movq %xmm2, %r9
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSSE3-NEXT: movq %xmm2, %rsi			; SSSE3-NEXT: movq %xmm2, %rsi
	; SSSE3-NEXT: movq %xmm0, %rax			; SSSE3-NEXT: movq %xmm0, %rax
	; SSSE3-NEXT: movq %xmm1, %rdx			; SSSE3-NEXT: movq %xmm1, %rdx
	; SSSE3-NEXT: xorl %ecx, %ecx			; SSSE3-NEXT: xorl %ecx, %ecx
	; SSSE3-NEXT: mulq %rdx			; SSSE3-NEXT: mulq %rdx
	; SSSE3-NEXT: movq %rax, %r8			; SSSE3-NEXT: movq %rax, %r8
	; SSSE3-NEXT: seto %cl			; SSSE3-NEXT: movq $-1, %r10
	; SSSE3-NEXT: movq %rcx, %xmm0			; SSSE3-NEXT: movl $0, %eax
	; SSSE3-NEXT: xorl %ecx, %ecx			; SSSE3-NEXT: cmovoq %r10, %rax
				; SSSE3-NEXT: movq %rax, %xmm0
	; SSSE3-NEXT: movq %r9, %rax			; SSSE3-NEXT: movq %r9, %rax
	; SSSE3-NEXT: mulq %rsi			; SSSE3-NEXT: mulq %rsi
	; SSSE3-NEXT: seto %cl			; SSSE3-NEXT: cmovoq %r10, %rcx
	; SSSE3-NEXT: movq %rcx, %xmm1			; SSSE3-NEXT: movq %rcx, %xmm1
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSSE3-NEXT: movq %r8, %xmm1			; SSSE3-NEXT: movq %r8, %xmm1
	; SSSE3-NEXT: movq %rax, %xmm2			; SSSE3-NEXT: movq %rax, %xmm2
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSSE3-NEXT: movdqa %xmm1, (%rdi)			; SSSE3-NEXT: movdqa %xmm1, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: umulo_v2i64:			; SSE41-LABEL: umulo_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movq %xmm0, %r9			; SSE41-NEXT: movq %xmm0, %rcx
	; SSE41-NEXT: movq %xmm1, %rsi			; SSE41-NEXT: movq %xmm1, %r9
	; SSE41-NEXT: pextrq $1, %xmm0, %rax			; SSE41-NEXT: pextrq $1, %xmm0, %rax
	; SSE41-NEXT: pextrq $1, %xmm1, %rdx			; SSE41-NEXT: pextrq $1, %xmm1, %rdx
	; SSE41-NEXT: xorl %ecx, %ecx			; SSE41-NEXT: xorl %esi, %esi
	; SSE41-NEXT: mulq %rdx			; SSE41-NEXT: mulq %rdx
	; SSE41-NEXT: movq %rax, %r8			; SSE41-NEXT: movq %rax, %r8
	; SSE41-NEXT: seto %cl			; SSE41-NEXT: movq $-1, %r10
	; SSE41-NEXT: movq %rcx, %xmm1			; SSE41-NEXT: movl $0, %eax
	; SSE41-NEXT: xorl %ecx, %ecx			; SSE41-NEXT: cmovoq %r10, %rax
	; SSE41-NEXT: movq %r9, %rax			; SSE41-NEXT: movq %rax, %xmm1
	; SSE41-NEXT: mulq %rsi			; SSE41-NEXT: movq %rcx, %rax
	; SSE41-NEXT: seto %cl			; SSE41-NEXT: mulq %r9
	; SSE41-NEXT: movq %rcx, %xmm0			; SSE41-NEXT: cmovoq %r10, %rsi
				; SSE41-NEXT: movq %rsi, %xmm0
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE41-NEXT: movq %r8, %xmm1			; SSE41-NEXT: movq %r8, %xmm1
	; SSE41-NEXT: movq %rax, %xmm2			; SSE41-NEXT: movq %rax, %xmm2
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE41-NEXT: movdqa %xmm2, (%rdi)			; SSE41-NEXT: movdqa %xmm2, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: umulo_v2i64:			; AVX1-LABEL: umulo_v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq %xmm0, %r9			; AVX1-NEXT: vmovq %xmm0, %rcx
	; AVX1-NEXT: vmovq %xmm1, %rsi			; AVX1-NEXT: vmovq %xmm1, %r9
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: vpextrq $1, %xmm1, %rdx			; AVX1-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX1-NEXT: xorl %ecx, %ecx			; AVX1-NEXT: xorl %esi, %esi
	; AVX1-NEXT: mulq %rdx			; AVX1-NEXT: mulq %rdx
	; AVX1-NEXT: movq %rax, %r8			; AVX1-NEXT: movq %rax, %r8
	; AVX1-NEXT: seto %cl			; AVX1-NEXT: movq $-1, %r10
	; AVX1-NEXT: vmovq %rcx, %xmm0			; AVX1-NEXT: movl $0, %eax
	; AVX1-NEXT: xorl %ecx, %ecx			; AVX1-NEXT: cmovoq %r10, %rax
	; AVX1-NEXT: movq %r9, %rax			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: mulq %rsi			; AVX1-NEXT: movq %rcx, %rax
	; AVX1-NEXT: seto %cl			; AVX1-NEXT: mulq %r9
	; AVX1-NEXT: vmovq %rcx, %xmm1			; AVX1-NEXT: cmovoq %r10, %rsi
				; AVX1-NEXT: vmovq %rsi, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq %r8, %xmm1			; AVX1-NEXT: vmovq %r8, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: umulo_v2i64:			; AVX2-LABEL: umulo_v2i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovq %xmm0, %r9			; AVX2-NEXT: vmovq %xmm0, %rcx
	; AVX2-NEXT: vmovq %xmm1, %rsi			; AVX2-NEXT: vmovq %xmm1, %r9
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vpextrq $1, %xmm1, %rdx			; AVX2-NEXT: vpextrq $1, %xmm1, %rdx
	; AVX2-NEXT: xorl %ecx, %ecx			; AVX2-NEXT: xorl %esi, %esi
	; AVX2-NEXT: mulq %rdx			; AVX2-NEXT: mulq %rdx
	; AVX2-NEXT: movq %rax, %r8			; AVX2-NEXT: movq %rax, %r8
	; AVX2-NEXT: seto %cl			; AVX2-NEXT: movq $-1, %r10
	; AVX2-NEXT: vmovq %rcx, %xmm0			; AVX2-NEXT: movl $0, %eax
	; AVX2-NEXT: xorl %ecx, %ecx			; AVX2-NEXT: cmovoq %r10, %rax
	; AVX2-NEXT: movq %r9, %rax			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: mulq %rsi			; AVX2-NEXT: movq %rcx, %rax
	; AVX2-NEXT: seto %cl			; AVX2-NEXT: mulq %r9
	; AVX2-NEXT: vmovq %rcx, %xmm1			; AVX2-NEXT: cmovoq %r10, %rsi
				; AVX2-NEXT: vmovq %rsi, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-NEXT: vmovq %r8, %xmm1			; AVX2-NEXT: vmovq %r8, %xmm1
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: umulo_v2i64:			; AVX512-LABEL: umulo_v2i64:
	▲ Show 20 Lines • Show All 447 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: mulb %cl			; AVX512-NEXT: mulb %cl
	; AVX512-NEXT: movl %eax, %r8d			; AVX512-NEXT: movl %eax, %r8d
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: testb $-2, %r8b			; AVX512-NEXT: testb $-2, %r8b
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k0			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: kshiftrw $1, %k0, %k1			; AVX512-NEXT: kshiftrw $1, %k0, %k1
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: mulb %sil			; AVX512-NEXT: mulb %sil
	; AVX512-NEXT: movl %eax, %edx			; AVX512-NEXT: movl %eax, %edx
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: testb $-2, %dl			; AVX512-NEXT: testb $-2, %dl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $14, %k1, %k1			; AVX512-NEXT: kshiftrw $14, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kxorw %k1, %k0, %k0
	; AVX512-NEXT: kshiftrw $2, %k0, %k1			; AVX512-NEXT: kshiftrw $2, %k0, %k1
	; AVX512-NEXT: movl %r11d, %eax			; AVX512-NEXT: movl %r11d, %eax
	; AVX512-NEXT: mulb %bl			; AVX512-NEXT: mulb %bl
	; AVX512-NEXT: movl %eax, %esi			; AVX512-NEXT: movl %eax, %esi
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: testb $-2, %sil			; AVX512-NEXT: testb $-2, %sil
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $13, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kxorw %k1, %k0, %k0
	; AVX512-NEXT: kshiftlw $13, %k0, %k0			; AVX512-NEXT: kshiftlw $13, %k0, %k0
	; AVX512-NEXT: kshiftrw $13, %k0, %k0			; AVX512-NEXT: kshiftrw $13, %k0, %k0
	; AVX512-NEXT: movl %r9d, %eax			; AVX512-NEXT: movl %r9d, %eax
	; AVX512-NEXT: mulb %r10b			; AVX512-NEXT: mulb %r10b
	; AVX512-NEXT: # kill: def $al killed $al def $eax			; AVX512-NEXT: # kill: def $al killed $al def $eax
	; AVX512-NEXT: seto %cl			; AVX512-NEXT: seto %cl
	; AVX512-NEXT: testb $-2, %al			; AVX512-NEXT: testb $-2, %al
	; AVX512-NEXT: setne %bl			; AVX512-NEXT: setne %bl
	; AVX512-NEXT: orb %cl, %bl			; AVX512-NEXT: orb %cl, %bl
	; AVX512-NEXT: kmovd %ebx, %k1			; AVX512-NEXT: setne %cl
				; AVX512-NEXT: kmovd %ecx, %k1
	; AVX512-NEXT: kshiftlw $3, %k1, %k1			; AVX512-NEXT: kshiftlw $3, %k1, %k1
	; AVX512-NEXT: korw %k1, %k0, %k1			; AVX512-NEXT: korw %k1, %k0, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: kmovd %r8d, %k0			; AVX512-NEXT: kmovd %r8d, %k0
	; AVX512-NEXT: kshiftrw $1, %k0, %k1			; AVX512-NEXT: kshiftrw $1, %k0, %k1
	; AVX512-NEXT: kmovd %edx, %k2			; AVX512-NEXT: kmovd %edx, %k2
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kxorw %k2, %k1, %k1
	▲ Show 20 Lines • Show All 488 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_usubo.ll

	Show First 20 Lines • Show All 416 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpminud %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpminud %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vmovq %xmm2, 16(%rdi)			; AVX1-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX1-NEXT: vmovdqa %xmm1, (%rdi)			; AVX1-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: usubo_v6i32:			; AVX2-LABEL: usubo_v6i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vmovq %xmm2, 16(%rdi)			; AVX2-NEXT: vmovq %xmm2, 16(%rdi)
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: usubo_v6i32:			; AVX512-LABEL: usubo_v6i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX512-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpminud %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpminud %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpminud %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackssdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; AVX1-NEXT: vmovaps %ymm1, (%rdi)			; AVX1-NEXT: vmovaps %ymm1, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: usubo_v8i32:			; AVX2-LABEL: usubo_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpminud %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovsxwd %xmm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm1, (%rdi)			; AVX2-NEXT: vmovdqa %ymm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: usubo_v8i32:			; AVX512-LABEL: usubo_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubd %ymm1, %ymm0, %ymm1			; AVX512-NEXT: vpsubd %ymm1, %ymm0, %ymm1
	; AVX512-NEXT: vpcmpnleud %ymm0, %ymm1, %k1			; AVX512-NEXT: vpcmpnleud %ymm0, %ymm1, %k1
	; AVX512-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vpcmpeqd %ymm0, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 854 Lines • Show Last 20 Lines