This is an archive of the discontinued LLVM Phabricator instance.

[SDAG][x86] check for relaxed math when matching an FP reduction
ClosedPublic

Authored by spatel on Aug 14 2019, 11:50 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
xbolva00

Commits

rG57d459309dbb: [SDAG][x86] check for relaxed math when matching an FP reduction
rL368995: [SDAG][x86] check for relaxed math when matching an FP reduction

Summary

If the last step in a reduction allows reassociation and doesn't care about -0.0, then we are free to recognize that computation as a reduction that may reorder the intermediate steps.

This is requested directly by PR42705:
https://bugs.llvm.org/show_bug.cgi?id=42705
and solves PR42947 (if horizontal math instructions are actually faster than the alternative):
https://bugs.llvm.org/show_bug.cgi?id=42947

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Aug 14 2019, 11:50 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 14 2019, 11:50 AM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

lebedev.ri added a subscriber: lebedev.ri.Aug 14 2019, 12:00 PM

lebedev.ri added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp
9051 ↗	(On Diff #215185)	precommit?

craig.topper added inline comments.Aug 14 2019, 12:22 PM

llvm/lib/Target/X86/X86ISelLowering.cpp
35487 ↗	(On Diff #215185)	So was the FP part of this just unusable before now?

spatel marked 2 inline comments as done.Aug 14 2019, 12:32 PM

spatel added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp
9051 ↗	(On Diff #215185)	Yes, will do.
llvm/lib/Target/X86/X86ISelLowering.cpp
35487 ↗	(On Diff #215185)	Yes - afaict, we put in the ability for FP down here, but there's no way that was getting down here without matching the reduction.

Please could you add a couple of partial reduction tests (e.g. 4f32 in 8f32)

RKSimon added inline comments.Aug 14 2019, 12:45 PM

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp
9013 ↗	(On Diff #215185)	Is this satisfactory for all possible float ops (FMUL/FMIN/etc)? Also, shouldn't we be testing this at every stage?

spatel mentioned this in rL368913: [x86] add tests for fadd reduction; NFC.Aug 14 2019, 1:22 PM

spatel mentioned this in rGa8ba919c01df: [x86] add tests for fadd reduction; NFC.

spatel marked 3 inline comments as done.Aug 14 2019, 1:49 PM

spatel added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp
9013 ↗	(On Diff #215185)	Good point. We don't have any FP callers for this besides the FADD that's being added in this patch. FMUL would not need 'nsz', and I'm not sure about FMIN/FMAX: /// FMIN/FMAX nodes can have flags, for NaN/NoNaN variants. VECREDUCE_FMAX, VECREDUCE_FMIN, I think the safe thing for this patch is to handle FADD and assert on the other opcodes until we have an actual caller and know exactly what that behavior should be. For the flags, I'm following the FMF semantics that we use in IR: the final calculation alone determines what relaxations are allowed for any intermediate calcs leading up to that value. I've added a test to confirm that logic.

Patch updated:

Switch flag requirements based on opcode (only FADD handled for now).
Added partial reduction tests (rL368913).
Added negative test for mismatch on fast-math-flags.

LGTM - cheers

This revision is now accepted and ready to land.Aug 15 2019, 2:18 AM

Closed by commit rL368995: [SDAG][x86] check for relaxed math when matching an FP reduction (authored by spatel). · Explain WhyAug 15 2019, 5:42 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

SelectionDAG.cpp

17 lines

Target/

X86/

X86ISelLowering.cpp

4 lines

test/

CodeGen/

X86/

haddsub.ll

28 lines

vector-reduce-fadd-fast.ll

30 lines

Diff 215373

llvm/trunk/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 8,996 Lines • ▼ Show 20 Lines
	SelectionDAG::matchBinOpReduction(SDNode *Extract, ISD::NodeType &BinOp,			SelectionDAG::matchBinOpReduction(SDNode *Extract, ISD::NodeType &BinOp,
	ArrayRef<ISD::NodeType> CandidateBinOps,			ArrayRef<ISD::NodeType> CandidateBinOps,
	bool AllowPartials) {			bool AllowPartials) {
	// The pattern must end in an extract from index 0.			// The pattern must end in an extract from index 0.
	if (Extract->getOpcode() != ISD::EXTRACT_VECTOR_ELT \|\|			if (Extract->getOpcode() != ISD::EXTRACT_VECTOR_ELT \|\|
	!isNullConstant(Extract->getOperand(1)))			!isNullConstant(Extract->getOperand(1)))
	return SDValue();			return SDValue();

	SDValue Op = Extract->getOperand(0);

	// Match against one of the candidate binary ops.			// Match against one of the candidate binary ops.
				SDValue Op = Extract->getOperand(0);
	if (llvm::none_of(CandidateBinOps, [Op](ISD::NodeType BinOp) {			if (llvm::none_of(CandidateBinOps, [Op](ISD::NodeType BinOp) {
	return Op.getOpcode() == unsigned(BinOp);			return Op.getOpcode() == unsigned(BinOp);
	}))			}))
	return SDValue();			return SDValue();

				// Floating-point reductions may require relaxed constraints on the final step
				// of the reduction because they may reorder intermediate operations.
	unsigned CandidateBinOp = Op.getOpcode();			unsigned CandidateBinOp = Op.getOpcode();
				if (Op.getValueType().isFloatingPoint()) {
				SDNodeFlags Flags = Op->getFlags();
				switch (CandidateBinOp) {
				case ISD::FADD:
				if (!Flags.hasNoSignedZeros() \|\| !Flags.hasAllowReassociation())
				return SDValue();
				break;
				default:
				llvm_unreachable("Unhandled FP opcode for binop reduction");
				}
				}

	// Matching failed - attempt to see if we did enough stages that a partial			// Matching failed - attempt to see if we did enough stages that a partial
	// reduction from a subvector is possible.			// reduction from a subvector is possible.
	auto PartialReduction = [&](SDValue Op, unsigned NumSubElts) {			auto PartialReduction = [&](SDValue Op, unsigned NumSubElts) {
	if (!AllowPartials \|\| !Op)			if (!AllowPartials \|\| !Op)
	return SDValue();			return SDValue();
	EVT OpVT = Op.getValueType();			EVT OpVT = Op.getValueType();
	EVT OpSVT = OpVT.getScalarType();			EVT OpSVT = OpVT.getScalarType();
	▲ Show 20 Lines • Show All 589 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 35,389 Lines • ▼ Show 20 Lines
	}			}

	/// Try to convert a vector reduction sequence composed of binops and shuffles			/// Try to convert a vector reduction sequence composed of binops and shuffles
	/// into horizontal ops.			/// into horizontal ops.
	static SDValue combineReductionToHorizontal(SDNode *ExtElt, SelectionDAG &DAG,			static SDValue combineReductionToHorizontal(SDNode *ExtElt, SelectionDAG &DAG,
	const X86Subtarget &Subtarget) {			const X86Subtarget &Subtarget) {
	assert(ExtElt->getOpcode() == ISD::EXTRACT_VECTOR_ELT && "Unexpected caller");			assert(ExtElt->getOpcode() == ISD::EXTRACT_VECTOR_ELT && "Unexpected caller");

	// TODO: Allow FADD with reduction and/or reassociation and no-signed-zeros.
	ISD::NodeType Opc;			ISD::NodeType Opc;
	SDValue Rdx = DAG.matchBinOpReduction(ExtElt, Opc, {ISD::ADD}, true);			SDValue Rdx =
				DAG.matchBinOpReduction(ExtElt, Opc, {ISD::ADD, ISD::FADD}, true);
	if (!Rdx)			if (!Rdx)
	return SDValue();			return SDValue();

	SDValue Index = ExtElt->getOperand(1);			SDValue Index = ExtElt->getOperand(1);
	assert(isNullConstant(Index) &&			assert(isNullConstant(Index) &&
	"Reduction doesn't end in an extract from index 0");			"Reduction doesn't end in an extract from index 0");

	EVT VT = ExtElt->getValueType(0);			EVT VT = ExtElt->getValueType(0);
	▲ Show 20 Lines • Show All 9,437 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/haddsub.ll

	Show First 20 Lines • Show All 1,639 Lines • ▼ Show 20 Lines
	; SSE3-SLOW-NEXT: addps %xmm1, %xmm2			; SSE3-SLOW-NEXT: addps %xmm1, %xmm2
	; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]			; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE3-SLOW-NEXT: addss %xmm2, %xmm1			; SSE3-SLOW-NEXT: addss %xmm2, %xmm1
	; SSE3-SLOW-NEXT: addss %xmm1, %xmm0			; SSE3-SLOW-NEXT: addss %xmm1, %xmm0
	; SSE3-SLOW-NEXT: retq			; SSE3-SLOW-NEXT: retq
	;			;
	; SSE3-FAST-LABEL: fadd_reduce_v8f32:			; SSE3-FAST-LABEL: fadd_reduce_v8f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: addps %xmm2, %xmm1			; SSE3-FAST-NEXT: haddps %xmm1, %xmm2
	; SSE3-FAST-NEXT: movaps %xmm1, %xmm2			; SSE3-FAST-NEXT: haddps %xmm2, %xmm2
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm2
	; SSE3-FAST-NEXT: haddps %xmm2, %xmm2			; SSE3-FAST-NEXT: haddps %xmm2, %xmm2
	; SSE3-FAST-NEXT: addss %xmm2, %xmm0			; SSE3-FAST-NEXT: addss %xmm2, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v8f32:			; AVX-SLOW-LABEL: fadd_reduce_v8f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v8f32:			; AVX-FAST-LABEL: fadd_reduce_v8f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm2, %xmm1
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float %a0, <8 x float> %a1)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %r			ret float %r
	}			}

	define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {			define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {
	; SSE3-SLOW-LABEL: fadd_reduce_v4f64:			; SSE3-SLOW-LABEL: fadd_reduce_v4f64:
	; SSE3-SLOW: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1			; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1
	; SSE3-SLOW-NEXT: movapd %xmm1, %xmm2			; SSE3-SLOW-NEXT: movapd %xmm1, %xmm2
	; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE3-SLOW-NEXT: addsd %xmm1, %xmm2			; SSE3-SLOW-NEXT: addsd %xmm1, %xmm2
	; SSE3-SLOW-NEXT: addsd %xmm2, %xmm0			; SSE3-SLOW-NEXT: addsd %xmm2, %xmm0
	; SSE3-SLOW-NEXT: retq			; SSE3-SLOW-NEXT: retq
	;			;
	; SSE3-FAST-LABEL: fadd_reduce_v4f64:			; SSE3-FAST-LABEL: fadd_reduce_v4f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: addpd %xmm2, %xmm1			; SSE3-FAST-NEXT: haddpd %xmm1, %xmm2
	; SSE3-FAST-NEXT: haddpd %xmm1, %xmm1			; SSE3-FAST-NEXT: haddpd %xmm2, %xmm2
	; SSE3-FAST-NEXT: addsd %xmm1, %xmm0			; SSE3-FAST-NEXT: addsd %xmm2, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v4f64:			; AVX-SLOW-LABEL: fadd_reduce_v4f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v4f64:			; AVX-FAST-LABEL: fadd_reduce_v4f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX-FAST-NEXT: vhaddpd %xmm1, %xmm2, %xmm1
	; AVX-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double %a0, <4 x double> %a1)			%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %r			ret double %r
	}			}

	▲ Show 20 Lines • Show All 291 Lines • ▼ Show 20 Lines
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: partial_reduction_fadd_v8f32:			; AVX-FAST-LABEL: partial_reduction_fadd_v8f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x23 = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x23 = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0213 = fadd <8 x float> %x, %x23			%x0213 = fadd <8 x float> %x, %x23
	%x13 = shufflevector <8 x float> %x0213, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x13 = shufflevector <8 x float> %x0213, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0123 = fadd nsz reassoc <8 x float> %x0213, %x13			%x0123 = fadd nsz reassoc <8 x float> %x0213, %x13
	%r = extractelement <8 x float> %x0123, i32 0			%r = extractelement <8 x float> %x0123, i32 0
	ret float %r			ret float %r
	}			}

				; Negative test - only the flags on the final math op in the
				; sequence determine whether we can transform to horizontal ops.

	define float @partial_reduction_fadd_v8f32_wrong_flags(<8 x float> %x) {			define float @partial_reduction_fadd_v8f32_wrong_flags(<8 x float> %x) {
	; SSE3-SLOW-LABEL: partial_reduction_fadd_v8f32_wrong_flags:			; SSE3-SLOW-LABEL: partial_reduction_fadd_v8f32_wrong_flags:
	; SSE3-SLOW: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE3-SLOW-NEXT: addps %xmm0, %xmm1			; SSE3-SLOW-NEXT: addps %xmm0, %xmm1
	; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE3-SLOW-NEXT: addss %xmm0, %xmm1			; SSE3-SLOW-NEXT: addss %xmm0, %xmm1
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: partial_reduction_fadd_v16f32:			; AVX-FAST-LABEL: partial_reduction_fadd_v16f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%x23 = shufflevector <16 x float> %x, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x23 = shufflevector <16 x float> %x, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0213 = fadd <16 x float> %x, %x23			%x0213 = fadd <16 x float> %x, %x23
	%x13 = shufflevector <16 x float> %x0213, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x13 = shufflevector <16 x float> %x0213, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x0123 = fadd reassoc nsz <16 x float> %x0213, %x13			%x0123 = fadd reassoc nsz <16 x float> %x0213, %x13
	%r = extractelement <16 x float> %x0123, i32 0			%r = extractelement <16 x float> %x0123, i32 0
	ret float %r			ret float %r
	}			}

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show First 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32:			; AVX1-FAST-LABEL: test_v4f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32:			; AVX2-LABEL: test_v4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32:			; AVX1-FAST-LABEL: test_v8f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm2, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32:			; AVX2-LABEL: test_v8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	▲ Show 20 Lines • Show All 175 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32_zero:			; AVX1-FAST-LABEL: test_v4f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32_zero:			; AVX2-LABEL: test_v4f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32_zero:			; AVX1-FAST-LABEL: test_v8f32_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32_zero:			; AVX2-LABEL: test_v8f32_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32_undef:			; AVX1-FAST-LABEL: test_v4f32_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32_undef:			; AVX2-LABEL: test_v4f32_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32_undef:			; AVX1-FAST-LABEL: test_v8f32_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32_undef:			; AVX2-LABEL: test_v8f32_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64:			; AVX1-FAST-LABEL: test_v4f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm2, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64:			; AVX2-LABEL: test_v4f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64_zero:			; AVX1-FAST-LABEL: test_v4f64_zero:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64_zero:			; AVX2-LABEL: test_v4f64_zero:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 190 Lines • ▼ Show 20 Lines
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64_undef:			; AVX1-FAST-LABEL: test_v4f64_undef:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64_undef:			; AVX2-LABEL: test_v4f64_undef:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines