This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
5
LegalizeVectorTypes.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
vec-libcalls.ll
-
X86/
-
vec-libcalls.ll

Differential D50791

[SelectionDAG] unroll unsupported vector FP ops earlier to avoid libcalls on undef elements (PR38527)
ClosedPublic

Authored by spatel on Aug 15 2018, 10:53 AM.

Download Raw Diff

Details

Reviewers

craig.topper
nagisa
efriedma
javed.absar
hfinkel

Commits

rGed1b9695ee28: [SelectionDAG] unroll unsupported vector FP ops earlier to avoid libcalls on…
rL340469: [SelectionDAG] unroll unsupported vector FP ops earlier to avoid libcalls on…

Summary

I haven't dealt with vector legalization, so this might not be the best or even correct approach. But I think this solves the motivating case from:
https://bugs.llvm.org/show_bug.cgi?id=38527

If we are legalizing an FP vector op that maps to 1 of the LLVM intrinsics that mimic libm calls, but we're going to end up with scalar libcalls for that vector type anyway, then we should unroll the vector op into scalars before widening. This avoids libcalls because we've lost the knowledge that some of the scalar elements are undef.

Please have a close look at the test diffs to make sure we didn't drop any necessary ops.

Diff Detail

Event Timeline

spatel created this revision.Aug 15 2018, 10:53 AM

Herald added a reviewer: javed.absar. · View Herald TranscriptAug 15 2018, 10:53 AM

Herald added subscribers: dmgreen, mcrosier. · View Herald Transcript

efriedma added inline comments.Aug 15 2018, 12:22 PM

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp
2445	I think you need to call TLI.getRegisterType() rather than getTypeToTransformTo()? Consider what happens to, for example, `<5 x f32>` on AArch64.

spatel added inline comments.Aug 15 2018, 12:52 PM

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp
2445	I initially didn't step through that test since it showed no diffs, but here's what I see in the debug output for that case: VT = v5f32 WideVecVT = v8f32 (is it expected that we ask to widen to the next pow-of-2 size?) Legalizing node: t12: v5f32 = fsin t11 Analyzing result type: v5f32 Widen node result 0: t12: v5f32 = fsin t11 Creating new node: t36: f32 = fsin t2 Creating new node: t37: f32 = fsin t4 Creating new node: t38: f32 = fsin t6 Creating new node: t39: f32 = fsin t8 Creating new node: t40: f32 = fsin t10 Creating new node: t41: v8f32 = BUILD_VECTOR t36, t37, t38, t39, t40, undef:f32, undef:f32, undef:f32 I copied the getTypeToTransformTo() call from the implementation of WidenVecRes_Unary(), so that's what we use if we fall-through. Should there be a difference in the call based on what we're using that type for (UnrollVectorOp() vs. GetWidenedVector())?

efriedma added inline comments.Aug 15 2018, 12:59 PM

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp
2445	Thinking about it a bit more, you'd probably get the same result if you just didn't try to compute the vector type at all, and just check `TLI.isOperationExpand(N->getOpcode(), VT.getScalarType()`. (If a vector operation is legal, the equivalent scalar operation is generally also legal.)

spatel added inline comments.Aug 15 2018, 1:20 PM

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp
2445	We still have to compute the vector type to pass into UnrollVectorOp though? But you're correct that I don't see any tests diffs if we just ask if the scalar type is set to expand. Let me post the updated patch and see if that looks better.

Make the vector type check an assert instead of an actual condition for the transform (no test diffs).

Thinking forward to a future where we have SVML library support for v4f32 and a v8f32 sin/cos. What should we do for v5f32?

In D50791#1201420, @craig.topper wrote:

Thinking forward to a future where we have SVML library support for v4f32 and a v8f32 sin/cos. What should we do for v5f32?

Not sure. Over in:
https://bugs.llvm.org/show_bug.cgi?id=38528
...we discussed transforming to veclib calls late in IR, so any special lib support would already be taken care of before we reach this point?

Another note about the current patch: I did try sinking the expansion check directly into WidenVecRes_Unary(N), so it would apply to all of the unary opcodes in the switch rather than just the FP libcall opcodes. But that results in a regression in test/CodeGen/X86/bswap-vector.ll because we scalarize something that currently gets turned into a shuffle.

spatel added a reviewer: hfinkel.Aug 15 2018, 3:11 PM

In D50791#1201524, @spatel wrote:

In D50791#1201420, @craig.topper wrote:

Thinking forward to a future where we have SVML library support for v4f32 and a v8f32 sin/cos. What should we do for v5f32?

Not sure. Over in:
https://bugs.llvm.org/show_bug.cgi?id=38528
...we discussed transforming to veclib calls late in IR, so any special lib support would already be taken care of before we reach this point?

True. But it probably also makes sense to handle them in SDAG so that targets can also provide custom lowering.

Another note about the current patch: I did try sinking the expansion check directly into WidenVecRes_Unary(N), so it would apply to all of the unary opcodes in the switch rather than just the FP libcall opcodes. But that results in a regression in test/CodeGen/X86/bswap-vector.ll because we scalarize something that currently gets turned into a shuffle.

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp
2445	Makes sense to me.

Ping.

Are we ok with this as-is, needs refinements, or do we want to answer the custom lib lowering (SVML) questions first?

The changes to tests seem fine to me. I don’t see why this behaviour would be incompatible with a future change to add support for SVML & friends at selection/legalisation time.

LGTM

This revision is now accepted and ready to land.Aug 22 2018, 11:31 AM

Closed by commit rL340469: [SelectionDAG] unroll unsupported vector FP ops earlier to avoid libcalls on… (authored by spatel). · Explain WhyAug 22 2018, 3:52 PM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D51325: [X86] Type legalize v2i32 div/rem by scalarizing rather than promoting.Sep 7 2018, 11:10 AM

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

LegalizeVectorTypes.cpp

31 lines

test/

CodeGen/

AArch64/

vec-libcalls.ll

132 lines

X86/

vec-libcalls.ll

234 lines

Diff 160847

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

Show First 20 Lines • Show All 2,416 Lines • ▼ Show 20 Lines	#endif
case ISD::SIGN_EXTEND:		case ISD::SIGN_EXTEND:
case ISD::SINT_TO_FP:		case ISD::SINT_TO_FP:
case ISD::TRUNCATE:		case ISD::TRUNCATE:
case ISD::UINT_TO_FP:		case ISD::UINT_TO_FP:
case ISD::ZERO_EXTEND:		case ISD::ZERO_EXTEND:
Res = WidenVecRes_Convert(N);		Res = WidenVecRes_Convert(N);
break;		break;

case ISD::BITREVERSE:
case ISD::BSWAP:
case ISD::CTLZ:
case ISD::CTPOP:
case ISD::CTTZ:
case ISD::FABS:		case ISD::FABS:
case ISD::FCEIL:		case ISD::FCEIL:
case ISD::FCOS:		case ISD::FCOS:
case ISD::FEXP:		case ISD::FEXP:
case ISD::FEXP2:		case ISD::FEXP2:
case ISD::FFLOOR:		case ISD::FFLOOR:
case ISD::FLOG:		case ISD::FLOG:
case ISD::FLOG10:		case ISD::FLOG10:
case ISD::FLOG2:		case ISD::FLOG2:
case ISD::FNEARBYINT:		case ISD::FNEARBYINT:
case ISD::FNEG:
case ISD::FRINT:		case ISD::FRINT:
case ISD::FROUND:		case ISD::FROUND:
case ISD::FSIN:		case ISD::FSIN:
case ISD::FSQRT:		case ISD::FSQRT:
case ISD::FTRUNC:		case ISD::FTRUNC: {
		// We're going to widen this vector op to a legal type by padding with undef
		// elements. If the wide vector op is eventually going to be expanded to
		// scalar libcalls, then unroll into scalar ops now to avoid unnecessary
		// libcalls on the undef elements.
		EVT VT = N->getValueType(0);
		EVT WideVecVT = TLI.getTypeToTransformTo(*DAG.getContext(), VT);
		efriedmaUnsubmitted Not Done Reply Inline Actions I think you need to call TLI.getRegisterType() rather than getTypeToTransformTo()? Consider what happens to, for example, `<5 x f32>` on AArch64. efriedma: I think you need to call TLI.getRegisterType() rather than getTypeToTransformTo()? Consider…
		spatelAuthorUnsubmitted Not Done Reply Inline Actions I initially didn't step through that test since it showed no diffs, but here's what I see in the debug output for that case: VT = v5f32 WideVecVT = v8f32 (is it expected that we ask to widen to the next pow-of-2 size?) Legalizing node: t12: v5f32 = fsin t11 Analyzing result type: v5f32 Widen node result 0: t12: v5f32 = fsin t11 Creating new node: t36: f32 = fsin t2 Creating new node: t37: f32 = fsin t4 Creating new node: t38: f32 = fsin t6 Creating new node: t39: f32 = fsin t8 Creating new node: t40: f32 = fsin t10 Creating new node: t41: v8f32 = BUILD_VECTOR t36, t37, t38, t39, t40, undef:f32, undef:f32, undef:f32 I copied the getTypeToTransformTo() call from the implementation of WidenVecRes_Unary(), so that's what we use if we fall-through. Should there be a difference in the call based on what we're using that type for (UnrollVectorOp() vs. GetWidenedVector())? spatel: I initially didn't step through that test since it showed no diffs, but here's what I see in…
		efriedmaUnsubmitted Not Done Reply Inline Actions Thinking about it a bit more, you'd probably get the same result if you just didn't try to compute the vector type at all, and just check `TLI.isOperationExpand(N->getOpcode(), VT.getScalarType()`. (If a vector operation is legal, the equivalent scalar operation is generally also legal.) efriedma: Thinking about it a bit more, you'd probably get the same result if you just didn't try to…
		spatelAuthorUnsubmitted Not Done Reply Inline Actions We still have to compute the vector type to pass into UnrollVectorOp though? But you're correct that I don't see any tests diffs if we just ask if the scalar type is set to expand. Let me post the updated patch and see if that looks better. spatel: We still have to compute the vector type to pass into UnrollVectorOp though? But you're correct…
		hfinkelUnsubmitted Not Done Reply Inline Actions Makes sense to me. hfinkel: Makes sense to me.
		if (TLI.isOperationExpand(N->getOpcode(), WideVecVT) &&
		TLI.isOperationExpand(N->getOpcode(), VT.getScalarType())) {
		Res = DAG.UnrollVectorOp(N, WideVecVT.getVectorNumElements());
		break;
		}
		}
		// If the target has custom/legal support for the vector FP intrinsic ops
		// (they are probably not destined to become libcalls), then widen those like
		// any other ops.
		LLVM_FALLTHROUGH;

		case ISD::BITREVERSE:
		case ISD::BSWAP:
		case ISD::CTLZ:
		case ISD::CTPOP:
		case ISD::CTTZ:
		case ISD::FNEG:
case ISD::FCANONICALIZE:		case ISD::FCANONICALIZE:
Res = WidenVecRes_Unary(N);		Res = WidenVecRes_Unary(N);
break;		break;
case ISD::FMA:		case ISD::FMA:
Res = WidenVecRes_Ternary(N);		Res = WidenVecRes_Ternary(N);
break;		break;
}		}

▲ Show 20 Lines • Show All 1,955 Lines • Show Last 20 Lines

test/CodeGen/AArch64/vec-libcalls.ll

	Show All 29 Lines
	declare <3 x float> @llvm.rint.v3f32(<3 x float>)			declare <3 x float> @llvm.rint.v3f32(<3 x float>)
	declare <3 x float> @llvm.round.v3f32(<3 x float>)			declare <3 x float> @llvm.round.v3f32(<3 x float>)
	declare <3 x float> @llvm.sqrt.v3f32(<3 x float>)			declare <3 x float> @llvm.sqrt.v3f32(<3 x float>)
	declare <3 x float> @llvm.trunc.v3f32(<3 x float>)			declare <3 x float> @llvm.trunc.v3f32(<3 x float>)

	define <1 x float> @sin_v1f32(<1 x float> %x) nounwind {			define <1 x float> @sin_v1f32(<1 x float> %x) nounwind {
	; CHECK-LABEL: sin_v1f32:			; CHECK-LABEL: sin_v1f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: sub sp, sp, #48 // =48			; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0			; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[1]
	; CHECK-NEXT: str x30, [sp, #32] // 8-byte Folded Spill
	; CHECK-NEXT: bl sinf
	; CHECK-NEXT: str d0, [sp, #16] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: ldr q1, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: // kill: def $s0 killed $s0 def $d0
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: // kill: def $d0 killed $d0 killed $q0
	; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <1 x float> @llvm.sin.v1f32(<1 x float> %x)			%r = call <1 x float> @llvm.sin.v1f32(<1 x float> %x)
	ret <1 x float> %r			ret <1 x float> %r
	}			}

	define <2 x float> @sin_v2f32(<2 x float> %x) nounwind {			define <2 x float> @sin_v2f32(<2 x float> %x) nounwind {
	; CHECK-LABEL: sin_v2f32:			; CHECK-LABEL: sin_v2f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	Show All 33 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl sinf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.sin.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.sin.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <4 x float> @sin_v4f32(<4 x float> %x) nounwind {			define <4 x float> @sin_v4f32(<4 x float> %x) nounwind {
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <5 x float> @llvm.sin.v5f32(<5 x float> %x)			%r = call <5 x float> @llvm.sin.v5f32(<5 x float> %x)
	ret <5 x float> %r			ret <5 x float> %r
	}			}

	define <6 x float> @sin_v6f32(<6 x float> %x) nounwind {			define <6 x float> @sin_v6f32(<6 x float> %x) nounwind {
	; CHECK-LABEL: sin_v6f32:			; CHECK-LABEL: sin_v6f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: sub sp, sp, #80 // =80			; CHECK-NEXT: stp d13, d12, [sp, #-64]! // 8-byte Folded Spill
	; CHECK-NEXT: str d12, [sp, #32] // 8-byte Folded Spill			; CHECK-NEXT: stp d11, d10, [sp, #16] // 8-byte Folded Spill
	; CHECK-NEXT: mov v12.16b, v0.16b			; CHECK-NEXT: stp d9, d8, [sp, #32] // 8-byte Folded Spill
	; CHECK-NEXT: mov v0.16b, v5.16b			; CHECK-NEXT: str x30, [sp, #48] // 8-byte Folded Spill
	; CHECK-NEXT: stp d11, d10, [sp, #40] // 8-byte Folded Spill			; CHECK-NEXT: mov v8.16b, v5.16b
	; CHECK-NEXT: stp d9, d8, [sp, #56] // 8-byte Folded Spill			; CHECK-NEXT: mov v9.16b, v4.16b
	; CHECK-NEXT: str x30, [sp, #72] // 8-byte Folded Spill			; CHECK-NEXT: mov v10.16b, v3.16b
	; CHECK-NEXT: mov v8.16b, v4.16b			; CHECK-NEXT: mov v11.16b, v2.16b
	; CHECK-NEXT: mov v9.16b, v3.16b			; CHECK-NEXT: mov v12.16b, v1.16b
	; CHECK-NEXT: mov v10.16b, v2.16b
	; CHECK-NEXT: mov v11.16b, v1.16b
	; CHECK-NEXT: bl sinf
	; CHECK-NEXT: str d0, [sp, #16] // 16-byte Folded Spill
	; CHECK-NEXT: mov v0.16b, v8.16b
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: mov v1.16b, v0.16b			; CHECK-NEXT: mov v13.16b, v0.16b
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov v1.s[1], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v12.16b			; CHECK-NEXT: mov v0.16b, v12.16b
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: mov v8.16b, v0.16b			; CHECK-NEXT: mov v12.16b, v0.16b
	; CHECK-NEXT: mov v0.16b, v11.16b			; CHECK-NEXT: mov v0.16b, v11.16b
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: mov v11.16b, v0.16b			; CHECK-NEXT: mov v11.16b, v0.16b
	; CHECK-NEXT: mov v0.16b, v10.16b			; CHECK-NEXT: mov v0.16b, v10.16b
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: mov v10.16b, v0.16b			; CHECK-NEXT: mov v10.16b, v0.16b
	; CHECK-NEXT: mov v0.16b, v9.16b			; CHECK-NEXT: mov v0.16b, v9.16b
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: ldp q4, q5, [sp] // 16-byte Folded Reload			; CHECK-NEXT: mov v9.16b, v0.16b
	; CHECK-NEXT: mov v3.16b, v0.16b
	; CHECK-NEXT: mov v0.16b, v8.16b			; CHECK-NEXT: mov v0.16b, v8.16b
	; CHECK-NEXT: mov v1.16b, v11.16b			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: mov v2.16b, v10.16b			; CHECK-NEXT: mov v2.16b, v11.16b
	; CHECK-NEXT: ldr x30, [sp, #72] // 8-byte Folded Reload			; CHECK-NEXT: mov v3.16b, v10.16b
	; CHECK-NEXT: ldp d9, d8, [sp, #56] // 8-byte Folded Reload			; CHECK-NEXT: mov v4.16b, v9.16b
	; CHECK-NEXT: ldp d11, d10, [sp, #40] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #48] // 8-byte Folded Reload
	; CHECK-NEXT: ldr d12, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldp d9, d8, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s4 killed $s4 killed $q4			; CHECK-NEXT: ldp d11, d10, [sp, #16] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s5 killed $s5 killed $q5			; CHECK-NEXT: mov v5.16b, v0.16b
	; CHECK-NEXT: add sp, sp, #80 // =80			; CHECK-NEXT: mov v0.16b, v13.16b
				; CHECK-NEXT: mov v1.16b, v12.16b
				; CHECK-NEXT: ldp d13, d12, [sp], #64 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <6 x float> @llvm.sin.v6f32(<6 x float> %x)			%r = call <6 x float> @llvm.sin.v6f32(<6 x float> %x)
	ret <6 x float> %r			ret <6 x float> %r
	}			}

	define <3 x double> @sin_v3f64(<3 x double> %x) nounwind {			define <3 x double> @sin_v3f64(<3 x double> %x) nounwind {
	; CHECK-LABEL: sin_v3f64:			; CHECK-LABEL: sin_v3f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl cosf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.cos.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.cos.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @exp_v3f32(<3 x float> %x) nounwind {			define <3 x float> @exp_v3f32(<3 x float> %x) nounwind {
	Show All 11 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl expf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.exp.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.exp.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @exp2_v3f32(<3 x float> %x) nounwind {			define <3 x float> @exp2_v3f32(<3 x float> %x) nounwind {
	Show All 11 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.exp2.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.exp2.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @floor_v3f32(<3 x float> %x) nounwind {			define <3 x float> @floor_v3f32(<3 x float> %x) nounwind {
	Show All 20 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl logf
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.log.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.log.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @log10_v3f32(<3 x float> %x) nounwind {			define <3 x float> @log10_v3f32(<3 x float> %x) nounwind {
	Show All 11 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl log10f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.log10.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.log10.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @log2_v3f32(<3 x float> %x) nounwind {			define <3 x float> @log2_v3f32(<3 x float> %x) nounwind {
	Show All 11 Lines
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v0.s[1], v1.s[0]			; CHECK-NEXT: mov v0.s[1], v1.s[0]
	; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill			; CHECK-NEXT: str q0, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload			; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: mov s0, v0.s[2]			; CHECK-NEXT: mov s0, v0.s[2]
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload			; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: str q1, [sp] // 16-byte Folded Spill
	; CHECK-NEXT: mov s0, v0.s[3]
	; CHECK-NEXT: bl log2f
	; CHECK-NEXT: ldr q1, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 def $q0
	; CHECK-NEXT: mov v1.s[3], v0.s[0]			; CHECK-NEXT: mov v1.s[2], v0.s[0]
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: add sp, sp, #48 // =48			; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call <3 x float> @llvm.log2.v3f32(<3 x float> %x)			%r = call <3 x float> @llvm.log2.v3f32(<3 x float> %x)
	ret <3 x float> %r			ret <3 x float> %r
	}			}

	define <3 x float> @nearbyint__v3f32(<3 x float> %x) nounwind {			define <3 x float> @nearbyint__v3f32(<3 x float> %x) nounwind {
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

test/CodeGen/X86/vec-libcalls.ll

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%r = call <1 x float> @llvm.sin.v1f32(<1 x float> %x)		%r = call <1 x float> @llvm.sin.v1f32(<1 x float> %x)
ret <1 x float> %r		ret <1 x float> %r
}		}

define <2 x float> @sin_v2f32(<2 x float> %x) nounwind {		define <2 x float> @sin_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: sin_v2f32:		; CHECK-LABEL: sin_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq sinf
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.sin.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.sin.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <3 x float> @sin_v3f32(<3 x float> %x) nounwind {		define <3 x float> @sin_v3f32(<3 x float> %x) nounwind {
; CHECK-LABEL: sin_v3f32:		; CHECK-LABEL: sin_v3f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]		; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <3 x float> @llvm.sin.v3f32(<3 x float> %x)		%r = call <3 x float> @llvm.sin.v3f32(<3 x float> %x)
ret <3 x float> %r		ret <3 x float> %r
}		}

define <4 x float> @sin_v4f32(<4 x float> %x) nounwind {		define <4 x float> @sin_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: sin_v4f32:		; CHECK-LABEL: sin_v4f32:
Show All 25 Lines	; CHECK-NEXT: retq
ret <4 x float> %r		ret <4 x float> %r
}		}

define <5 x float> @sin_v5f32(<5 x float> %x) nounwind {		define <5 x float> @sin_v5f32(<5 x float> %x) nounwind {
; CHECK-LABEL: sin_v5f32:		; CHECK-LABEL: sin_v5f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $88, %rsp		; CHECK-NEXT: subq $88, %rsp
; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill		; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0		; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]		; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]		; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: vmovups %ymm0, (%rsp) # 32-byte Spill
; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload		; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovups (%rsp), %ymm1 # 32-byte Reload
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: vinsertf128 $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 16-byte Folded Reload
; CHECK-NEXT: addq $88, %rsp		; CHECK-NEXT: addq $88, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <5 x float> @llvm.sin.v5f32(<5 x float> %x)		%r = call <5 x float> @llvm.sin.v5f32(<5 x float> %x)
ret <5 x float> %r		ret <5 x float> %r
}		}

define <6 x float> @sin_v6f32(<6 x float> %x) nounwind {		define <6 x float> @sin_v6f32(<6 x float> %x) nounwind {
; CHECK-LABEL: sin_v6f32:		; CHECK-LABEL: sin_v6f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $88, %rsp		; CHECK-NEXT: subq $88, %rsp
; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill		; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload		; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sinf		; CHECK-NEXT: callq sinf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
Show All 19 Lines	; CHECK-NEXT: retq
ret <6 x float> %r		ret <6 x float> %r
}		}

define <3 x double> @sin_v3f64(<3 x double> %x) nounwind {		define <3 x double> @sin_v3f64(<3 x double> %x) nounwind {
; CHECK-LABEL: sin_v3f64:		; CHECK-LABEL: sin_v3f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $88, %rsp		; CHECK-NEXT: subq $88, %rsp
; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill		; CHECK-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sin
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sin
; CHECK-NEXT: vmovapd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; CHECK-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: callq sin		; CHECK-NEXT: callq sin
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]		; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq sin		; CHECK-NEXT: callq sin
; CHECK-NEXT: vmovapd (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovapd (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; CHECK-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; CHECK-NEXT: vinsertf128 $1, {{[-0-9]+}}(%r{{[sb]}}p), %ymm0, %ymm0 # 16-byte Folded Reload		; CHECK-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
		; CHECK-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
		; CHECK-NEXT: vzeroupper
		; CHECK-NEXT: callq sin
		; CHECK-NEXT: vmovups (%rsp), %ymm1 # 32-byte Reload
		; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: addq $88, %rsp		; CHECK-NEXT: addq $88, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <3 x double> @llvm.sin.v3f64(<3 x double> %x)		%r = call <3 x double> @llvm.sin.v3f64(<3 x double> %x)
ret <3 x double> %r		ret <3 x double> %r
}		}

define <2 x float> @fabs_v2f32(<2 x float> %x) nounwind {		define <2 x float> @fabs_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: fabs_v2f32:		; CHECK-LABEL: fabs_v2f32:
Show All 12 Lines	; CHECK-NEXT: retq
%r = call <2 x float> @llvm.ceil.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.ceil.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @cos_v2f32(<2 x float> %x) nounwind {		define <2 x float> @cos_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: cos_v2f32:		; CHECK-LABEL: cos_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq cosf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq cosf
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq cosf		; CHECK-NEXT: callq cosf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq cosf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq cosf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.cos.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.cos.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @exp_v2f32(<2 x float> %x) nounwind {		define <2 x float> @exp_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: exp_v2f32:		; CHECK-LABEL: exp_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq expf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq expf
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq expf		; CHECK-NEXT: callq expf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq expf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq expf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.exp.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.exp.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @exp2_v2f32(<2 x float> %x) nounwind {		define <2 x float> @exp2_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: exp2_v2f32:		; CHECK-LABEL: exp2_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq exp2f
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq exp2f
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq exp2f		; CHECK-NEXT: callq exp2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq exp2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq exp2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.exp2.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.exp2.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @floor_v2f32(<2 x float> %x) nounwind {		define <2 x float> @floor_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: floor_v2f32:		; CHECK-LABEL: floor_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $9, %xmm0, %xmm0		; CHECK-NEXT: vroundps $9, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.floor.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.floor.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @log_v2f32(<2 x float> %x) nounwind {		define <2 x float> @log_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: log_v2f32:		; CHECK-LABEL: log_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq logf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq logf
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq logf		; CHECK-NEXT: callq logf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq logf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq logf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.log.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.log.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @log10_v2f32(<2 x float> %x) nounwind {		define <2 x float> @log10_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: log10_v2f32:		; CHECK-LABEL: log10_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq log10f
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq log10f
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq log10f		; CHECK-NEXT: callq log10f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq log10f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq log10f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.log10.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.log10.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @log2_v2f32(<2 x float> %x) nounwind {		define <2 x float> @log2_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: log2_v2f32:		; CHECK-LABEL: log2_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq log2f
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq log2f
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq log2f		; CHECK-NEXT: callq log2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq log2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq log2f
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.log2.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.log2.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @nearbyint__v2f32(<2 x float> %x) nounwind {		define <2 x float> @nearbyint__v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: nearbyint__v2f32:		; CHECK-LABEL: nearbyint__v2f32:
Show All 12 Lines	; CHECK-NEXT: retq
%r = call <2 x float> @llvm.rint.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.rint.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @round_v2f32(<2 x float> %x) nounwind {		define <2 x float> @round_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: round_v2f32:		; CHECK-LABEL: round_v2f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: subq $40, %rsp		; CHECK-NEXT: subq $40, %rsp
; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq roundf
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vmovshdup {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: callq roundf
		; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: vmovshdup (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,1,3,3]		; CHECK-NEXT: # xmm0 = mem[1,1,3,3]
; CHECK-NEXT: callq roundf		; CHECK-NEXT: callq roundf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload		; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]		; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[2,3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[1,0]
; CHECK-NEXT: callq roundf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1],xmm0[0],xmm1[3]
; CHECK-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: vpermilps $231, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = mem[3,1,2,3]
; CHECK-NEXT: callq roundf
; CHECK-NEXT: vmovaps (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; CHECK-NEXT: addq $40, %rsp		; CHECK-NEXT: addq $40, %rsp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%r = call <2 x float> @llvm.round.v2f32(<2 x float> %x)		%r = call <2 x float> @llvm.round.v2f32(<2 x float> %x)
ret <2 x float> %r		ret <2 x float> %r
}		}

define <2 x float> @sqrt_v2f32(<2 x float> %x) nounwind {		define <2 x float> @sqrt_v2f32(<2 x float> %x) nounwind {
; CHECK-LABEL: sqrt_v2f32:		; CHECK-LABEL: sqrt_v2f32:
Show All 16 Lines