This is an archive of the discontinued LLVM Phabricator instance.

[x86] translate SSE packed FP comparison builtins to IR
ClosedPublic

Authored by spatel on Jun 12 2016, 11:38 AM.

Download Raw Diff

Details

Reviewers

RKSimon
ab
craig.topper

Commits

rG280cfd1a6904: [x86] translate SSE packed FP comparison builtins to IR
rC272840: [x86] translate SSE packed FP comparison builtins to IR
rL272840: [x86] translate SSE packed FP comparison builtins to IR

Summary

As noted in the code comment, a potential follow-on would be to remove the builtins themselves. Other than ord/unord, this already works as expected. Eg:

typedef float v4sf __attribute__((__vector_size__(16)));
v4sf fcmpgt(v4sf a, v4sf b) { return a > b; }

I'll link a patch for the corresponding LLVM codegen tests next. A follow-on for that side would be to auto-upgrade and remove the LLVM intrinsics.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel updated this revision to Diff 60473.Jun 12 2016, 11:38 AM

spatel retitled this revision from to [x86] translate SSE packed FP comparison builtins to IR.

spatel updated this object.

spatel added reviewers: craig.topper, RKSimon, ab.

spatel added a subscriber: cfe-commits.

Herald added a subscriber: mcrosier. · View Herald TranscriptJun 12 2016, 11:38 AM

spatel mentioned this in D21269: [x86, SSE] update packed FP compare tests for direct translation from builtin to IR.Jun 12 2016, 11:42 AM

spatel added a child revision: D21269: [x86, SSE] update packed FP compare tests for direct translation from builtin to IR.

Is there any reason that we shouldn't include the avxintrin.h builtin_ia32_cmppd/builtin_ia32_cmpps/__builtin_ia32_cmppd256/__builtin_ia32_cmpps256 packed intrinsics in this CGBuiltin.cpp patch? Since we're heading towards nixing them anyhow.

In D21268#455668, @RKSimon wrote:

Is there any reason that we shouldn't include the avxintrin.h builtin_ia32_cmppd/builtin_ia32_cmpps/__builtin_ia32_cmppd256/__builtin_ia32_cmpps256 packed intrinsics in this CGBuiltin.cpp patch? Since we're heading towards nixing them anyhow.

AVX is complicated by the enhancement to 32 compare ops (for Intel AVX). Note that avxintrin.h currently has conflicting comments about the immediate value meanings:

/* Compare */
#define _CMP_EQ_OQ 0x00 /* Equal (ordered, non-signaling) */
#define _CMP_LT_OS 0x01 /* Less-than (ordered, signaling) */
#define _CMP_LE_OS 0x02 /* Less-than-or-equal (ordered, signaling) */
#define _CMP_UNORD_Q 0x03 /* Unordered (non-signaling) */
#define _CMP_NEQ_UQ 0x04 /* Not-equal (unordered, non-signaling) */
#define _CMP_NLT_US 0x05 /* Not-less-than (unordered, signaling) */
#define _CMP_NLE_US 0x06 /* Not-less-than-or-equal (unordered, signaling) */
#define _CMP_ORD_Q 0x07 /* Ordered (nonsignaling) */
#define _CMP_EQ_UQ 0x08 /* Equal (unordered, non-signaling) */
#define _CMP_NGE_US 0x09 /* Not-greater-than-or-equal (unord, signaling) */
#define _CMP_NGT_US 0x0a /* Not-greater-than (unordered, signaling) */
#define _CMP_FALSE_OQ 0x0b /* False (ordered, non-signaling) */
#define _CMP_NEQ_OQ 0x0c /* Not-equal (ordered, non-signaling) */
#define _CMP_GE_OS 0x0d /* Greater-than-or-equal (ordered, signaling) */
#define _CMP_GT_OS 0x0e /* Greater-than (ordered, signaling) */
#define _CMP_TRUE_UQ 0x0f /* True (unordered, non-signaling) */
#define _CMP_EQ_OS 0x10 /* Equal (ordered, signaling) */
#define _CMP_LT_OQ 0x11 /* Less-than (ordered, non-signaling) */
#define _CMP_LE_OQ 0x12 /* Less-than-or-equal (ordered, non-signaling) */
#define _CMP_UNORD_S 0x13 /* Unordered (signaling) */
#define _CMP_NEQ_US 0x14 /* Not-equal (unordered, signaling) */
#define _CMP_NLT_UQ 0x15 /* Not-less-than (unordered, non-signaling) */
#define _CMP_NLE_UQ 0x16 /* Not-less-than-or-equal (unord, non-signaling) */
#define _CMP_ORD_S 0x17 /* Ordered (signaling) */
#define _CMP_EQ_US 0x18 /* Equal (unordered, signaling) */
#define _CMP_NGE_UQ 0x19 /* Not-greater-than-or-equal (unord, non-sign) */
#define _CMP_NGT_UQ 0x1a /* Not-greater-than (unordered, non-signaling) */
#define _CMP_FALSE_OS 0x1b /* False (ordered, signaling) */
#define _CMP_NEQ_OS 0x1c /* Not-equal (ordered, signaling) */
#define _CMP_GE_OQ 0x1d /* Greater-than-or-equal (ordered, non-signaling) */
#define _CMP_GT_OQ 0x1e /* Greater-than (ordered, non-signaling) */
#define _CMP_TRUE_US 0x1f /* True (unordered, signaling) */

/ \brief Compares each of the corresponding double-precision values of two
/ 128-bit vectors of [2 x double], using the operation specified by the
/ immediate integer operand. Returns a [2 x double] vector consisting of
/ two doubles corresponding to the two comparison results: zero if the
/ comparison is false, and all 1's if the comparison is true.
/
/ \headerfile <x86intrin.h>
/
/ \code
/ m128d _mm_cmp_pd(m128d a, __m128d b, const int c);
/ \endcode
/
/ This intrinsic corresponds to the \c VCMPPD / CMPPD instruction.
/
/ \param a
/ A 128-bit vector of [2 x double].
/ \param b
/ A 128-bit vector of [2 x double].
/ \param c
/ An immediate integer operand, with bits [4:0] specifying which comparison
/ operation to use:
/ 00h, 08h, 10h, 18h: Equal
/ 01h, 09h, 11h, 19h: Less than
/ 02h, 0Ah, 12h, 1Ah: Less than or equal / Greater than or equal (swapped
/ operands)
/ 03h, 0Bh, 13h, 1Bh: Unordered
/ 04h, 0Ch, 14h, 1Ch: Not equal
/ 05h, 0Dh, 15h, 1Dh: Not less than / Not greater than (swapped operands)
/ 06h, 0Eh, 16h, 1Eh: Not less than or equal / Not greater than or equal
/ (swapped operands)
/ 07h, 0Fh, 17h, 1Fh: Ordered
/ \returns A 128-bit vector of [2 x double] containing the comparison results.

Eeep that's certainly a lot more work than just adding a few extra cases! Please add a TODO explaining what we need to do?

If there is a problem with the header documentation please can you raise a bugzilla and CC Katya Romanova.

In D21268#455679, @RKSimon wrote:

Eeep that's certainly a lot more work than just adding a few extra cases! Please add a TODO explaining what we need to do?

I don't know what the answer is yet...looks like this is going to require (a lot of) testing to sort out.

If there is a problem with the header documentation please can you raise a bugzilla and CC Katya Romanova.

Filed PR28110:
https://llvm.org/bugs/show_bug.cgi?id=28110

The initial test says that AMD's documentation is wrong: cmpps with immediate '8' produces a different answer than immediate '0' running on Jaguar.

LGTM

This revision is now accepted and ready to land.Jun 13 2016, 2:45 PM

Closed by commit rL272840: [x86] translate SSE packed FP comparison builtins to IR (authored by spatel). · Explain WhyJun 15 2016, 2:27 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

cfe/

trunk/

lib/

CodeGen/

CGBuiltin.cpp

198 lines

test/

CodeGen/

avx2-builtins.c

20 lines

sse-builtins.c

60 lines

sse2-builtins.c

60 lines

Diff 60905

cfe/trunk/lib/CodeGen/CGBuiltin.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,413 Lines • ▼ Show 20 Lines	for (unsigned i = 0, e = E->getNumArgs(); i != e; i++) {
// If this is required to be a constant, constant fold it so that we know		// If this is required to be a constant, constant fold it so that we know
// that the generated intrinsic gets a ConstantInt.		// that the generated intrinsic gets a ConstantInt.
llvm::APSInt Result;		llvm::APSInt Result;
bool IsConst = E->getArg(i)->isIntegerConstantExpr(Result, getContext());		bool IsConst = E->getArg(i)->isIntegerConstantExpr(Result, getContext());
assert(IsConst && "Constant arg isn't actually constant?"); (void)IsConst;		assert(IsConst && "Constant arg isn't actually constant?"); (void)IsConst;
Ops.push_back(llvm::ConstantInt::get(getLLVMContext(), Result));		Ops.push_back(llvm::ConstantInt::get(getLLVMContext(), Result));
}		}

		// These exist so that the builtin that takes an immediate can be bounds
		// checked by clang to avoid passing bad immediates to the backend. Since
		// AVX has a larger immediate than SSE we would need separate builtins to
		// do the different bounds checking. Rather than create a clang specific
		// SSE only builtin, this implements eight separate builtins to match gcc
		// implementation.
		auto getCmpIntrinsicCall = [this, &Ops](Intrinsic::ID ID, unsigned Imm) {
		Ops.push_back(llvm::ConstantInt::get(Int8Ty, Imm));
		llvm::Function *F = CGM.getIntrinsic(ID);
		return Builder.CreateCall(F, Ops);
		};

		// For the vector forms of FP comparisons, translate the builtins directly to
		// IR.
		// TODO: The builtins could be removed if the SSE header files used vector
		// extension comparisons directly (vector ordered/unordered may need
		// additional support via __builtin_isnan()).
		llvm::VectorType *V2F64 =
		llvm::VectorType::get(llvm::Type::getDoubleTy(getLLVMContext()), 2);
		llvm::VectorType *V4F32 =
		llvm::VectorType::get(llvm::Type::getFloatTy(getLLVMContext()), 4);

		auto getVectorFCmpIR = [this, &Ops](CmpInst::Predicate Pred,
		llvm::VectorType *FPVecTy) {
		Value *Cmp = Builder.CreateFCmp(Pred, Ops[0], Ops[1]);
		llvm::VectorType *IntVecTy = llvm::VectorType::getInteger(FPVecTy);
		Value *Sext = Builder.CreateSExt(Cmp, IntVecTy);
		return Builder.CreateBitCast(Sext, FPVecTy);
		};

switch (BuiltinID) {		switch (BuiltinID) {
default: return nullptr;		default: return nullptr;
case X86::BI__builtin_cpu_supports: {		case X86::BI__builtin_cpu_supports: {
const Expr *FeatureExpr = E->getArg(0)->IgnoreParenCasts();		const Expr *FeatureExpr = E->getArg(0)->IgnoreParenCasts();
StringRef FeatureStr = cast<StringLiteral>(FeatureExpr)->getString();		StringRef FeatureStr = cast<StringLiteral>(FeatureExpr)->getString();

// TODO: When/if this becomes more than x86 specific then use a TargetInfo		// TODO: When/if this becomes more than x86 specific then use a TargetInfo
// based mapping.		// based mapping.
▲ Show 20 Lines • Show All 422 Lines • ▼ Show 20 Lines	case X86::BI__builtin_ia32_rdseed64_step:
break;		break;
}		}

Value *Call = Builder.CreateCall(CGM.getIntrinsic(ID));		Value *Call = Builder.CreateCall(CGM.getIntrinsic(ID));
Builder.CreateDefaultAlignedStore(Builder.CreateExtractValue(Call, 0),		Builder.CreateDefaultAlignedStore(Builder.CreateExtractValue(Call, 0),
Ops[0]);		Ops[0]);
return Builder.CreateExtractValue(Call, 1);		return Builder.CreateExtractValue(Call, 1);
}		}
// SSE comparison intrisics
		// SSE packed comparison intrinsics
case X86::BI__builtin_ia32_cmpeqps:		case X86::BI__builtin_ia32_cmpeqps:
		return getVectorFCmpIR(CmpInst::FCMP_OEQ, V4F32);
case X86::BI__builtin_ia32_cmpltps:		case X86::BI__builtin_ia32_cmpltps:
		return getVectorFCmpIR(CmpInst::FCMP_OLT, V4F32);
case X86::BI__builtin_ia32_cmpleps:		case X86::BI__builtin_ia32_cmpleps:
		return getVectorFCmpIR(CmpInst::FCMP_OLE, V4F32);
case X86::BI__builtin_ia32_cmpunordps:		case X86::BI__builtin_ia32_cmpunordps:
		return getVectorFCmpIR(CmpInst::FCMP_UNO, V4F32);
case X86::BI__builtin_ia32_cmpneqps:		case X86::BI__builtin_ia32_cmpneqps:
		return getVectorFCmpIR(CmpInst::FCMP_UNE, V4F32);
case X86::BI__builtin_ia32_cmpnltps:		case X86::BI__builtin_ia32_cmpnltps:
		return getVectorFCmpIR(CmpInst::FCMP_UGE, V4F32);
case X86::BI__builtin_ia32_cmpnleps:		case X86::BI__builtin_ia32_cmpnleps:
		return getVectorFCmpIR(CmpInst::FCMP_UGT, V4F32);
case X86::BI__builtin_ia32_cmpordps:		case X86::BI__builtin_ia32_cmpordps:
case X86::BI__builtin_ia32_cmpeqss:		return getVectorFCmpIR(CmpInst::FCMP_ORD, V4F32);
case X86::BI__builtin_ia32_cmpltss:
case X86::BI__builtin_ia32_cmpless:
case X86::BI__builtin_ia32_cmpunordss:
case X86::BI__builtin_ia32_cmpneqss:
case X86::BI__builtin_ia32_cmpnltss:
case X86::BI__builtin_ia32_cmpnless:
case X86::BI__builtin_ia32_cmpordss:
case X86::BI__builtin_ia32_cmpeqpd:		case X86::BI__builtin_ia32_cmpeqpd:
		return getVectorFCmpIR(CmpInst::FCMP_OEQ, V2F64);
case X86::BI__builtin_ia32_cmpltpd:		case X86::BI__builtin_ia32_cmpltpd:
		return getVectorFCmpIR(CmpInst::FCMP_OLT, V2F64);
case X86::BI__builtin_ia32_cmplepd:		case X86::BI__builtin_ia32_cmplepd:
		return getVectorFCmpIR(CmpInst::FCMP_OLE, V2F64);
case X86::BI__builtin_ia32_cmpunordpd:		case X86::BI__builtin_ia32_cmpunordpd:
		return getVectorFCmpIR(CmpInst::FCMP_UNO, V2F64);
case X86::BI__builtin_ia32_cmpneqpd:		case X86::BI__builtin_ia32_cmpneqpd:
		return getVectorFCmpIR(CmpInst::FCMP_UNE, V2F64);
case X86::BI__builtin_ia32_cmpnltpd:		case X86::BI__builtin_ia32_cmpnltpd:
		return getVectorFCmpIR(CmpInst::FCMP_UGE, V2F64);
case X86::BI__builtin_ia32_cmpnlepd:		case X86::BI__builtin_ia32_cmpnlepd:
		return getVectorFCmpIR(CmpInst::FCMP_UGT, V2F64);
case X86::BI__builtin_ia32_cmpordpd:		case X86::BI__builtin_ia32_cmpordpd:
case X86::BI__builtin_ia32_cmpeqsd:		return getVectorFCmpIR(CmpInst::FCMP_ORD, V2F64);
case X86::BI__builtin_ia32_cmpltsd:
case X86::BI__builtin_ia32_cmplesd:
case X86::BI__builtin_ia32_cmpunordsd:
case X86::BI__builtin_ia32_cmpneqsd:
case X86::BI__builtin_ia32_cmpnltsd:
case X86::BI__builtin_ia32_cmpnlesd:
case X86::BI__builtin_ia32_cmpordsd:
// These exist so that the builtin that takes an immediate can be bounds
// checked by clang to avoid passing bad immediates to the backend. Since
// AVX has a larger immediate than SSE we would need separate builtins to
// do the different bounds checking. Rather than create a clang specific
// SSE only builtin, this implements eight separate builtins to match gcc
// implementation.

// Choose the immediate.		// SSE scalar comparison intrinsics
unsigned Imm;
switch (BuiltinID) {
default: llvm_unreachable("Unsupported intrinsic!");
case X86::BI__builtin_ia32_cmpeqps:
case X86::BI__builtin_ia32_cmpeqss:		case X86::BI__builtin_ia32_cmpeqss:
case X86::BI__builtin_ia32_cmpeqpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 0);
case X86::BI__builtin_ia32_cmpeqsd:
Imm = 0;
break;
case X86::BI__builtin_ia32_cmpltps:
case X86::BI__builtin_ia32_cmpltss:		case X86::BI__builtin_ia32_cmpltss:
case X86::BI__builtin_ia32_cmpltpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 1);
case X86::BI__builtin_ia32_cmpltsd:
Imm = 1;
break;
case X86::BI__builtin_ia32_cmpleps:
case X86::BI__builtin_ia32_cmpless:		case X86::BI__builtin_ia32_cmpless:
case X86::BI__builtin_ia32_cmplepd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 2);
case X86::BI__builtin_ia32_cmplesd:
Imm = 2;
break;
case X86::BI__builtin_ia32_cmpunordps:
case X86::BI__builtin_ia32_cmpunordss:		case X86::BI__builtin_ia32_cmpunordss:
case X86::BI__builtin_ia32_cmpunordpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 3);
case X86::BI__builtin_ia32_cmpunordsd:
Imm = 3;
break;
case X86::BI__builtin_ia32_cmpneqps:
case X86::BI__builtin_ia32_cmpneqss:		case X86::BI__builtin_ia32_cmpneqss:
case X86::BI__builtin_ia32_cmpneqpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 4);
case X86::BI__builtin_ia32_cmpneqsd:
Imm = 4;
break;
case X86::BI__builtin_ia32_cmpnltps:
case X86::BI__builtin_ia32_cmpnltss:		case X86::BI__builtin_ia32_cmpnltss:
case X86::BI__builtin_ia32_cmpnltpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 5);
case X86::BI__builtin_ia32_cmpnltsd:
Imm = 5;
break;
case X86::BI__builtin_ia32_cmpnleps:
case X86::BI__builtin_ia32_cmpnless:		case X86::BI__builtin_ia32_cmpnless:
case X86::BI__builtin_ia32_cmpnlepd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 6);
case X86::BI__builtin_ia32_cmpnlesd:
Imm = 6;
break;
case X86::BI__builtin_ia32_cmpordps:
case X86::BI__builtin_ia32_cmpordss:		case X86::BI__builtin_ia32_cmpordss:
case X86::BI__builtin_ia32_cmpordpd:		return getCmpIntrinsicCall(Intrinsic::x86_sse_cmp_ss, 7);
case X86::BI__builtin_ia32_cmpordsd:
Imm = 7;
break;
}

// Choose the intrinsic ID.
const char *name;
Intrinsic::ID ID;
switch (BuiltinID) {
default: llvm_unreachable("Unsupported intrinsic!");
case X86::BI__builtin_ia32_cmpeqps:
case X86::BI__builtin_ia32_cmpltps:
case X86::BI__builtin_ia32_cmpleps:
case X86::BI__builtin_ia32_cmpunordps:
case X86::BI__builtin_ia32_cmpneqps:
case X86::BI__builtin_ia32_cmpnltps:
case X86::BI__builtin_ia32_cmpnleps:
case X86::BI__builtin_ia32_cmpordps:
name = "cmpps";
ID = Intrinsic::x86_sse_cmp_ps;
break;
case X86::BI__builtin_ia32_cmpeqss:
case X86::BI__builtin_ia32_cmpltss:
case X86::BI__builtin_ia32_cmpless:
case X86::BI__builtin_ia32_cmpunordss:
case X86::BI__builtin_ia32_cmpneqss:
case X86::BI__builtin_ia32_cmpnltss:
case X86::BI__builtin_ia32_cmpnless:
case X86::BI__builtin_ia32_cmpordss:
name = "cmpss";
ID = Intrinsic::x86_sse_cmp_ss;
break;
case X86::BI__builtin_ia32_cmpeqpd:
case X86::BI__builtin_ia32_cmpltpd:
case X86::BI__builtin_ia32_cmplepd:
case X86::BI__builtin_ia32_cmpunordpd:
case X86::BI__builtin_ia32_cmpneqpd:
case X86::BI__builtin_ia32_cmpnltpd:
case X86::BI__builtin_ia32_cmpnlepd:
case X86::BI__builtin_ia32_cmpordpd:
name = "cmppd";
ID = Intrinsic::x86_sse2_cmp_pd;
break;
case X86::BI__builtin_ia32_cmpeqsd:		case X86::BI__builtin_ia32_cmpeqsd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 0);
case X86::BI__builtin_ia32_cmpltsd:		case X86::BI__builtin_ia32_cmpltsd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 1);
case X86::BI__builtin_ia32_cmplesd:		case X86::BI__builtin_ia32_cmplesd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 2);
case X86::BI__builtin_ia32_cmpunordsd:		case X86::BI__builtin_ia32_cmpunordsd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 3);
case X86::BI__builtin_ia32_cmpneqsd:		case X86::BI__builtin_ia32_cmpneqsd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 4);
case X86::BI__builtin_ia32_cmpnltsd:		case X86::BI__builtin_ia32_cmpnltsd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 5);
case X86::BI__builtin_ia32_cmpnlesd:		case X86::BI__builtin_ia32_cmpnlesd:
		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 6);
case X86::BI__builtin_ia32_cmpordsd:		case X86::BI__builtin_ia32_cmpordsd:
name = "cmpsd";		return getCmpIntrinsicCall(Intrinsic::x86_sse2_cmp_sd, 7);
ID = Intrinsic::x86_sse2_cmp_sd;
break;
}

Ops.push_back(llvm::ConstantInt::get(Int8Ty, Imm));
llvm::Function *F = CGM.getIntrinsic(ID);
return Builder.CreateCall(F, Ops, name);
}		}
}		}


Value *CodeGenFunction::EmitPPCBuiltinExpr(unsigned BuiltinID,		Value *CodeGenFunction::EmitPPCBuiltinExpr(unsigned BuiltinID,
const CallExpr *E) {		const CallExpr *E) {
SmallVector<Value*, 4> Ops;		SmallVector<Value*, 4> Ops;

▲ Show 20 Lines • Show All 708 Lines • Show Last 20 Lines

cfe/trunk/test/CodeGen/avx2-builtins.c

	Show First 20 Lines • Show All 467 Lines • ▼ Show 20 Lines
	__m256i test_mm256_mask_i32gather_epi64(__m256i a, long long const *b, __m128i c, __m256i d) {			__m256i test_mm256_mask_i32gather_epi64(__m256i a, long long const *b, __m128i c, __m256i d) {
	// CHECK-LABEL: test_mm256_mask_i32gather_epi64			// CHECK-LABEL: test_mm256_mask_i32gather_epi64
	// CHECK: call <4 x i64> @llvm.x86.avx2.gather.d.q.256(<4 x i64> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x i64> %{{.*}}, i8 2)			// CHECK: call <4 x i64> @llvm.x86.avx2.gather.d.q.256(<4 x i64> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x i64> %{{.*}}, i8 2)
	return _mm256_mask_i32gather_epi64(a, b, c, d, 2);			return _mm256_mask_i32gather_epi64(a, b, c, d, 2);
	}			}

	__m128d test_mm_i32gather_pd(double const *b, __m128i c) {			__m128d test_mm_i32gather_pd(double const *b, __m128i c) {
	// CHECK-LABEL: test_mm_i32gather_pd			// CHECK-LABEL: test_mm_i32gather_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
	// CHECK: call <2 x double> @llvm.x86.avx2.gather.d.pd(<2 x double> undef, i8* %{{.}}, <4 x i32> %{{.}}, <2 x double> %{{.*}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.avx2.gather.d.pd(<2 x double> undef, i8* %{{.}}, <4 x i32> %{{.}}, <2 x double> %{{.*}}, i8 2)
	return _mm_i32gather_pd(b, c, 2);			return _mm_i32gather_pd(b, c, 2);
	}			}

	__m128d test_mm_mask_i32gather_pd(__m128d a, double const *b, __m128i c, __m128d d) {			__m128d test_mm_mask_i32gather_pd(__m128d a, double const *b, __m128i c, __m128d d) {
	// CHECK-LABEL: test_mm_mask_i32gather_pd			// CHECK-LABEL: test_mm_mask_i32gather_pd
	// CHECK: call <2 x double> @llvm.x86.avx2.gather.d.pd(<2 x double> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <2 x double> %{{.*}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.avx2.gather.d.pd(<2 x double> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <2 x double> %{{.*}}, i8 2)
	return _mm_mask_i32gather_pd(a, b, c, d, 2);			return _mm_mask_i32gather_pd(a, b, c, d, 2);
	Show All 9 Lines
	__m256d test_mm256_mask_i32gather_pd(__m256d a, double const *b, __m128i c, __m256d d) {			__m256d test_mm256_mask_i32gather_pd(__m256d a, double const *b, __m128i c, __m256d d) {
	// CHECK-LABEL: test_mm256_mask_i32gather_pd			// CHECK-LABEL: test_mm256_mask_i32gather_pd
	// CHECK: call <4 x double> @llvm.x86.avx2.gather.d.pd.256(<4 x double> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x double> %{{.*}}, i8 2)			// CHECK: call <4 x double> @llvm.x86.avx2.gather.d.pd.256(<4 x double> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x double> %{{.*}}, i8 2)
	return _mm256_mask_i32gather_pd(a, b, c, d, 2);			return _mm256_mask_i32gather_pd(a, b, c, d, 2);
	}			}

	__m128 test_mm_i32gather_ps(float const *b, __m128i c) {			__m128 test_mm_i32gather_ps(float const *b, __m128i c) {
	// CHECK-LABEL: test_mm_i32gather_ps			// CHECK-LABEL: test_mm_i32gather_ps
	// CHECK: call <4 x float> @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <4 x float>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.d.ps(<4 x float> undef, i8* %{{.}}, <4 x i32> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.d.ps(<4 x float> undef, i8* %{{.}}, <4 x i32> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm_i32gather_ps(b, c, 2);			return _mm_i32gather_ps(b, c, 2);
	}			}

	__m128 test_mm_mask_i32gather_ps(__m128 a, float const *b, __m128i c, __m128 d) {			__m128 test_mm_mask_i32gather_ps(__m128 a, float const *b, __m128i c, __m128 d) {
	// CHECK-LABEL: test_mm_mask_i32gather_ps			// CHECK-LABEL: test_mm_mask_i32gather_ps
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.d.ps(<4 x float> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.d.ps(<4 x float> %{{.}}, i8 %{{.}}, <4 x i32> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm_mask_i32gather_ps(a, b, c, d, 2);			return _mm_mask_i32gather_ps(a, b, c, d, 2);
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	__m256i test_mm256_mask_i64gather_epi64(__m256i a, long long const *b, __m256i c, __m256i d) {			__m256i test_mm256_mask_i64gather_epi64(__m256i a, long long const *b, __m256i c, __m256i d) {
	// CHECK-LABEL: test_mm256_mask_i64gather_epi64			// CHECK-LABEL: test_mm256_mask_i64gather_epi64
	// CHECK: call <4 x i64> @llvm.x86.avx2.gather.q.q.256(<4 x i64> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x i64> %{{.*}}, i8 2)			// CHECK: call <4 x i64> @llvm.x86.avx2.gather.q.q.256(<4 x i64> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x i64> %{{.*}}, i8 2)
	return _mm256_mask_i64gather_epi64(a, b, c, d, 2);			return _mm256_mask_i64gather_epi64(a, b, c, d, 2);
	}			}

	__m128d test_mm_i64gather_pd(double const *b, __m128i c) {			__m128d test_mm_i64gather_pd(double const *b, __m128i c) {
	// CHECK-LABEL: test_mm_i64gather_pd			// CHECK-LABEL: test_mm_i64gather_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
	// CHECK: call <2 x double> @llvm.x86.avx2.gather.q.pd(<2 x double> undef, i8* %{{.}}, <2 x i64> %{{.}}, <2 x double> %{{.*}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.avx2.gather.q.pd(<2 x double> undef, i8* %{{.}}, <2 x i64> %{{.}}, <2 x double> %{{.*}}, i8 2)
	return _mm_i64gather_pd(b, c, 2);			return _mm_i64gather_pd(b, c, 2);
	}			}

	__m128d test_mm_mask_i64gather_pd(__m128d a, double const *b, __m128i c, __m128d d) {			__m128d test_mm_mask_i64gather_pd(__m128d a, double const *b, __m128i c, __m128d d) {
	// CHECK-LABEL: test_mm_mask_i64gather_pd			// CHECK-LABEL: test_mm_mask_i64gather_pd
	// CHECK: call <2 x double> @llvm.x86.avx2.gather.q.pd(<2 x double> %{{.}}, i8 %{{.}}, <2 x i64> %{{.}}, <2 x double> %{{.*}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.avx2.gather.q.pd(<2 x double> %{{.}}, i8 %{{.}}, <2 x i64> %{{.}}, <2 x double> %{{.*}}, i8 2)
	return _mm_mask_i64gather_pd(a, b, c, d, 2);			return _mm_mask_i64gather_pd(a, b, c, d, 2);
	Show All 9 Lines
	__m256d test_mm256_mask_i64gather_pd(__m256d a, double const *b, __m256i c, __m256d d) {			__m256d test_mm256_mask_i64gather_pd(__m256d a, double const *b, __m256i c, __m256d d) {
	// CHECK-LABEL: test_mm256_mask_i64gather_pd			// CHECK-LABEL: test_mm256_mask_i64gather_pd
	// CHECK: call <4 x double> @llvm.x86.avx2.gather.q.pd.256(<4 x double> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x double> %{{.*}}, i8 2)			// CHECK: call <4 x double> @llvm.x86.avx2.gather.q.pd.256(<4 x double> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x double> %{{.*}}, i8 2)
	return _mm256_mask_i64gather_pd(a, b, c, d, 2);			return _mm256_mask_i64gather_pd(a, b, c, d, 2);
	}			}

	__m128 test_mm_i64gather_ps(float const *b, __m128i c) {			__m128 test_mm_i64gather_ps(float const *b, __m128i c) {
	// CHECK-LABEL: test_mm_i64gather_ps			// CHECK-LABEL: test_mm_i64gather_ps
	// CHECK: call <4 x float> @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <4 x float>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps(<4 x float> undef, i8* %{{.}}, <2 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps(<4 x float> undef, i8* %{{.}}, <2 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm_i64gather_ps(b, c, 2);			return _mm_i64gather_ps(b, c, 2);
	}			}

	__m128 test_mm_mask_i64gather_ps(__m128 a, float const *b, __m128i c, __m128 d) {			__m128 test_mm_mask_i64gather_ps(__m128 a, float const *b, __m128i c, __m128 d) {
	// CHECK-LABEL: test_mm_mask_i64gather_ps			// CHECK-LABEL: test_mm_mask_i64gather_ps
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps(<4 x float> %{{.}}, i8 %{{.}}, <2 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps(<4 x float> %{{.}}, i8 %{{.}}, <2 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm_mask_i64gather_ps(a, b, c, d, 2);			return _mm_mask_i64gather_ps(a, b, c, d, 2);
	}			}

	__m128 test_mm256_i64gather_ps(float const *b, __m256i c) {			__m128 test_mm256_i64gather_ps(float const *b, __m256i c) {
	// CHECK-LABEL: test_mm256_i64gather_ps			// CHECK-LABEL: test_mm256_i64gather_ps
	// CHECK: call <4 x float> @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <4 x float>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps.256(<4 x float> undef, i8* %{{.}}, <4 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps.256(<4 x float> undef, i8* %{{.}}, <4 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm256_i64gather_ps(b, c, 2);			return _mm256_i64gather_ps(b, c, 2);
	}			}

	__m128 test_mm256_mask_i64gather_ps(__m128 a, float const *b, __m256i c, __m128 d) {			__m128 test_mm256_mask_i64gather_ps(__m128 a, float const *b, __m256i c, __m128 d) {
	// CHECK-LABEL: test_mm256_mask_i64gather_ps			// CHECK-LABEL: test_mm256_mask_i64gather_ps
	// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps.256(<4 x float> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)			// CHECK: call <4 x float> @llvm.x86.avx2.gather.q.ps.256(<4 x float> %{{.}}, i8 %{{.}}, <4 x i64> %{{.}}, <4 x float> %{{.*}}, i8 2)
	return _mm256_mask_i64gather_ps(a, b, c, d, 2);			return _mm256_mask_i64gather_ps(a, b, c, d, 2);
	▲ Show 20 Lines • Show All 575 Lines • Show Last 20 Lines

cfe/trunk/test/CodeGen/sse-builtins.c

Show All 31 Lines	__m128 test_mm_andnot_ps(__m128 A, __m128 B) {
// CHECK-LABEL: test_mm_andnot_ps		// CHECK-LABEL: test_mm_andnot_ps
// CHECK: xor <4 x i32> %{{.*}}, <i32 -1, i32 -1, i32 -1, i32 -1>		// CHECK: xor <4 x i32> %{{.*}}, <i32 -1, i32 -1, i32 -1, i32 -1>
// CHECK: and <4 x i32>		// CHECK: and <4 x i32>
return _mm_andnot_ps(A, B);		return _mm_andnot_ps(A, B);
}		}

__m128 test_mm_cmpeq_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpeq_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpeq_ps		// CHECK-LABEL: @test_mm_cmpeq_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)		// CHECK: [[CMP:%.*]] = fcmp oeq <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpeq_ps(__a, __b);		return _mm_cmpeq_ps(__a, __b);
}		}

__m128 test_mm_cmpeq_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpeq_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpeq_ss		// CHECK-LABEL: @test_mm_cmpeq_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 0)
return _mm_cmpeq_ss(__a, __b);		return _mm_cmpeq_ss(__a, __b);
}		}

__m128 test_mm_cmpge_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpge_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpge_ps		// CHECK-LABEL: @test_mm_cmpge_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)		// CHECK: [[CMP:%.*]] = fcmp ole <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpge_ps(__a, __b);		return _mm_cmpge_ps(__a, __b);
}		}

__m128 test_mm_cmpge_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpge_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpge_ss		// CHECK-LABEL: @test_mm_cmpge_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)
// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
return _mm_cmpge_ss(__a, __b);		return _mm_cmpge_ss(__a, __b);
}		}

__m128 test_mm_cmpgt_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpgt_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpgt_ps		// CHECK-LABEL: @test_mm_cmpgt_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)		// CHECK: [[CMP:%.*]] = fcmp olt <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpgt_ps(__a, __b);		return _mm_cmpgt_ps(__a, __b);
}		}

__m128 test_mm_cmpgt_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpgt_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpgt_ss		// CHECK-LABEL: @test_mm_cmpgt_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)
// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
return _mm_cmpgt_ss(__a, __b);		return _mm_cmpgt_ss(__a, __b);
}		}

__m128 test_mm_cmple_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmple_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmple_ps		// CHECK-LABEL: @test_mm_cmple_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)		// CHECK: [[CMP:%.*]] = fcmp ole <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmple_ps(__a, __b);		return _mm_cmple_ps(__a, __b);
}		}

__m128 test_mm_cmple_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmple_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmple_ss		// CHECK-LABEL: @test_mm_cmple_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 2)
return _mm_cmple_ss(__a, __b);		return _mm_cmple_ss(__a, __b);
}		}

__m128 test_mm_cmplt_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmplt_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmplt_ps		// CHECK-LABEL: @test_mm_cmplt_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)		// CHECK: [[CMP:%.*]] = fcmp olt <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmplt_ps(__a, __b);		return _mm_cmplt_ps(__a, __b);
}		}

__m128 test_mm_cmplt_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmplt_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmplt_ss		// CHECK-LABEL: @test_mm_cmplt_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 1)
return _mm_cmplt_ss(__a, __b);		return _mm_cmplt_ss(__a, __b);
}		}

__m128 test_mm_cmpneq_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpneq_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpneq_ps		// CHECK-LABEL: @test_mm_cmpneq_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 4)		// CHECK: [[CMP:%.*]] = fcmp une <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpneq_ps(__a, __b);		return _mm_cmpneq_ps(__a, __b);
}		}

__m128 test_mm_cmpneq_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpneq_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpneq_ss		// CHECK-LABEL: @test_mm_cmpneq_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 4)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 4)
return _mm_cmpneq_ss(__a, __b);		return _mm_cmpneq_ss(__a, __b);
}		}

__m128 test_mm_cmpnge_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnge_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnge_ps		// CHECK-LABEL: @test_mm_cmpnge_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)		// CHECK: [[CMP:%.*]] = fcmp ugt <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpnge_ps(__a, __b);		return _mm_cmpnge_ps(__a, __b);
}		}

__m128 test_mm_cmpnge_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnge_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnge_ss		// CHECK-LABEL: @test_mm_cmpnge_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)
// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
return _mm_cmpnge_ss(__a, __b);		return _mm_cmpnge_ss(__a, __b);
}		}

__m128 test_mm_cmpngt_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpngt_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpngt_ps		// CHECK-LABEL: @test_mm_cmpngt_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)		// CHECK: [[CMP:%.*]] = fcmp uge <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpngt_ps(__a, __b);		return _mm_cmpngt_ps(__a, __b);
}		}

__m128 test_mm_cmpngt_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpngt_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpngt_ss		// CHECK-LABEL: @test_mm_cmpngt_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)
// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		// CHECK: shufflevector <4 x float> %{{.}}, <4 x float> %{{.}}, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
return _mm_cmpngt_ss(__a, __b);		return _mm_cmpngt_ss(__a, __b);
}		}

__m128 test_mm_cmpnle_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnle_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnle_ps		// CHECK-LABEL: @test_mm_cmpnle_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)		// CHECK: [[CMP:%.*]] = fcmp ugt <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpnle_ps(__a, __b);		return _mm_cmpnle_ps(__a, __b);
}		}

__m128 test_mm_cmpnle_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnle_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnle_ss		// CHECK-LABEL: @test_mm_cmpnle_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 6)
return _mm_cmpnle_ss(__a, __b);		return _mm_cmpnle_ss(__a, __b);
}		}

__m128 test_mm_cmpnlt_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnlt_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnlt_ps		// CHECK-LABEL: @test_mm_cmpnlt_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)		// CHECK: [[CMP:%.*]] = fcmp uge <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpnlt_ps(__a, __b);		return _mm_cmpnlt_ps(__a, __b);
}		}

__m128 test_mm_cmpnlt_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpnlt_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpnlt_ss		// CHECK-LABEL: @test_mm_cmpnlt_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 5)
return _mm_cmpnlt_ss(__a, __b);		return _mm_cmpnlt_ss(__a, __b);
}		}

__m128 test_mm_cmpord_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpord_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpord_ps		// CHECK-LABEL: @test_mm_cmpord_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 7)		// CHECK: [[CMP:%.*]] = fcmp ord <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpord_ps(__a, __b);		return _mm_cmpord_ps(__a, __b);
}		}

__m128 test_mm_cmpord_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpord_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpord_ss		// CHECK-LABEL: @test_mm_cmpord_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 7)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 7)
return _mm_cmpord_ss(__a, __b);		return _mm_cmpord_ss(__a, __b);
}		}

__m128 test_mm_cmpunord_ps(__m128 __a, __m128 __b) {		__m128 test_mm_cmpunord_ps(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpunord_ps		// CHECK-LABEL: @test_mm_cmpunord_ps
// CHECK: @llvm.x86.sse.cmp.ps(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 3)		// CHECK: [[CMP:%.*]] = fcmp uno <4 x float>
		// CHECK-NEXT: [[SEXT:%.*]] = sext <4 x i1> [[CMP]] to <4 x i32>
		// CHECK-NEXT: [[BC:%.*]] = bitcast <4 x i32> [[SEXT]] to <4 x float>
		// CHECK-NEXT: ret <4 x float> [[BC]]
return _mm_cmpunord_ps(__a, __b);		return _mm_cmpunord_ps(__a, __b);
}		}

__m128 test_mm_cmpunord_ss(__m128 __a, __m128 __b) {		__m128 test_mm_cmpunord_ss(__m128 __a, __m128 __b) {
// CHECK-LABEL: @test_mm_cmpunord_ss		// CHECK-LABEL: @test_mm_cmpunord_ss
// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 3)		// CHECK: @llvm.x86.sse.cmp.ss(<4 x float> %{{.}}, <4 x float> %{{.}}, i8 3)
return _mm_cmpunord_ss(__a, __b);		return _mm_cmpunord_ss(__a, __b);
}		}
▲ Show 20 Lines • Show All 610 Lines • Show Last 20 Lines

cfe/trunk/test/CodeGen/sse2-builtins.c

	Show First 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	__m128i test_mm_cmpeq_epi32(__m128i A, __m128i B) {			__m128i test_mm_cmpeq_epi32(__m128i A, __m128i B) {
	// CHECK-LABEL: test_mm_cmpeq_epi32			// CHECK-LABEL: test_mm_cmpeq_epi32
	// CHECK: icmp eq <4 x i32>			// CHECK: icmp eq <4 x i32>
	return _mm_cmpeq_epi32(A, B);			return _mm_cmpeq_epi32(A, B);
	}			}

	__m128d test_mm_cmpeq_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpeq_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpeq_pd			// CHECK-LABEL: test_mm_cmpeq_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 0)			// CHECK: [[CMP:%.*]] = fcmp oeq <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpeq_pd(A, B);			return _mm_cmpeq_pd(A, B);
	}			}

	__m128d test_mm_cmpeq_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpeq_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpeq_sd			// CHECK-LABEL: test_mm_cmpeq_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 0)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 0)
	return _mm_cmpeq_sd(A, B);			return _mm_cmpeq_sd(A, B);
	}			}

	__m128d test_mm_cmpge_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpge_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpge_pd			// CHECK-LABEL: test_mm_cmpge_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)			// CHECK: [[CMP:%.*]] = fcmp ole <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpge_pd(A, B);			return _mm_cmpge_pd(A, B);
	}			}

	__m128d test_mm_cmpge_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpge_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpge_sd			// CHECK-LABEL: test_mm_cmpge_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)
	// CHECK: extractelement <2 x double> %{{.*}}, i32 0			// CHECK: extractelement <2 x double> %{{.*}}, i32 0
	// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0			// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0
	Show All 17 Lines
	__m128i test_mm_cmpgt_epi32(__m128i A, __m128i B) {			__m128i test_mm_cmpgt_epi32(__m128i A, __m128i B) {
	// CHECK-LABEL: test_mm_cmpgt_epi32			// CHECK-LABEL: test_mm_cmpgt_epi32
	// CHECK: icmp sgt <4 x i32>			// CHECK: icmp sgt <4 x i32>
	return _mm_cmpgt_epi32(A, B);			return _mm_cmpgt_epi32(A, B);
	}			}

	__m128d test_mm_cmpgt_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpgt_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpgt_pd			// CHECK-LABEL: test_mm_cmpgt_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)			// CHECK: [[CMP:%.*]] = fcmp olt <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpgt_pd(A, B);			return _mm_cmpgt_pd(A, B);
	}			}

	__m128d test_mm_cmpgt_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpgt_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpgt_sd			// CHECK-LABEL: test_mm_cmpgt_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)
	// CHECK: extractelement <2 x double> %{{.*}}, i32 0			// CHECK: extractelement <2 x double> %{{.*}}, i32 0
	// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0			// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0
	// CHECK: extractelement <2 x double> %{{.*}}, i32 1			// CHECK: extractelement <2 x double> %{{.*}}, i32 1
	// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1			// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1
	return _mm_cmpgt_sd(A, B);			return _mm_cmpgt_sd(A, B);
	}			}

	__m128d test_mm_cmple_pd(__m128d A, __m128d B) {			__m128d test_mm_cmple_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmple_pd			// CHECK-LABEL: test_mm_cmple_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)			// CHECK: [[CMP:%.*]] = fcmp ole <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmple_pd(A, B);			return _mm_cmple_pd(A, B);
	}			}

	__m128d test_mm_cmple_sd(__m128d A, __m128d B) {			__m128d test_mm_cmple_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmple_sd			// CHECK-LABEL: test_mm_cmple_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 2)
	return _mm_cmple_sd(A, B);			return _mm_cmple_sd(A, B);
	}			}
	Show All 13 Lines
	__m128i test_mm_cmplt_epi32(__m128i A, __m128i B) {			__m128i test_mm_cmplt_epi32(__m128i A, __m128i B) {
	// CHECK-LABEL: test_mm_cmplt_epi32			// CHECK-LABEL: test_mm_cmplt_epi32
	// CHECK: icmp sgt <4 x i32>			// CHECK: icmp sgt <4 x i32>
	return _mm_cmplt_epi32(A, B);			return _mm_cmplt_epi32(A, B);
	}			}

	__m128d test_mm_cmplt_pd(__m128d A, __m128d B) {			__m128d test_mm_cmplt_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmplt_pd			// CHECK-LABEL: test_mm_cmplt_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)			// CHECK: [[CMP:%.*]] = fcmp olt <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmplt_pd(A, B);			return _mm_cmplt_pd(A, B);
	}			}

	__m128d test_mm_cmplt_sd(__m128d A, __m128d B) {			__m128d test_mm_cmplt_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmplt_sd			// CHECK-LABEL: test_mm_cmplt_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 1)
	return _mm_cmplt_sd(A, B);			return _mm_cmplt_sd(A, B);
	}			}

	__m128d test_mm_cmpneq_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpneq_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpneq_pd			// CHECK-LABEL: test_mm_cmpneq_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 4)			// CHECK: [[CMP:%.*]] = fcmp une <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpneq_pd(A, B);			return _mm_cmpneq_pd(A, B);
	}			}

	__m128d test_mm_cmpneq_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpneq_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpneq_sd			// CHECK-LABEL: test_mm_cmpneq_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 4)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 4)
	return _mm_cmpneq_sd(A, B);			return _mm_cmpneq_sd(A, B);
	}			}

	__m128d test_mm_cmpnge_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpnge_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnge_pd			// CHECK-LABEL: test_mm_cmpnge_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)			// CHECK: [[CMP:%.*]] = fcmp ugt <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpnge_pd(A, B);			return _mm_cmpnge_pd(A, B);
	}			}

	__m128d test_mm_cmpnge_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpnge_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnge_sd			// CHECK-LABEL: test_mm_cmpnge_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)
	// CHECK: extractelement <2 x double> %{{.*}}, i32 0			// CHECK: extractelement <2 x double> %{{.*}}, i32 0
	// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0			// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0
	// CHECK: extractelement <2 x double> %{{.*}}, i32 1			// CHECK: extractelement <2 x double> %{{.*}}, i32 1
	// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1			// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1
	return _mm_cmpnge_sd(A, B);			return _mm_cmpnge_sd(A, B);
	}			}

	__m128d test_mm_cmpngt_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpngt_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpngt_pd			// CHECK-LABEL: test_mm_cmpngt_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)			// CHECK: [[CMP:%.*]] = fcmp uge <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpngt_pd(A, B);			return _mm_cmpngt_pd(A, B);
	}			}

	__m128d test_mm_cmpngt_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpngt_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpngt_sd			// CHECK-LABEL: test_mm_cmpngt_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)
	// CHECK: extractelement <2 x double> %{{.*}}, i32 0			// CHECK: extractelement <2 x double> %{{.*}}, i32 0
	// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0			// CHECK: insertelement <2 x double> undef, double %{{.*}}, i32 0
	// CHECK: extractelement <2 x double> %{{.*}}, i32 1			// CHECK: extractelement <2 x double> %{{.*}}, i32 1
	// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1			// CHECK: insertelement <2 x double> %{{.}}, double %{{.}}, i32 1
	return _mm_cmpngt_sd(A, B);			return _mm_cmpngt_sd(A, B);
	}			}

	__m128d test_mm_cmpnle_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpnle_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnle_pd			// CHECK-LABEL: test_mm_cmpnle_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)			// CHECK: [[CMP:%.*]] = fcmp ugt <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpnle_pd(A, B);			return _mm_cmpnle_pd(A, B);
	}			}

	__m128d test_mm_cmpnle_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpnle_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnle_sd			// CHECK-LABEL: test_mm_cmpnle_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 6)
	return _mm_cmpnle_sd(A, B);			return _mm_cmpnle_sd(A, B);
	}			}

	__m128d test_mm_cmpnlt_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpnlt_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnlt_pd			// CHECK-LABEL: test_mm_cmpnlt_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)			// CHECK: [[CMP:%.*]] = fcmp uge <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpnlt_pd(A, B);			return _mm_cmpnlt_pd(A, B);
	}			}

	__m128d test_mm_cmpnlt_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpnlt_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpnlt_sd			// CHECK-LABEL: test_mm_cmpnlt_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 5)
	return _mm_cmpnlt_sd(A, B);			return _mm_cmpnlt_sd(A, B);
	}			}

	__m128d test_mm_cmpord_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpord_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpord_pd			// CHECK-LABEL: test_mm_cmpord_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 7)			// CHECK: [[CMP:%.*]] = fcmp ord <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpord_pd(A, B);			return _mm_cmpord_pd(A, B);
	}			}

	__m128d test_mm_cmpord_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpord_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpord_sd			// CHECK-LABEL: test_mm_cmpord_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 7)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 7)
	return _mm_cmpord_sd(A, B);			return _mm_cmpord_sd(A, B);
	}			}

	__m128d test_mm_cmpunord_pd(__m128d A, __m128d B) {			__m128d test_mm_cmpunord_pd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpunord_pd			// CHECK-LABEL: test_mm_cmpunord_pd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.pd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 3)			// CHECK: [[CMP:%.*]] = fcmp uno <2 x double>
				// CHECK-NEXT: [[SEXT:%.*]] = sext <2 x i1> [[CMP]] to <2 x i64>
				// CHECK-NEXT: [[BC:%.*]] = bitcast <2 x i64> [[SEXT]] to <2 x double>
				// CHECK-NEXT: ret <2 x double> [[BC]]
	return _mm_cmpunord_pd(A, B);			return _mm_cmpunord_pd(A, B);
	}			}

	__m128d test_mm_cmpunord_sd(__m128d A, __m128d B) {			__m128d test_mm_cmpunord_sd(__m128d A, __m128d B) {
	// CHECK-LABEL: test_mm_cmpunord_sd			// CHECK-LABEL: test_mm_cmpunord_sd
	// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 3)			// CHECK: call <2 x double> @llvm.x86.sse2.cmp.sd(<2 x double> %{{.}}, <2 x double> %{{.}}, i8 3)
	return _mm_cmpunord_sd(A, B);			return _mm_cmpunord_sd(A, B);
	}			}
	▲ Show 20 Lines • Show All 1,108 Lines • Show Last 20 Lines