This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/Target/NVPTX/
-
Target/
-
NVPTX/
-
InstPrinter/
-
NVPTXInstPrinter.cpp
-
NVPTX.h
-
NVPTXAsmPrinter.cpp
-
NVPTXISelDAGToDAG.h
-
NVPTXISelDAGToDAG.cpp
-
NVPTXISelLowering.h
-
NVPTXISelLowering.cpp
-
NVPTXInstrInfo.cpp
-
NVPTXInstrInfo.td
-
NVPTXIntrinsics.td
-
NVPTXMCExpr.h
-
NVPTXMCExpr.cpp
-
NVPTXRegisterInfo.cpp
-
NVPTXRegisterInfo.td
-
NVPTXSubtarget.h
-
NVPTXSubtarget.cpp
-
test/CodeGen/NVPTX/
-
CodeGen/
-
NVPTX/
-
f16-instructions.ll
-
half.ll

Differential D28540

[NVPTX] Added support for half-precision floating point.
ClosedPublic

Authored by tra on Jan 10 2017, 4:50 PM.

Download Raw Diff

Details

Reviewers

jholewinski
jlebar

Commits

rG64dc9be7b48e: [NVPTX] Added support for half-precision floating point.
rL291956: [NVPTX] Added support for half-precision floating point.

Summary

Only scalar half-precision operations are supported at the moment.

Adds general support for 'half' type in NVPTX
fp16 math operations are supported on sm_53+ GPUs only (can be disabled with --nvptx-no-f16-math)
type conversions to/from fp16 are supported on all GPU variants.
On GPU variants that do not have full fp16 support (or if it's disabled), fp16 operations are promoted to fp32 and results are converted back to fp16 for storage.

ptxas is rather peculiar when it comes to fp16-related syntax, which had to be worked around:

there's no way to represent immediate fp16 argument as a hex value. We load such constants into a .b16 register first.
there are no .f16 variants of mov/ld/st instructions.
ptxas only supports .f16 registers on sm_53+ only. It does accept .b16 registers for all supported fp16-related operations on all GPU variants, so that's the type the patch uses.
NVPTX ABI explicitly states that fp16 can't be used as a function argument or return value. It also states that arguments and return values must be at least 32-bit wide. The patch follows the doc and uses .b32 for fp16 arguments and return values. On the other hand, current fp16 implementation in nvcc uses a struct to represent fp16 type which results in nvcc passing fp16 as an aggregate. I'm not sure whether we want/need to follow nvcc and pass fp16 as aggregates, too.

Diff Detail

Repository: rL LLVM

Event Timeline

tra updated this revision to Diff 83891.Jan 10 2017, 4:50 PM

tra retitled this revision from to [NVPTX] Added support for half-precision floating point..

tra updated this object.

tra added reviewers: jlebar, jholewinski.

tra added a subscriber: llvm-commits.

tra updated this object.Jan 10 2017, 5:30 PM

Well this is heroic. Aside from my question about sin.approx, I just have nits, mostly about comments.

Do you think we should add some tests to the test-suite so we can cover this e2e?

lib/Target/NVPTX/NVPTXAsmPrinter.cpp
1352 ↗	(On Diff #83891)	Can we add a comment why this is not f16?
1581 ↗	(On Diff #83891)	Can we comment why this is not sz = 16?
lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
542 ↗	(On Diff #83891)	s/constants/immediates/
754 ↗	(On Diff #83891)	Can we add a comment here?
1007 ↗	(On Diff #83891)	ibid
2208 ↗	(On Diff #83891)	ibid
lib/Target/NVPTX/NVPTXISelLowering.cpp
149 ↗	(On Diff #83891)	The comment above doesn't seem to apply to these two new lines.
158 ↗	(On Diff #83891)	ibid
297 ↗	(On Diff #83891)	Suggest being a tad more explicit: Promote fp16 arithmetic if fp16 hardware isn't available or the user passed --flag-name. The flag is useful because, although sm_53+ GPUs ...
320 ↗	(On Diff #83891)	This is all legal even on sm_20 with ptxas from CUDA 7? (I tried looking this up in the docs and failed, sorry.)
328 ↗	(On Diff #83891)	Which library -- libm? Maybe "without calling an external library" or perhaps "without calling libm" (although maybe someone will come here and tell me it's not technically libm, it's libgcc or somesuch).
2120 ↗	(On Diff #83891)	Can we explain what we're doing differently here?
lib/Target/NVPTX/NVPTXInstrInfo.td
248 ↗	(On Diff #83891)	Update comment.
782 ↗	(On Diff #83891)	Please just make a separate paragraph, instead of indenting like this.
783 ↗	(On Diff #83891)	Run-on sentence. Suggest instructions. Instead, we have to
lib/Target/NVPTX/NVPTXRegisterInfo.cpp
80 ↗	(On Diff #83891)	Nit, can we write this function either using if-no-else or if-else, instead of mixing the two? (I realize that this patch is not the original sin...)
lib/Target/NVPTX/NVPTXSubtarget.h
104 ↗	(On Diff #83891)	Do we need this function at all? It's kind of confusing because pre-sm_53 we had fp16 loads/stores, so you could say we "had" fp16. But also someone might accidentally call this instead of allowFP16Math().
test/CodeGen/NVPTX/f16-instructions.ll
764 ↗	(On Diff #83891)	How do we know it's correct to lower this as `cvt.to.f16(sin.approx.f32(x))`? That only works if we're guaranteed that the error of sin.approx.f32 is too small to be noticed in fp16. But that doesn't seem guaranteed. All the ISA says about precision is The maximum absolute error is 2^-20.9 in quadrant 00. This error is too small to be represented in an fp16, which would normally mean we're good. But because it qualifies with "in quadrant 00", that suggests that all bets are off if we're not in...whatever is quadrant 00. (I presume it's the first quadrant?) Same for cosine.

jlebar added inline comments.Jan 11 2017, 11:17 AM

test/CodeGen/NVPTX/f16-instructions.ll
764 ↗	(On Diff #83891)	Actually, I take it back about 2^-20.9 being too small to fit in an fp16. I forgot about denormals. See https://en.wikipedia.org/wiki/Half-precision_floating-point_format#Precision_limitations_on_decimal_values_in_.5B0.2C_1.5D

Addressed Justin's comments.

tra added inline comments.Jan 11 2017, 1:52 PM

lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
1007 ↗	(On Diff #83891)	Removed this change as we're not handling f16 vectors here yet.
lib/Target/NVPTX/NVPTXISelLowering.cpp
149 ↗	(On Diff #83891)	Moved `SETCC` out. The comment still applies to `{SELECT,BR}_CC` below.
320 ↗	(On Diff #83891)	Yes. Conversion instructions support f16 on all sm_20+ GPUs according to CUDA 7.0+ docs.
2120 ↗	(On Diff #83891)	I don't think I need it any more -- llvm does all f16 loads/stores using .b16 ops and registers now, so I don't have to explicitly store it as MVT::i16. I've removed the function.
lib/Target/NVPTX/NVPTXSubtarget.h
104 ↗	(On Diff #83891)	Renamed to hasFP16Math.
test/CodeGen/NVPTX/f16-instructions.ll
764 ↗	(On Diff #83891)	I don't have a good answer. In general, given that fp16 has fewer bits of mantissa, whatever error sin.approx.f32 produces is likely to be lost because the low bits will be lost during conversion to fp16. We'll know more once I have FP test suite running on GPU.

jlebar added inline comments.Jan 12 2017, 9:21 PM

lib/Target/NVPTX/NVPTXAsmPrinter.cpp
370 ↗	(On Diff #84019)	Everywhere that we talk about f16s being stored/returned as/loaded as "integers" or "untyped integers", I think we should just say "a b16" or "an untyped value". An "untyped integer" might mean something like llvm's i16, which is definitely an integer, but is "untyped" inasmuch as it might represent a signed or an unsigned int. That's conceptually different from .b16, which is just a bag of bits. I've noted places that would need to change with the comment "b16", but you don't have to change all of them to read "b16", so long as we don't say "untyped integer". :)
1586 ↗	(On Diff #84019)	b16
lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
754 ↗	(On Diff #84019)	b16
754 ↗	(On Diff #84019)	(Unable to delete this comment due to phab bug. This comment intentionally left empty.)
2207 ↗	(On Diff #84019)	b16
lib/Target/NVPTX/NVPTXISelLowering.cpp
158 ↗	(On Diff #83891)	(Yet another comment I cannot delete, please ignore me.)
150 ↗	(On Diff #84019)	(I can't delete this comment; intentionally left empty.)
996 ↗	(On Diff #84019)	All scalar return values, function parameters, etc, but not all scalars in general. Can we clarify?
997 ↗	(On Diff #84019)	b16
1056 ↗	(On Diff #84019)	Same here about "all scalars"
1057 ↗	(On Diff #84019)	b16
1370 ↗	(On Diff #84019)	Same about all scalars, and same b16 comment.
lib/Target/NVPTX/NVPTXInstrInfo.td
299 ↗	(On Diff #84019)	Heh, we should do a big rename of "doF32FTZ" in a separate patch.
lib/Target/NVPTX/NVPTXSubtarget.h
104 ↗	(On Diff #83891)	Yeah, but still...do we need it? It's confusing that the predicates in the .td are called "hasFP16Math" but they actually correspond to allowFP16Math, and I'm afraid in general someone will call hasFP16Math when they mean to call allowFP16Math. It seems that nobody needs this function today, so can we remove it and inline the SM version check into allowFP16Math? We might also want to change the tablegen predicate to match this function name.
test/CodeGen/NVPTX/f16-instructions.ll
764 ↗	(On Diff #83891)	I really think, in the absence of evidence that it is safe, we need to be conservative and disable this (except for fastmath, if you like). We should not assume that sin.approx.f32 is sufficiently accurate outside of the first quadrant (and I am not even sure it's sufficiently accurate within the first quadrant).

Set unsafe-fp-math attribute on test cases that use sin/cos, so LLVM can lower them. These tests only care whether fp16->fp32->fp16 conversion happens.
Updated comments to according to Justin's suggestions.

lib/Target/NVPTX/NVPTXAsmPrinter.cpp
370 ↗	(On Diff #84019)	I've attempted to reword the comments so they use .b16 to describe storage type of f16 we use in PTX.
lib/Target/NVPTX/NVPTXInstrInfo.td
299 ↗	(On Diff #84019)	Will do.

jlebar added inline comments.Jan 13 2017, 11:47 AM

lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
754 ↗	(On Diff #84019)	b16
lib/Target/NVPTX/NVPTXInstrInfo.td
156 ↗	(On Diff #84338)	Can we match the predicate name to the name of the subtarget function? Unless you think that would be more confusing than not.
lib/Target/NVPTX/NVPTXSubtarget.h
104 ↗	(On Diff #83891)	^ This is my only remaining nontrivial concern about the patch. Otherwise, looks great to me.

Renamed tablegen predicate hasFP16Math -> useFP16Math to avoid confusion with NVPTXSubtarget::hasFP16Math().

tra added inline comments.Jan 13 2017, 11:56 AM

lib/Target/NVPTX/NVPTXSubtarget.h
104 ↗	(On Diff #83891)	I'd rather keep both functions here so one can tell 'hardware has this feature' from 'we can use this feature'. You do have a point about the predicate name in .td file. I've renamed it to useFP16Math to avoid confusion with this function.
test/CodeGen/NVPTX/f16-instructions.ll
764 ↗	(On Diff #83891)	Done in D28619/r291936

jlebar accepted this revision.Jan 13 2017, 11:59 AM

jlebar edited edge metadata.

This revision is now accepted and ready to land.Jan 13 2017, 11:59 AM

Closed by commit rL291956: [NVPTX] Added support for half-precision floating point. (authored by tra). · Explain WhyJan 13 2017, 1:07 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

NVPTX/

InstPrinter/

9 lines

3 lines

21 lines

1 line

NVPTXISelDAGToDAG.cpp

71 lines

NVPTXISelLowering.h

1 line

NVPTXISelLowering.cpp

88 lines

3 lines

222 lines

50 lines

10 lines

7 lines

NVPTXRegisterInfo.cpp

48 lines

NVPTXRegisterInfo.td

2 lines

NVPTXSubtarget.h

2 lines

NVPTXSubtarget.cpp

9 lines

test/

CodeGen/

NVPTX/

f16-instructions.ll

1034 lines

half.ll

8 lines

Diff 84358

llvm/trunk/lib/Target/NVPTX/InstPrinter/NVPTXInstPrinter.cpp

Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	case 4:
OS << "%rd";		OS << "%rd";
break;		break;
case 5:		case 5:
OS << "%f";		OS << "%f";
break;		break;
case 6:		case 6:
OS << "%fd";		OS << "%fd";
break;		break;
		case 7:
		OS << "%h";
		break;
}		}

unsigned VReg = RegNo & 0x0FFFFFFF;		unsigned VReg = RegNo & 0x0FFFFFFF;
OS << VReg;		OS << VReg;
}		}

void NVPTXInstPrinter::printInst(const MCInst *MI, raw_ostream &OS,		void NVPTXInstPrinter::printInst(const MCInst *MI, raw_ostream &OS,
StringRef Annot, const MCSubtargetInfo &STI) {		StringRef Annot, const MCSubtargetInfo &STI) {
▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines	if (!strcmp(Modifier, "volatile")) {
default:		default:
llvm_unreachable("Wrong Address Space");		llvm_unreachable("Wrong Address Space");
}		}
} else if (!strcmp(Modifier, "sign")) {		} else if (!strcmp(Modifier, "sign")) {
if (Imm == NVPTX::PTXLdStInstCode::Signed)		if (Imm == NVPTX::PTXLdStInstCode::Signed)
O << "s";		O << "s";
else if (Imm == NVPTX::PTXLdStInstCode::Unsigned)		else if (Imm == NVPTX::PTXLdStInstCode::Unsigned)
O << "u";		O << "u";
else		else if (Imm == NVPTX::PTXLdStInstCode::Untyped)
		O << "b";
		else if (Imm == NVPTX::PTXLdStInstCode::Float)
O << "f";		O << "f";
		else
		llvm_unreachable("Unknown register type");
} else if (!strcmp(Modifier, "vec")) {		} else if (!strcmp(Modifier, "vec")) {
if (Imm == NVPTX::PTXLdStInstCode::V2)		if (Imm == NVPTX::PTXLdStInstCode::V2)
O << ".v2";		O << ".v2";
else if (Imm == NVPTX::PTXLdStInstCode::V4)		else if (Imm == NVPTX::PTXLdStInstCode::V4)
O << ".v4";		O << ".v4";
} else		} else
llvm_unreachable("Unknown Modifier");		llvm_unreachable("Unknown Modifier");
} else		} else
Show All 27 Lines

llvm/trunk/lib/Target/NVPTX/NVPTX.h

Show First 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	enum AddressSpace {
CONSTANT = 2,		CONSTANT = 2,
SHARED = 3,		SHARED = 3,
PARAM = 4,		PARAM = 4,
LOCAL = 5		LOCAL = 5
};		};
enum FromType {		enum FromType {
Unsigned = 0,		Unsigned = 0,
Signed,		Signed,
Float		Float,
		Untyped
};		};
enum VecType {		enum VecType {
Scalar = 1,		Scalar = 1,
V2 = 2,		V2 = 2,
V4 = 4		V4 = 4
};		};
}		}

▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXAsmPrinter.cpp

Show First 20 Lines • Show All 314 Lines • ▼ Show 20 Lines	case MachineOperand::MO_GlobalAddress:
MCOp = GetSymbolRef(getSymbol(MO.getGlobal()));		MCOp = GetSymbolRef(getSymbol(MO.getGlobal()));
break;		break;
case MachineOperand::MO_FPImmediate: {		case MachineOperand::MO_FPImmediate: {
const ConstantFP *Cnt = MO.getFPImm();		const ConstantFP *Cnt = MO.getFPImm();
const APFloat &Val = Cnt->getValueAPF();		const APFloat &Val = Cnt->getValueAPF();

switch (Cnt->getType()->getTypeID()) {		switch (Cnt->getType()->getTypeID()) {
default: report_fatal_error("Unsupported FP type"); break;		default: report_fatal_error("Unsupported FP type"); break;
		case Type::HalfTyID:
		MCOp = MCOperand::createExpr(
		NVPTXFloatMCExpr::createConstantFPHalf(Val, OutContext));
		break;
case Type::FloatTyID:		case Type::FloatTyID:
MCOp = MCOperand::createExpr(		MCOp = MCOperand::createExpr(
NVPTXFloatMCExpr::createConstantFPSingle(Val, OutContext));		NVPTXFloatMCExpr::createConstantFPSingle(Val, OutContext));
break;		break;
case Type::DoubleTyID:		case Type::DoubleTyID:
MCOp = MCOperand::createExpr(		MCOp = MCOperand::createExpr(
NVPTXFloatMCExpr::createConstantFPDouble(Val, OutContext));		NVPTXFloatMCExpr::createConstantFPDouble(Val, OutContext));
break;		break;
Show All 21 Lines	if (TargetRegisterInfo::isVirtualRegister(Reg)) {
} else if (RC == &NVPTX::Int32RegsRegClass) {		} else if (RC == &NVPTX::Int32RegsRegClass) {
Ret = (3 << 28);		Ret = (3 << 28);
} else if (RC == &NVPTX::Int64RegsRegClass) {		} else if (RC == &NVPTX::Int64RegsRegClass) {
Ret = (4 << 28);		Ret = (4 << 28);
} else if (RC == &NVPTX::Float32RegsRegClass) {		} else if (RC == &NVPTX::Float32RegsRegClass) {
Ret = (5 << 28);		Ret = (5 << 28);
} else if (RC == &NVPTX::Float64RegsRegClass) {		} else if (RC == &NVPTX::Float64RegsRegClass) {
Ret = (6 << 28);		Ret = (6 << 28);
		} else if (RC == &NVPTX::Float16RegsRegClass) {
		Ret = (7 << 28);
} else {		} else {
report_fatal_error("Bad register class");		report_fatal_error("Bad register class");
}		}

// Insert the vreg number		// Insert the vreg number
Ret \|= (RegNum & 0x0FFFFFFF);		Ret \|= (RegNum & 0x0FFFFFFF);
return Ret;		return Ret;
} else {		} else {
Show All 23 Lines	void NVPTXAsmPrinter::printReturnValStr(const Function *F, raw_ostream &O) {

O << " (";		O << " (";

if (isABI) {		if (isABI) {
if (Ty->isFloatingPointTy() \|\| Ty->isIntegerTy()) {		if (Ty->isFloatingPointTy() \|\| Ty->isIntegerTy()) {
unsigned size = 0;		unsigned size = 0;
if (auto *ITy = dyn_cast<IntegerType>(Ty)) {		if (auto *ITy = dyn_cast<IntegerType>(Ty)) {
size = ITy->getBitWidth();		size = ITy->getBitWidth();
if (size < 32)
size = 32;
} else {		} else {
assert(Ty->isFloatingPointTy() && "Floating point type expected here");		assert(Ty->isFloatingPointTy() && "Floating point type expected here");
size = Ty->getPrimitiveSizeInBits();		size = Ty->getPrimitiveSizeInBits();
}		}
		// PTX ABI requires all scalar return values to be at least 32
		// bits in size. fp16 normally uses .b16 as its storage type in
		// PTX, so its size must be adjusted here, too.
		if (size < 32)
		size = 32;

O << ".param .b" << size << " func_retval0";		O << ".param .b" << size << " func_retval0";
} else if (isa<PointerType>(Ty)) {		} else if (isa<PointerType>(Ty)) {
O << ".param .b" << TLI->getPointerTy(DL).getSizeInBits()		O << ".param .b" << TLI->getPointerTy(DL).getSizeInBits()
<< " func_retval0";		<< " func_retval0";
} else if (Ty->isAggregateType() \|\| Ty->isVectorTy()) {		} else if (Ty->isAggregateType() \|\| Ty->isVectorTy()) {
unsigned totalsz = DL.getTypeAllocSize(Ty);		unsigned totalsz = DL.getTypeAllocSize(Ty);
unsigned retAlignment = 0;		unsigned retAlignment = 0;
▲ Show 20 Lines • Show All 958 Lines • ▼ Show 20 Lines	else if (NumBits <= 64) {
std::string name = "u";		std::string name = "u";
return name + utostr(NumBits);		return name + utostr(NumBits);
} else {		} else {
llvm_unreachable("Integer too large");		llvm_unreachable("Integer too large");
break;		break;
}		}
break;		break;
}		}
		case Type::HalfTyID:
		// fp16 is stored as .b16 for compatibility with pre-sm_53 PTX assembly.
		return "b16";
case Type::FloatTyID:		case Type::FloatTyID:
return "f32";		return "f32";
case Type::DoubleTyID:		case Type::DoubleTyID:
return "f64";		return "f64";
case Type::PointerTyID:		case Type::PointerTyID:
if (static_cast<const NVPTXTargetMachine &>(TM).is64Bit())		if (static_cast<const NVPTXTargetMachine &>(TM).is64Bit())
if (useB4PTR)		if (useB4PTR)
return "b64";		return "b64";
▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines	if (!PAL.hasAttribute(paramIndex + 1, Attribute::ByVal)) {
// and .reg .b<size> for non-ABI		// and .reg .b<size> for non-ABI
unsigned sz = 0;		unsigned sz = 0;
if (isa<IntegerType>(Ty)) {		if (isa<IntegerType>(Ty)) {
sz = cast<IntegerType>(Ty)->getBitWidth();		sz = cast<IntegerType>(Ty)->getBitWidth();
if (sz < 32)		if (sz < 32)
sz = 32;		sz = 32;
} else if (isa<PointerType>(Ty))		} else if (isa<PointerType>(Ty))
sz = thePointerTy.getSizeInBits();		sz = thePointerTy.getSizeInBits();
		else if (Ty->isHalfTy())
		// PTX ABI requires all scalar parameters to be at least 32
		// bits in size. fp16 normally uses .b16 as its storage type
		// in PTX, so its size must be adjusted here, too.
		sz = 32;
else		else
sz = Ty->getPrimitiveSizeInBits();		sz = Ty->getPrimitiveSizeInBits();
if (isABI)		if (isABI)
O << "\t.param .b" << sz << " ";		O << "\t.param .b" << sz << " ";
else		else
O << "\t.reg .b" << sz << " ";		O << "\t.reg .b" << sz << " ";
printParamName(I, paramIndex, O);		printParamName(I, paramIndex, O);
continue;		continue;
▲ Show 20 Lines • Show All 806 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelDAGToDAG.h

Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	#include "NVPTXGenDAGISel.inc"
bool tryStoreVector(SDNode *N);		bool tryStoreVector(SDNode *N);
bool tryLoadParam(SDNode *N);		bool tryLoadParam(SDNode *N);
bool tryStoreRetval(SDNode *N);		bool tryStoreRetval(SDNode *N);
bool tryStoreParam(SDNode *N);		bool tryStoreParam(SDNode *N);
void SelectAddrSpaceCast(SDNode *N);		void SelectAddrSpaceCast(SDNode *N);
bool tryTextureIntrinsic(SDNode *N);		bool tryTextureIntrinsic(SDNode *N);
bool trySurfaceIntrinsic(SDNode *N);		bool trySurfaceIntrinsic(SDNode *N);
bool tryBFE(SDNode *N);		bool tryBFE(SDNode *N);
		bool tryConstantFP16(SDNode *N);

inline SDValue getI32Imm(unsigned Imm, const SDLoc &DL) {		inline SDValue getI32Imm(unsigned Imm, const SDLoc &DL) {
return CurDAG->getTargetConstant(Imm, DL, MVT::i32);		return CurDAG->getTargetConstant(Imm, DL, MVT::i32);
}		}

// Match direct address complex pattern.		// Match direct address complex pattern.
bool SelectDirectAddr(SDValue N, SDValue &Address);		bool SelectDirectAddr(SDValue N, SDValue &Address);

Show All 21 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp

Show All 36 Lines	UsePrecSqrtF32("nvptx-prec-sqrtf32", cl::Hidden,
cl::desc("NVPTX Specific: 0 use sqrt.approx, 1 use sqrt.rn."),		cl::desc("NVPTX Specific: 0 use sqrt.approx, 1 use sqrt.rn."),
cl::init(true));		cl::init(true));

static cl::opt<bool>		static cl::opt<bool>
FtzEnabled("nvptx-f32ftz", cl::ZeroOrMore, cl::Hidden,		FtzEnabled("nvptx-f32ftz", cl::ZeroOrMore, cl::Hidden,
cl::desc("NVPTX Specific: Flush f32 subnormals to sign-preserving zero."),		cl::desc("NVPTX Specific: Flush f32 subnormals to sign-preserving zero."),
cl::init(false));		cl::init(false));


/// createNVPTXISelDag - This pass converts a legalized DAG into a		/// createNVPTXISelDag - This pass converts a legalized DAG into a
/// NVPTX-specific DAG, ready for instruction scheduling.		/// NVPTX-specific DAG, ready for instruction scheduling.
FunctionPass *llvm::createNVPTXISelDag(NVPTXTargetMachine &TM,		FunctionPass *llvm::createNVPTXISelDag(NVPTXTargetMachine &TM,
llvm::CodeGenOpt::Level OptLevel) {		llvm::CodeGenOpt::Level OptLevel) {
return new NVPTXDAGToDAGISel(TM, OptLevel);		return new NVPTXDAGToDAGISel(TM, OptLevel);
}		}

NVPTXDAGToDAGISel::NVPTXDAGToDAGISel(NVPTXTargetMachine &tm,		NVPTXDAGToDAGISel::NVPTXDAGToDAGISel(NVPTXTargetMachine &tm,
▲ Show 20 Lines • Show All 461 Lines • ▼ Show 20 Lines	void NVPTXDAGToDAGISel::Select(SDNode *N) {
case ISD::SRL:		case ISD::SRL:
// Try to select BFE		// Try to select BFE
if (tryBFE(N))		if (tryBFE(N))
return;		return;
break;		break;
case ISD::ADDRSPACECAST:		case ISD::ADDRSPACECAST:
SelectAddrSpaceCast(N);		SelectAddrSpaceCast(N);
return;		return;
		case ISD::ConstantFP:
		if (tryConstantFP16(N))
		return;
		break;
default:		default:
break;		break;
}		}
SelectCode(N);		SelectCode(N);
}		}

bool NVPTXDAGToDAGISel::tryIntrinsicChain(SDNode *N) {		bool NVPTXDAGToDAGISel::tryIntrinsicChain(SDNode *N) {
unsigned IID = cast<ConstantSDNode>(N->getOperand(1))->getZExtValue();		unsigned IID = cast<ConstantSDNode>(N->getOperand(1))->getZExtValue();
switch (IID) {		switch (IID) {
default:		default:
return false;		return false;
case Intrinsic::nvvm_ldg_global_f:		case Intrinsic::nvvm_ldg_global_f:
case Intrinsic::nvvm_ldg_global_i:		case Intrinsic::nvvm_ldg_global_i:
case Intrinsic::nvvm_ldg_global_p:		case Intrinsic::nvvm_ldg_global_p:
case Intrinsic::nvvm_ldu_global_f:		case Intrinsic::nvvm_ldu_global_f:
case Intrinsic::nvvm_ldu_global_i:		case Intrinsic::nvvm_ldu_global_i:
case Intrinsic::nvvm_ldu_global_p:		case Intrinsic::nvvm_ldu_global_p:
return tryLDGLDU(N);		return tryLDGLDU(N);
}		}
}		}

		// There's no way to specify FP16 immediates in .f16 ops, so we have to
		// load them into an .f16 register first.
		bool NVPTXDAGToDAGISel::tryConstantFP16(SDNode *N) {
		if (N->getValueType(0) != MVT::f16)
		return false;
		SDValue Val = CurDAG->getTargetConstantFP(
		cast<ConstantFPSDNode>(N)->getValueAPF(), SDLoc(N), MVT::f16);
		SDNode *LoadConstF16 =
		CurDAG->getMachineNode(NVPTX::LOAD_CONST_F16, SDLoc(N), MVT::f16, Val);
		ReplaceNode(N, LoadConstF16);
		return true;
		}

static unsigned int getCodeAddrSpace(MemSDNode *N) {		static unsigned int getCodeAddrSpace(MemSDNode *N) {
const Value *Src = N->getMemOperand()->getValue();		const Value *Src = N->getMemOperand()->getValue();

if (!Src)		if (!Src)
return NVPTX::PTXLdStInstCode::GENERIC;		return NVPTX::PTXLdStInstCode::GENERIC;

if (auto *PT = dyn_cast<PointerType>(Src->getType())) {		if (auto *PT = dyn_cast<PointerType>(Src->getType())) {
switch (PT->getAddressSpace()) {		switch (PT->getAddressSpace()) {
▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	bool NVPTXDAGToDAGISel::tryLoad(SDNode *N) {
// Float : ISD::NON_EXTLOAD or ISD::EXTLOAD and the type is float		// Float : ISD::NON_EXTLOAD or ISD::EXTLOAD and the type is float
MVT ScalarVT = SimpleVT.getScalarType();		MVT ScalarVT = SimpleVT.getScalarType();
// Read at least 8 bits (predicates are stored as 8-bit values)		// Read at least 8 bits (predicates are stored as 8-bit values)
unsigned fromTypeWidth = std::max(8U, ScalarVT.getSizeInBits());		unsigned fromTypeWidth = std::max(8U, ScalarVT.getSizeInBits());
unsigned int fromType;		unsigned int fromType;
if ((LD->getExtensionType() == ISD::SEXTLOAD))		if ((LD->getExtensionType() == ISD::SEXTLOAD))
fromType = NVPTX::PTXLdStInstCode::Signed;		fromType = NVPTX::PTXLdStInstCode::Signed;
else if (ScalarVT.isFloatingPoint())		else if (ScalarVT.isFloatingPoint())
fromType = NVPTX::PTXLdStInstCode::Float;		// f16 uses .b16 as its storage type.
		fromType = ScalarVT.SimpleTy == MVT::f16 ? NVPTX::PTXLdStInstCode::Untyped
		: NVPTX::PTXLdStInstCode::Float;
else		else
fromType = NVPTX::PTXLdStInstCode::Unsigned;		fromType = NVPTX::PTXLdStInstCode::Unsigned;

// Create the machine instruction DAG		// Create the machine instruction DAG
SDValue Chain = N->getOperand(0);		SDValue Chain = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
SDValue Addr;		SDValue Addr;
SDValue Offset, Base;		SDValue Offset, Base;
Show All 9 Lines	case MVT::i16:
Opcode = NVPTX::LD_i16_avar;		Opcode = NVPTX::LD_i16_avar;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_avar;		Opcode = NVPTX::LD_i32_avar;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_avar;		Opcode = NVPTX::LD_i64_avar;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_avar;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_avar;		Opcode = NVPTX::LD_f32_avar;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_avar;		Opcode = NVPTX::LD_f64_avar;
break;		break;
default:		default:
return false;		return false;
Show All 12 Lines	case MVT::i16:
Opcode = NVPTX::LD_i16_asi;		Opcode = NVPTX::LD_i16_asi;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_asi;		Opcode = NVPTX::LD_i32_asi;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_asi;		Opcode = NVPTX::LD_i64_asi;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_asi;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_asi;		Opcode = NVPTX::LD_f32_asi;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_asi;		Opcode = NVPTX::LD_f64_asi;
break;		break;
default:		default:
return false;		return false;
Show All 13 Lines	if (TM.is64Bit()) {
Opcode = NVPTX::LD_i16_ari_64;		Opcode = NVPTX::LD_i16_ari_64;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_ari_64;		Opcode = NVPTX::LD_i32_ari_64;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_ari_64;		Opcode = NVPTX::LD_i64_ari_64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_ari_64;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_ari_64;		Opcode = NVPTX::LD_f32_ari_64;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_ari_64;		Opcode = NVPTX::LD_f64_ari_64;
break;		break;
default:		default:
return false;		return false;
}		}
} else {		} else {
switch (TargetVT) {		switch (TargetVT) {
case MVT::i8:		case MVT::i8:
Opcode = NVPTX::LD_i8_ari;		Opcode = NVPTX::LD_i8_ari;
break;		break;
case MVT::i16:		case MVT::i16:
Opcode = NVPTX::LD_i16_ari;		Opcode = NVPTX::LD_i16_ari;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_ari;		Opcode = NVPTX::LD_i32_ari;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_ari;		Opcode = NVPTX::LD_i64_ari;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_ari;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_ari;		Opcode = NVPTX::LD_f32_ari;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_ari;		Opcode = NVPTX::LD_f64_ari;
break;		break;
default:		default:
return false;		return false;
Show All 13 Lines	if (TM.is64Bit()) {
Opcode = NVPTX::LD_i16_areg_64;		Opcode = NVPTX::LD_i16_areg_64;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_areg_64;		Opcode = NVPTX::LD_i32_areg_64;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_areg_64;		Opcode = NVPTX::LD_i64_areg_64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_areg_64;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_areg_64;		Opcode = NVPTX::LD_f32_areg_64;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_areg_64;		Opcode = NVPTX::LD_f64_areg_64;
break;		break;
default:		default:
return false;		return false;
}		}
} else {		} else {
switch (TargetVT) {		switch (TargetVT) {
case MVT::i8:		case MVT::i8:
Opcode = NVPTX::LD_i8_areg;		Opcode = NVPTX::LD_i8_areg;
break;		break;
case MVT::i16:		case MVT::i16:
Opcode = NVPTX::LD_i16_areg;		Opcode = NVPTX::LD_i16_areg;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::LD_i32_areg;		Opcode = NVPTX::LD_i32_areg;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::LD_i64_areg;		Opcode = NVPTX::LD_i64_areg;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::LD_f16_areg;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::LD_f32_areg;		Opcode = NVPTX::LD_f32_areg;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::LD_f64_areg;		Opcode = NVPTX::LD_f64_areg;
break;		break;
default:		default:
return false;		return false;
▲ Show 20 Lines • Show All 1,259 Lines • ▼ Show 20 Lines	bool NVPTXDAGToDAGISel::tryStore(SDNode *N) {

// Type Setting: toType + toTypeWidth		// Type Setting: toType + toTypeWidth
// - for integer type, always use 'u'		// - for integer type, always use 'u'
//		//
MVT ScalarVT = SimpleVT.getScalarType();		MVT ScalarVT = SimpleVT.getScalarType();
unsigned toTypeWidth = ScalarVT.getSizeInBits();		unsigned toTypeWidth = ScalarVT.getSizeInBits();
unsigned int toType;		unsigned int toType;
if (ScalarVT.isFloatingPoint())		if (ScalarVT.isFloatingPoint())
toType = NVPTX::PTXLdStInstCode::Float;		// f16 uses .b16 as its storage type.
		toType = ScalarVT.SimpleTy == MVT::f16 ? NVPTX::PTXLdStInstCode::Untyped
		: NVPTX::PTXLdStInstCode::Float;
else		else
toType = NVPTX::PTXLdStInstCode::Unsigned;		toType = NVPTX::PTXLdStInstCode::Unsigned;

// Create the machine instruction DAG		// Create the machine instruction DAG
SDValue Chain = N->getOperand(0);		SDValue Chain = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
SDValue N2 = N->getOperand(2);		SDValue N2 = N->getOperand(2);
SDValue Addr;		SDValue Addr;
Show All 10 Lines	case MVT::i16:
Opcode = NVPTX::ST_i16_avar;		Opcode = NVPTX::ST_i16_avar;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_avar;		Opcode = NVPTX::ST_i32_avar;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_avar;		Opcode = NVPTX::ST_i64_avar;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_avar;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_avar;		Opcode = NVPTX::ST_f32_avar;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_avar;		Opcode = NVPTX::ST_f64_avar;
break;		break;
default:		default:
return false;		return false;
Show All 13 Lines	case MVT::i16:
Opcode = NVPTX::ST_i16_asi;		Opcode = NVPTX::ST_i16_asi;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_asi;		Opcode = NVPTX::ST_i32_asi;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_asi;		Opcode = NVPTX::ST_i64_asi;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_asi;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_asi;		Opcode = NVPTX::ST_f32_asi;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_asi;		Opcode = NVPTX::ST_f64_asi;
break;		break;
default:		default:
return false;		return false;
Show All 14 Lines	if (TM.is64Bit()) {
Opcode = NVPTX::ST_i16_ari_64;		Opcode = NVPTX::ST_i16_ari_64;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_ari_64;		Opcode = NVPTX::ST_i32_ari_64;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_ari_64;		Opcode = NVPTX::ST_i64_ari_64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_ari_64;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_ari_64;		Opcode = NVPTX::ST_f32_ari_64;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_ari_64;		Opcode = NVPTX::ST_f64_ari_64;
break;		break;
default:		default:
return false;		return false;
}		}
} else {		} else {
switch (SourceVT) {		switch (SourceVT) {
case MVT::i8:		case MVT::i8:
Opcode = NVPTX::ST_i8_ari;		Opcode = NVPTX::ST_i8_ari;
break;		break;
case MVT::i16:		case MVT::i16:
Opcode = NVPTX::ST_i16_ari;		Opcode = NVPTX::ST_i16_ari;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_ari;		Opcode = NVPTX::ST_i32_ari;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_ari;		Opcode = NVPTX::ST_i64_ari;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_ari;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_ari;		Opcode = NVPTX::ST_f32_ari;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_ari;		Opcode = NVPTX::ST_f64_ari;
break;		break;
default:		default:
return false;		return false;
Show All 14 Lines	if (TM.is64Bit()) {
Opcode = NVPTX::ST_i16_areg_64;		Opcode = NVPTX::ST_i16_areg_64;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_areg_64;		Opcode = NVPTX::ST_i32_areg_64;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_areg_64;		Opcode = NVPTX::ST_i64_areg_64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_areg_64;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_areg_64;		Opcode = NVPTX::ST_f32_areg_64;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_areg_64;		Opcode = NVPTX::ST_f64_areg_64;
break;		break;
default:		default:
return false;		return false;
}		}
} else {		} else {
switch (SourceVT) {		switch (SourceVT) {
case MVT::i8:		case MVT::i8:
Opcode = NVPTX::ST_i8_areg;		Opcode = NVPTX::ST_i8_areg;
break;		break;
case MVT::i16:		case MVT::i16:
Opcode = NVPTX::ST_i16_areg;		Opcode = NVPTX::ST_i16_areg;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::ST_i32_areg;		Opcode = NVPTX::ST_i32_areg;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::ST_i64_areg;		Opcode = NVPTX::ST_i64_areg;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::ST_f16_areg;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::ST_f32_areg;		Opcode = NVPTX::ST_f32_areg;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::ST_f64_areg;		Opcode = NVPTX::ST_f64_areg;
break;		break;
default:		default:
return false;		return false;
▲ Show 20 Lines • Show All 435 Lines • ▼ Show 20 Lines	case MVT::i16:
Opc = NVPTX::LoadParamMemI16;		Opc = NVPTX::LoadParamMemI16;
break;		break;
case MVT::i32:		case MVT::i32:
Opc = NVPTX::LoadParamMemI32;		Opc = NVPTX::LoadParamMemI32;
break;		break;
case MVT::i64:		case MVT::i64:
Opc = NVPTX::LoadParamMemI64;		Opc = NVPTX::LoadParamMemI64;
break;		break;
		case MVT::f16:
		Opc = NVPTX::LoadParamMemF16;
		break;
case MVT::f32:		case MVT::f32:
Opc = NVPTX::LoadParamMemF32;		Opc = NVPTX::LoadParamMemF32;
break;		break;
case MVT::f64:		case MVT::f64:
Opc = NVPTX::LoadParamMemF64;		Opc = NVPTX::LoadParamMemF64;
break;		break;
}		}
break;		break;
▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines	case MVT::i16:
Opcode = NVPTX::StoreRetvalI16;		Opcode = NVPTX::StoreRetvalI16;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::StoreRetvalI32;		Opcode = NVPTX::StoreRetvalI32;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::StoreRetvalI64;		Opcode = NVPTX::StoreRetvalI64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::StoreRetvalF16;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::StoreRetvalF32;		Opcode = NVPTX::StoreRetvalF32;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::StoreRetvalF64;		Opcode = NVPTX::StoreRetvalF64;
break;		break;
}		}
break;		break;
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines	case 1:
Opcode = NVPTX::StoreParamI16;		Opcode = NVPTX::StoreParamI16;
break;		break;
case MVT::i32:		case MVT::i32:
Opcode = NVPTX::StoreParamI32;		Opcode = NVPTX::StoreParamI32;
break;		break;
case MVT::i64:		case MVT::i64:
Opcode = NVPTX::StoreParamI64;		Opcode = NVPTX::StoreParamI64;
break;		break;
		case MVT::f16:
		Opcode = NVPTX::StoreParamF16;
		break;
case MVT::f32:		case MVT::f32:
Opcode = NVPTX::StoreParamF32;		Opcode = NVPTX::StoreParamF32;
break;		break;
case MVT::f64:		case MVT::f64:
Opcode = NVPTX::StoreParamF64;		Opcode = NVPTX::StoreParamF64;
break;		break;
}		}
break;		break;
▲ Show 20 Lines • Show All 2,200 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelLowering.h

Show First 20 Lines • Show All 522 Lines • ▼ Show 20 Lines	private:

SDValue LowerCONCAT_VECTORS(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerCONCAT_VECTORS(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerLOAD(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerLOAD(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerLOADi1(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerLOADi1(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerSTOREi1(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTOREi1(SDValue Op, SelectionDAG &DAG) const;
		SDValue LowerSTOREf16(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerSTOREVector(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTOREVector(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerShiftRightParts(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerShiftRightParts(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerShiftLeftParts(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerShiftLeftParts(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerSelect(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSelect(SDValue Op, SelectionDAG &DAG) const;

void ReplaceNodeResults(SDNode *N, SmallVectorImpl<SDValue> &Results,		void ReplaceNodeResults(SDNode *N, SmallVectorImpl<SDValue> &Results,
Show All 10 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelLowering.cpp

Show First 20 Lines • Show All 158 Lines • ▼ Show 20 Lines	else
setSchedulingPreference(Sched::Source);		setSchedulingPreference(Sched::Source);

addRegisterClass(MVT::i1, &NVPTX::Int1RegsRegClass);		addRegisterClass(MVT::i1, &NVPTX::Int1RegsRegClass);
addRegisterClass(MVT::i16, &NVPTX::Int16RegsRegClass);		addRegisterClass(MVT::i16, &NVPTX::Int16RegsRegClass);
addRegisterClass(MVT::i32, &NVPTX::Int32RegsRegClass);		addRegisterClass(MVT::i32, &NVPTX::Int32RegsRegClass);
addRegisterClass(MVT::i64, &NVPTX::Int64RegsRegClass);		addRegisterClass(MVT::i64, &NVPTX::Int64RegsRegClass);
addRegisterClass(MVT::f32, &NVPTX::Float32RegsRegClass);		addRegisterClass(MVT::f32, &NVPTX::Float32RegsRegClass);
addRegisterClass(MVT::f64, &NVPTX::Float64RegsRegClass);		addRegisterClass(MVT::f64, &NVPTX::Float64RegsRegClass);
		addRegisterClass(MVT::f16, &NVPTX::Float16RegsRegClass);

		setOperationAction(ISD::SETCC, MVT::f16,
		STI.allowFP16Math() ? Legal : Promote);

// Operations not directly supported by NVPTX.		// Operations not directly supported by NVPTX.
		setOperationAction(ISD::SELECT_CC, MVT::f16,
		STI.allowFP16Math() ? Expand : Promote);
setOperationAction(ISD::SELECT_CC, MVT::f32, Expand);		setOperationAction(ISD::SELECT_CC, MVT::f32, Expand);
setOperationAction(ISD::SELECT_CC, MVT::f64, Expand);		setOperationAction(ISD::SELECT_CC, MVT::f64, Expand);
setOperationAction(ISD::SELECT_CC, MVT::i1, Expand);		setOperationAction(ISD::SELECT_CC, MVT::i1, Expand);
setOperationAction(ISD::SELECT_CC, MVT::i8, Expand);		setOperationAction(ISD::SELECT_CC, MVT::i8, Expand);
setOperationAction(ISD::SELECT_CC, MVT::i16, Expand);		setOperationAction(ISD::SELECT_CC, MVT::i16, Expand);
setOperationAction(ISD::SELECT_CC, MVT::i32, Expand);		setOperationAction(ISD::SELECT_CC, MVT::i32, Expand);
setOperationAction(ISD::SELECT_CC, MVT::i64, Expand);		setOperationAction(ISD::SELECT_CC, MVT::i64, Expand);
		setOperationAction(ISD::BR_CC, MVT::f16,
		STI.allowFP16Math() ? Expand : Promote);
setOperationAction(ISD::BR_CC, MVT::f32, Expand);		setOperationAction(ISD::BR_CC, MVT::f32, Expand);
setOperationAction(ISD::BR_CC, MVT::f64, Expand);		setOperationAction(ISD::BR_CC, MVT::f64, Expand);
setOperationAction(ISD::BR_CC, MVT::i1, Expand);		setOperationAction(ISD::BR_CC, MVT::i1, Expand);
setOperationAction(ISD::BR_CC, MVT::i8, Expand);		setOperationAction(ISD::BR_CC, MVT::i8, Expand);
setOperationAction(ISD::BR_CC, MVT::i16, Expand);		setOperationAction(ISD::BR_CC, MVT::i16, Expand);
setOperationAction(ISD::BR_CC, MVT::i32, Expand);		setOperationAction(ISD::BR_CC, MVT::i32, Expand);
setOperationAction(ISD::BR_CC, MVT::i64, Expand);		setOperationAction(ISD::BR_CC, MVT::i64, Expand);
// Some SIGN_EXTEND_INREG can be done using cvt instruction.		// Some SIGN_EXTEND_INREG can be done using cvt instruction.
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	for (MVT VT : MVT::integer_valuetypes()) {
setLoadExtAction(ISD::SEXTLOAD, VT, MVT::i1, Promote);		setLoadExtAction(ISD::SEXTLOAD, VT, MVT::i1, Promote);
setLoadExtAction(ISD::ZEXTLOAD, VT, MVT::i1, Promote);		setLoadExtAction(ISD::ZEXTLOAD, VT, MVT::i1, Promote);
setTruncStoreAction(VT, MVT::i1, Expand);		setTruncStoreAction(VT, MVT::i1, Expand);
}		}

// This is legal in NVPTX		// This is legal in NVPTX
setOperationAction(ISD::ConstantFP, MVT::f64, Legal);		setOperationAction(ISD::ConstantFP, MVT::f64, Legal);
setOperationAction(ISD::ConstantFP, MVT::f32, Legal);		setOperationAction(ISD::ConstantFP, MVT::f32, Legal);
		setOperationAction(ISD::ConstantFP, MVT::f16, Legal);

// TRAP can be lowered to PTX trap		// TRAP can be lowered to PTX trap
setOperationAction(ISD::TRAP, MVT::Other, Legal);		setOperationAction(ISD::TRAP, MVT::Other, Legal);

setOperationAction(ISD::ADDC, MVT::i64, Expand);		setOperationAction(ISD::ADDC, MVT::i64, Expand);
setOperationAction(ISD::ADDE, MVT::i64, Expand);		setOperationAction(ISD::ADDE, MVT::i64, Expand);

// Register custom handling for vector loads/stores		// Register custom handling for vector loads/stores
Show All 30 Lines	NVPTXTargetLowering::NVPTXTargetLowering(const NVPTXTargetMachine &TM,
setTargetDAGCombine(ISD::AND);		setTargetDAGCombine(ISD::AND);
setTargetDAGCombine(ISD::FADD);		setTargetDAGCombine(ISD::FADD);
setTargetDAGCombine(ISD::MUL);		setTargetDAGCombine(ISD::MUL);
setTargetDAGCombine(ISD::SHL);		setTargetDAGCombine(ISD::SHL);
setTargetDAGCombine(ISD::SELECT);		setTargetDAGCombine(ISD::SELECT);
setTargetDAGCombine(ISD::SREM);		setTargetDAGCombine(ISD::SREM);
setTargetDAGCombine(ISD::UREM);		setTargetDAGCombine(ISD::UREM);

		if (!STI.allowFP16Math()) {
		// Promote fp16 arithmetic if fp16 hardware isn't available or the
		// user passed --nvptx-no-fp16-math. The flag is useful because,
		// although sm_53+ GPUs have some sort of FP16 support in
		// hardware, only sm_53 and sm_60 have full implementation. Others
		// only have token amount of hardware and are likely to run faster
		// by using fp32 units instead.
		setOperationAction(ISD::FADD, MVT::f16, Promote);
		setOperationAction(ISD::FMUL, MVT::f16, Promote);
		setOperationAction(ISD::FSUB, MVT::f16, Promote);
		setOperationAction(ISD::FMA, MVT::f16, Promote);
		}

// Library functions. These default to Expand, but we have instructions		// Library functions. These default to Expand, but we have instructions
// for them.		// for them.
		setOperationAction(ISD::FCEIL, MVT::f16, Legal);
setOperationAction(ISD::FCEIL, MVT::f32, Legal);		setOperationAction(ISD::FCEIL, MVT::f32, Legal);
setOperationAction(ISD::FCEIL, MVT::f64, Legal);		setOperationAction(ISD::FCEIL, MVT::f64, Legal);
		setOperationAction(ISD::FFLOOR, MVT::f16, Legal);
setOperationAction(ISD::FFLOOR, MVT::f32, Legal);		setOperationAction(ISD::FFLOOR, MVT::f32, Legal);
setOperationAction(ISD::FFLOOR, MVT::f64, Legal);		setOperationAction(ISD::FFLOOR, MVT::f64, Legal);
setOperationAction(ISD::FNEARBYINT, MVT::f32, Legal);		setOperationAction(ISD::FNEARBYINT, MVT::f32, Legal);
setOperationAction(ISD::FNEARBYINT, MVT::f64, Legal);		setOperationAction(ISD::FNEARBYINT, MVT::f64, Legal);
		setOperationAction(ISD::FRINT, MVT::f16, Legal);
setOperationAction(ISD::FRINT, MVT::f32, Legal);		setOperationAction(ISD::FRINT, MVT::f32, Legal);
setOperationAction(ISD::FRINT, MVT::f64, Legal);		setOperationAction(ISD::FRINT, MVT::f64, Legal);
		setOperationAction(ISD::FROUND, MVT::f16, Legal);
setOperationAction(ISD::FROUND, MVT::f32, Legal);		setOperationAction(ISD::FROUND, MVT::f32, Legal);
setOperationAction(ISD::FROUND, MVT::f64, Legal);		setOperationAction(ISD::FROUND, MVT::f64, Legal);
		setOperationAction(ISD::FTRUNC, MVT::f16, Legal);
setOperationAction(ISD::FTRUNC, MVT::f32, Legal);		setOperationAction(ISD::FTRUNC, MVT::f32, Legal);
setOperationAction(ISD::FTRUNC, MVT::f64, Legal);		setOperationAction(ISD::FTRUNC, MVT::f64, Legal);
setOperationAction(ISD::FMINNUM, MVT::f32, Legal);		setOperationAction(ISD::FMINNUM, MVT::f32, Legal);
setOperationAction(ISD::FMINNUM, MVT::f64, Legal);		setOperationAction(ISD::FMINNUM, MVT::f64, Legal);
setOperationAction(ISD::FMAXNUM, MVT::f32, Legal);		setOperationAction(ISD::FMAXNUM, MVT::f32, Legal);
setOperationAction(ISD::FMAXNUM, MVT::f64, Legal);		setOperationAction(ISD::FMAXNUM, MVT::f64, Legal);

		// 'Expand' implements FCOPYSIGN without calling an external library.
		setOperationAction(ISD::FCOPYSIGN, MVT::f16, Expand);
		setOperationAction(ISD::FCOPYSIGN, MVT::f32, Expand);
		setOperationAction(ISD::FCOPYSIGN, MVT::f64, Expand);

		// FP16 does not support these nodes in hardware, but we can perform
		// these ops using single-precision hardware.
		setOperationAction(ISD::FDIV, MVT::f16, Promote);
		setOperationAction(ISD::FREM, MVT::f16, Promote);
		setOperationAction(ISD::FSQRT, MVT::f16, Promote);
		setOperationAction(ISD::FSIN, MVT::f16, Promote);
		setOperationAction(ISD::FCOS, MVT::f16, Promote);
		setOperationAction(ISD::FABS, MVT::f16, Promote);
		setOperationAction(ISD::FMINNUM, MVT::f16, Promote);
		setOperationAction(ISD::FMAXNUM, MVT::f16, Promote);
		setOperationAction(ISD::FMINNAN, MVT::f16, Promote);
		setOperationAction(ISD::FMAXNAN, MVT::f16, Promote);

// No FEXP2, FLOG2. The PTX ex2 and log2 functions are always approximate.		// No FEXP2, FLOG2. The PTX ex2 and log2 functions are always approximate.
// No FPOW or FREM in PTX.		// No FPOW or FREM in PTX.

// Now deduce the information based on the above mentioned		// Now deduce the information based on the above mentioned
// actions		// actions
computeRegisterProperties(STI.getRegisterInfo());		computeRegisterProperties(STI.getRegisterInfo());
}		}

▲ Show 20 Lines • Show All 627 Lines • ▼ Show 20 Lines	std::string NVPTXTargetLowering::getPrototype(
if (retTy->getTypeID() == Type::VoidTyID) {		if (retTy->getTypeID() == Type::VoidTyID) {
O << "()";		O << "()";
} else {		} else {
O << "(";		O << "(";
if (retTy->isFloatingPointTy() \|\| retTy->isIntegerTy()) {		if (retTy->isFloatingPointTy() \|\| retTy->isIntegerTy()) {
unsigned size = 0;		unsigned size = 0;
if (auto *ITy = dyn_cast<IntegerType>(retTy)) {		if (auto *ITy = dyn_cast<IntegerType>(retTy)) {
size = ITy->getBitWidth();		size = ITy->getBitWidth();
if (size < 32)
size = 32;
} else {		} else {
assert(retTy->isFloatingPointTy() &&		assert(retTy->isFloatingPointTy() &&
"Floating point type expected here");		"Floating point type expected here");
size = retTy->getPrimitiveSizeInBits();		size = retTy->getPrimitiveSizeInBits();
}		}
		// PTX ABI requires all scalar return values to be at least 32
		// bits in size. fp16 normally uses .b16 as its storage type in
		// PTX, so its size must be adjusted here, too.
		if (size < 32)
		size = 32;

O << ".param .b" << size << " _";		O << ".param .b" << size << " _";
} else if (isa<PointerType>(retTy)) {		} else if (isa<PointerType>(retTy)) {
O << ".param .b" << PtrVT.getSizeInBits() << " _";		O << ".param .b" << PtrVT.getSizeInBits() << " _";
} else if ((retTy->getTypeID() == Type::StructTyID) \|\|		} else if (retTy->isAggregateType() \|\| retTy->isVectorTy()) {
isa<VectorType>(retTy)) {
auto &DL = CS->getCalledFunction()->getParent()->getDataLayout();		auto &DL = CS->getCalledFunction()->getParent()->getDataLayout();
O << ".param .align " << retAlignment << " .b8 _["		O << ".param .align " << retAlignment << " .b8 _["
<< DL.getTypeAllocSize(retTy) << "]";		<< DL.getTypeAllocSize(retTy) << "]";
} else {		} else {
llvm_unreachable("Unknown return type");		llvm_unreachable("Unknown return type");
}		}
O << ") ";		O << ") ";
}		}
Show All 22 Lines	if (!Outs[OIdx].Flags.isByVal()) {
O << "[" << sz << "]";		O << "[" << sz << "]";
// update the index for Outs		// update the index for Outs
SmallVector<EVT, 16> vtparts;		SmallVector<EVT, 16> vtparts;
ComputeValueVTs(*this, DL, Ty, vtparts);		ComputeValueVTs(*this, DL, Ty, vtparts);
if (unsigned len = vtparts.size())		if (unsigned len = vtparts.size())
OIdx += len - 1;		OIdx += len - 1;
continue;		continue;
}		}
// i8 types in IR will be i16 types in SDAG		// i8 types in IR will be i16 types in SDAG
assert((getValueType(DL, Ty) == Outs[OIdx].VT \|\|		assert((getValueType(DL, Ty) == Outs[OIdx].VT \|\|
(getValueType(DL, Ty) == MVT::i8 && Outs[OIdx].VT == MVT::i16)) &&		(getValueType(DL, Ty) == MVT::i8 && Outs[OIdx].VT == MVT::i16)) &&
"type mismatch between callee prototype and arguments");		"type mismatch between callee prototype and arguments");
// scalar type		// scalar type
unsigned sz = 0;		unsigned sz = 0;
if (isa<IntegerType>(Ty)) {		if (isa<IntegerType>(Ty)) {
sz = cast<IntegerType>(Ty)->getBitWidth();		sz = cast<IntegerType>(Ty)->getBitWidth();
if (sz < 32)		if (sz < 32)
sz = 32;		sz = 32;
} else if (isa<PointerType>(Ty))		} else if (isa<PointerType>(Ty)) {
sz = PtrVT.getSizeInBits();		sz = PtrVT.getSizeInBits();
		} else if (Ty->isHalfTy())
		// PTX ABI requires all scalar parameters to be at least 32
		// bits in size. fp16 normally uses .b16 as its storage type
		// in PTX, so its size must be adjusted here, too.
		sz = 32;
else		else
sz = Ty->getPrimitiveSizeInBits();		sz = Ty->getPrimitiveSizeInBits();
O << ".param .b" << sz << " ";		O << ".param .b" << sz << " ";
O << "_";		O << "_";
continue;		continue;
}		}
auto *PTy = dyn_cast<PointerType>(Ty);		auto *PTy = dyn_cast<PointerType>(Ty);
assert(PTy && "Param with byval attribute should be a pointer type");		assert(PTy && "Param with byval attribute should be a pointer type");
▲ Show 20 Lines • Show All 294 Lines • ▼ Show 20 Lines	if (!Outs[OIdx].Flags.isByVal()) {
// for ABI, declare .param .b<size> .param<n>;		// for ABI, declare .param .b<size> .param<n>;
unsigned sz = VT.getSizeInBits();		unsigned sz = VT.getSizeInBits();
bool needExtend = false;		bool needExtend = false;
if (VT.isInteger()) {		if (VT.isInteger()) {
if (sz < 16)		if (sz < 16)
needExtend = true;		needExtend = true;
if (sz < 32)		if (sz < 32)
sz = 32;		sz = 32;
}		} else if (VT.isFloatingPoint() && sz < 32)
		// PTX ABI requires all scalar parameters to be at least 32
		// bits in size. fp16 normally uses .b16 as its storage type
		// in PTX, so its size must be adjusted here, too.
		sz = 32;
SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);		SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
SDValue DeclareParamOps[] = { Chain,		SDValue DeclareParamOps[] = { Chain,
DAG.getConstant(paramCount, dl, MVT::i32),		DAG.getConstant(paramCount, dl, MVT::i32),
DAG.getConstant(sz, dl, MVT::i32),		DAG.getConstant(sz, dl, MVT::i32),
DAG.getConstant(0, dl, MVT::i32), InFlag };		DAG.getConstant(0, dl, MVT::i32), InFlag };
Chain = DAG.getNode(NVPTXISD::DeclareScalarParam, dl, DeclareParamVTs,		Chain = DAG.getNode(NVPTXISD::DeclareScalarParam, dl, DeclareParamVTs,
DeclareParamOps);		DeclareParamOps);
InFlag = Chain.getValue(1);		InFlag = Chain.getValue(1);
▲ Show 20 Lines • Show All 595 Lines • ▼ Show 20 Lines	SDValue NVPTXTargetLowering::LowerLOADi1(SDValue Op, SelectionDAG &DAG) const {
// load, so we build a MergeValues node for it. See ExpandUnalignedLoad()		// load, so we build a MergeValues node for it. See ExpandUnalignedLoad()
// in LegalizeDAG.cpp which also uses MergeValues.		// in LegalizeDAG.cpp which also uses MergeValues.
SDValue Ops[] = { result, LD->getChain() };		SDValue Ops[] = { result, LD->getChain() };
return DAG.getMergeValues(Ops, dl);		return DAG.getMergeValues(Ops, dl);
}		}

SDValue NVPTXTargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {		SDValue NVPTXTargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
EVT ValVT = Op.getOperand(1).getValueType();		EVT ValVT = Op.getOperand(1).getValueType();
if (ValVT == MVT::i1)		switch (ValVT.getSimpleVT().SimpleTy) {
		case MVT::i1:
return LowerSTOREi1(Op, DAG);		return LowerSTOREi1(Op, DAG);
else if (ValVT.isVector())		default:
		if (ValVT.isVector())
return LowerSTOREVector(Op, DAG);		return LowerSTOREVector(Op, DAG);
else		else
return SDValue();		return SDValue();
}		}
		}

SDValue		SDValue
NVPTXTargetLowering::LowerSTOREVector(SDValue Op, SelectionDAG &DAG) const {		NVPTXTargetLowering::LowerSTOREVector(SDValue Op, SelectionDAG &DAG) const {
SDNode *N = Op.getNode();		SDNode *N = Op.getNode();
SDValue Val = N->getOperand(1);		SDValue Val = N->getOperand(1);
SDLoc DL(N);		SDLoc DL(N);
EVT ValVT = Val.getValueType();		EVT ValVT = Val.getValueType();

▲ Show 20 Lines • Show All 582 Lines • ▼ Show 20 Lines	for (unsigned i = 0, e = Outs.size(); i != e; ++i) {
TheValType.getVectorElementType(), TmpVal,		TheValType.getVectorElementType(), TmpVal,
DAG.getIntPtrConstant(j, dl));		DAG.getIntPtrConstant(j, dl));
EVT TheStoreType = ValVTs[i];		EVT TheStoreType = ValVTs[i];
if (RetTy->isIntegerTy() && TD.getTypeAllocSizeInBits(RetTy) < 32) {		if (RetTy->isIntegerTy() && TD.getTypeAllocSizeInBits(RetTy) < 32) {
// The following zero-extension is for integer types only, and		// The following zero-extension is for integer types only, and
// specifically not for aggregates.		// specifically not for aggregates.
TmpVal = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i32, TmpVal);		TmpVal = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i32, TmpVal);
TheStoreType = MVT::i32;		TheStoreType = MVT::i32;
}		} else if (RetTy->isHalfTy()) {
else if (TmpVal.getValueSizeInBits() < 16)		TheStoreType = MVT::f16;
		} else if (TmpVal.getValueSizeInBits() < 16)
TmpVal = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i16, TmpVal);		TmpVal = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i16, TmpVal);

SDValue Ops[] = {		SDValue Ops[] = {
Chain,		Chain,
DAG.getConstant(Offsets[i], dl, MVT::i32),		DAG.getConstant(Offsets[i], dl, MVT::i32),
TmpVal };		TmpVal };
Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreRetval, dl,		Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreRetval, dl,
DAG.getVTList(MVT::Other), Ops,		DAG.getVTList(MVT::Other), Ops,
▲ Show 20 Lines • Show All 2,092 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXInstrInfo.cpp

Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	void NVPTXInstrInfo::copyPhysReg(MachineBasicBlock &MBB,
} else if (DestRC == &NVPTX::Int16RegsRegClass) {		} else if (DestRC == &NVPTX::Int16RegsRegClass) {
Op = NVPTX::IMOV16rr;		Op = NVPTX::IMOV16rr;
} else if (DestRC == &NVPTX::Int32RegsRegClass) {		} else if (DestRC == &NVPTX::Int32RegsRegClass) {
Op = (SrcRC == &NVPTX::Int32RegsRegClass ? NVPTX::IMOV32rr		Op = (SrcRC == &NVPTX::Int32RegsRegClass ? NVPTX::IMOV32rr
: NVPTX::BITCONVERT_32_F2I);		: NVPTX::BITCONVERT_32_F2I);
} else if (DestRC == &NVPTX::Int64RegsRegClass) {		} else if (DestRC == &NVPTX::Int64RegsRegClass) {
Op = (SrcRC == &NVPTX::Int64RegsRegClass ? NVPTX::IMOV64rr		Op = (SrcRC == &NVPTX::Int64RegsRegClass ? NVPTX::IMOV64rr
: NVPTX::BITCONVERT_64_F2I);		: NVPTX::BITCONVERT_64_F2I);
		} else if (DestRC == &NVPTX::Float16RegsRegClass) {
		Op = (SrcRC == &NVPTX::Float16RegsRegClass ? NVPTX::FMOV16rr
		: NVPTX::BITCONVERT_16_I2F);
} else if (DestRC == &NVPTX::Float32RegsRegClass) {		} else if (DestRC == &NVPTX::Float32RegsRegClass) {
Op = (SrcRC == &NVPTX::Float32RegsRegClass ? NVPTX::FMOV32rr		Op = (SrcRC == &NVPTX::Float32RegsRegClass ? NVPTX::FMOV32rr
: NVPTX::BITCONVERT_32_I2F);		: NVPTX::BITCONVERT_32_I2F);
} else if (DestRC == &NVPTX::Float64RegsRegClass) {		} else if (DestRC == &NVPTX::Float64RegsRegClass) {
Op = (SrcRC == &NVPTX::Float64RegsRegClass ? NVPTX::FMOV64rr		Op = (SrcRC == &NVPTX::Float64RegsRegClass ? NVPTX::FMOV64rr
: NVPTX::BITCONVERT_64_I2F);		: NVPTX::BITCONVERT_64_I2F);
} else {		} else {
llvm_unreachable("Bad register copy");		llvm_unreachable("Bad register copy");
▲ Show 20 Lines • Show All 186 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXInstrInfo.td

Show All 12 Lines

include "NVPTXInstrFormats.td"		include "NVPTXInstrFormats.td"

// A NOP instruction		// A NOP instruction
let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
def NOP : NVPTXInst<(outs), (ins), "", []>;		def NOP : NVPTXInst<(outs), (ins), "", []>;
}		}

		let OperandType = "OPERAND_IMMEDIATE" in {
		def f16imm : Operand<f16>;
		}

// List of vector specific properties		// List of vector specific properties
def isVecLD : VecInstTypeEnum<1>;		def isVecLD : VecInstTypeEnum<1>;
def isVecST : VecInstTypeEnum<2>;		def isVecST : VecInstTypeEnum<2>;
def isVecBuild : VecInstTypeEnum<3>;		def isVecBuild : VecInstTypeEnum<3>;
def isVecShuffle : VecInstTypeEnum<4>;		def isVecShuffle : VecInstTypeEnum<4>;
def isVecExtract : VecInstTypeEnum<5>;		def isVecExtract : VecInstTypeEnum<5>;
def isVecInsert : VecInstTypeEnum<6>;		def isVecInsert : VecInstTypeEnum<6>;
def isVecDest : VecInstTypeEnum<7>;		def isVecDest : VecInstTypeEnum<7>;
▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines

def hasHWROT32 : Predicate<"Subtarget->hasHWROT32()">;		def hasHWROT32 : Predicate<"Subtarget->hasHWROT32()">;
def noHWROT32 : Predicate<"!Subtarget->hasHWROT32()">;		def noHWROT32 : Predicate<"!Subtarget->hasHWROT32()">;

def true : Predicate<"true">;		def true : Predicate<"true">;

def hasPTX31 : Predicate<"Subtarget->getPTXVersion() >= 31">;		def hasPTX31 : Predicate<"Subtarget->getPTXVersion() >= 31">;

		def useFP16Math: Predicate<"Subtarget->allowFP16Math()">;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Some Common Instruction Class Templates		// Some Common Instruction Class Templates
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// Template for instructions which take three int64, int32, or int16 args.		// Template for instructions which take three int64, int32, or int16 args.
// The instructions are named "<OpcStr><Width>" (e.g. "add.s64").		// The instructions are named "<OpcStr><Width>" (e.g. "add.s64").
multiclass I3<string OpcStr, SDNode OpNode> {		multiclass I3<string OpcStr, SDNode OpNode> {
▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	NVPTXInst<(outs Float32Regs:$dst),
[(set Float32Regs:$dst, (OpNode Float32Regs:$a, Float32Regs:$b))]>;		[(set Float32Regs:$dst, (OpNode Float32Regs:$a, Float32Regs:$b))]>;
def f32ri :		def f32ri :
NVPTXInst<(outs Float32Regs:$dst),		NVPTXInst<(outs Float32Regs:$dst),
(ins Float32Regs:$a, f32imm:$b),		(ins Float32Regs:$a, f32imm:$b),
!strconcat(OpcStr, ".f32 \t$dst, $a, $b;"),		!strconcat(OpcStr, ".f32 \t$dst, $a, $b;"),
[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>;		[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>;
}		}

// Template for instructions which take three fp64 or fp32 args. The		// Template for instructions which take three FP args. The
// instructions are named "<OpcStr>.f<Width>" (e.g. "add.f64").		// instructions are named "<OpcStr>.f<Width>" (e.g. "add.f64").
//		//
// Also defines ftz (flush subnormal inputs and results to sign-preserving		// Also defines ftz (flush subnormal inputs and results to sign-preserving
// zero) variants for fp32 functions.		// zero) variants for fp32/fp16 functions.
//		//
// This multiclass should be used for nodes that can be folded to make fma ops.		// This multiclass should be used for nodes that can be folded to make fma ops.
// In this case, we use the ".rn" variant when FMA is disabled, as this behaves		// In this case, we use the ".rn" variant when FMA is disabled, as this behaves
// just like the non ".rn" op, but prevents ptxas from creating FMAs.		// just like the non ".rn" op, but prevents ptxas from creating FMAs.
multiclass F3_fma_component<string OpcStr, SDNode OpNode> {		multiclass F3_fma_component<string OpcStr, SDNode OpNode> {
def f64rr :		def f64rr :
NVPTXInst<(outs Float64Regs:$dst),		NVPTXInst<(outs Float64Regs:$dst),
(ins Float64Regs:$a, Float64Regs:$b),		(ins Float64Regs:$a, Float64Regs:$b),
Show All 26 Lines	NVPTXInst<(outs Float32Regs:$dst),
Requires<[allowFMA]>;		Requires<[allowFMA]>;
def f32ri :		def f32ri :
NVPTXInst<(outs Float32Regs:$dst),		NVPTXInst<(outs Float32Regs:$dst),
(ins Float32Regs:$a, f32imm:$b),		(ins Float32Regs:$a, f32imm:$b),
!strconcat(OpcStr, ".f32 \t$dst, $a, $b;"),		!strconcat(OpcStr, ".f32 \t$dst, $a, $b;"),
[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>,		[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>,
Requires<[allowFMA]>;		Requires<[allowFMA]>;

		def f16rr_ftz :
		NVPTXInst<(outs Float16Regs:$dst),
		(ins Float16Regs:$a, Float16Regs:$b),
		!strconcat(OpcStr, ".ftz.f16 \t$dst, $a, $b;"),
		[(set Float16Regs:$dst, (OpNode Float16Regs:$a, Float16Regs:$b))]>,
		Requires<[useFP16Math, allowFMA, doF32FTZ]>;
		def f16rr :
		NVPTXInst<(outs Float16Regs:$dst),
		(ins Float16Regs:$a, Float16Regs:$b),
		!strconcat(OpcStr, ".f16 \t$dst, $a, $b;"),
		[(set Float16Regs:$dst, (OpNode Float16Regs:$a, Float16Regs:$b))]>,
		Requires<[useFP16Math, allowFMA]>;

// These have strange names so we don't perturb existing mir tests.		// These have strange names so we don't perturb existing mir tests.
def _rnf64rr :		def _rnf64rr :
NVPTXInst<(outs Float64Regs:$dst),		NVPTXInst<(outs Float64Regs:$dst),
(ins Float64Regs:$a, Float64Regs:$b),		(ins Float64Regs:$a, Float64Regs:$b),
!strconcat(OpcStr, ".rn.f64 \t$dst, $a, $b;"),		!strconcat(OpcStr, ".rn.f64 \t$dst, $a, $b;"),
[(set Float64Regs:$dst, (OpNode Float64Regs:$a, Float64Regs:$b))]>,		[(set Float64Regs:$dst, (OpNode Float64Regs:$a, Float64Regs:$b))]>,
Requires<[noFMA]>;		Requires<[noFMA]>;
def _rnf64ri :		def _rnf64ri :
Show All 21 Lines	NVPTXInst<(outs Float32Regs:$dst),
[(set Float32Regs:$dst, (OpNode Float32Regs:$a, Float32Regs:$b))]>,		[(set Float32Regs:$dst, (OpNode Float32Regs:$a, Float32Regs:$b))]>,
Requires<[noFMA]>;		Requires<[noFMA]>;
def _rnf32ri :		def _rnf32ri :
NVPTXInst<(outs Float32Regs:$dst),		NVPTXInst<(outs Float32Regs:$dst),
(ins Float32Regs:$a, f32imm:$b),		(ins Float32Regs:$a, f32imm:$b),
!strconcat(OpcStr, ".rn.f32 \t$dst, $a, $b;"),		!strconcat(OpcStr, ".rn.f32 \t$dst, $a, $b;"),
[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>,		[(set Float32Regs:$dst, (OpNode Float32Regs:$a, fpimm:$b))]>,
Requires<[noFMA]>;		Requires<[noFMA]>;
		def _rnf16rr_ftz :
		NVPTXInst<(outs Float16Regs:$dst),
		(ins Float16Regs:$a, Float16Regs:$b),
		!strconcat(OpcStr, ".rn.ftz.f16 \t$dst, $a, $b;"),
		[(set Float16Regs:$dst, (OpNode Float16Regs:$a, Float16Regs:$b))]>,
		Requires<[useFP16Math, noFMA, doF32FTZ]>;
		def _rnf16rr :
		NVPTXInst<(outs Float16Regs:$dst),
		(ins Float16Regs:$a, Float16Regs:$b),
		!strconcat(OpcStr, ".rn.f16 \t$dst, $a, $b;"),
		[(set Float16Regs:$dst, (OpNode Float16Regs:$a, Float16Regs:$b))]>,
		Requires<[useFP16Math, noFMA]>;
}		}

// Template for operations which take two f32 or f64 operands. Provides three		// Template for operations which take two f32 or f64 operands. Provides three
// instructions: <OpcStr>.f64, <OpcStr>.f32, and <OpcStr>.ftz.f32 (flush		// instructions: <OpcStr>.f64, <OpcStr>.f32, and <OpcStr>.ftz.f32 (flush
// subnormal inputs and results to zero).		// subnormal inputs and results to zero).
multiclass F2<string OpcStr, SDNode OpNode> {		multiclass F2<string OpcStr, SDNode OpNode> {
def f64 : NVPTXInst<(outs Float64Regs:$dst), (ins Float64Regs:$a),		def f64 : NVPTXInst<(outs Float64Regs:$dst), (ins Float64Regs:$a),
!strconcat(OpcStr, ".f64 \t$dst, $a;"),		!strconcat(OpcStr, ".f64 \t$dst, $a;"),
Show All 35 Lines	def _s16 :
(ins Int16Regs:$src, CvtMode:$mode),		(ins Int16Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".s16\t$dst, $src;"), []>;		FromName, ".s16\t$dst, $src;"), []>;
def _u16 :		def _u16 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Int16Regs:$src, CvtMode:$mode),		(ins Int16Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".u16\t$dst, $src;"), []>;		FromName, ".u16\t$dst, $src;"), []>;
def _f16 :
NVPTXInst<(outs RC:$dst),
(ins Int16Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".f16\t$dst, $src;"), []>;
def _s32 :		def _s32 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Int32Regs:$src, CvtMode:$mode),		(ins Int32Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".s32\t$dst, $src;"), []>;		FromName, ".s32\t$dst, $src;"), []>;
def _u32 :		def _u32 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Int32Regs:$src, CvtMode:$mode),		(ins Int32Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".u32\t$dst, $src;"), []>;		FromName, ".u32\t$dst, $src;"), []>;
def _s64 :		def _s64 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Int64Regs:$src, CvtMode:$mode),		(ins Int64Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".s64\t$dst, $src;"), []>;		FromName, ".s64\t$dst, $src;"), []>;
def _u64 :		def _u64 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Int64Regs:$src, CvtMode:$mode),		(ins Int64Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".u64\t$dst, $src;"), []>;		FromName, ".u64\t$dst, $src;"), []>;
		def _f16 :
		NVPTXInst<(outs RC:$dst),
		(ins Float16Regs:$src, CvtMode:$mode),
		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
		FromName, ".f16\t$dst, $src;"), []>;
def _f32 :		def _f32 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Float32Regs:$src, CvtMode:$mode),		(ins Float32Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".f32\t$dst, $src;"), []>;		FromName, ".f32\t$dst, $src;"), []>;
def _f64 :		def _f64 :
NVPTXInst<(outs RC:$dst),		NVPTXInst<(outs RC:$dst),
(ins Float64Regs:$src, CvtMode:$mode),		(ins Float64Regs:$src, CvtMode:$mode),
!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",		!strconcat("cvt${mode:base}${mode:ftz}${mode:sat}.",
FromName, ".f64\t$dst, $src;"), []>;		FromName, ".f64\t$dst, $src;"), []>;
}		}

// Generate cvts from all types to all types.		// Generate cvts from all types to all types.
defm CVT_s8 : CVT_FROM_ALL<"s8", Int16Regs>;		defm CVT_s8 : CVT_FROM_ALL<"s8", Int16Regs>;
defm CVT_u8 : CVT_FROM_ALL<"u8", Int16Regs>;		defm CVT_u8 : CVT_FROM_ALL<"u8", Int16Regs>;
defm CVT_s16 : CVT_FROM_ALL<"s16", Int16Regs>;		defm CVT_s16 : CVT_FROM_ALL<"s16", Int16Regs>;
defm CVT_u16 : CVT_FROM_ALL<"u16", Int16Regs>;		defm CVT_u16 : CVT_FROM_ALL<"u16", Int16Regs>;
defm CVT_f16 : CVT_FROM_ALL<"f16", Int16Regs>;
defm CVT_s32 : CVT_FROM_ALL<"s32", Int32Regs>;		defm CVT_s32 : CVT_FROM_ALL<"s32", Int32Regs>;
defm CVT_u32 : CVT_FROM_ALL<"u32", Int32Regs>;		defm CVT_u32 : CVT_FROM_ALL<"u32", Int32Regs>;
defm CVT_s64 : CVT_FROM_ALL<"s64", Int64Regs>;		defm CVT_s64 : CVT_FROM_ALL<"s64", Int64Regs>;
defm CVT_u64 : CVT_FROM_ALL<"u64", Int64Regs>;		defm CVT_u64 : CVT_FROM_ALL<"u64", Int64Regs>;
		defm CVT_f16 : CVT_FROM_ALL<"f16", Float16Regs>;
defm CVT_f32 : CVT_FROM_ALL<"f32", Float32Regs>;		defm CVT_f32 : CVT_FROM_ALL<"f32", Float32Regs>;
defm CVT_f64 : CVT_FROM_ALL<"f64", Float64Regs>;		defm CVT_f64 : CVT_FROM_ALL<"f64", Float64Regs>;

// These cvts are different from those above: The source and dest registers		// These cvts are different from those above: The source and dest registers
// are of the same type.		// are of the same type.
def CVT_INREG_s16_s8 : NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$src),		def CVT_INREG_s16_s8 : NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$src),
"cvt.s16.s8 \t$dst, $src;", []>;		"cvt.s16.s8 \t$dst, $src;", []>;
def CVT_INREG_s32_s8 : NVPTXInst<(outs Int32Regs:$dst), (ins Int32Regs:$src),		def CVT_INREG_s32_s8 : NVPTXInst<(outs Int32Regs:$dst), (ins Int32Regs:$src),
▲ Show 20 Lines • Show All 311 Lines • ▼ Show 20 Lines	return &N->getValueAPF().getSemantics() == &llvm::APFloat::IEEEsingle() &&
N->getValueAPF().convertToFloat() == 1.0f;		N->getValueAPF().convertToFloat() == 1.0f;
}]>;		}]>;
// Constant 1.0 (double)		// Constant 1.0 (double)
def DoubleConst1 : PatLeaf<(fpimm), [{		def DoubleConst1 : PatLeaf<(fpimm), [{
return &N->getValueAPF().getSemantics() == &llvm::APFloat::IEEEdouble() &&		return &N->getValueAPF().getSemantics() == &llvm::APFloat::IEEEdouble() &&
N->getValueAPF().convertToDouble() == 1.0;		N->getValueAPF().convertToDouble() == 1.0;
}]>;		}]>;

		// Loads FP16 constant into a register.
		//
		// ptxas does not have hex representation for fp16, so we can't use
		// fp16 immediate values in .f16 instructions. Instead we have to load
		// the constant into a register using mov.b16.
		def LOAD_CONST_F16 :
		NVPTXInst<(outs Float16Regs:$dst), (ins f16imm:$a),
		"mov.b16 \t$dst, $a;", []>;

defm FADD : F3_fma_component<"add", fadd>;		defm FADD : F3_fma_component<"add", fadd>;
defm FSUB : F3_fma_component<"sub", fsub>;		defm FSUB : F3_fma_component<"sub", fsub>;
defm FMUL : F3_fma_component<"mul", fmul>;		defm FMUL : F3_fma_component<"mul", fmul>;

defm FMIN : F3<"min", fminnum>;		defm FMIN : F3<"min", fminnum>;
defm FMAX : F3<"max", fmaxnum>;		defm FMAX : F3<"max", fmaxnum>;

defm FABS : F2<"abs", fabs>;		defm FABS : F2<"abs", fabs>;
▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines	def rir : NVPTXInst<(outs RC:$dst),
Requires<[Pred]>;		Requires<[Pred]>;
def rii : NVPTXInst<(outs RC:$dst),		def rii : NVPTXInst<(outs RC:$dst),
(ins RC:$a, ImmCls:$b, ImmCls:$c),		(ins RC:$a, ImmCls:$b, ImmCls:$c),
!strconcat(OpcStr, " \t$dst, $a, $b, $c;"),		!strconcat(OpcStr, " \t$dst, $a, $b, $c;"),
[(set RC:$dst, (fma RC:$a, fpimm:$b, fpimm:$c))]>,		[(set RC:$dst, (fma RC:$a, fpimm:$b, fpimm:$c))]>,
Requires<[Pred]>;		Requires<[Pred]>;
}		}

		multiclass FMA_F16<string OpcStr, RegisterClass RC, Operand ImmCls, Predicate Pred> {
		def rrr : NVPTXInst<(outs RC:$dst), (ins RC:$a, RC:$b, RC:$c),
		!strconcat(OpcStr, " \t$dst, $a, $b, $c;"),
		[(set RC:$dst, (fma RC:$a, RC:$b, RC:$c))]>,
		Requires<[useFP16Math, Pred]>;
		}

		defm FMA16_ftz : FMA_F16<"fma.rn.ftz.f16", Float16Regs, f16imm, doF32FTZ>;
		defm FMA16 : FMA_F16<"fma.rn.f16", Float16Regs, f16imm, true>;
defm FMA32_ftz : FMA<"fma.rn.ftz.f32", Float32Regs, f32imm, doF32FTZ>;		defm FMA32_ftz : FMA<"fma.rn.ftz.f32", Float32Regs, f32imm, doF32FTZ>;
defm FMA32 : FMA<"fma.rn.f32", Float32Regs, f32imm, true>;		defm FMA32 : FMA<"fma.rn.f32", Float32Regs, f32imm, true>;
defm FMA64 : FMA<"fma.rn.f64", Float64Regs, f64imm, true>;		defm FMA64 : FMA<"fma.rn.f64", Float64Regs, f64imm, true>;

// sin/cos		// sin/cos
def SINF: NVPTXInst<(outs Float32Regs:$dst), (ins Float32Regs:$src),		def SINF: NVPTXInst<(outs Float32Regs:$dst), (ins Float32Regs:$src),
"sin.approx.f32 \t$dst, $src;",		"sin.approx.f32 \t$dst, $src;",
[(set Float32Regs:$dst, (fsin Float32Regs:$src))]>,		[(set Float32Regs:$dst, (fsin Float32Regs:$src))]>,
▲ Show 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
defm SETP_b32 : SETP<"b32", Int32Regs, i32imm>;		defm SETP_b32 : SETP<"b32", Int32Regs, i32imm>;
defm SETP_s32 : SETP<"s32", Int32Regs, i32imm>;		defm SETP_s32 : SETP<"s32", Int32Regs, i32imm>;
defm SETP_u32 : SETP<"u32", Int32Regs, i32imm>;		defm SETP_u32 : SETP<"u32", Int32Regs, i32imm>;
defm SETP_b64 : SETP<"b64", Int64Regs, i64imm>;		defm SETP_b64 : SETP<"b64", Int64Regs, i64imm>;
defm SETP_s64 : SETP<"s64", Int64Regs, i64imm>;		defm SETP_s64 : SETP<"s64", Int64Regs, i64imm>;
defm SETP_u64 : SETP<"u64", Int64Regs, i64imm>;		defm SETP_u64 : SETP<"u64", Int64Regs, i64imm>;
defm SETP_f32 : SETP<"f32", Float32Regs, f32imm>;		defm SETP_f32 : SETP<"f32", Float32Regs, f32imm>;
defm SETP_f64 : SETP<"f64", Float64Regs, f64imm>;		defm SETP_f64 : SETP<"f64", Float64Regs, f64imm>;
		def SETP_f16rr :
		NVPTXInst<(outs Int1Regs:$dst),
		(ins Float16Regs:$a, Float16Regs:$b, CmpMode:$cmp),
		"setp${cmp:base}${cmp:ftz}.f16 $dst, $a, $b;",
		[]>, Requires<[useFP16Math]>;

// FIXME: This doesn't appear to be correct. The "set" mnemonic has the form		// FIXME: This doesn't appear to be correct. The "set" mnemonic has the form
// "set.CmpOp{.ftz}.dtype.stype", where dtype is the type of the destination		// "set.CmpOp{.ftz}.dtype.stype", where dtype is the type of the destination
// reg, either u32, s32, or f32. Anyway these aren't used at the moment.		// reg, either u32, s32, or f32. Anyway these aren't used at the moment.

let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
multiclass SET<string TypeStr, RegisterClass RC, Operand ImmCls> {		multiclass SET<string TypeStr, RegisterClass RC, Operand ImmCls> {
def rr : NVPTXInst<(outs Int32Regs:$dst),		def rr : NVPTXInst<(outs Int32Regs:$dst),
Show All 12 Lines
defm SET_s16 : SET<"s16", Int16Regs, i16imm>;		defm SET_s16 : SET<"s16", Int16Regs, i16imm>;
defm SET_u16 : SET<"u16", Int16Regs, i16imm>;		defm SET_u16 : SET<"u16", Int16Regs, i16imm>;
defm SET_b32 : SET<"b32", Int32Regs, i32imm>;		defm SET_b32 : SET<"b32", Int32Regs, i32imm>;
defm SET_s32 : SET<"s32", Int32Regs, i32imm>;		defm SET_s32 : SET<"s32", Int32Regs, i32imm>;
defm SET_u32 : SET<"u32", Int32Regs, i32imm>;		defm SET_u32 : SET<"u32", Int32Regs, i32imm>;
defm SET_b64 : SET<"b64", Int64Regs, i64imm>;		defm SET_b64 : SET<"b64", Int64Regs, i64imm>;
defm SET_s64 : SET<"s64", Int64Regs, i64imm>;		defm SET_s64 : SET<"s64", Int64Regs, i64imm>;
defm SET_u64 : SET<"u64", Int64Regs, i64imm>;		defm SET_u64 : SET<"u64", Int64Regs, i64imm>;
		defm SET_f16 : SET<"f16", Float16Regs, f16imm>;
defm SET_f32 : SET<"f32", Float32Regs, f32imm>;		defm SET_f32 : SET<"f32", Float32Regs, f32imm>;
defm SET_f64 : SET<"f64", Float64Regs, f64imm>;		defm SET_f64 : SET<"f64", Float64Regs, f64imm>;

//-----------------------------------		//-----------------------------------
// Selection instructions (selp)		// Selection instructions (selp)
//-----------------------------------		//-----------------------------------

// FIXME: Missing slct		// FIXME: Missing slct
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
defm SELP_s16 : SELP<"s16", Int16Regs, i16imm>;		defm SELP_s16 : SELP<"s16", Int16Regs, i16imm>;
defm SELP_u16 : SELP<"u16", Int16Regs, i16imm>;		defm SELP_u16 : SELP<"u16", Int16Regs, i16imm>;
defm SELP_b32 : SELP_PATTERN<"b32", Int32Regs, i32imm, imm>;		defm SELP_b32 : SELP_PATTERN<"b32", Int32Regs, i32imm, imm>;
defm SELP_s32 : SELP<"s32", Int32Regs, i32imm>;		defm SELP_s32 : SELP<"s32", Int32Regs, i32imm>;
defm SELP_u32 : SELP<"u32", Int32Regs, i32imm>;		defm SELP_u32 : SELP<"u32", Int32Regs, i32imm>;
defm SELP_b64 : SELP_PATTERN<"b64", Int64Regs, i64imm, imm>;		defm SELP_b64 : SELP_PATTERN<"b64", Int64Regs, i64imm, imm>;
defm SELP_s64 : SELP<"s64", Int64Regs, i64imm>;		defm SELP_s64 : SELP<"s64", Int64Regs, i64imm>;
defm SELP_u64 : SELP<"u64", Int64Regs, i64imm>;		defm SELP_u64 : SELP<"u64", Int64Regs, i64imm>;
		defm SELP_f16 : SELP_PATTERN<"b16", Float16Regs, f16imm, fpimm>;
defm SELP_f32 : SELP_PATTERN<"f32", Float32Regs, f32imm, fpimm>;		defm SELP_f32 : SELP_PATTERN<"f32", Float32Regs, f32imm, fpimm>;
defm SELP_f64 : SELP_PATTERN<"f64", Float64Regs, f64imm, fpimm>;		defm SELP_f64 : SELP_PATTERN<"f64", Float64Regs, f64imm, fpimm>;

//-----------------------------------		//-----------------------------------
// Data Movement (Load / Store, Move)		// Data Movement (Load / Store, Move)
//-----------------------------------		//-----------------------------------

def ADDRri : ComplexPattern<i32, 2, "SelectADDRri", [frameindex],		def ADDRri : ComplexPattern<i32, 2, "SelectADDRri", [frameindex],
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	def IMOV1rr : NVPTXInst<(outs Int1Regs:$dst), (ins Int1Regs:$sss),
"mov.pred \t$dst, $sss;", []>;		"mov.pred \t$dst, $sss;", []>;
def IMOV16rr : NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$sss),		def IMOV16rr : NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$sss),
"mov.u16 \t$dst, $sss;", []>;		"mov.u16 \t$dst, $sss;", []>;
def IMOV32rr : NVPTXInst<(outs Int32Regs:$dst), (ins Int32Regs:$sss),		def IMOV32rr : NVPTXInst<(outs Int32Regs:$dst), (ins Int32Regs:$sss),
"mov.u32 \t$dst, $sss;", []>;		"mov.u32 \t$dst, $sss;", []>;
def IMOV64rr : NVPTXInst<(outs Int64Regs:$dst), (ins Int64Regs:$sss),		def IMOV64rr : NVPTXInst<(outs Int64Regs:$dst), (ins Int64Regs:$sss),
"mov.u64 \t$dst, $sss;", []>;		"mov.u64 \t$dst, $sss;", []>;

		def FMOV16rr : NVPTXInst<(outs Float16Regs:$dst), (ins Float16Regs:$src),
		// We have to use .b16 here as there's no mov.f16.
		"mov.b16 \t$dst, $src;", []>;
def FMOV32rr : NVPTXInst<(outs Float32Regs:$dst), (ins Float32Regs:$src),		def FMOV32rr : NVPTXInst<(outs Float32Regs:$dst), (ins Float32Regs:$src),
"mov.f32 \t$dst, $src;", []>;		"mov.f32 \t$dst, $src;", []>;
def FMOV64rr : NVPTXInst<(outs Float64Regs:$dst), (ins Float64Regs:$src),		def FMOV64rr : NVPTXInst<(outs Float64Regs:$dst), (ins Float64Regs:$src),
"mov.f64 \t$dst, $src;", []>;		"mov.f64 \t$dst, $src;", []>;
}		}

def IMOV1ri : NVPTXInst<(outs Int1Regs:$dst), (ins i1imm:$src),		def IMOV1ri : NVPTXInst<(outs Int1Regs:$dst), (ins i1imm:$src),
"mov.pred \t$dst, $src;",		"mov.pred \t$dst, $src;",
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
def : Pat<(i32 (setne Int1Regs:$a, Int1Regs:$b)),		def : Pat<(i32 (setne Int1Regs:$a, Int1Regs:$b)),
(SELP_u32ii -1, 0, (XORb1rr Int1Regs:$a, Int1Regs:$b))>;		(SELP_u32ii -1, 0, (XORb1rr Int1Regs:$a, Int1Regs:$b))>;
def : Pat<(i32 (setne Int1Regs:$a, Int1Regs:$b)),		def : Pat<(i32 (setne Int1Regs:$a, Int1Regs:$b)),
(SELP_u32ii 0, -1, (XORb1rr Int1Regs:$a, Int1Regs:$b))>;		(SELP_u32ii 0, -1, (XORb1rr Int1Regs:$a, Int1Regs:$b))>;



multiclass FSET_FORMAT<PatFrag OpNode, PatLeaf Mode, PatLeaf ModeFTZ> {		multiclass FSET_FORMAT<PatFrag OpNode, PatLeaf Mode, PatLeaf ModeFTZ> {
		// f16 -> pred
		def : Pat<(i1 (OpNode Float16Regs:$a, Float16Regs:$b)),
		(SETP_f16rr Float16Regs:$a, Float16Regs:$b, ModeFTZ)>,
		Requires<[useFP16Math,doF32FTZ]>;
		def : Pat<(i1 (OpNode Float16Regs:$a, Float16Regs:$b)),
		(SETP_f16rr Float16Regs:$a, Float16Regs:$b, Mode)>,
		Requires<[useFP16Math]>;
		def : Pat<(i1 (OpNode Float16Regs:$a, fpimm:$b)),
		(SETP_f16rr Float16Regs:$a, (LOAD_CONST_F16 fpimm:$b), ModeFTZ)>,
		Requires<[useFP16Math,doF32FTZ]>;
		def : Pat<(i1 (OpNode Float16Regs:$a, fpimm:$b)),
		(SETP_f16rr Float16Regs:$a, (LOAD_CONST_F16 fpimm:$b), Mode)>,
		Requires<[useFP16Math]>;
		def : Pat<(i1 (OpNode fpimm:$a, Float16Regs:$b)),
		(SETP_f16rr (LOAD_CONST_F16 fpimm:$a), Float16Regs:$b, ModeFTZ)>,
		Requires<[useFP16Math,doF32FTZ]>;
		def : Pat<(i1 (OpNode fpimm:$a, Float16Regs:$b)),
		(SETP_f16rr (LOAD_CONST_F16 fpimm:$a), Float16Regs:$b, Mode)>,
		Requires<[useFP16Math]>;

// f32 -> pred		// f32 -> pred
def : Pat<(i1 (OpNode Float32Regs:$a, Float32Regs:$b)),		def : Pat<(i1 (OpNode Float32Regs:$a, Float32Regs:$b)),
(SETP_f32rr Float32Regs:$a, Float32Regs:$b, ModeFTZ)>,		(SETP_f32rr Float32Regs:$a, Float32Regs:$b, ModeFTZ)>,
Requires<[doF32FTZ]>;		Requires<[doF32FTZ]>;
def : Pat<(i1 (OpNode Float32Regs:$a, Float32Regs:$b)),		def : Pat<(i1 (OpNode Float32Regs:$a, Float32Regs:$b)),
(SETP_f32rr Float32Regs:$a, Float32Regs:$b, Mode)>;		(SETP_f32rr Float32Regs:$a, Float32Regs:$b, Mode)>;
def : Pat<(i1 (OpNode Float32Regs:$a, fpimm:$b)),		def : Pat<(i1 (OpNode Float32Regs:$a, fpimm:$b)),
(SETP_f32ri Float32Regs:$a, fpimm:$b, ModeFTZ)>,		(SETP_f32ri Float32Regs:$a, fpimm:$b, ModeFTZ)>,
Show All 9 Lines	multiclass FSET_FORMAT<PatFrag OpNode, PatLeaf Mode, PatLeaf ModeFTZ> {
// f64 -> pred		// f64 -> pred
def : Pat<(i1 (OpNode Float64Regs:$a, Float64Regs:$b)),		def : Pat<(i1 (OpNode Float64Regs:$a, Float64Regs:$b)),
(SETP_f64rr Float64Regs:$a, Float64Regs:$b, Mode)>;		(SETP_f64rr Float64Regs:$a, Float64Regs:$b, Mode)>;
def : Pat<(i1 (OpNode Float64Regs:$a, fpimm:$b)),		def : Pat<(i1 (OpNode Float64Regs:$a, fpimm:$b)),
(SETP_f64ri Float64Regs:$a, fpimm:$b, Mode)>;		(SETP_f64ri Float64Regs:$a, fpimm:$b, Mode)>;
def : Pat<(i1 (OpNode fpimm:$a, Float64Regs:$b)),		def : Pat<(i1 (OpNode fpimm:$a, Float64Regs:$b)),
(SETP_f64ir fpimm:$a, Float64Regs:$b, Mode)>;		(SETP_f64ir fpimm:$a, Float64Regs:$b, Mode)>;

		// f16 -> i32
		def : Pat<(i32 (OpNode Float16Regs:$a, Float16Regs:$b)),
		(SET_f16rr Float16Regs:$a, Float16Regs:$b, ModeFTZ)>,
		Requires<[useFP16Math, doF32FTZ]>;
		def : Pat<(i32 (OpNode Float16Regs:$a, Float16Regs:$b)),
		(SET_f16rr Float16Regs:$a, Float16Regs:$b, Mode)>,
		Requires<[useFP16Math]>;
		def : Pat<(i32 (OpNode Float16Regs:$a, fpimm:$b)),
		(SET_f16rr Float16Regs:$a, (LOAD_CONST_F16 fpimm:$b), ModeFTZ)>,
		Requires<[useFP16Math, doF32FTZ]>;
		def : Pat<(i32 (OpNode Float16Regs:$a, fpimm:$b)),
		(SET_f16rr Float16Regs:$a, (LOAD_CONST_F16 fpimm:$b), Mode)>,
		Requires<[useFP16Math]>;
		def : Pat<(i32 (OpNode fpimm:$a, Float16Regs:$b)),
		(SET_f16ir (LOAD_CONST_F16 fpimm:$a), Float16Regs:$b, ModeFTZ)>,
		Requires<[useFP16Math, doF32FTZ]>;
		def : Pat<(i32 (OpNode fpimm:$a, Float16Regs:$b)),
		(SET_f16ir (LOAD_CONST_F16 fpimm:$a), Float16Regs:$b, Mode)>,
		Requires<[useFP16Math]>;

// f32 -> i32		// f32 -> i32
def : Pat<(i32 (OpNode Float32Regs:$a, Float32Regs:$b)),		def : Pat<(i32 (OpNode Float32Regs:$a, Float32Regs:$b)),
(SET_f32rr Float32Regs:$a, Float32Regs:$b, ModeFTZ)>,		(SET_f32rr Float32Regs:$a, Float32Regs:$b, ModeFTZ)>,
Requires<[doF32FTZ]>;		Requires<[doF32FTZ]>;
def : Pat<(i32 (OpNode Float32Regs:$a, Float32Regs:$b)),		def : Pat<(i32 (OpNode Float32Regs:$a, Float32Regs:$b)),
(SET_f32rr Float32Regs:$a, Float32Regs:$b, Mode)>;		(SET_f32rr Float32Regs:$a, Float32Regs:$b, Mode)>;
def : Pat<(i32 (OpNode Float32Regs:$a, fpimm:$b)),		def : Pat<(i32 (OpNode Float32Regs:$a, fpimm:$b)),
(SET_f32ri Float32Regs:$a, fpimm:$b, ModeFTZ)>,		(SET_f32ri Float32Regs:$a, fpimm:$b, ModeFTZ)>,
▲ Show 20 Lines • Show All 267 Lines • ▼ Show 20 Lines
def LoadParamMemI8 : LoadParamMemInst<Int16Regs, ".b8">;		def LoadParamMemI8 : LoadParamMemInst<Int16Regs, ".b8">;
def LoadParamMemV2I64 : LoadParamV2MemInst<Int64Regs, ".b64">;		def LoadParamMemV2I64 : LoadParamV2MemInst<Int64Regs, ".b64">;
def LoadParamMemV2I32 : LoadParamV2MemInst<Int32Regs, ".b32">;		def LoadParamMemV2I32 : LoadParamV2MemInst<Int32Regs, ".b32">;
def LoadParamMemV2I16 : LoadParamV2MemInst<Int16Regs, ".b16">;		def LoadParamMemV2I16 : LoadParamV2MemInst<Int16Regs, ".b16">;
def LoadParamMemV2I8 : LoadParamV2MemInst<Int16Regs, ".b8">;		def LoadParamMemV2I8 : LoadParamV2MemInst<Int16Regs, ".b8">;
def LoadParamMemV4I32 : LoadParamV4MemInst<Int32Regs, ".b32">;		def LoadParamMemV4I32 : LoadParamV4MemInst<Int32Regs, ".b32">;
def LoadParamMemV4I16 : LoadParamV4MemInst<Int16Regs, ".b16">;		def LoadParamMemV4I16 : LoadParamV4MemInst<Int16Regs, ".b16">;
def LoadParamMemV4I8 : LoadParamV4MemInst<Int16Regs, ".b8">;		def LoadParamMemV4I8 : LoadParamV4MemInst<Int16Regs, ".b8">;
		def LoadParamMemF16 : LoadParamMemInst<Float16Regs, ".b16">;
def LoadParamMemF32 : LoadParamMemInst<Float32Regs, ".f32">;		def LoadParamMemF32 : LoadParamMemInst<Float32Regs, ".f32">;
def LoadParamMemF64 : LoadParamMemInst<Float64Regs, ".f64">;		def LoadParamMemF64 : LoadParamMemInst<Float64Regs, ".f64">;
def LoadParamMemV2F32 : LoadParamV2MemInst<Float32Regs, ".f32">;		def LoadParamMemV2F32 : LoadParamV2MemInst<Float32Regs, ".f32">;
def LoadParamMemV2F64 : LoadParamV2MemInst<Float64Regs, ".f64">;		def LoadParamMemV2F64 : LoadParamV2MemInst<Float64Regs, ".f64">;
def LoadParamMemV4F32 : LoadParamV4MemInst<Float32Regs, ".f32">;		def LoadParamMemV4F32 : LoadParamV4MemInst<Float32Regs, ".f32">;

def StoreParamI64 : StoreParamInst<Int64Regs, ".b64">;		def StoreParamI64 : StoreParamInst<Int64Regs, ".b64">;
def StoreParamI32 : StoreParamInst<Int32Regs, ".b32">;		def StoreParamI32 : StoreParamInst<Int32Regs, ".b32">;

def StoreParamI16 : StoreParamInst<Int16Regs, ".b16">;		def StoreParamI16 : StoreParamInst<Int16Regs, ".b16">;
def StoreParamI8 : StoreParamInst<Int16Regs, ".b8">;		def StoreParamI8 : StoreParamInst<Int16Regs, ".b8">;
def StoreParamV2I64 : StoreParamV2Inst<Int64Regs, ".b64">;		def StoreParamV2I64 : StoreParamV2Inst<Int64Regs, ".b64">;
def StoreParamV2I32 : StoreParamV2Inst<Int32Regs, ".b32">;		def StoreParamV2I32 : StoreParamV2Inst<Int32Regs, ".b32">;
def StoreParamV2I16 : StoreParamV2Inst<Int16Regs, ".b16">;		def StoreParamV2I16 : StoreParamV2Inst<Int16Regs, ".b16">;
def StoreParamV2I8 : StoreParamV2Inst<Int16Regs, ".b8">;		def StoreParamV2I8 : StoreParamV2Inst<Int16Regs, ".b8">;

def StoreParamV4I32 : StoreParamV4Inst<Int32Regs, ".b32">;		def StoreParamV4I32 : StoreParamV4Inst<Int32Regs, ".b32">;
def StoreParamV4I16 : StoreParamV4Inst<Int16Regs, ".b16">;		def StoreParamV4I16 : StoreParamV4Inst<Int16Regs, ".b16">;
def StoreParamV4I8 : StoreParamV4Inst<Int16Regs, ".b8">;		def StoreParamV4I8 : StoreParamV4Inst<Int16Regs, ".b8">;

		def StoreParamF16 : StoreParamInst<Float16Regs, ".b16">;
def StoreParamF32 : StoreParamInst<Float32Regs, ".f32">;		def StoreParamF32 : StoreParamInst<Float32Regs, ".f32">;
def StoreParamF64 : StoreParamInst<Float64Regs, ".f64">;		def StoreParamF64 : StoreParamInst<Float64Regs, ".f64">;
def StoreParamV2F32 : StoreParamV2Inst<Float32Regs, ".f32">;		def StoreParamV2F32 : StoreParamV2Inst<Float32Regs, ".f32">;
def StoreParamV2F64 : StoreParamV2Inst<Float64Regs, ".f64">;		def StoreParamV2F64 : StoreParamV2Inst<Float64Regs, ".f64">;
def StoreParamV4F32 : StoreParamV4Inst<Float32Regs, ".f32">;		def StoreParamV4F32 : StoreParamV4Inst<Float32Regs, ".f32">;

def StoreRetvalI64 : StoreRetvalInst<Int64Regs, ".b64">;		def StoreRetvalI64 : StoreRetvalInst<Int64Regs, ".b64">;
def StoreRetvalI32 : StoreRetvalInst<Int32Regs, ".b32">;		def StoreRetvalI32 : StoreRetvalInst<Int32Regs, ".b32">;
def StoreRetvalI16 : StoreRetvalInst<Int16Regs, ".b16">;		def StoreRetvalI16 : StoreRetvalInst<Int16Regs, ".b16">;
def StoreRetvalI8 : StoreRetvalInst<Int16Regs, ".b8">;		def StoreRetvalI8 : StoreRetvalInst<Int16Regs, ".b8">;
def StoreRetvalV2I64 : StoreRetvalV2Inst<Int64Regs, ".b64">;		def StoreRetvalV2I64 : StoreRetvalV2Inst<Int64Regs, ".b64">;
def StoreRetvalV2I32 : StoreRetvalV2Inst<Int32Regs, ".b32">;		def StoreRetvalV2I32 : StoreRetvalV2Inst<Int32Regs, ".b32">;
def StoreRetvalV2I16 : StoreRetvalV2Inst<Int16Regs, ".b16">;		def StoreRetvalV2I16 : StoreRetvalV2Inst<Int16Regs, ".b16">;
def StoreRetvalV2I8 : StoreRetvalV2Inst<Int16Regs, ".b8">;		def StoreRetvalV2I8 : StoreRetvalV2Inst<Int16Regs, ".b8">;
def StoreRetvalV4I32 : StoreRetvalV4Inst<Int32Regs, ".b32">;		def StoreRetvalV4I32 : StoreRetvalV4Inst<Int32Regs, ".b32">;
def StoreRetvalV4I16 : StoreRetvalV4Inst<Int16Regs, ".b16">;		def StoreRetvalV4I16 : StoreRetvalV4Inst<Int16Regs, ".b16">;
def StoreRetvalV4I8 : StoreRetvalV4Inst<Int16Regs, ".b8">;		def StoreRetvalV4I8 : StoreRetvalV4Inst<Int16Regs, ".b8">;

def StoreRetvalF64 : StoreRetvalInst<Float64Regs, ".f64">;		def StoreRetvalF64 : StoreRetvalInst<Float64Regs, ".f64">;
def StoreRetvalF32 : StoreRetvalInst<Float32Regs, ".f32">;		def StoreRetvalF32 : StoreRetvalInst<Float32Regs, ".f32">;
		def StoreRetvalF16 : StoreRetvalInst<Float16Regs, ".b16">;
def StoreRetvalV2F64 : StoreRetvalV2Inst<Float64Regs, ".f64">;		def StoreRetvalV2F64 : StoreRetvalV2Inst<Float64Regs, ".f64">;
def StoreRetvalV2F32 : StoreRetvalV2Inst<Float32Regs, ".f32">;		def StoreRetvalV2F32 : StoreRetvalV2Inst<Float32Regs, ".f32">;
def StoreRetvalV4F32 : StoreRetvalV4Inst<Float32Regs, ".f32">;		def StoreRetvalV4F32 : StoreRetvalV4Inst<Float32Regs, ".f32">;

def CallArgBeginInst : NVPTXInst<(outs), (ins), "(", [(CallArgBegin)]>;		def CallArgBeginInst : NVPTXInst<(outs), (ins), "(", [(CallArgBegin)]>;
def CallArgEndInst1 : NVPTXInst<(outs), (ins), ");", [(CallArgEnd (i32 1))]>;		def CallArgEndInst1 : NVPTXInst<(outs), (ins), ");", [(CallArgEnd (i32 1))]>;
def CallArgEndInst0 : NVPTXInst<(outs), (ins), ")", [(CallArgEnd (i32 0))]>;		def CallArgEndInst0 : NVPTXInst<(outs), (ins), ")", [(CallArgEnd (i32 0))]>;
def RETURNInst : NVPTXInst<(outs), (ins), "ret;", [(RETURNNode)]>;		def RETURNInst : NVPTXInst<(outs), (ins), "ret;", [(RETURNNode)]>;
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
def MoveParamI64 : MoveParamInst<Int64Regs, ".b64">;		def MoveParamI64 : MoveParamInst<Int64Regs, ".b64">;
def MoveParamI32 : MoveParamInst<Int32Regs, ".b32">;		def MoveParamI32 : MoveParamInst<Int32Regs, ".b32">;
def MoveParamI16 :		def MoveParamI16 :
NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$src),		NVPTXInst<(outs Int16Regs:$dst), (ins Int16Regs:$src),
"cvt.u16.u32\t$dst, $src;",		"cvt.u16.u32\t$dst, $src;",
[(set Int16Regs:$dst, (MoveParam Int16Regs:$src))]>;		[(set Int16Regs:$dst, (MoveParam Int16Regs:$src))]>;
def MoveParamF64 : MoveParamInst<Float64Regs, ".f64">;		def MoveParamF64 : MoveParamInst<Float64Regs, ".f64">;
def MoveParamF32 : MoveParamInst<Float32Regs, ".f32">;		def MoveParamF32 : MoveParamInst<Float32Regs, ".f32">;
		def MoveParamF16 : MoveParamInst<Float16Regs, ".f16">;

class PseudoUseParamInst<NVPTXRegClass regclass> :		class PseudoUseParamInst<NVPTXRegClass regclass> :
NVPTXInst<(outs), (ins regclass:$src),		NVPTXInst<(outs), (ins regclass:$src),
"// Pseudo use of $src",		"// Pseudo use of $src",
[(PseudoUseParam regclass:$src)]>;		[(PseudoUseParam regclass:$src)]>;

def PseudoUseParamI64 : PseudoUseParamInst<Int64Regs>;		def PseudoUseParamI64 : PseudoUseParamInst<Int64Regs>;
def PseudoUseParamI32 : PseudoUseParamInst<Int32Regs>;		def PseudoUseParamI32 : PseudoUseParamInst<Int32Regs>;
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	def _asi : NVPTXInst<
"\t$dst, [$addr+$offset];", []>;		"\t$dst, [$addr+$offset];", []>;
}		}

let mayLoad=1, hasSideEffects=0 in {		let mayLoad=1, hasSideEffects=0 in {
defm LD_i8 : LD<Int16Regs>;		defm LD_i8 : LD<Int16Regs>;
defm LD_i16 : LD<Int16Regs>;		defm LD_i16 : LD<Int16Regs>;
defm LD_i32 : LD<Int32Regs>;		defm LD_i32 : LD<Int32Regs>;
defm LD_i64 : LD<Int64Regs>;		defm LD_i64 : LD<Int64Regs>;
		defm LD_f16 : LD<Float16Regs>;
defm LD_f32 : LD<Float32Regs>;		defm LD_f32 : LD<Float32Regs>;
defm LD_f64 : LD<Float64Regs>;		defm LD_f64 : LD<Float64Regs>;
}		}

multiclass ST<NVPTXRegClass regclass> {		multiclass ST<NVPTXRegClass regclass> {
def _avar : NVPTXInst<		def _avar : NVPTXInst<
(outs),		(outs),
(ins regclass:$src, LdStCode:$isVol, LdStCode:$addsp, LdStCode:$Vec,		(ins regclass:$src, LdStCode:$isVol, LdStCode:$addsp, LdStCode:$Vec,
Show All 32 Lines	def _asi : NVPTXInst<
" \t[$addr+$offset], $src;", []>;		" \t[$addr+$offset], $src;", []>;
}		}

let mayStore=1, hasSideEffects=0 in {		let mayStore=1, hasSideEffects=0 in {
defm ST_i8 : ST<Int16Regs>;		defm ST_i8 : ST<Int16Regs>;
defm ST_i16 : ST<Int16Regs>;		defm ST_i16 : ST<Int16Regs>;
defm ST_i32 : ST<Int32Regs>;		defm ST_i32 : ST<Int32Regs>;
defm ST_i64 : ST<Int64Regs>;		defm ST_i64 : ST<Int64Regs>;
		defm ST_f16 : ST<Float16Regs>;
defm ST_f32 : ST<Float32Regs>;		defm ST_f32 : ST<Float32Regs>;
defm ST_f64 : ST<Float64Regs>;		defm ST_f64 : ST<Float64Regs>;
}		}

// The following is used only in and after vector elementizations. Vector		// The following is used only in and after vector elementizations. Vector
// elementization happens at the machine instruction level, so the following		// elementization happens at the machine instruction level, so the following
// instructions never appear in the DAG.		// instructions never appear in the DAG.
multiclass LD_VEC<NVPTXRegClass regclass> {		multiclass LD_VEC<NVPTXRegClass regclass> {
▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
//---- Conversion ----		//---- Conversion ----

class F_BITCONVERT<string SzStr, NVPTXRegClass regclassIn,		class F_BITCONVERT<string SzStr, NVPTXRegClass regclassIn,
NVPTXRegClass regclassOut> :		NVPTXRegClass regclassOut> :
NVPTXInst<(outs regclassOut:$d), (ins regclassIn:$a),		NVPTXInst<(outs regclassOut:$d), (ins regclassIn:$a),
!strconcat("mov.b", !strconcat(SzStr, " \t $d, $a;")),		!strconcat("mov.b", !strconcat(SzStr, " \t $d, $a;")),
[(set regclassOut:$d, (bitconvert regclassIn:$a))]>;		[(set regclassOut:$d, (bitconvert regclassIn:$a))]>;

		def BITCONVERT_16_I2F : F_BITCONVERT<"16", Int16Regs, Float16Regs>;
		def BITCONVERT_16_F2I : F_BITCONVERT<"16", Float16Regs, Int16Regs>;
def BITCONVERT_32_I2F : F_BITCONVERT<"32", Int32Regs, Float32Regs>;		def BITCONVERT_32_I2F : F_BITCONVERT<"32", Int32Regs, Float32Regs>;
def BITCONVERT_32_F2I : F_BITCONVERT<"32", Float32Regs, Int32Regs>;		def BITCONVERT_32_F2I : F_BITCONVERT<"32", Float32Regs, Int32Regs>;
def BITCONVERT_64_I2F : F_BITCONVERT<"64", Int64Regs, Float64Regs>;		def BITCONVERT_64_I2F : F_BITCONVERT<"64", Int64Regs, Float64Regs>;
def BITCONVERT_64_F2I : F_BITCONVERT<"64", Float64Regs, Int64Regs>;		def BITCONVERT_64_F2I : F_BITCONVERT<"64", Float64Regs, Int64Regs>;

// NOTE: pred->fp are currently sub-optimal due to an issue in TableGen where		// NOTE: pred->fp are currently sub-optimal due to an issue in TableGen where
// we cannot specify floating-point literals in isel patterns. Therefore, we		// we cannot specify floating-point literals in isel patterns. Therefore, we
// use an integer selp to select either 1 or 0 and then cvt to floating-point.		// use an integer selp to select either 1 or 0 and then cvt to floating-point.

		// sint -> f16
		def : Pat<(f16 (sint_to_fp Int1Regs:$a)),
		(CVT_f16_s32 (SELP_u32ii 1, 0, Int1Regs:$a), CvtRN)>;
		def : Pat<(f16 (sint_to_fp Int16Regs:$a)),
		(CVT_f16_s16 Int16Regs:$a, CvtRN)>;
		def : Pat<(f16 (sint_to_fp Int32Regs:$a)),
		(CVT_f16_s32 Int32Regs:$a, CvtRN)>;
		def : Pat<(f16 (sint_to_fp Int64Regs:$a)),
		(CVT_f16_s64 Int64Regs:$a, CvtRN)>;

		// uint -> f16
		def : Pat<(f16 (uint_to_fp Int1Regs:$a)),
		(CVT_f16_u32 (SELP_u32ii 1, 0, Int1Regs:$a), CvtRN)>;
		def : Pat<(f16 (uint_to_fp Int16Regs:$a)),
		(CVT_f16_u16 Int16Regs:$a, CvtRN)>;
		def : Pat<(f16 (uint_to_fp Int32Regs:$a)),
		(CVT_f16_u32 Int32Regs:$a, CvtRN)>;
		def : Pat<(f16 (uint_to_fp Int64Regs:$a)),
		(CVT_f16_u64 Int64Regs:$a, CvtRN)>;

// sint -> f32		// sint -> f32
def : Pat<(f32 (sint_to_fp Int1Regs:$a)),		def : Pat<(f32 (sint_to_fp Int1Regs:$a)),
(CVT_f32_s32 (SELP_u32ii 1, 0, Int1Regs:$a), CvtRN)>;		(CVT_f32_s32 (SELP_u32ii 1, 0, Int1Regs:$a), CvtRN)>;
def : Pat<(f32 (sint_to_fp Int16Regs:$a)),		def : Pat<(f32 (sint_to_fp Int16Regs:$a)),
(CVT_f32_s16 Int16Regs:$a, CvtRN)>;		(CVT_f32_s16 Int16Regs:$a, CvtRN)>;
def : Pat<(f32 (sint_to_fp Int32Regs:$a)),		def : Pat<(f32 (sint_to_fp Int32Regs:$a)),
(CVT_f32_s32 Int32Regs:$a, CvtRN)>;		(CVT_f32_s32 Int32Regs:$a, CvtRN)>;
def : Pat<(f32 (sint_to_fp Int64Regs:$a)),		def : Pat<(f32 (sint_to_fp Int64Regs:$a)),
Show All 25 Lines
def : Pat<(f64 (uint_to_fp Int16Regs:$a)),		def : Pat<(f64 (uint_to_fp Int16Regs:$a)),
(CVT_f64_u16 Int16Regs:$a, CvtRN)>;		(CVT_f64_u16 Int16Regs:$a, CvtRN)>;
def : Pat<(f64 (uint_to_fp Int32Regs:$a)),		def : Pat<(f64 (uint_to_fp Int32Regs:$a)),
(CVT_f64_u32 Int32Regs:$a, CvtRN)>;		(CVT_f64_u32 Int32Regs:$a, CvtRN)>;
def : Pat<(f64 (uint_to_fp Int64Regs:$a)),		def : Pat<(f64 (uint_to_fp Int64Regs:$a)),
(CVT_f64_u64 Int64Regs:$a, CvtRN)>;		(CVT_f64_u64 Int64Regs:$a, CvtRN)>;


		// f16 -> sint
		def : Pat<(i1 (fp_to_sint Float16Regs:$a)),
		(SETP_b16ri (BITCONVERT_16_F2I Float16Regs:$a), 0, CmpEQ)>;
		def : Pat<(i16 (fp_to_sint Float16Regs:$a)),
		(CVT_s16_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i16 (fp_to_sint Float16Regs:$a)),
		(CVT_s16_f16 Float16Regs:$a, CvtRZI)>;
		def : Pat<(i32 (fp_to_sint Float16Regs:$a)),
		(CVT_s32_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i32 (fp_to_sint Float16Regs:$a)),
		(CVT_s32_f16 Float16Regs:$a, CvtRZI)>;
		def : Pat<(i64 (fp_to_sint Float16Regs:$a)),
		(CVT_s64_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i64 (fp_to_sint Float16Regs:$a)),
		(CVT_s64_f16 Float16Regs:$a, CvtRZI)>;

		// f16 -> uint
		def : Pat<(i1 (fp_to_uint Float16Regs:$a)),
		(SETP_b16ri (BITCONVERT_16_F2I Float16Regs:$a), 0, CmpEQ)>;
		def : Pat<(i16 (fp_to_uint Float16Regs:$a)),
		(CVT_u16_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i16 (fp_to_uint Float16Regs:$a)),
		(CVT_u16_f16 Float16Regs:$a, CvtRZI)>;
		def : Pat<(i32 (fp_to_uint Float16Regs:$a)),
		(CVT_u32_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i32 (fp_to_uint Float16Regs:$a)),
		(CVT_u32_f16 Float16Regs:$a, CvtRZI)>;
		def : Pat<(i64 (fp_to_uint Float16Regs:$a)),
		(CVT_u64_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(i64 (fp_to_uint Float16Regs:$a)),
		(CVT_u64_f16 Float16Regs:$a, CvtRZI)>;

// f32 -> sint		// f32 -> sint
def : Pat<(i1 (fp_to_sint Float32Regs:$a)),		def : Pat<(i1 (fp_to_sint Float32Regs:$a)),
(SETP_b32ri (BITCONVERT_32_F2I Float32Regs:$a), 0, CmpEQ)>;		(SETP_b32ri (BITCONVERT_32_F2I Float32Regs:$a), 0, CmpEQ)>;
def : Pat<(i16 (fp_to_sint Float32Regs:$a)),		def : Pat<(i16 (fp_to_sint Float32Regs:$a)),
(CVT_s16_f32 Float32Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_s16_f32 Float32Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(i16 (fp_to_sint Float32Regs:$a)),		def : Pat<(i16 (fp_to_sint Float32Regs:$a)),
(CVT_s16_f32 Float32Regs:$a, CvtRZI)>;		(CVT_s16_f32 Float32Regs:$a, CvtRZI)>;
def : Pat<(i32 (fp_to_sint Float32Regs:$a)),		def : Pat<(i32 (fp_to_sint Float32Regs:$a)),
▲ Show 20 Lines • Show All 213 Lines • ▼ Show 20 Lines
def : Pat<(ctpop Int64Regs:$a), (CVT_u64_u32 (POPCr64 Int64Regs:$a), CvtNONE)>;		def : Pat<(ctpop Int64Regs:$a), (CVT_u64_u32 (POPCr64 Int64Regs:$a), CvtNONE)>;

// For 16-bit, we zero-extend to 32-bit, then trunc the result back		// For 16-bit, we zero-extend to 32-bit, then trunc the result back
// to 16-bits (ctpop of a 16-bit value is guaranteed to require less		// to 16-bits (ctpop of a 16-bit value is guaranteed to require less
// than 16 bits to store)		// than 16 bits to store)
def : Pat<(ctpop Int16Regs:$a),		def : Pat<(ctpop Int16Regs:$a),
(CVT_u16_u32 (POPCr32 (CVT_u32_u16 Int16Regs:$a, CvtNONE)), CvtNONE)>;		(CVT_u16_u32 (POPCr32 (CVT_u32_u16 Int16Regs:$a, CvtNONE)), CvtNONE)>;

		// fpround f32 -> f16
		def : Pat<(f16 (fpround Float32Regs:$a)),
		(CVT_f16_f32 Float32Regs:$a, CvtRN_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(f16 (fpround Float32Regs:$a)),
		(CVT_f16_f32 Float32Regs:$a, CvtRN)>;

		// fpround f64 -> f16
		def : Pat<(f16 (fpround Float64Regs:$a)),
		(CVT_f16_f64 Float64Regs:$a, CvtRN_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(f16 (fpround Float64Regs:$a)),
		(CVT_f16_f64 Float64Regs:$a, CvtRN)>;

// fpround f64 -> f32		// fpround f64 -> f32
def : Pat<(f32 (fpround Float64Regs:$a)),		def : Pat<(f32 (fpround Float64Regs:$a)),
(CVT_f32_f64 Float64Regs:$a, CvtRN_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f64 Float64Regs:$a, CvtRN_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(f32 (fpround Float64Regs:$a)),		def : Pat<(f32 (fpround Float64Regs:$a)),
(CVT_f32_f64 Float64Regs:$a, CvtRN)>;		(CVT_f32_f64 Float64Regs:$a, CvtRN)>;

		// fpextend f16 -> f32
		def : Pat<(f32 (fpextend Float16Regs:$a)),
		(CVT_f32_f16 Float16Regs:$a, CvtNONE_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(f32 (fpextend Float16Regs:$a)),
		(CVT_f32_f16 Float16Regs:$a, CvtNONE)>;

		// fpextend f16 -> f64
		def : Pat<(f64 (fpextend Float16Regs:$a)),
		(CVT_f64_f16 Float16Regs:$a, CvtNONE_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(f64 (fpextend Float16Regs:$a)),
		(CVT_f64_f16 Float16Regs:$a, CvtNONE)>;

// fpextend f32 -> f64		// fpextend f32 -> f64
def : Pat<(f64 (fpextend Float32Regs:$a)),		def : Pat<(f64 (fpextend Float32Regs:$a)),
(CVT_f64_f32 Float32Regs:$a, CvtNONE_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f64_f32 Float32Regs:$a, CvtNONE_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(f64 (fpextend Float32Regs:$a)),		def : Pat<(f64 (fpextend Float32Regs:$a)),
(CVT_f64_f32 Float32Regs:$a, CvtNONE)>;		(CVT_f64_f32 Float32Regs:$a, CvtNONE)>;

def retflag : SDNode<"NVPTXISD::RET_FLAG", SDTNone,		def retflag : SDNode<"NVPTXISD::RET_FLAG", SDTNone,
[SDNPHasChain, SDNPOptInGlue]>;		[SDNPHasChain, SDNPOptInGlue]>;

// fceil, ffloor, fround, ftrunc.		// fceil, ffloor, fround, ftrunc.

		def : Pat<(fceil Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRPI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(fceil Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRPI)>, Requires<[doNoF32FTZ]>;
def : Pat<(fceil Float32Regs:$a),		def : Pat<(fceil Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRPI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRPI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(fceil Float32Regs:$a),		def : Pat<(fceil Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRPI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRPI)>, Requires<[doNoF32FTZ]>;
def : Pat<(fceil Float64Regs:$a),		def : Pat<(fceil Float64Regs:$a),
(CVT_f64_f64 Float64Regs:$a, CvtRPI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRPI)>;

		def : Pat<(ffloor Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRMI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(ffloor Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRMI)>, Requires<[doNoF32FTZ]>;
def : Pat<(ffloor Float32Regs:$a),		def : Pat<(ffloor Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRMI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRMI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(ffloor Float32Regs:$a),		def : Pat<(ffloor Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRMI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRMI)>, Requires<[doNoF32FTZ]>;
def : Pat<(ffloor Float64Regs:$a),		def : Pat<(ffloor Float64Regs:$a),
(CVT_f64_f64 Float64Regs:$a, CvtRMI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRMI)>;

		def : Pat<(fround Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(f16 (fround Float16Regs:$a)),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(fround Float32Regs:$a),		def : Pat<(fround Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(f32 (fround Float32Regs:$a)),		def : Pat<(f32 (fround Float32Regs:$a)),
(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(f64 (fround Float64Regs:$a)),		def : Pat<(f64 (fround Float64Regs:$a)),
(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;

		def : Pat<(ftrunc Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(ftrunc Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRZI)>, Requires<[doNoF32FTZ]>;
def : Pat<(ftrunc Float32Regs:$a),		def : Pat<(ftrunc Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRZI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(ftrunc Float32Regs:$a),		def : Pat<(ftrunc Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRZI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRZI)>, Requires<[doNoF32FTZ]>;
def : Pat<(ftrunc Float64Regs:$a),		def : Pat<(ftrunc Float64Regs:$a),
(CVT_f64_f64 Float64Regs:$a, CvtRZI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRZI)>;

// nearbyint and rint are implemented as rounding to nearest even. This isn't		// nearbyint and rint are implemented as rounding to nearest even. This isn't
// strictly correct, because it causes us to ignore the rounding mode. But it		// strictly correct, because it causes us to ignore the rounding mode. But it
// matches what CUDA's "libm" does.		// matches what CUDA's "libm" does.

		def : Pat<(fnearbyint Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(fnearbyint Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(fnearbyint Float32Regs:$a),		def : Pat<(fnearbyint Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(fnearbyint Float32Regs:$a),		def : Pat<(fnearbyint Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(fnearbyint Float64Regs:$a),		def : Pat<(fnearbyint Float64Regs:$a),
(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;

		def : Pat<(frint Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
		def : Pat<(frint Float16Regs:$a),
		(CVT_f16_f16 Float16Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(frint Float32Regs:$a),		def : Pat<(frint Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>, Requires<[doF32FTZ]>;
def : Pat<(frint Float32Regs:$a),		def : Pat<(frint Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI)>, Requires<[doNoF32FTZ]>;
def : Pat<(frint Float64Regs:$a),		def : Pat<(frint Float64Regs:$a),
(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;		(CVT_f64_f64 Float64Regs:$a, CvtRNI)>;


▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXIntrinsics.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 797 Lines • ▼ Show 20 Lines
	def : Pat<(int_nvvm_ull2d_rz Int64Regs:$a),			def : Pat<(int_nvvm_ull2d_rz Int64Regs:$a),
	(CVT_f64_u64 Int64Regs:$a, CvtRZ)>;			(CVT_f64_u64 Int64Regs:$a, CvtRZ)>;
	def : Pat<(int_nvvm_ull2d_rm Int64Regs:$a),			def : Pat<(int_nvvm_ull2d_rm Int64Regs:$a),
	(CVT_f64_u64 Int64Regs:$a, CvtRM)>;			(CVT_f64_u64 Int64Regs:$a, CvtRM)>;
	def : Pat<(int_nvvm_ull2d_rp Int64Regs:$a),			def : Pat<(int_nvvm_ull2d_rp Int64Regs:$a),
	(CVT_f64_u64 Int64Regs:$a, CvtRP)>;			(CVT_f64_u64 Int64Regs:$a, CvtRP)>;


	// FIXME: Ideally, we could use these patterns instead of the scope-creating			def : Pat<(int_nvvm_f2h_rn_ftz Float32Regs:$a),
	// patterns, but ptxas does not like these since .s16 is not compatible with			(BITCONVERT_16_F2I (CVT_f16_f32 Float32Regs:$a, CvtRN_FTZ))>;
	// .f16. The solution is to use .bXX for all integer register types, but we			def : Pat<(int_nvvm_f2h_rn Float32Regs:$a),
	// are not there yet.			(BITCONVERT_16_F2I (CVT_f16_f32 Float32Regs:$a, CvtRN))>;
	//def : Pat<(int_nvvm_f2h_rn_ftz Float32Regs:$a),
	// (CVT_f16_f32 Float32Regs:$a, CvtRN_FTZ)>;			def : Pat<(int_nvvm_h2f Int16Regs:$a),
	//def : Pat<(int_nvvm_f2h_rn Float32Regs:$a),			(CVT_f32_f16 (BITCONVERT_16_I2F Int16Regs:$a), CvtNONE)>;
	// (CVT_f16_f32 Float32Regs:$a, CvtRN)>;
	//
	//def : Pat<(int_nvvm_h2f Int16Regs:$a),
	// (CVT_f32_f16 Int16Regs:$a, CvtNONE)>;

	def INT_NVVM_F2H_RN_FTZ : F_MATH_1<!strconcat("{{\n\t",
	!strconcat(".reg .b16 %temp;\n\t",
	!strconcat("cvt.rn.ftz.f16.f32 \t%temp, $src0;\n\t",
	!strconcat("mov.b16 \t$dst, %temp;\n",
	"}}")))),
	Int16Regs, Float32Regs, int_nvvm_f2h_rn_ftz>;
	def INT_NVVM_F2H_RN : F_MATH_1<!strconcat("{{\n\t",
	!strconcat(".reg .b16 %temp;\n\t",
	!strconcat("cvt.rn.f16.f32 \t%temp, $src0;\n\t",
	!strconcat("mov.b16 \t$dst, %temp;\n",
	"}}")))),
	Int16Regs, Float32Regs, int_nvvm_f2h_rn>;

	def INT_NVVM_H2F : F_MATH_1<!strconcat("{{\n\t",
	!strconcat(".reg .b16 %temp;\n\t",
	!strconcat("mov.b16 \t%temp, $src0;\n\t",
	!strconcat("cvt.f32.f16 \t$dst, %temp;\n\t",
	"}}")))),
	Float32Regs, Int16Regs, int_nvvm_h2f>;

	def : Pat<(f32 (f16_to_fp Int16Regs:$a)),
	(CVT_f32_f16 Int16Regs:$a, CvtNONE)>;
	def : Pat<(i16 (fp_to_f16 Float32Regs:$a)),
	(CVT_f16_f32 Float32Regs:$a, CvtRN_FTZ)>, Requires<[doF32FTZ]>;
	def : Pat<(i16 (fp_to_f16 Float32Regs:$a)),
	(CVT_f16_f32 Float32Regs:$a, CvtRN)>;

	def : Pat<(f64 (f16_to_fp Int16Regs:$a)),
	(CVT_f64_f16 Int16Regs:$a, CvtNONE)>;
	def : Pat<(i16 (fp_to_f16 Float64Regs:$a)),
	(CVT_f16_f64 Float64Regs:$a, CvtRN)>;

	//			//
	// Bitcast			// Bitcast
	//			//

	def INT_NVVM_BITCAST_F2I : F_MATH_1<"mov.b32 \t$dst, $src0;", Int32Regs,			def INT_NVVM_BITCAST_F2I : F_MATH_1<"mov.b32 \t$dst, $src0;", Int32Regs,
	Float32Regs, int_nvvm_bitcast_f2i>;			Float32Regs, int_nvvm_bitcast_f2i>;
	def INT_NVVM_BITCAST_I2F : F_MATH_1<"mov.b32 \t$dst, $src0;", Float32Regs,			def INT_NVVM_BITCAST_I2F : F_MATH_1<"mov.b32 \t$dst, $src0;", Float32Regs,
	▲ Show 20 Lines • Show All 6,404 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXMCExpr.h

	Show All 16 Lines
	#include <utility>			#include <utility>

	namespace llvm {			namespace llvm {

	class NVPTXFloatMCExpr : public MCTargetExpr {			class NVPTXFloatMCExpr : public MCTargetExpr {
	public:			public:
	enum VariantKind {			enum VariantKind {
	VK_NVPTX_None,			VK_NVPTX_None,
				VK_NVPTX_HALF_PREC_FLOAT, // FP constant in half-precision
	VK_NVPTX_SINGLE_PREC_FLOAT, // FP constant in single-precision			VK_NVPTX_SINGLE_PREC_FLOAT, // FP constant in single-precision
	VK_NVPTX_DOUBLE_PREC_FLOAT // FP constant in double-precision			VK_NVPTX_DOUBLE_PREC_FLOAT // FP constant in double-precision
	};			};

	private:			private:
	const VariantKind Kind;			const VariantKind Kind;
	const APFloat Flt;			const APFloat Flt;

	explicit NVPTXFloatMCExpr(VariantKind Kind, APFloat Flt)			explicit NVPTXFloatMCExpr(VariantKind Kind, APFloat Flt)
	: Kind(Kind), Flt(std::move(Flt)) {}			: Kind(Kind), Flt(std::move(Flt)) {}

	public:			public:
	/// @name Construction			/// @name Construction
	/// @{			/// @{

	static const NVPTXFloatMCExpr *create(VariantKind Kind, const APFloat &Flt,			static const NVPTXFloatMCExpr *create(VariantKind Kind, const APFloat &Flt,
	MCContext &Ctx);			MCContext &Ctx);

				static const NVPTXFloatMCExpr *createConstantFPHalf(const APFloat &Flt,
				MCContext &Ctx) {
				return create(VK_NVPTX_HALF_PREC_FLOAT, Flt, Ctx);
				}

	static const NVPTXFloatMCExpr *createConstantFPSingle(const APFloat &Flt,			static const NVPTXFloatMCExpr *createConstantFPSingle(const APFloat &Flt,
	MCContext &Ctx) {			MCContext &Ctx) {
	return create(VK_NVPTX_SINGLE_PREC_FLOAT, Flt, Ctx);			return create(VK_NVPTX_SINGLE_PREC_FLOAT, Flt, Ctx);
	}			}

	static const NVPTXFloatMCExpr *createConstantFPDouble(const APFloat &Flt,			static const NVPTXFloatMCExpr *createConstantFPDouble(const APFloat &Flt,
	MCContext &Ctx) {			MCContext &Ctx) {
	return create(VK_NVPTX_DOUBLE_PREC_FLOAT, Flt, Ctx);			return create(VK_NVPTX_DOUBLE_PREC_FLOAT, Flt, Ctx);
	▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXMCExpr.cpp

	Show All 21 Lines

	void NVPTXFloatMCExpr::printImpl(raw_ostream &OS, const MCAsmInfo *MAI) const {			void NVPTXFloatMCExpr::printImpl(raw_ostream &OS, const MCAsmInfo *MAI) const {
	bool Ignored;			bool Ignored;
	unsigned NumHex;			unsigned NumHex;
	APFloat APF = getAPFloat();			APFloat APF = getAPFloat();

	switch (Kind) {			switch (Kind) {
	default: llvm_unreachable("Invalid kind!");			default: llvm_unreachable("Invalid kind!");
				case VK_NVPTX_HALF_PREC_FLOAT:
				// ptxas does not have a way to specify half-precision floats.
				// Instead we have to print and load fp16 constants as .b16
				OS << "0x";
				NumHex = 4;
				APF.convert(APFloat::IEEEhalf(), APFloat::rmNearestTiesToEven, &Ignored);
				break;
	case VK_NVPTX_SINGLE_PREC_FLOAT:			case VK_NVPTX_SINGLE_PREC_FLOAT:
	OS << "0f";			OS << "0f";
	NumHex = 8;			NumHex = 8;
	APF.convert(APFloat::IEEEsingle(), APFloat::rmNearestTiesToEven, &Ignored);			APF.convert(APFloat::IEEEsingle(), APFloat::rmNearestTiesToEven, &Ignored);
	break;			break;
	case VK_NVPTX_DOUBLE_PREC_FLOAT:			case VK_NVPTX_DOUBLE_PREC_FLOAT:
	OS << "0d";			OS << "0d";
	NumHex = 16;			NumHex = 16;
	Show All 23 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXRegisterInfo.cpp

	Show All 21 Lines
	#include "llvm/Target/TargetInstrInfo.h"			#include "llvm/Target/TargetInstrInfo.h"

	using namespace llvm;			using namespace llvm;

	#define DEBUG_TYPE "nvptx-reg-info"			#define DEBUG_TYPE "nvptx-reg-info"

	namespace llvm {			namespace llvm {
	std::string getNVPTXRegClassName(TargetRegisterClass const *RC) {			std::string getNVPTXRegClassName(TargetRegisterClass const *RC) {
	if (RC == &NVPTX::Float32RegsRegClass) {			if (RC == &NVPTX::Float32RegsRegClass)
	return ".f32";			return ".f32";
	}			if (RC == &NVPTX::Float16RegsRegClass)
	if (RC == &NVPTX::Float64RegsRegClass) {			// Ideally fp16 registers should be .f16, but this syntax is only
				// supported on sm_53+. On the other hand, .b16 registers are
				// accepted for all supported fp16 instructions on all GPU
				// variants, so we can use them instead.
				return ".b16";
				if (RC == &NVPTX::Float64RegsRegClass)
	return ".f64";			return ".f64";
	} else if (RC == &NVPTX::Int64RegsRegClass) {			if (RC == &NVPTX::Int64RegsRegClass)
	// We use untyped (.b) integer registers here as NVCC does.			// We use untyped (.b) integer registers here as NVCC does.
	// Correctness of generated code does not depend on register type,			// Correctness of generated code does not depend on register type,
	// but using .s/.u registers runs into ptxas bug that prevents			// but using .s/.u registers runs into ptxas bug that prevents
	// assembly of otherwise valid PTX into SASS. Despite PTX ISA			// assembly of otherwise valid PTX into SASS. Despite PTX ISA
	// specifying only argument size for fp16 instructions, ptxas does			// specifying only argument size for fp16 instructions, ptxas does
	// not allow using .s16 or .u16 arguments for .fp16			// not allow using .s16 or .u16 arguments for .fp16
	// instructions. At the same time it allows using .s32/.u32			// instructions. At the same time it allows using .s32/.u32
	// arguments for .fp16v2 instructions:			// arguments for .fp16v2 instructions:
	//			//
	// .reg .b16 rb16			// .reg .b16 rb16
	// .reg .s16 rs16			// .reg .s16 rs16
	// add.f16 rb16,rb16,rb16; // OK			// add.f16 rb16,rb16,rb16; // OK
	// add.f16 rs16,rs16,rs16; // Arguments mismatch for instruction 'add'			// add.f16 rs16,rs16,rs16; // Arguments mismatch for instruction 'add'
	// but:			// but:
	// .reg .b32 rb32			// .reg .b32 rb32
	// .reg .s32 rs32			// .reg .s32 rs32
	// add.f16v2 rb32,rb32,rb32; // OK			// add.f16v2 rb32,rb32,rb32; // OK
	// add.f16v2 rs32,rs32,rs32; // OK			// add.f16v2 rs32,rs32,rs32; // OK
	return ".b64";			return ".b64";
	} else if (RC == &NVPTX::Int32RegsRegClass) {			if (RC == &NVPTX::Int32RegsRegClass)
	return ".b32";			return ".b32";
	} else if (RC == &NVPTX::Int16RegsRegClass) {			if (RC == &NVPTX::Int16RegsRegClass)
	return ".b16";			return ".b16";
	} else if (RC == &NVPTX::Int1RegsRegClass) {			if (RC == &NVPTX::Int1RegsRegClass)
	return ".pred";			return ".pred";
	} else if (RC == &NVPTX::SpecialRegsRegClass) {			if (RC == &NVPTX::SpecialRegsRegClass)
	return "!Special!";			return "!Special!";
	} else {
	return "INTERNAL";			return "INTERNAL";
	}			}
	return "";
	}

	std::string getNVPTXRegClassStr(TargetRegisterClass const *RC) {			std::string getNVPTXRegClassStr(TargetRegisterClass const *RC) {
	if (RC == &NVPTX::Float32RegsRegClass) {			if (RC == &NVPTX::Float32RegsRegClass)
	return "%f";			return "%f";
	}			if (RC == &NVPTX::Float16RegsRegClass)
	if (RC == &NVPTX::Float64RegsRegClass) {			return "%h";
				if (RC == &NVPTX::Float64RegsRegClass)
	return "%fd";			return "%fd";
	} else if (RC == &NVPTX::Int64RegsRegClass) {			if (RC == &NVPTX::Int64RegsRegClass)
	return "%rd";			return "%rd";
	} else if (RC == &NVPTX::Int32RegsRegClass) {			if (RC == &NVPTX::Int32RegsRegClass)
	return "%r";			return "%r";
	} else if (RC == &NVPTX::Int16RegsRegClass) {			if (RC == &NVPTX::Int16RegsRegClass)
	return "%rs";			return "%rs";
	} else if (RC == &NVPTX::Int1RegsRegClass) {			if (RC == &NVPTX::Int1RegsRegClass)
	return "%p";			return "%p";
	} else if (RC == &NVPTX::SpecialRegsRegClass) {			if (RC == &NVPTX::SpecialRegsRegClass)
	return "!Special!";			return "!Special!";
	} else {
	return "INTERNAL";			return "INTERNAL";
	}			}
	return "";
	}
	}			}

	NVPTXRegisterInfo::NVPTXRegisterInfo() : NVPTXGenRegisterInfo(0) {}			NVPTXRegisterInfo::NVPTXRegisterInfo() : NVPTXGenRegisterInfo(0) {}

	#define GET_REGINFO_TARGET_DESC			#define GET_REGINFO_TARGET_DESC
	#include "NVPTXGenRegisterInfo.inc"			#include "NVPTXGenRegisterInfo.inc"

	/// NVPTX Callee Saved Registers			/// NVPTX Callee Saved Registers
	Show All 31 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXRegisterInfo.td

	Show All 30 Lines

	// We use virtual registers, but define a few physical registers here to keep			// We use virtual registers, but define a few physical registers here to keep
	// SDAG and the MachineInstr layers happy.			// SDAG and the MachineInstr layers happy.
	foreach i = 0-4 in {			foreach i = 0-4 in {
	def P#i : NVPTXReg<"%p"#i>; // Predicate			def P#i : NVPTXReg<"%p"#i>; // Predicate
	def RS#i : NVPTXReg<"%rs"#i>; // 16-bit			def RS#i : NVPTXReg<"%rs"#i>; // 16-bit
	def R#i : NVPTXReg<"%r"#i>; // 32-bit			def R#i : NVPTXReg<"%r"#i>; // 32-bit
	def RL#i : NVPTXReg<"%rd"#i>; // 64-bit			def RL#i : NVPTXReg<"%rd"#i>; // 64-bit
				def H#i : NVPTXReg<"%h"#i>; // 16-bit float
	def F#i : NVPTXReg<"%f"#i>; // 32-bit float			def F#i : NVPTXReg<"%f"#i>; // 32-bit float
	def FL#i : NVPTXReg<"%fd"#i>; // 64-bit float			def FL#i : NVPTXReg<"%fd"#i>; // 64-bit float

	// Arguments			// Arguments
	def ia#i : NVPTXReg<"%ia"#i>;			def ia#i : NVPTXReg<"%ia"#i>;
	def la#i : NVPTXReg<"%la"#i>;			def la#i : NVPTXReg<"%la"#i>;
	def fa#i : NVPTXReg<"%fa"#i>;			def fa#i : NVPTXReg<"%fa"#i>;
	def da#i : NVPTXReg<"%da"#i>;			def da#i : NVPTXReg<"%da"#i>;
	}			}

	foreach i = 0-31 in {			foreach i = 0-31 in {
	def ENVREG#i : NVPTXReg<"%envreg"#i>;			def ENVREG#i : NVPTXReg<"%envreg"#i>;
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Register classes			// Register classes
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	def Int1Regs : NVPTXRegClass<[i1], 8, (add (sequence "P%u", 0, 4))>;			def Int1Regs : NVPTXRegClass<[i1], 8, (add (sequence "P%u", 0, 4))>;
	def Int16Regs : NVPTXRegClass<[i16], 16, (add (sequence "RS%u", 0, 4))>;			def Int16Regs : NVPTXRegClass<[i16], 16, (add (sequence "RS%u", 0, 4))>;
	def Int32Regs : NVPTXRegClass<[i32], 32, (add (sequence "R%u", 0, 4))>;			def Int32Regs : NVPTXRegClass<[i32], 32, (add (sequence "R%u", 0, 4))>;
	def Int64Regs : NVPTXRegClass<[i64], 64, (add (sequence "RL%u", 0, 4))>;			def Int64Regs : NVPTXRegClass<[i64], 64, (add (sequence "RL%u", 0, 4))>;
				def Float16Regs : NVPTXRegClass<[f16], 16, (add (sequence "H%u", 0, 4))>;
	def Float32Regs : NVPTXRegClass<[f32], 32, (add (sequence "F%u", 0, 4))>;			def Float32Regs : NVPTXRegClass<[f32], 32, (add (sequence "F%u", 0, 4))>;
	def Float64Regs : NVPTXRegClass<[f64], 64, (add (sequence "FL%u", 0, 4))>;			def Float64Regs : NVPTXRegClass<[f64], 64, (add (sequence "FL%u", 0, 4))>;
	def Int32ArgRegs : NVPTXRegClass<[i32], 32, (add (sequence "ia%u", 0, 4))>;			def Int32ArgRegs : NVPTXRegClass<[i32], 32, (add (sequence "ia%u", 0, 4))>;
	def Int64ArgRegs : NVPTXRegClass<[i64], 64, (add (sequence "la%u", 0, 4))>;			def Int64ArgRegs : NVPTXRegClass<[i64], 64, (add (sequence "la%u", 0, 4))>;
	def Float32ArgRegs : NVPTXRegClass<[f32], 32, (add (sequence "fa%u", 0, 4))>;			def Float32ArgRegs : NVPTXRegClass<[f32], 32, (add (sequence "fa%u", 0, 4))>;
	def Float64ArgRegs : NVPTXRegClass<[f64], 64, (add (sequence "da%u", 0, 4))>;			def Float64ArgRegs : NVPTXRegClass<[f64], 64, (add (sequence "da%u", 0, 4))>;

	// Read NVPTXRegisterInfo.cpp to see how VRFrame and VRDepot are used.			// Read NVPTXRegisterInfo.cpp to see how VRFrame and VRDepot are used.
	def SpecialRegs : NVPTXRegClass<[i32], 32, (add VRFrame, VRFrameLocal, VRDepot,			def SpecialRegs : NVPTXRegClass<[i32], 32, (add VRFrame, VRFrameLocal, VRDepot,
	(sequence "ENVREG%u", 0, 31))>;			(sequence "ENVREG%u", 0, 31))>;

llvm/trunk/lib/Target/NVPTX/NVPTXSubtarget.h

Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	public:
bool hasGenericLdSt() const { return SmVersion >= 20; }		bool hasGenericLdSt() const { return SmVersion >= 20; }
inline bool hasHWROT32() const { return SmVersion >= 32; }		inline bool hasHWROT32() const { return SmVersion >= 32; }
inline bool hasSWROT32() const {		inline bool hasSWROT32() const {
return ((SmVersion >= 20) && (SmVersion < 32));		return ((SmVersion >= 20) && (SmVersion < 32));
}		}
inline bool hasROT32() const { return hasHWROT32() \|\| hasSWROT32(); }		inline bool hasROT32() const { return hasHWROT32() \|\| hasSWROT32(); }
inline bool hasROT64() const { return SmVersion >= 20; }		inline bool hasROT64() const { return SmVersion >= 20; }
bool hasImageHandles() const;		bool hasImageHandles() const;
		bool hasFP16Math() const { return SmVersion >= 53; }
		bool allowFP16Math() const;

unsigned int getSmVersion() const { return SmVersion; }		unsigned int getSmVersion() const { return SmVersion; }
std::string getTargetName() const { return TargetName; }		std::string getTargetName() const { return TargetName; }

unsigned getPTXVersion() const { return PTXVersion; }		unsigned getPTXVersion() const { return PTXVersion; }

NVPTXSubtarget &initializeSubtargetDependencies(StringRef CPU, StringRef FS);		NVPTXSubtarget &initializeSubtargetDependencies(StringRef CPU, StringRef FS);
void ParseSubtargetFeatures(StringRef CPU, StringRef FS);		void ParseSubtargetFeatures(StringRef CPU, StringRef FS);
};		};

} // End llvm namespace		} // End llvm namespace

#endif		#endif

llvm/trunk/lib/Target/NVPTX/NVPTXSubtarget.cpp

Show All 17 Lines

#define DEBUG_TYPE "nvptx-subtarget"		#define DEBUG_TYPE "nvptx-subtarget"

#define GET_SUBTARGETINFO_ENUM		#define GET_SUBTARGETINFO_ENUM
#define GET_SUBTARGETINFO_TARGET_DESC		#define GET_SUBTARGETINFO_TARGET_DESC
#define GET_SUBTARGETINFO_CTOR		#define GET_SUBTARGETINFO_CTOR
#include "NVPTXGenSubtargetInfo.inc"		#include "NVPTXGenSubtargetInfo.inc"

		static cl::opt<bool>
		NoF16Math("nvptx-no-f16-math", cl::ZeroOrMore, cl::Hidden,
		cl::desc("NVPTX Specific: Disable generation of f16 math ops."),
		cl::init(false));

// Pin the vtable to this file.		// Pin the vtable to this file.
void NVPTXSubtarget::anchor() {}		void NVPTXSubtarget::anchor() {}

NVPTXSubtarget &NVPTXSubtarget::initializeSubtargetDependencies(StringRef CPU,		NVPTXSubtarget &NVPTXSubtarget::initializeSubtargetDependencies(StringRef CPU,
StringRef FS) {		StringRef FS) {
// Provide the default CPU if we don't have one.		// Provide the default CPU if we don't have one.
TargetName = CPU.empty() ? "sm_20" : CPU;		TargetName = CPU.empty() ? "sm_20" : CPU;

Show All 18 Lines	bool NVPTXSubtarget::hasImageHandles() const {
// Enable handles for Kepler+, where CUDA supports indirect surfaces and		// Enable handles for Kepler+, where CUDA supports indirect surfaces and
// textures		// textures
if (TM.getDrvInterface() == NVPTX::CUDA)		if (TM.getDrvInterface() == NVPTX::CUDA)
return (SmVersion >= 30);		return (SmVersion >= 30);

// Disabled, otherwise		// Disabled, otherwise
return false;		return false;
}		}

		bool NVPTXSubtarget::allowFP16Math() const {
		return hasFP16Math() && NoF16Math == false;
		}

llvm/trunk/test/CodeGen/NVPTX/f16-instructions.ll

				; ## Full FP16 support enabled by default.
				; RUN: llc < %s -mtriple=nvptx64-nvidia-cuda -mcpu=sm_53 -asm-verbose=false \
				; RUN: -O0 -disable-post-ra -disable-fp-elim \
				; RUN: \| FileCheck -check-prefixes CHECK,CHECK-F16 %s
				; ## FP16 support explicitly disabled.
				; RUN: llc < %s -mtriple=nvptx64-nvidia-cuda -mcpu=sm_53 -asm-verbose=false \
				; RUN: -O0 -disable-post-ra -disable-fp-elim --nvptx-no-f16-math \
				; RUN: \| FileCheck -check-prefixes CHECK,CHECK-NOF16 %s
				; ## FP16 is not supported by hardware.
				; RUN: llc < %s -O0 -mtriple=nvptx64-nvidia-cuda -mcpu=sm_52 -asm-verbose=false \
				; RUN: -disable-post-ra -disable-fp-elim \
				; RUN: \| FileCheck -check-prefixes CHECK,CHECK-NOF16 %s

				target datalayout = "e-m:o-i64:64-i128:128-n32:64-S128"

				; CHECK-LABEL: test_ret_const(
				; CHECK: mov.b16 [[R:%h[0-9]+]], 0x3C00;
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_ret_const() #0 {
				ret half 1.0
				}

				; CHECK-LABEL: test_fadd(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fadd_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fadd_param_1];
				; CHECK-F16-NEXT: add.rn.f16 [[R:%h[0-9]+]], [[A]], [[B]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[A32:%f[0-9]+]], [[A]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-NEXT: add.rn.f32 [[R32:%f[0-9]+]], [[A32]], [[B32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fadd(half %a, half %b) #0 {
				%r = fadd half %a, %b
				ret half %r
				}

				; Check that we can lower fadd with immediate arguments.
				; CHECK-LABEL: test_fadd_imm_0(
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fadd_imm_0_param_0];
				; CHECK-F16-DAG: mov.b16 [[A:%h[0-9]+]], 0x3C00;
				; CHECK-F16-NEXT: add.rn.f16 [[R:%h[0-9]+]], [[B]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-NEXT: add.rn.f32 [[R32:%f[0-9]+]], [[B32]], 0f3F800000;
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fadd_imm_0(half %b) #0 {
				%r = fadd half 1.0, %b
				ret half %r
				}

				; CHECK-LABEL: test_fadd_imm_1(
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fadd_imm_1_param_0];
				; CHECK-F16-DAG: mov.b16 [[A:%h[0-9]+]], 0x3C00;
				; CHECK-F16-NEXT: add.rn.f16 [[R:%h[0-9]+]], [[B]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-NEXT: add.rn.f32 [[R32:%f[0-9]+]], [[B32]], 0f3F800000;
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fadd_imm_1(half %a) #0 {
				%r = fadd half %a, 1.0
				ret half %r
				}

				; CHECK-LABEL: test_fsub(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fsub_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fsub_param_1];
				; CHECK-F16-NEXT: sub.rn.f16 [[R:%h[0-9]+]], [[A]], [[B]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[A32:%f[0-9]+]], [[A]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-NEXT: sub.rn.f32 [[R32:%f[0-9]+]], [[A32]], [[B32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fsub(half %a, half %b) #0 {
				%r = fsub half %a, %b
				ret half %r
				}

				; CHECK-LABEL: test_fmul(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fmul_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fmul_param_1];
				; CHECK-F16-NEXT: mul.rn.f16 [[R:%h[0-9]+]], [[A]], [[B]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[A32:%f[0-9]+]], [[A]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-NEXT: mul.rn.f32 [[R32:%f[0-9]+]], [[A32]], [[B32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fmul(half %a, half %b) #0 {
				%r = fmul half %a, %b
				ret half %r
				}

				; CHECK-LABEL: test_fdiv(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fdiv_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fdiv_param_1];
				; CHECK-DAG: cvt.f32.f16 [[F0:%f[0-9]+]], [[A]];
				; CHECK-DAG: cvt.f32.f16 [[F1:%f[0-9]+]], [[B]];
				; CHECK-NEXT: div.rn.f32 [[FR:%f[0-9]+]], [[F0]], [[F1]];
				; CHECK-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[FR]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_fdiv(half %a, half %b) #0 {
				%r = fdiv half %a, %b
				ret half %r
				}

				; CHECK-LABEL: test_frem(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_frem_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_frem_param_1];
				; CHECK-DAG: cvt.f32.f16 [[F0:%f[0-9]+]], [[A]];
				; CHECK-DAG: cvt.f32.f16 [[F1:%f[0-9]+]], [[B]];
				; CHECK-NEXT: div.rn.f32 [[F2:%f[0-9]+]], [[F0]], [[F1]];
				; CHECK-NEXT: cvt.rmi.f32.f32 [[F3:%f[0-9]+]], [[F2]];
				; CHECK-NEXT: mul.f32 [[F4:%f[0-9]+]], [[F3]], [[F1]];
				; CHECK-NEXT: sub.f32 [[F5:%f[0-9]+]], [[F0]], [[F4]];
				; CHECK-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[F5]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_frem(half %a, half %b) #0 {
				%r = frem half %a, %b
				ret half %r
				}

				; CHECK-LABEL: test_store(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_store_param_0];
				; CHECK-DAG: ld.param.u64 %[[PTR:rd[0-9]+]], [test_store_param_1];
				; CHECK-NEXT: st.b16 [%[[PTR]]], [[A]];
				; CHECK-NEXT: ret;
				define void @test_store(half %a, half* %b) #0 {
				store half %a, half* %b
				ret void
				}

				; CHECK-LABEL: test_load(
				; CHECK: ld.param.u64 %[[PTR:rd[0-9]+]], [test_load_param_0];
				; CHECK-NEXT: ld.b16 [[R:%h[0-9]+]], [%[[PTR]]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_load(half* %a) #0 {
				%r = load half, half* %a
				ret half %r
				}

				declare half @test_callee(half %a, half %b) #0

				; CHECK-LABEL: test_call(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_call_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_call_param_1];
				; CHECK: {
				; CHECK-DAG: .param .b32 param0;
				; CHECK-DAG: .param .b32 param1;
				; CHECK-DAG: st.param.b16 [param0+0], [[A]];
				; CHECK-DAG: st.param.b16 [param1+0], [[B]];
				; CHECK-DAG: .param .b32 retval0;
				; CHECK: call.uni (retval0),
				; CHECK-NEXT: test_callee,
				; CHECK: );
				; CHECK-NEXT: ld.param.b16 [[R:%h[0-9]+]], [retval0+0];
				; CHECK-NEXT: }
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_call(half %a, half %b) #0 {
				%r = call half @test_callee(half %a, half %b)
				ret half %r
				}

				; CHECK-LABEL: test_call_flipped(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_call_flipped_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_call_flipped_param_1];
				; CHECK: {
				; CHECK-DAG: .param .b32 param0;
				; CHECK-DAG: .param .b32 param1;
				; CHECK-DAG: st.param.b16 [param0+0], [[B]];
				; CHECK-DAG: st.param.b16 [param1+0], [[A]];
				; CHECK-DAG: .param .b32 retval0;
				; CHECK: call.uni (retval0),
				; CHECK-NEXT: test_callee,
				; CHECK: );
				; CHECK-NEXT: ld.param.b16 [[R:%h[0-9]+]], [retval0+0];
				; CHECK-NEXT: }
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_call_flipped(half %a, half %b) #0 {
				%r = call half @test_callee(half %b, half %a)
				ret half %r
				}

				; CHECK-LABEL: test_tailcall_flipped(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_tailcall_flipped_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_tailcall_flipped_param_1];
				; CHECK: {
				; CHECK-DAG: .param .b32 param0;
				; CHECK-DAG: .param .b32 param1;
				; CHECK-DAG: st.param.b16 [param0+0], [[B]];
				; CHECK-DAG: st.param.b16 [param1+0], [[A]];
				; CHECK-DAG: .param .b32 retval0;
				; CHECK: call.uni (retval0),
				; CHECK-NEXT: test_callee,
				; CHECK: );
				; CHECK-NEXT: ld.param.b16 [[R:%h[0-9]+]], [retval0+0];
				; CHECK-NEXT: }
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_tailcall_flipped(half %a, half %b) #0 {
				%r = tail call half @test_callee(half %b, half %a)
				ret half %r
				}

				; CHECK-LABEL: test_select(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_select_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_select_param_1];
				; CHECK: setp.eq.b16 [[PRED:%p[0-9]+]], %rs{{.*}}, 1;
				; CHECK-NEXT: selp.b16 [[R:%h[0-9]+]], [[A]], [[B]], [[PRED]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_select(half %a, half %b, i1 zeroext %c) #0 {
				%r = select i1 %c, half %a, half %b
				ret half %r
				}

				; CHECK-LABEL: test_select_cc(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_select_cc_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_select_cc_param_1];
				; CHECK-DAG: ld.param.b16 [[C:%h[0-9]+]], [test_select_cc_param_2];
				; CHECK-DAG: ld.param.b16 [[D:%h[0-9]+]], [test_select_cc_param_3];
				; CHECK-F16: setp.neu.f16 [[PRED:%p[0-9]+]], [[C]], [[D]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[DF:%f[0-9]+]], [[D]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[CF:%f[0-9]+]], [[C]];
				; CHECK-NOF16: setp.neu.f32 [[PRED:%p[0-9]+]], [[CF]], [[DF]]
				; CHECK: selp.b16 [[R:%h[0-9]+]], [[A]], [[B]], [[PRED]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_select_cc(half %a, half %b, half %c, half %d) #0 {
				%cc = fcmp une half %c, %d
				%r = select i1 %cc, half %a, half %b
				ret half %r
				}

				; CHECK-LABEL: test_select_cc_f32_f16(
				; CHECK-DAG: ld.param.f32 [[A:%f[0-9]+]], [test_select_cc_f32_f16_param_0];
				; CHECK-DAG: ld.param.f32 [[B:%f[0-9]+]], [test_select_cc_f32_f16_param_1];
				; CHECK-DAG: ld.param.b16 [[C:%h[0-9]+]], [test_select_cc_f32_f16_param_2];
				; CHECK-DAG: ld.param.b16 [[D:%h[0-9]+]], [test_select_cc_f32_f16_param_3];
				; CHECK-F16: setp.neu.f16 [[PRED:%p[0-9]+]], [[C]], [[D]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[DF:%f[0-9]+]], [[D]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[CF:%f[0-9]+]], [[C]];
				; CHECK-NOF16: setp.neu.f32 [[PRED:%p[0-9]+]], [[CF]], [[DF]]
				; CHECK-NEXT: selp.f32 [[R:%f[0-9]+]], [[A]], [[B]], [[PRED]];
				; CHECK-NEXT: st.param.f32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define float @test_select_cc_f32_f16(float %a, float %b, half %c, half %d) #0 {
				%cc = fcmp une half %c, %d
				%r = select i1 %cc, float %a, float %b
				ret float %r
				}

				; CHECK-LABEL: test_select_cc_f16_f32(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_select_cc_f16_f32_param_0];
				; CHECK-DAG: ld.param.f32 [[C:%f[0-9]+]], [test_select_cc_f16_f32_param_2];
				; CHECK-DAG: ld.param.f32 [[D:%f[0-9]+]], [test_select_cc_f16_f32_param_3];
				; CHECK-DAG: setp.neu.f32 [[PRED:%p[0-9]+]], [[C]], [[D]]
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_select_cc_f16_f32_param_1];
				; CHECK-NEXT: selp.b16 [[R:%h[0-9]+]], [[A]], [[B]], [[PRED]];
				; CHECK-NEXT: st.param.b16 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define half @test_select_cc_f16_f32(half %a, half %b, float %c, float %d) #0 {
				%cc = fcmp une float %c, %d
				%r = select i1 %cc, half %a, half %b
				ret half %r
				}

				; CHECK-LABEL: test_fcmp_une(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_une_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_une_param_1];
				; CHECK-F16: setp.neu.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.neu.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_une(half %a, half %b) #0 {
				%r = fcmp une half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ueq(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ueq_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ueq_param_1];
				; CHECK-F16: setp.equ.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.equ.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ueq(half %a, half %b) #0 {
				%r = fcmp ueq half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ugt(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ugt_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ugt_param_1];
				; CHECK-F16: setp.gtu.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.gtu.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ugt(half %a, half %b) #0 {
				%r = fcmp ugt half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_uge(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_uge_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_uge_param_1];
				; CHECK-F16: setp.geu.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.geu.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_uge(half %a, half %b) #0 {
				%r = fcmp uge half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ult(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ult_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ult_param_1];
				; CHECK-F16: setp.ltu.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.ltu.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ult(half %a, half %b) #0 {
				%r = fcmp ult half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ule(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ule_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ule_param_1];
				; CHECK-F16: setp.leu.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.leu.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ule(half %a, half %b) #0 {
				%r = fcmp ule half %a, %b
				ret i1 %r
				}


				; CHECK-LABEL: test_fcmp_uno(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_uno_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_uno_param_1];
				; CHECK-F16: setp.nan.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.nan.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_uno(half %a, half %b) #0 {
				%r = fcmp uno half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_one(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_one_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_one_param_1];
				; CHECK-F16: setp.ne.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.ne.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_one(half %a, half %b) #0 {
				%r = fcmp one half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_oeq(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_oeq_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_oeq_param_1];
				; CHECK-F16: setp.eq.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.eq.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_oeq(half %a, half %b) #0 {
				%r = fcmp oeq half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ogt(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ogt_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ogt_param_1];
				; CHECK-F16: setp.gt.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.gt.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ogt(half %a, half %b) #0 {
				%r = fcmp ogt half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_oge(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_oge_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_oge_param_1];
				; CHECK-F16: setp.ge.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.ge.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_oge(half %a, half %b) #0 {
				%r = fcmp oge half %a, %b
				ret i1 %r
				}

				; XCHECK-LABEL: test_fcmp_olt(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_olt_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_olt_param_1];
				; CHECK-F16: setp.lt.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.lt.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_olt(half %a, half %b) #0 {
				%r = fcmp olt half %a, %b
				ret i1 %r
				}

				; XCHECK-LABEL: test_fcmp_ole(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ole_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ole_param_1];
				; CHECK-F16: setp.le.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.le.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ole(half %a, half %b) #0 {
				%r = fcmp ole half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_fcmp_ord(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fcmp_ord_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fcmp_ord_param_1];
				; CHECK-F16: setp.num.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.num.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: selp.u32 [[R:%r[0-9]+]], 1, 0, [[PRED]];
				; CHECK-NEXT: st.param.b32 [func_retval0+0], [[R]];
				; CHECK-NEXT: ret;
				define i1 @test_fcmp_ord(half %a, half %b) #0 {
				%r = fcmp ord half %a, %b
				ret i1 %r
				}

				; CHECK-LABEL: test_br_cc(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_br_cc_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_br_cc_param_1];
				; CHECK-DAG: ld.param.u64 %[[C:rd[0-9]+]], [test_br_cc_param_2];
				; CHECK-DAG: ld.param.u64 %[[D:rd[0-9]+]], [test_br_cc_param_3];
				; CHECK-F16: setp.lt.f16 [[PRED:%p[0-9]+]], [[A]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK-NOF16: setp.lt.f32 [[PRED:%p[0-9]+]], [[AF]], [[BF]]
				; CHECK-NEXT: @%p1 bra [[LABEL:LBB.*]];
				; CHECK: st.u32 [%[[C]]],
				; CHECK: [[LABEL]]:
				; CHECK: st.u32 [%[[D]]],
				; CHECK: ret;
				define void @test_br_cc(half %a, half %b, i32* %p1, i32* %p2) #0 {
				%c = fcmp uge half %a, %b
				br i1 %c, label %then, label %else
				then:
				store i32 0, i32* %p1
				ret void
				else:
				store i32 0, i32* %p2
				ret void
				}

				; CHECK-LABEL: test_phi(
				; CHECK: ld.param.u64 %[[P1:rd[0-9]+]], [test_phi_param_0];
				; CHECK: ld.b16 {{%h[0-9]+}}, [%[[P1]]];
				; CHECK: [[LOOP:LBB[0-9_]+]]:
				; CHECK: mov.b16 [[R:%h[0-9]+]], [[AB:%h[0-9]+]];
				; CHECK: ld.b16 [[AB:%h[0-9]+]], [%[[P1]]];
				; CHECK: {
				; CHECK: st.param.b64 [param0+0], %[[P1]];
				; CHECK: call.uni (retval0),
				; CHECK-NEXT: test_dummy
				; CHECK: }
				; CHECK: setp.eq.b32 [[PRED:%p[0-9]+]], %r{{[0-9]+}}, 1;
				; CHECK: @[[PRED]] bra [[LOOP]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_phi(half* %p1) #0 {
				entry:
				%a = load half, half* %p1
				br label %loop
				loop:
				%r = phi half [%a, %entry], [%b, %loop]
				%b = load half, half* %p1
				%c = call i1 @test_dummy(half* %p1)
				br i1 %c, label %loop, label %return
				return:
				ret half %r
				}
				declare i1 @test_dummy(half* %p1) #0

				; CHECK-LABEL: test_fptosi_i32(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fptosi_i32_param_0];
				; CHECK: cvt.rzi.s32.f16 [[R:%r[0-9]+]], [[A]];
				; CHECK: st.param.b32 [func_retval0+0], [[R]];
				; CHECK: ret;
				define i32 @test_fptosi_i32(half %a) #0 {
				%r = fptosi half %a to i32
				ret i32 %r
				}

				; CHECK-LABEL: test_fptosi_i64(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fptosi_i64_param_0];
				; CHECK: cvt.rzi.s64.f16 [[R:%rd[0-9]+]], [[A]];
				; CHECK: st.param.b64 [func_retval0+0], [[R]];
				; CHECK: ret;
				define i64 @test_fptosi_i64(half %a) #0 {
				%r = fptosi half %a to i64
				ret i64 %r
				}

				; CHECK-LABEL: test_fptoui_i32(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fptoui_i32_param_0];
				; CHECK: cvt.rzi.u32.f16 [[R:%r[0-9]+]], [[A]];
				; CHECK: st.param.b32 [func_retval0+0], [[R]];
				; CHECK: ret;
				define i32 @test_fptoui_i32(half %a) #0 {
				%r = fptoui half %a to i32
				ret i32 %r
				}

				; CHECK-LABEL: test_fptoui_i64(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fptoui_i64_param_0];
				; CHECK: cvt.rzi.u64.f16 [[R:%rd[0-9]+]], [[A]];
				; CHECK: st.param.b64 [func_retval0+0], [[R]];
				; CHECK: ret;
				define i64 @test_fptoui_i64(half %a) #0 {
				%r = fptoui half %a to i64
				ret i64 %r
				}

				; CHECK-LABEL: test_uitofp_i32(
				; CHECK: ld.param.u32 [[A:%r[0-9]+]], [test_uitofp_i32_param_0];
				; CHECK: cvt.rn.f16.u32 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_uitofp_i32(i32 %a) #0 {
				%r = uitofp i32 %a to half
				ret half %r
				}

				; CHECK-LABEL: test_uitofp_i64(
				; CHECK: ld.param.u64 [[A:%rd[0-9]+]], [test_uitofp_i64_param_0];
				; CHECK: cvt.rn.f16.u64 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_uitofp_i64(i64 %a) #0 {
				%r = uitofp i64 %a to half
				ret half %r
				}

				; CHECK-LABEL: test_sitofp_i32(
				; CHECK: ld.param.u32 [[A:%r[0-9]+]], [test_sitofp_i32_param_0];
				; CHECK: cvt.rn.f16.s32 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_sitofp_i32(i32 %a) #0 {
				%r = sitofp i32 %a to half
				ret half %r
				}

				; CHECK-LABEL: test_sitofp_i64(
				; CHECK: ld.param.u64 [[A:%rd[0-9]+]], [test_sitofp_i64_param_0];
				; CHECK: cvt.rn.f16.s64 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_sitofp_i64(i64 %a) #0 {
				%r = sitofp i64 %a to half
				ret half %r
				}

				; CHECK-LABEL: test_uitofp_i32_fadd(
				; CHECK-DAG: ld.param.u32 [[A:%r[0-9]+]], [test_uitofp_i32_fadd_param_0];
				; CHECK-DAG: cvt.rn.f16.u32 [[C:%h[0-9]+]], [[A]];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_uitofp_i32_fadd_param_1];
				; CHECK-F16: add.rn.f16 [[R:%h[0-9]+]], [[B]], [[C]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[C32:%f[0-9]+]], [[C]]
				; CHECK-NOF16-NEXT: add.rn.f32 [[R32:%f[0-9]+]], [[B32]], [[C32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_uitofp_i32_fadd(i32 %a, half %b) #0 {
				%c = uitofp i32 %a to half
				%r = fadd half %b, %c
				ret half %r
				}

				; CHECK-LABEL: test_sitofp_i32_fadd(
				; CHECK-DAG: ld.param.u32 [[A:%r[0-9]+]], [test_sitofp_i32_fadd_param_0];
				; CHECK-DAG: cvt.rn.f16.s32 [[C:%h[0-9]+]], [[A]];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_sitofp_i32_fadd_param_1];
				; CHECK-F16: add.rn.f16 [[R:%h[0-9]+]], [[B]], [[C]];
				; XCHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; XCHECK-NOF16-DAG: cvt.f32.f16 [[C32:%f[0-9]+]], [[C]]
				; XCHECK-NOF16-NEXT: add.rn.f32 [[R32:%f[0-9]+]], [[B32]], [[C32]];
				; XCHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_sitofp_i32_fadd(i32 %a, half %b) #0 {
				%c = sitofp i32 %a to half
				%r = fadd half %b, %c
				ret half %r
				}

				; CHECK-LABEL: test_fptrunc_float(
				; CHECK: ld.param.f32 [[A:%f[0-9]+]], [test_fptrunc_float_param_0];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_fptrunc_float(float %a) #0 {
				%r = fptrunc float %a to half
				ret half %r
				}

				; CHECK-LABEL: test_fptrunc_double(
				; CHECK: ld.param.f64 [[A:%fd[0-9]+]], [test_fptrunc_double_param_0];
				; CHECK: cvt.rn.f16.f64 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_fptrunc_double(double %a) #0 {
				%r = fptrunc double %a to half
				ret half %r
				}

				; CHECK-LABEL: test_fpext_float(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fpext_float_param_0];
				; CHECK: cvt.f32.f16 [[R:%f[0-9]+]], [[A]];
				; CHECK: st.param.f32 [func_retval0+0], [[R]];
				; CHECK: ret;
				define float @test_fpext_float(half %a) #0 {
				%r = fpext half %a to float
				ret float %r
				}

				; CHECK-LABEL: test_fpext_double(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fpext_double_param_0];
				; CHECK: cvt.f64.f16 [[R:%fd[0-9]+]], [[A]];
				; CHECK: st.param.f64 [func_retval0+0], [[R]];
				; CHECK: ret;
				define double @test_fpext_double(half %a) #0 {
				%r = fpext half %a to double
				ret double %r
				}


				; CHECK-LABEL: test_bitcast_halftoi16(
				; CHECK: ld.param.b16 [[AH:%h[0-9]+]], [test_bitcast_halftoi16_param_0];
				; CHECK: mov.b16 [[AS:%rs[0-9]+]], [[AH]]
				; CHECK: cvt.u32.u16 [[R:%r[0-9]+]], [[AS]]
				; CHECK: st.param.b32 [func_retval0+0], [[R]];
				; CHECK: ret;
				define i16 @test_bitcast_halftoi16(half %a) #0 {
				%r = bitcast half %a to i16
				ret i16 %r
				}

				; CHECK-LABEL: test_bitcast_i16tohalf(
				; CHECK: ld.param.u16 [[AS:%rs[0-9]+]], [test_bitcast_i16tohalf_param_0];
				; CHECK: mov.b16 [[AH:%h[0-9]+]], [[AS]]
				; CHECK: st.param.b16 [func_retval0+0], [[AH]];
				; CHECK: ret;
				define half @test_bitcast_i16tohalf(i16 %a) #0 {
				%r = bitcast i16 %a to half
				ret half %r
				}


				declare half @llvm.sqrt.f16(half %a) #0
				declare half @llvm.powi.f16(half %a, i32 %b) #0
				declare half @llvm.sin.f16(half %a) #0
				declare half @llvm.cos.f16(half %a) #0
				declare half @llvm.pow.f16(half %a, half %b) #0
				declare half @llvm.exp.f16(half %a) #0
				declare half @llvm.exp2.f16(half %a) #0
				declare half @llvm.log.f16(half %a) #0
				declare half @llvm.log10.f16(half %a) #0
				declare half @llvm.log2.f16(half %a) #0
				declare half @llvm.fma.f16(half %a, half %b, half %c) #0
				declare half @llvm.fabs.f16(half %a) #0
				declare half @llvm.minnum.f16(half %a, half %b) #0
				declare half @llvm.maxnum.f16(half %a, half %b) #0
				declare half @llvm.copysign.f16(half %a, half %b) #0
				declare half @llvm.floor.f16(half %a) #0
				declare half @llvm.ceil.f16(half %a) #0
				declare half @llvm.trunc.f16(half %a) #0
				declare half @llvm.rint.f16(half %a) #0
				declare half @llvm.nearbyint.f16(half %a) #0
				declare half @llvm.round.f16(half %a) #0
				declare half @llvm.fmuladd.f16(half %a, half %b, half %c) #0

				; CHECK-LABEL: test_sqrt(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_sqrt_param_0];
				; CHECK: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK: sqrt.rn.f32 [[RF:%f[0-9]+]], [[AF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_sqrt(half %a) #0 {
				%r = call half @llvm.sqrt.f16(half %a)
				ret half %r
				}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_powi(
				;define half @test_powi(half %a, i32 %b) #0 {
				; %r = call half @llvm.powi.f16(half %a, i32 %b)
				; ret half %r
				;}

				; CHECK-LABEL: test_sin(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_sin_param_0];
				; CHECK: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK: sin.approx.f32 [[RF:%f[0-9]+]], [[AF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_sin(half %a) #0 #1 {
				%r = call half @llvm.sin.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_cos(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_cos_param_0];
				; CHECK: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK: cos.approx.f32 [[RF:%f[0-9]+]], [[AF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_cos(half %a) #0 #1 {
				%r = call half @llvm.cos.f16(half %a)
				ret half %r
				}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_pow(
				;define half @test_pow(half %a, half %b) #0 {
				; %r = call half @llvm.pow.f16(half %a, half %b)
				; ret half %r
				;}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_exp(
				;define half @test_exp(half %a) #0 {
				; %r = call half @llvm.exp.f16(half %a)
				; ret half %r
				;}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_exp2(
				;define half @test_exp2(half %a) #0 {
				; %r = call half @llvm.exp2.f16(half %a)
				; ret half %r
				;}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_log(
				;define half @test_log(half %a) #0 {
				; %r = call half @llvm.log.f16(half %a)
				; ret half %r
				;}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_log10(
				;define half @test_log10(half %a) #0 {
				; %r = call half @llvm.log10.f16(half %a)
				; ret half %r
				;}

				;;; Can't do this yet: requires libcall.
				; XCHECK-LABEL: test_log2(
				;define half @test_log2(half %a) #0 {
				; %r = call half @llvm.log2.f16(half %a)
				; ret half %r
				;}

				; CHECK-LABEL: test_fma(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fma_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fma_param_1];
				; CHECK-DAG: ld.param.b16 [[C:%h[0-9]+]], [test_fma_param_2];
				; CHECK-F16: fma.rn.f16 [[R:%h[0-9]+]], [[A]], [[B]], [[C]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[A32:%f[0-9]+]], [[A]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[C32:%f[0-9]+]], [[C]]
				; CHECK-NOF16-NEXT: fma.rn.f32 [[R32:%f[0-9]+]], [[A32]], [[B32]], [[C32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret
				define half @test_fma(half %a, half %b, half %c) #0 {
				%r = call half @llvm.fma.f16(half %a, half %b, half %c)
				ret half %r
				}

				; CHECK-LABEL: test_fabs(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_fabs_param_0];
				; CHECK: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK: abs.f32 [[RF:%f[0-9]+]], [[AF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_fabs(half %a) #0 {
				%r = call half @llvm.fabs.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_minnum(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_minnum_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_minnum_param_1];
				; CHECK-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK: min.f32 [[RF:%f[0-9]+]], [[AF]], [[BF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_minnum(half %a, half %b) #0 {
				%r = call half @llvm.minnum.f16(half %a, half %b)
				ret half %r
				}

				; CHECK-LABEL: test_maxnum(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_maxnum_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_maxnum_param_1];
				; CHECK-DAG: cvt.f32.f16 [[AF:%f[0-9]+]], [[A]];
				; CHECK-DAG: cvt.f32.f16 [[BF:%f[0-9]+]], [[B]];
				; CHECK: max.f32 [[RF:%f[0-9]+]], [[AF]], [[BF]];
				; CHECK: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[RF]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_maxnum(half %a, half %b) #0 {
				%r = call half @llvm.maxnum.f16(half %a, half %b)
				ret half %r
				}

				; CHECK-LABEL: test_copysign(
				; CHECK-DAG: ld.param.b16 [[AH:%h[0-9]+]], [test_copysign_param_0];
				; CHECK-DAG: ld.param.b16 [[BH:%h[0-9]+]], [test_copysign_param_1];
				; CHECK-DAG: mov.b16 [[AS:%rs[0-9]+]], [[AH]];
				; CHECK-DAG: mov.b16 [[BS:%rs[0-9]+]], [[BH]];
				; CHECK-DAG: and.b16 [[AX:%rs[0-9]+]], [[AS]], 32767;
				; CHECK-DAG: and.b16 [[BX:%rs[0-9]+]], [[BS]], -32768;
				; CHECK: or.b16 [[RX:%rs[0-9]+]], [[AX]], [[BX]];
				; CHECK: mov.b16 [[R:%h[0-9]+]], [[RX]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_copysign(half %a, half %b) #0 {
				%r = call half @llvm.copysign.f16(half %a, half %b)
				ret half %r
				}

				; CHECK-LABEL: test_copysign_f32(
				; CHECK-DAG: ld.param.b16 [[AH:%h[0-9]+]], [test_copysign_f32_param_0];
				; CHECK-DAG: ld.param.f32 [[BF:%f[0-9]+]], [test_copysign_f32_param_1];
				; CHECK-DAG: mov.b16 [[A:%rs[0-9]+]], [[AH]];
				; CHECK-DAG: mov.b32 [[B:%r[0-9]+]], [[BF]];
				; CHECK-DAG: and.b16 [[AX:%rs[0-9]+]], [[A]], 32767;
				; CHECK-DAG: and.b32 [[BX0:%r[0-9]+]], [[B]], -2147483648;
				; CHECK-DAG: shr.u32 [[BX1:%r[0-9]+]], [[BX0]], 16;
				; CHECK-DAG: cvt.u16.u32 [[BX2:%rs[0-9]+]], [[BX1]];
				; CHECK: or.b16 [[RX:%rs[0-9]+]], [[AX]], [[BX2]];
				; CHECK: mov.b16 [[R:%h[0-9]+]], [[RX]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_copysign_f32(half %a, float %b) #0 {
				%tb = fptrunc float %b to half
				%r = call half @llvm.copysign.f16(half %a, half %tb)
				ret half %r
				}

				; CHECK-LABEL: test_copysign_f64(
				; CHECK-DAG: ld.param.b16 [[AH:%h[0-9]+]], [test_copysign_f64_param_0];
				; CHECK-DAG: ld.param.f64 [[BD:%fd[0-9]+]], [test_copysign_f64_param_1];
				; CHECK-DAG: mov.b16 [[A:%rs[0-9]+]], [[AH]];
				; CHECK-DAG: mov.b64 [[B:%rd[0-9]+]], [[BD]];
				; CHECK-DAG: and.b16 [[AX:%rs[0-9]+]], [[A]], 32767;
				; CHECK-DAG: and.b64 [[BX0:%rd[0-9]+]], [[B]], -9223372036854775808;
				; CHECK-DAG: shr.u64 [[BX1:%rd[0-9]+]], [[BX0]], 48;
				; CHECK-DAG: cvt.u16.u64 [[BX2:%rs[0-9]+]], [[BX1]];
				; CHECK: or.b16 [[RX:%rs[0-9]+]], [[AX]], [[BX2]];
				; CHECK: mov.b16 [[R:%h[0-9]+]], [[RX]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_copysign_f64(half %a, double %b) #0 {
				%tb = fptrunc double %b to half
				%r = call half @llvm.copysign.f16(half %a, half %tb)
				ret half %r
				}

				; CHECK-LABEL: test_copysign_extended(
				; CHECK-DAG: ld.param.b16 [[AH:%h[0-9]+]], [test_copysign_extended_param_0];
				; CHECK-DAG: ld.param.b16 [[BH:%h[0-9]+]], [test_copysign_extended_param_1];
				; CHECK-DAG: mov.b16 [[AS:%rs[0-9]+]], [[AH]];
				; CHECK-DAG: mov.b16 [[BS:%rs[0-9]+]], [[BH]];
				; CHECK-DAG: and.b16 [[AX:%rs[0-9]+]], [[AS]], 32767;
				; CHECK-DAG: and.b16 [[BX:%rs[0-9]+]], [[BS]], -32768;
				; CHECK: or.b16 [[RX:%rs[0-9]+]], [[AX]], [[BX]];
				; CHECK: mov.b16 [[R:%h[0-9]+]], [[RX]];
				; CHECK: cvt.f32.f16 [[XR:%f[0-9]+]], [[R]];
				; CHECK: st.param.f32 [func_retval0+0], [[XR]];
				; CHECK: ret;
				define float @test_copysign_extended(half %a, half %b) #0 {
				%r = call half @llvm.copysign.f16(half %a, half %b)
				%xr = fpext half %r to float
				ret float %xr
				}

				; CHECK-LABEL: test_floor(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_floor_param_0];
				; CHECK: cvt.rmi.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_floor(half %a) #0 {
				%r = call half @llvm.floor.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_ceil(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_ceil_param_0];
				; CHECK: cvt.rpi.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_ceil(half %a) #0 {
				%r = call half @llvm.ceil.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_trunc(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_trunc_param_0];
				; CHECK: cvt.rzi.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_trunc(half %a) #0 {
				%r = call half @llvm.trunc.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_rint(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_rint_param_0];
				; CHECK: cvt.rni.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_rint(half %a) #0 {
				%r = call half @llvm.rint.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_nearbyint(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_nearbyint_param_0];
				; CHECK: cvt.rni.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_nearbyint(half %a) #0 {
				%r = call half @llvm.nearbyint.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_round(
				; CHECK: ld.param.b16 [[A:%h[0-9]+]], [test_round_param_0];
				; CHECK: cvt.rni.f16.f16 [[R:%h[0-9]+]], [[A]];
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_round(half %a) #0 {
				%r = call half @llvm.round.f16(half %a)
				ret half %r
				}

				; CHECK-LABEL: test_fmuladd(
				; CHECK-DAG: ld.param.b16 [[A:%h[0-9]+]], [test_fmuladd_param_0];
				; CHECK-DAG: ld.param.b16 [[B:%h[0-9]+]], [test_fmuladd_param_1];
				; CHECK-DAG: ld.param.b16 [[C:%h[0-9]+]], [test_fmuladd_param_2];
				; CHECK-F16: fma.rn.f16 [[R:%h[0-9]+]], [[A]], [[B]], [[C]];
				; CHECK-NOF16-DAG: cvt.f32.f16 [[A32:%f[0-9]+]], [[A]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[B32:%f[0-9]+]], [[B]]
				; CHECK-NOF16-DAG: cvt.f32.f16 [[C32:%f[0-9]+]], [[C]]
				; CHECK-NOF16-NEXT: fma.rn.f32 [[R32:%f[0-9]+]], [[A32]], [[B32]], [[C32]];
				; CHECK-NOF16-NEXT: cvt.rn.f16.f32 [[R:%h[0-9]+]], [[R32]]
				; CHECK: st.param.b16 [func_retval0+0], [[R]];
				; CHECK: ret;
				define half @test_fmuladd(half %a, half %b, half %c) #0 {
				%r = call half @llvm.fmuladd.f16(half %a, half %b, half %c)
				ret half %r
				}

				attributes #0 = { nounwind }
				attributes #1 = { "unsafe-fp-math" = "true" }

llvm/trunk/test/CodeGen/NVPTX/half.ll

	; RUN: llc < %s -march=nvptx \| FileCheck %s			; RUN: llc < %s -march=nvptx \| FileCheck %s

	define void @test_load_store(half addrspace(1)* %in, half addrspace(1)* %out) {			define void @test_load_store(half addrspace(1)* %in, half addrspace(1)* %out) {
	; CHECK-LABEL: @test_load_store			; CHECK-LABEL: @test_load_store
	; CHECK: ld.global.u16 [[TMP:%rs[0-9]+]], [{{%r[0-9]+}}]			; CHECK: ld.global.b16 [[TMP:%h[0-9]+]], [{{%r[0-9]+}}]
	; CHECK: st.global.u16 [{{%r[0-9]+}}], [[TMP]]			; CHECK: st.global.b16 [{{%r[0-9]+}}], [[TMP]]
	%val = load half, half addrspace(1)* %in			%val = load half, half addrspace(1)* %in
	store half %val, half addrspace(1) * %out			store half %val, half addrspace(1) * %out
	ret void			ret void
	}			}

	define void @test_bitcast_from_half(half addrspace(1)* %in, i16 addrspace(1)* %out) {			define void @test_bitcast_from_half(half addrspace(1)* %in, i16 addrspace(1)* %out) {
	; CHECK-LABEL: @test_bitcast_from_half			; CHECK-LABEL: @test_bitcast_from_half
	; CHECK: ld.global.u16 [[TMP:%rs[0-9]+]], [{{%r[0-9]+}}]			; CHECK: ld.global.b16 [[TMP:%h[0-9]+]], [{{%r[0-9]+}}]
	; CHECK: st.global.u16 [{{%r[0-9]+}}], [[TMP]]			; CHECK: st.global.b16 [{{%r[0-9]+}}], [[TMP]]
	%val = load half, half addrspace(1) * %in			%val = load half, half addrspace(1) * %in
	%val_int = bitcast half %val to i16			%val_int = bitcast half %val to i16
	store i16 %val_int, i16 addrspace(1)* %out			store i16 %val_int, i16 addrspace(1)* %out
	ret void			ret void
	}			}

	define void @test_bitcast_to_half(half addrspace(1)* %out, i16 addrspace(1)* %in) {			define void @test_bitcast_to_half(half addrspace(1)* %out, i16 addrspace(1)* %in) {
	; CHECK-LABEL: @test_bitcast_to_half			; CHECK-LABEL: @test_bitcast_to_half
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines