This is an archive of the discontinued LLVM Phabricator instance.

[CUDA] Provide integer SIMD functions for CUDA-9.2
ClosedPublic

Authored by tra on Jul 12 2018, 4:14 PM.

Download Raw Diff

Details

Reviewers

jlebar
bkramer

Commits

rGfa07bb646cc3: [CUDA] Provide integer SIMD functions for CUDA-9.2
rL337587: [CUDA] Provide integer SIMD functions for CUDA-9.2
rC337587: [CUDA] Provide integer SIMD functions for CUDA-9.2

Summary

CUDA-9.2 made all integer SIMD functions into compiler builtins,
so clang no longer has access to the implementation of these
functions in either headers of libdevice and has to provide
its own implementation.

This is mostly a 1:1 mapping to a corresponding PTX instructions
with an exception of vhadd2/vhadd4 that don't have an equivalent
instruction and had to be implemented with a bit hack.

Performance of this implementation will be suboptimal for SM_50
and newer GPUs where PTXAS generates noticeably worse code for
the SIMD instructions compared to the code it generates
for the inline assembly generated by nvcc (or used to come
with CUDA headers).

Diff Detail

Repository: rC Clang

Event Timeline

tra created this revision.Jul 12 2018, 4:14 PM

Herald added subscribers: bixia, sanjoy. · View Herald TranscriptJul 12 2018, 4:14 PM

bkramer accepted this revision.Jul 18 2018, 8:02 AM

bkramer added inline comments.

clang/lib/Headers/__clang_cuda_device_functions.h
1080 ↗	(On Diff #155302)	Should this really saturate?
1095 ↗	(On Diff #155302)	vabsdiff4?

This revision is now accepted and ready to land.Jul 18 2018, 8:02 AM

bkramer requested changes to this revision.Jul 18 2018, 8:03 AM

This revision now requires changes to proceed.Jul 18 2018, 8:03 AM

I'm in the middle of writing the tests for these as it's very easy to mess things up. I'll update the patch once I run it through the tests.

Another problem with the patch in the current form is that these instructions apparently do not accept immediate arguments. PTX is a never ending source of surprises...

Fixed inline asm syntax.
Added workaround for the bug in __vmaxs2() discovered during testing().

I've got set of tests for these functions that I'll add to test-suite shortly. AFAICT this implementation matches nvidia's bit-to-bit.

Fixed the issues pointed out by bkramer@.
Apparently. sat does not matter for vabsdiff instruction with unsigned operands.
My tests were also missing __vabsssN.

Ben, PTAL.

clang/lib/Headers/__clang_cuda_device_functions.h
1080 ↗	(On Diff #155302)	Hmm. My tests didn't catch this. I wonder if ptxas just ignores .sat here. Yup. I've confirmed that the tests do run on this function and do trigger if I intentionally introduce an error. In any case, I've removed the .sat as it should not be there.
1095 ↗	(On Diff #155302)	Ah. I've missed __vabsssN in my tests. Fixed both the header and the tests.

tra mentioned this in D49582: [CUDA, test-suite] Added tests for integer SIMD functions..Jul 19 2018, 5:31 PM

This revision is now accepted and ready to land.Jul 20 2018, 2:58 AM

Closed by commit rC337587: [CUDA] Provide integer SIMD functions for CUDA-9.2 (authored by tra). · Explain WhyJul 20 2018, 10:49 AM

This revision was automatically updated to reflect the committed changes.

tra marked 2 inline comments as done.

Revision Contents

Path

Size

lib/

Headers/

__clang_cuda_device_functions.h

427 lines

__clang_cuda_libdevice_declares.h

3 lines

Diff 156542

lib/Headers/__clang_cuda_device_functions.h

Show First 20 Lines • Show All 797 Lines • ▼ Show 20 Lines
}		}
__DEVICE__ unsigned int __urhadd(unsigned int __a, unsigned int __b) {		__DEVICE__ unsigned int __urhadd(unsigned int __a, unsigned int __b) {
return __nv_urhadd(__a, __b);		return __nv_urhadd(__a, __b);
}		}
__DEVICE__ unsigned int __usad(unsigned int __a, unsigned int __b,		__DEVICE__ unsigned int __usad(unsigned int __a, unsigned int __b,
unsigned int __c) {		unsigned int __c) {
return __nv_usad(__a, __b, __c);		return __nv_usad(__a, __b, __c);
}		}

		#if CUDA_VERSION >= 9000 && CUDA_VERSION < 9020
__DEVICE__ unsigned int __vabs2(unsigned int __a) { return __nv_vabs2(__a); }		__DEVICE__ unsigned int __vabs2(unsigned int __a) { return __nv_vabs2(__a); }
__DEVICE__ unsigned int __vabs4(unsigned int __a) { return __nv_vabs4(__a); }		__DEVICE__ unsigned int __vabs4(unsigned int __a) { return __nv_vabs4(__a); }
__DEVICE__ unsigned int __vabsdiffs2(unsigned int __a, unsigned int __b) {		__DEVICE__ unsigned int __vabsdiffs2(unsigned int __a, unsigned int __b) {
return __nv_vabsdiffs2(__a, __b);		return __nv_vabsdiffs2(__a, __b);
}		}
__DEVICE__ unsigned int __vabsdiffs4(unsigned int __a, unsigned int __b) {		__DEVICE__ unsigned int __vabsdiffs4(unsigned int __a, unsigned int __b) {
return __nv_vabsdiffs4(__a, __b);		return __nv_vabsdiffs4(__a, __b);
}		}
▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	__DEVICE__ unsigned int __vsubss4(unsigned int __a, unsigned int __b) {
return __nv_vsubss4(__a, __b);		return __nv_vsubss4(__a, __b);
}		}
__DEVICE__ unsigned int __vsubus2(unsigned int __a, unsigned int __b) {		__DEVICE__ unsigned int __vsubus2(unsigned int __a, unsigned int __b) {
return __nv_vsubus2(__a, __b);		return __nv_vsubus2(__a, __b);
}		}
__DEVICE__ unsigned int __vsubus4(unsigned int __a, unsigned int __b) {		__DEVICE__ unsigned int __vsubus4(unsigned int __a, unsigned int __b) {
return __nv_vsubus4(__a, __b);		return __nv_vsubus4(__a, __b);
}		}
		#else // CUDA_VERSION >= 9020
		// CUDA no longer provides inline assembly (or bitcode) implementation of these
		// functions, so we have to reimplment them. The implementation is naive and is
		// not optimized for performance.

		// Helper function to convert N-bit boolean subfields into all-0 or all-1.
		// E.g. __bool2mask(0x01000100,8) -> 0xff00ff00
		// __bool2mask(0x00010000,16) -> 0xffff0000
		__DEVICE__ unsigned int __bool2mask(unsigned int __a, int shift) {
		return (__a << shift) - __a;
		}
		__DEVICE__ unsigned int __vabs2(unsigned int __a) {
		unsigned int r;
		asm("vabsdiff2.s32.s32.s32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(0), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabs4(unsigned int __a) {
		unsigned int r;
		asm("vabsdiff4.s32.s32.s32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(0), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabsdiffs2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff2.s32.s32.s32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}

		__DEVICE__ unsigned int __vabsdiffs4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff4.s32.s32.s32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabsdiffu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff2.u32.u32.u32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabsdiffu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff4.u32.u32.u32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabsss2(unsigned int __a) {
		unsigned int r;
		asm("vabsdiff2.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(0), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vabsss4(unsigned int __a) {
		unsigned int r;
		asm("vabsdiff4.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(0), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vadd2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd2.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vadd4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd4.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vaddss2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd2.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vaddss4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd4.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vaddus2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd2.u32.u32.u32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vaddus4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vadd4.u32.u32.u32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vavgs2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vavrg2.s32.s32.s32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vavgs4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vavrg4.s32.s32.s32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vavgu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vavrg2.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vavgu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vavrg4.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vseteq2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.eq %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpeq2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vseteq2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vseteq4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.eq %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpeq4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vseteq4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetges2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.s32.s32.ge %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpges2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetges2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetges4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.s32.s32.ge %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpges4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetges4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetgeu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.ge %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgeu2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgeu2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetgeu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.ge %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgeu4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgeu4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetgts2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.s32.s32.gt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgts2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgts2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetgts4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.s32.s32.gt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgts4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgts4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetgtu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.gt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgtu2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgtu2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetgtu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.gt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpgtu4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetgtu4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetles2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.s32.s32.le %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmples2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetles2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetles4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.s32.s32.le %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmples4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetles4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetleu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.le %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpleu2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetleu2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetleu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.le %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpleu4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetleu4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetlts2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.s32.s32.lt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmplts2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetlts2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetlts4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.s32.s32.lt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmplts4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetlts4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetltu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.lt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpltu2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetltu2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetltu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.lt %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpltu4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetltu4(__a, __b), 8);
		}
		__DEVICE__ unsigned int __vsetne2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset2.u32.u32.ne %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpne2(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetne2(__a, __b), 16);
		}
		__DEVICE__ unsigned int __vsetne4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vset4.u32.u32.ne %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vcmpne4(unsigned int __a, unsigned int __b) {
		return __bool2mask(__vsetne4(__a, __b), 8);
		}

		// Based on ITEM 23 in AIM-239: http://dspace.mit.edu/handle/1721.1/6086
		// (a & b) + (a \| b) = a + b = (a ^ b) + 2 * (a & b) =>
		// (a + b) / 2 = ((a ^ b) >> 1) + (a & b)
		// To operate on multiple sub-elements we need to make sure to mask out bits
		// that crossed over into adjacent elements during the shift.
		__DEVICE__ unsigned int __vhaddu2(unsigned int __a, unsigned int __b) {
		return (((__a ^ __b) >> 1) & ~0x80008000u) + (__a & __b);
		}
		__DEVICE__ unsigned int __vhaddu4(unsigned int __a, unsigned int __b) {
		return (((__a ^ __b) >> 1) & ~0x80808080u) + (__a & __b);
		}

		__DEVICE__ unsigned int __vmaxs2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		if ((__a & 0x8000) && (__b & 0x8000)) {
		// Work around a bug in ptxas which produces invalid result if low element
		// is negative.
		unsigned mask = __vcmpgts2(__a, __b);
		r = (__a & mask) \| (__b & ~mask);
		} else {
		asm("vmax2.s32.s32.s32 %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		}
		return r;
		}
		__DEVICE__ unsigned int __vmaxs4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmax4.s32.s32.s32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vmaxu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmax2.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vmaxu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmax4.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vmins2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmin2.s32.s32.s32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vmins4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmin4.s32.s32.s32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vminu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmin2.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vminu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vmin4.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vsads2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff2.s32.s32.s32.add %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vsads4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff4.s32.s32.s32.add %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vsadu2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff2.u32.u32.u32.add %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vsadu4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vabsdiff4.u32.u32.u32.add %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}

		__DEVICE__ unsigned int __vsub2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub2.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vneg2(unsigned int __a) { return __vsub2(0, __a); }

		__DEVICE__ unsigned int __vsub4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub4.u32.u32.u32 %0,%1,%2,%3;" : "=r"(r) : "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vneg4(unsigned int __a) { return __vsub4(0, __a); }
		__DEVICE__ unsigned int __vsubss2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub2.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vnegss2(unsigned int __a) {
		return __vsubss2(0, __a);
		}
		__DEVICE__ unsigned int __vsubss4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub4.s32.s32.s32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vnegss4(unsigned int __a) {
		return __vsubss4(0, __a);
		}
		__DEVICE__ unsigned int __vsubus2(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub2.u32.u32.u32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		__DEVICE__ unsigned int __vsubus4(unsigned int __a, unsigned int __b) {
		unsigned int r;
		asm("vsub4.u32.u32.u32.sat %0,%1,%2,%3;"
		: "=r"(r)
		: "r"(__a), "r"(__b), "r"(0));
		return r;
		}
		#endif // CUDA_VERSION >= 9020
__DEVICE__ int abs(int __a) { return __nv_abs(__a); }		__DEVICE__ int abs(int __a) { return __nv_abs(__a); }
__DEVICE__ double acos(double __a) { return __nv_acos(__a); }		__DEVICE__ double acos(double __a) { return __nv_acos(__a); }
__DEVICE__ float acosf(float __a) { return __nv_acosf(__a); }		__DEVICE__ float acosf(float __a) { return __nv_acosf(__a); }
__DEVICE__ double acosh(double __a) { return __nv_acosh(__a); }		__DEVICE__ double acosh(double __a) { return __nv_acosh(__a); }
__DEVICE__ float acoshf(float __a) { return __nv_acoshf(__a); }		__DEVICE__ float acoshf(float __a) { return __nv_acoshf(__a); }
__DEVICE__ double asin(double __a) { return __nv_asin(__a); }		__DEVICE__ double asin(double __a) { return __nv_asin(__a); }
__DEVICE__ float asinf(float __a) { return __nv_asinf(__a); }		__DEVICE__ float asinf(float __a) { return __nv_asinf(__a); }
__DEVICE__ double asinh(double __a) { return __nv_asinh(__a); }		__DEVICE__ double asinh(double __a) { return __nv_asinh(__a); }
▲ Show 20 Lines • Show All 290 Lines • Show Last 20 Lines

lib/Headers/__clang_cuda_libdevice_declares.h

	Show First 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	__device__ unsigned int __nv_umin(unsigned int __a, unsigned int __b);			__device__ unsigned int __nv_umin(unsigned int __a, unsigned int __b);
	__device__ unsigned int __nv_umul24(unsigned int __a, unsigned int __b);			__device__ unsigned int __nv_umul24(unsigned int __a, unsigned int __b);
	__device__ unsigned long long __nv_umul64hi(unsigned long long __a,			__device__ unsigned long long __nv_umul64hi(unsigned long long __a,
	unsigned long long __b);			unsigned long long __b);
	__device__ unsigned int __nv_umulhi(unsigned int __a, unsigned int __b);			__device__ unsigned int __nv_umulhi(unsigned int __a, unsigned int __b);
	__device__ unsigned int __nv_urhadd(unsigned int __a, unsigned int __b);			__device__ unsigned int __nv_urhadd(unsigned int __a, unsigned int __b);
	__device__ unsigned int __nv_usad(unsigned int __a, unsigned int __b,			__device__ unsigned int __nv_usad(unsigned int __a, unsigned int __b,
	unsigned int __c);			unsigned int __c);
				#if CUDA_VERSION >= 9000 && CUDA_VERSION < 9020
	__device__ int __nv_vabs2(int __a);			__device__ int __nv_vabs2(int __a);
	__device__ int __nv_vabs4(int __a);			__device__ int __nv_vabs4(int __a);
	__device__ int __nv_vabsdiffs2(int __a, int __b);			__device__ int __nv_vabsdiffs2(int __a, int __b);
	__device__ int __nv_vabsdiffs4(int __a, int __b);			__device__ int __nv_vabsdiffs4(int __a, int __b);
	__device__ int __nv_vabsdiffu2(int __a, int __b);			__device__ int __nv_vabsdiffu2(int __a, int __b);
	__device__ int __nv_vabsdiffu4(int __a, int __b);			__device__ int __nv_vabsdiffu4(int __a, int __b);
	__device__ int __nv_vabsss2(int __a);			__device__ int __nv_vabsss2(int __a);
	__device__ int __nv_vabsss4(int __a);			__device__ int __nv_vabsss4(int __a);
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	__device__ int __nv_vsetne2(int __a, int __b);			__device__ int __nv_vsetne2(int __a, int __b);
	__device__ int __nv_vsetne4(int __a, int __b);			__device__ int __nv_vsetne4(int __a, int __b);
	__device__ int __nv_vsub2(int __a, int __b);			__device__ int __nv_vsub2(int __a, int __b);
	__device__ int __nv_vsub4(int __a, int __b);			__device__ int __nv_vsub4(int __a, int __b);
	__device__ int __nv_vsubss2(int __a, int __b);			__device__ int __nv_vsubss2(int __a, int __b);
	__device__ int __nv_vsubss4(int __a, int __b);			__device__ int __nv_vsubss4(int __a, int __b);
	__device__ int __nv_vsubus2(int __a, int __b);			__device__ int __nv_vsubus2(int __a, int __b);
	__device__ int __nv_vsubus4(int __a, int __b);			__device__ int __nv_vsubus4(int __a, int __b);
				#endif // CUDA_VERSION
	__device__ double __nv_y0(double __a);			__device__ double __nv_y0(double __a);
	__device__ float __nv_y0f(float __a);			__device__ float __nv_y0f(float __a);
	__device__ double __nv_y1(double __a);			__device__ double __nv_y1(double __a);
	__device__ float __nv_y1f(float __a);			__device__ float __nv_y1f(float __a);
	__device__ float __nv_ynf(int __a, float __b);			__device__ float __nv_ynf(int __a, float __b);
	__device__ double __nv_yn(int __a, double __b);			__device__ double __nv_yn(int __a, double __b);

	} // extern "C"			} // extern "C"
	#endif // __CLANG_CUDA_LIBDEVICE_DECLARES_H__			#endif // __CLANG_CUDA_LIBDEVICE_DECLARES_H__