This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/SI: Implement d16 support for buffer intrinsics
ClosedPublic

Authored by cfang on Oct 13 2017, 4:06 PM.

Download Raw Diff

Details

Reviewers

arsenm
b-sumner

Commits

rG44dfa1de3b79: AMDGPU/SI: Add d16 support for buffer intrinsics.
rL322402: AMDGPU/SI: Add d16 support for buffer intrinsics.

Summary

This patch implements buffer_load_format and tbuffer_load_format intrinsics that support half data types.

While types that are not legal currently ( v4f16, for example), we are using ReplaceNodeResults to change the
type and cast it back after customer lowering.

Diff Detail

Repository: rL LLVM

Event Timeline

cfang created this revision.Oct 13 2017, 4:06 PM

Herald added subscribers: t-tye, tpr, dstuttard and 4 others. · View Herald TranscriptOct 13 2017, 4:06 PM

arsenm added inline comments.Oct 16 2017, 2:18 PM

lib/Target/AMDGPU/SIISelLowering.cpp
204 ↗	(On Diff #118982)	This also applies to VI, but it doesn't really matter if it is legal or not. you can still set it to custom
3230 ↗	(On Diff #118982)	Should put this into a new function
3232–3234 ↗	(On Diff #118982)	This should not be an assert, but should also probably handle v3f16
3258–3261 ↗	(On Diff #118982)	This should be moved into getTgtMemIntrinsic so the MMO already exists
3277–3280 ↗	(On Diff #118982)	Ditto
3284 ↗	(On Diff #118982)	Return on different line
3286 ↗	(On Diff #118982)	Typo yo, pu
test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.d16.ll
1 ↗	(On Diff #118982)	GCN as check prefix. Also should have a VI check line? Is this the one where the output register layout can differ on some gfx8 variant?
test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.load.d16.ll
14–15 ↗	(On Diff #118982)	Should check operands

cfang added inline comments.Oct 17 2017, 3:40 PM

lib/Target/AMDGPU/SIISelLowering.cpp
3258–3261 ↗	(On Diff #118982)	I could not understand your intention here. Can you be more specific how to move this to "bool SITargetLowering::getTgtMemIntrinsic"? And how to get MMO? Thanks.

arsenm added inline comments.Oct 23 2017, 9:44 AM

lib/Target/AMDGPU/SIISelLowering.cpp
3258–3261 ↗	(On Diff #118982)	If you implement getTgtMemIntrinsic it will add the same MMO to the intrinsic. You then just need to forward it to the new node. This is still suboptimal since we should really be using the buffer PseudoSourceValue instead of a null MachinePointerInfo

Update based on Matt's review comments.

cfang added inline comments.Oct 24 2017, 1:05 PM

lib/Target/AMDGPU/SIISelLowering.cpp
204 ↗	(On Diff #118982)	OK
3232–3234 ↗	(On Diff #118982)	v3f16 as TODO.
3258–3261 ↗	(On Diff #118982)	Implemented getTgtMemIntrinsic, and made appropriate changes. Thanks.
3286 ↗	(On Diff #118982)	Thanks.
test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.d16.ll
1 ↗	(On Diff #118982)	I am not sure. But the ISA for the instructions are exactly the same for both VI and gfx9. So I didn't add VI check.

Implement getTgtMemIntrinsic for buffer_load/tbuffer_load intrinsics.
Update based on Matt's review comments.

cfang updated this revision to Diff 121560.Nov 3 2017, 3:38 PM

cfang retitled this revision from AMDGPU/SI: Implement d16 support buffer_load_format and tbuffer_load_format intrinsics to AMDGPU/SI: Implement d16 support for buffer intrinsics.

Define a new feature, HasPackedD16VMem for gfx8.1 and beyond to guard the generation of VMem instructions with D16 bit set.
Put buffer_store intrinsics implementation in the same patch as buffer_loads;

cfang added a reviewer: b-sumner.Nov 3 2017, 3:40 PM

arsenm added inline comments.Nov 6 2017, 2:14 AM

lib/Target/AMDGPU/AMDGPU.td
289 ↗	(On Diff #121560)	I think we should invert this, to HasUnpackedD16Mem. It's only the one weird target, the packed layout is the expected one and for every other subtarget.
lib/Target/AMDGPU/BUFInstructions.td
675 ↗	(On Diff #121560)	Comment belongs somewhere else. We usually have the true opcode name as all caps, and modifiers like this as lowercase. In this case we should maybe call it _gfx81 instead.
lib/Target/AMDGPU/SIISelLowering.cpp
549 ↗	(On Diff #121560)	Since you really want to get the i16 equivalent vector, you can use changeTypeToInteger on the f16 type.
589 ↗	(On Diff #121560)	I think you can assume the ABI type alignment for these (at least for the scalar type) not that it probably matters
3268 ↗	(On Diff #121560)	s/ChangeResultType/lowerIntrinsicWChain/
3274 ↗	(On Diff #121560)	switch over IID
3345 ↗	(On Diff #121560)	I'm pretty sure there should be no f32 or FP_ROUND here. This is returning the half format result just expanded into multiple 32-bit registers. They are still half, you need to truncate the int type and bitcast to f16.
4548–4549 ↗	(On Diff #121560)	Same thing as with stores
test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.format.d16.ll
1 ↗	(On Diff #121560)	These should have a common GCN check prefix to avoid the duplicated -LABEL lines
5 ↗	(On Diff #121560)	Spaces after ;
test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.load.d16.ll
34 ↗	(On Diff #121560)	The waitcnts aren't interesting to check. it would be more useful to extract and store the components to see what instructions are required.

cfang added inline comments.Nov 6 2017, 9:54 AM

lib/Target/AMDGPU/SIISelLowering.cpp
549 ↗	(On Diff #121560)	For v2f16, I want something that uses 2 registers, so v2i16 doesn't work for me. What should be the type that specifies the two registers that hold the two half values? Here I am using v2f32.
3345 ↗	(On Diff #121560)	Do you mean the returned type is not v2f32? so what is the type that returned? v2f16? I just could not understand how to represent the two half values in two registers! I hope you can be more specific on what to do here.

cfang marked 11 inline comments as done.Nov 7 2017, 11:36 AM

cfang added inline comments.

lib/Target/AMDGPU/AMDGPU.td
289 ↗	(On Diff #121560)	OK. Use HasUnpackedD16VMem.
lib/Target/AMDGPU/BUFInstructions.td
675 ↗	(On Diff #121560)	Done. Use _gfx80 because only gfx80 has the feature "HasUnpackedD16VMem".
lib/Target/AMDGPU/SIISelLowering.cpp
549 ↗	(On Diff #121560)	Right. So Remove this function definition.
589 ↗	(On Diff #121560)	Not sure how to get the ABI type alignment here since we are using nullptr as ptrval.
3268 ↗	(On Diff #121560)	Changed func name to lowerIntrinsicWChain.
3274 ↗	(On Diff #121560)	OK switch.
3345 ↗	(On Diff #121560)	For v2f16, changed the intrinsic load type to v2i32 if the target has unpacked vmem instructions. After the load, we truncate the data to v2i16, and then bitcast it back to v2f16. v4f16 case is done similarly.
4548–4549 ↗	(On Diff #121560)	For store of v2f16, we first bitcast the data to v2i16, and then zero_extend it to v2i32 to store. v4f16 case is done similarly.
test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.format.d16.ll
5 ↗	(On Diff #121560)	Thanks.

Update based on Matt's comments.

Pardon my ignorance, but why isn't include/llvm/IR/IntrinsicsAMDGPU.td being updated?

In D38906#922226, @b-sumner wrote:

Pardon my ignorance, but why isn't include/llvm/IR/IntrinsicsAMDGPU.td being updated?

The intrinsics use overloading based on the type, so no new intrinsics need to be defined.

lib/Target/AMDGPU/BUFInstructions.td
1464–1475 ↗	(On Diff #121946)	Are the pattens with SItbuffer_load and 16-bit types ever used? I believe the f16 maybe, but isn't the v2f16 getting replaced by ReplaceNodeResults?

I should add that apart from the one comment I had, the change looks good to me. It would be great if we could avoid those added custom SD nodes somehow, though...

lib/Target/AMDGPU/BUFInstructions.td
1464–1475 ↗	(On Diff #121946)	ReplaceNodeResults will only replace illegal vector types (v2f16 on gfx8 and v4f16 on gfx8+). So the pattens with SItbuffer_load and v2f16 are used for gfx9+ (and f16 are used for gfx8+).

Merge the patch with LLVM trunk.
Update LIT tests to avoid specific registers.

Merge with the latest LLVM trunk.

We need to keep the ball rolling! Please advice what else to do in order to move ahead. Thanks.

arsenm added inline comments.Dec 15 2017, 9:55 AM

lib/Target/AMDGPU/SIISelLowering.cpp
556–561 ↗	(On Diff #127152)	You don't need this, you can just do VT.getScalarType()
3333 ↗	(On Diff #127152)	I'm confused because all of the intrinsic logic isn't contained here, and this also just always uses the d16 version which is wrong
3412 ↗	(On Diff #127152)	The only use of this is the negated condition, so just don't negate it
4390–4393 ↗	(On Diff #127152)	This is an unrelated change
4711 ↗	(On Diff #127152)	This is redundant with the other type check, you really want isVector() and to just assert on v3f16
4720 ↗	(On Diff #127152)	Missing space before //
test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll
1 ↗	(On Diff #127152)	Use -enable-var-scope
test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.load.d16.ll
1 ↗	(On Diff #127152)	-enable-var-scope
test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll
1 ↗	(On Diff #127152)	-enable-var-scope

cfang marked 6 inline comments as done.Dec 15 2017, 12:17 PM

cfang added inline comments.

lib/Target/AMDGPU/SIISelLowering.cpp
3333 ↗	(On Diff #127152)	SDValue Res = lowerIntrinsicWChain(Op, EquivLoadVT, DAG) This is just a help function to replace the result type of "Op" with " EquivLoadVT". maybe we should use a different name to avoid confusion. What about: ReplaceResultType ? Thanks.
4390–4393 ↗	(On Diff #127152)	Why do you think this is unrelated? I have to handle Intrinsic::amdgcn_buffer_load_format in getTgtMemIntrinsic. After return "true" there, I think it is better to make appropriate change here also.
4711 ↗	(On Diff #127152)	Do you think we need to assert for v3f16? The code in this block has no reason not to handle v3f16. So the assert of v3f16, if any, should be somewhere else. Also MVY::v3f16 is not recognized in LC.

Update based on Matt's recent comments. Thanks.

ping

Can you add some assembler tests for this, particularly the 3x components ones

lib/Target/AMDGPU/BUFInstructions.td
925 ↗	(On Diff #127181)	You an use VReg_96
1873 ↗	(On Diff #127181)	You should be able to define the 3x encoded ones
1881 ↗	(On Diff #127181)	You should be able to define the 3x encoded ones
lib/Target/AMDGPU/SIISelLowering.cpp
581–601 ↗	(On Diff #127181)	This part should be superseded by D41470
3398 ↗	(On Diff #127181)	This should be in a separate function
4747 ↗	(On Diff #127181)	Dead code. You need to check the number of elements since there is no v3f16 yet

arsenm added inline comments.Dec 22 2017, 12:05 PM

lib/Target/AMDGPU/SIISelLowering.cpp
3333 ↗	(On Diff #127152)	The point of this is to move all of the intrinsic lowering logic to one function. The type change wrapper may be a useful function used by the function called from the switch. Part of the point is to reduce the amount of code nested in switches
581–601 ↗	(On Diff #127181)	Also it's unrelated because this could be done separately for the existing intrinsics, as is done in D41470

cfang marked 11 inline comments as done.Jan 4 2018, 3:12 PM

Update based on Reviewer's comments:

define encoding subtarget "GFX80" to encode unpacked d16 buffer/tbuffer instructions;
add MC test cases;
define two functions: SITargetLowering::lowerIntrinsicWChain and SITargetLowering::handleVDataToStore.

arsenm added inline comments.Jan 9 2018, 9:00 AM

lib/Target/AMDGPU/SIISelLowering.cpp
3552–3553 ↗	(On Diff #128660)	This is still structured strangely. Most of the code inside this function should be in a helper, and lowerIntrinsicWChain should have the switch over the intrinsic
3565 ↗	(On Diff #128660)	This is not the correct chain, this is the input chain, not the output result chain
3572–3573 ↗	(On Diff #128660)	No return after else
3606 ↗	(On Diff #128660)	Remove = SDValue()
lib/Target/AMDGPU/SIISelLowering.h
63 ↗	(On Diff #128660)	Typo brirf, but autobrief is on so you can just remove it
64 ↗	(On Diff #128660)	Use reference for chain out argument, or just pass in the SmallVectorImpl& directly
lib/Target/AMDGPU/SIInstrInfo.td
1899 ↗	(On Diff #128660)	You should add a note explaining why this is here and that it should probably be removed at some point

cfang added inline comments.Jan 9 2018, 9:45 AM

lib/Target/AMDGPU/SIISelLowering.cpp
3565 ↗	(On Diff #128660)	I though "Res" is the output here, except that it has to be type-converted to the final result. So how to get the "output result chain" you mentioned? Thanks.

cfang marked 4 inline comments as done.Jan 9 2018, 11:41 AM

Update based on Matt's latest comments.

Please advice how to get the chain if you still don't agree what I got is actually the result chain. Thanks.

Get the output "Chain" of the intrinsic correctly. Thanks.

arsenm added inline comments.Jan 10 2018, 2:53 PM

lib/Target/AMDGPU/SIISelLowering.cpp
3508–3509 ↗	(On Diff #129312)	We already have LowerINTRINSIC_W_CHAIN, so this name could be confusing
3564 ↗	(On Diff #129312)	Move this into a helper function called in each switch rather than putting code after the switch. Not every intrinsic with an illegal type will necessarily be this situation
3569 ↗	(On Diff #129312)	No return after else

cfang marked an inline comment as done.Jan 10 2018, 3:24 PM

cfang added inline comments.

lib/Target/AMDGPU/SIISelLowering.cpp
3508–3509 ↗	(On Diff #129312)	This is actually the name you suggested before. Do you think lowerIntrinsicWChainWithIllegalReturnType is OK? Or any ither name suggestion? Thanks.
3564 ↗	(On Diff #129312)	OK, will do as you suggested. Thanks.
3569 ↗	(On Diff #129312)	What do you mean here "no return after else"? Do you mean there should not be a return statement, or a return statement is missing? Thanks.

Rename a function and add a new helper function based on Matt's comments.

arsenm added inline comments.Jan 11 2018, 9:56 AM

lib/Target/AMDGPU/SIISelLowering.cpp
4915 ↗	(On Diff #129366)	You don't need a pointer out argument here. You can just have handleVDataToStore return SDValue() if it doesn't need to do anything. If it actaully does something you know it is d16

Redesign the function to handle Vdata to store so that is will be called only when vdata is of type d16.

lib/Target/AMDGPU/SIISelLowering.cpp
4915 ↗	(On Diff #129366)	I redesigned this function. It will called called only when VData is the type of "D16". What do you think?

LGTM

This revision is now accepted and ready to land.Jan 12 2018, 11:35 AM

Closed by commit rL322402: AMDGPU/SI: Add d16 support for buffer intrinsics. (authored by chfang). · Explain WhyJan 12 2018, 1:13 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

AMDGPU/

AMDGPU.td

23 lines

AMDGPUISelLowering.h

4 lines

AMDGPUISelLowering.cpp

4 lines

3 lines

5 lines

1 line

246 lines

4 lines

151 lines

57 lines

test/

CodeGen/

AMDGPU/

llvm.amdgcn.buffer.load.format.d16.ll

41 lines

llvm.amdgcn.buffer.store.format.d16.ll

50 lines

llvm.amdgcn.tbuffer.load.d16.ll

41 lines

llvm.amdgcn.tbuffer.store.d16.ll

53 lines

MC/

AMDGPU/

buf-fmt-d16-packed.s

74 lines

buf-fmt-d16-unpacked.s

73 lines

Diff 129695

llvm/trunk/lib/Target/AMDGPU/AMDGPU.td

	Show First 20 Lines • Show All 286 Lines • ▼ Show 20 Lines
	>;			>;

	def FeatureIntClamp : SubtargetFeature<"int-clamp-insts",			def FeatureIntClamp : SubtargetFeature<"int-clamp-insts",
	"HasIntClamp",			"HasIntClamp",
	"true",			"true",
	"Support clamp for integer destination"			"Support clamp for integer destination"
	>;			>;

				def FeatureUnpackedD16VMem : SubtargetFeature<"unpacked-d16-vmem",
				"HasUnpackedD16VMem",
				"true",
				"Has unpacked d16 vmem instructions"
				>;

	//===------------------------------------------------------------===//			//===------------------------------------------------------------===//
	// Subtarget Features (options and debugging)			// Subtarget Features (options and debugging)
	//===------------------------------------------------------------===//			//===------------------------------------------------------------===//

	// Some instructions do not support denormals despite this flag. Using			// Some instructions do not support denormals despite this flag. Using
	// fp32 denormals also causes instructions to run at the double			// fp32 denormals also causes instructions to run at the double
	// precision rate for the device.			// precision rate for the device.
	def FeatureFP32Denormals : SubtargetFeature<"fp32-denormals",			def FeatureFP32Denormals : SubtargetFeature<"fp32-denormals",
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines

	def FeatureISAVersion7_0_4 : SubtargetFeatureISAVersion <7,0,4,			def FeatureISAVersion7_0_4 : SubtargetFeatureISAVersion <7,0,4,
	[FeatureSeaIslands,			[FeatureSeaIslands,
	FeatureLDSBankCount32]>;			FeatureLDSBankCount32]>;

	def FeatureISAVersion8_0_0 : SubtargetFeatureISAVersion <8,0,0,			def FeatureISAVersion8_0_0 : SubtargetFeatureISAVersion <8,0,0,
	[FeatureVolcanicIslands,			[FeatureVolcanicIslands,
	FeatureLDSBankCount32,			FeatureLDSBankCount32,
	FeatureSGPRInitBug]>;			FeatureSGPRInitBug,
				FeatureUnpackedD16VMem]>;

	def FeatureISAVersion8_0_1 : SubtargetFeatureISAVersion <8,0,1,			def FeatureISAVersion8_0_1 : SubtargetFeatureISAVersion <8,0,1,
	[FeatureVolcanicIslands,			[FeatureVolcanicIslands,
	FeatureFastFMAF32,			FeatureFastFMAF32,
	HalfRate64Ops,			HalfRate64Ops,
	FeatureLDSBankCount32,			FeatureLDSBankCount32,
	FeatureXNACK]>;			FeatureXNACK,
				FeatureUnpackedD16VMem]>;

	def FeatureISAVersion8_0_2 : SubtargetFeatureISAVersion <8,0,2,			def FeatureISAVersion8_0_2 : SubtargetFeatureISAVersion <8,0,2,
	[FeatureVolcanicIslands,			[FeatureVolcanicIslands,
	FeatureLDSBankCount32,			FeatureLDSBankCount32,
	FeatureSGPRInitBug]>;			FeatureSGPRInitBug,
				FeatureUnpackedD16VMem]>;

	def FeatureISAVersion8_0_3 : SubtargetFeatureISAVersion <8,0,3,			def FeatureISAVersion8_0_3 : SubtargetFeatureISAVersion <8,0,3,
	[FeatureVolcanicIslands,			[FeatureVolcanicIslands,
	FeatureLDSBankCount32]>;			FeatureLDSBankCount32,
				FeatureUnpackedD16VMem]>;

	def FeatureISAVersion8_1_0 : SubtargetFeatureISAVersion <8,1,0,			def FeatureISAVersion8_1_0 : SubtargetFeatureISAVersion <8,1,0,
	[FeatureVolcanicIslands,			[FeatureVolcanicIslands,
	FeatureLDSBankCount16,			FeatureLDSBankCount16,
	FeatureXNACK]>;			FeatureXNACK]>;

	def FeatureISAVersion9_0_0 : SubtargetFeatureISAVersion <9,0,0,			def FeatureISAVersion9_0_0 : SubtargetFeatureISAVersion <9,0,0,
	[FeatureGFX9,			[FeatureGFX9,
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines

	def HasFlatGlobalInsts : Predicate<"Subtarget->hasFlatGlobalInsts()">,			def HasFlatGlobalInsts : Predicate<"Subtarget->hasFlatGlobalInsts()">,
	AssemblerPredicate<"FeatureFlatGlobalInsts">;			AssemblerPredicate<"FeatureFlatGlobalInsts">;
	def HasFlatScratchInsts : Predicate<"Subtarget->hasFlatScratchInsts()">,			def HasFlatScratchInsts : Predicate<"Subtarget->hasFlatScratchInsts()">,
	AssemblerPredicate<"FeatureFlatScratchInsts">;			AssemblerPredicate<"FeatureFlatScratchInsts">;
	def HasD16LoadStore : Predicate<"Subtarget->hasD16LoadStore()">,			def HasD16LoadStore : Predicate<"Subtarget->hasD16LoadStore()">,
	AssemblerPredicate<"FeatureGFX9Insts">;			AssemblerPredicate<"FeatureGFX9Insts">;

				def HasUnpackedD16VMem : Predicate<"Subtarget->hasUnpackedD16VMem()">,
				AssemblerPredicate<"FeatureUnpackedD16VMem">;
				def HasPackedD16VMem : Predicate<"!Subtarget->hasUnpackedD16VMem()">,
				AssemblerPredicate<"!FeatureUnpackedD16VMem">;


	def LDSRequiresM0Init : Predicate<"Subtarget->ldsRequiresM0Init()">;			def LDSRequiresM0Init : Predicate<"Subtarget->ldsRequiresM0Init()">;
	def NotLDSRequiresM0Init : Predicate<"!Subtarget->ldsRequiresM0Init()">;			def NotLDSRequiresM0Init : Predicate<"!Subtarget->ldsRequiresM0Init()">;

	def HasDSAddTid : Predicate<"Subtarget->getGeneration() >= AMDGPUSubtarget::GFX9">,			def HasDSAddTid : Predicate<"Subtarget->getGeneration() >= AMDGPUSubtarget::GFX9">,
	AssemblerPredicate<"FeatureGFX9Insts">;			AssemblerPredicate<"FeatureGFX9Insts">;

	def HasAddNoCarryInsts : Predicate<"Subtarget->hasAddNoCarryInsts()">,			def HasAddNoCarryInsts : Predicate<"Subtarget->hasAddNoCarryInsts()">,
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 445 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
PC_ADD_REL_OFFSET,		PC_ADD_REL_OFFSET,
KILL,		KILL,
DUMMY_CHAIN,		DUMMY_CHAIN,
FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,		FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,
STORE_MSKOR,		STORE_MSKOR,
LOAD_CONSTANT,		LOAD_CONSTANT,
TBUFFER_STORE_FORMAT,		TBUFFER_STORE_FORMAT,
TBUFFER_STORE_FORMAT_X3,		TBUFFER_STORE_FORMAT_X3,
		TBUFFER_STORE_FORMAT_D16,
TBUFFER_LOAD_FORMAT,		TBUFFER_LOAD_FORMAT,
		TBUFFER_LOAD_FORMAT_D16,
ATOMIC_CMP_SWAP,		ATOMIC_CMP_SWAP,
ATOMIC_INC,		ATOMIC_INC,
ATOMIC_DEC,		ATOMIC_DEC,
BUFFER_LOAD,		BUFFER_LOAD,
BUFFER_LOAD_FORMAT,		BUFFER_LOAD_FORMAT,
		BUFFER_LOAD_FORMAT_D16,
BUFFER_STORE,		BUFFER_STORE,
BUFFER_STORE_FORMAT,		BUFFER_STORE_FORMAT,
		BUFFER_STORE_FORMAT_D16,
BUFFER_ATOMIC_SWAP,		BUFFER_ATOMIC_SWAP,
BUFFER_ATOMIC_ADD,		BUFFER_ATOMIC_ADD,
BUFFER_ATOMIC_SUB,		BUFFER_ATOMIC_SUB,
BUFFER_ATOMIC_SMIN,		BUFFER_ATOMIC_SMIN,
BUFFER_ATOMIC_UMIN,		BUFFER_ATOMIC_UMIN,
BUFFER_ATOMIC_SMAX,		BUFFER_ATOMIC_SMAX,
BUFFER_ATOMIC_UMAX,		BUFFER_ATOMIC_UMAX,
BUFFER_ATOMIC_AND,		BUFFER_ATOMIC_AND,
Show All 12 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 3,970 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(SENDMSGHALT)		NODE_NAME_CASE(SENDMSGHALT)
NODE_NAME_CASE(INTERP_MOV)		NODE_NAME_CASE(INTERP_MOV)
NODE_NAME_CASE(INTERP_P1)		NODE_NAME_CASE(INTERP_P1)
NODE_NAME_CASE(INTERP_P2)		NODE_NAME_CASE(INTERP_P2)
NODE_NAME_CASE(STORE_MSKOR)		NODE_NAME_CASE(STORE_MSKOR)
NODE_NAME_CASE(LOAD_CONSTANT)		NODE_NAME_CASE(LOAD_CONSTANT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)
		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)
		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(ATOMIC_CMP_SWAP)		NODE_NAME_CASE(ATOMIC_CMP_SWAP)
NODE_NAME_CASE(ATOMIC_INC)		NODE_NAME_CASE(ATOMIC_INC)
NODE_NAME_CASE(ATOMIC_DEC)		NODE_NAME_CASE(ATOMIC_DEC)
NODE_NAME_CASE(BUFFER_LOAD)		NODE_NAME_CASE(BUFFER_LOAD)
NODE_NAME_CASE(BUFFER_LOAD_FORMAT)		NODE_NAME_CASE(BUFFER_LOAD_FORMAT)
		NODE_NAME_CASE(BUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(BUFFER_STORE)		NODE_NAME_CASE(BUFFER_STORE)
NODE_NAME_CASE(BUFFER_STORE_FORMAT)		NODE_NAME_CASE(BUFFER_STORE_FORMAT)
		NODE_NAME_CASE(BUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)		NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)
NODE_NAME_CASE(BUFFER_ATOMIC_ADD)		NODE_NAME_CASE(BUFFER_ATOMIC_ADD)
NODE_NAME_CASE(BUFFER_ATOMIC_SUB)		NODE_NAME_CASE(BUFFER_ATOMIC_SUB)
NODE_NAME_CASE(BUFFER_ATOMIC_SMIN)		NODE_NAME_CASE(BUFFER_ATOMIC_SMIN)
NODE_NAME_CASE(BUFFER_ATOMIC_UMIN)		NODE_NAME_CASE(BUFFER_ATOMIC_UMIN)
NODE_NAME_CASE(BUFFER_ATOMIC_SMAX)		NODE_NAME_CASE(BUFFER_ATOMIC_SMAX)
NODE_NAME_CASE(BUFFER_ATOMIC_UMAX)		NODE_NAME_CASE(BUFFER_ATOMIC_UMAX)
NODE_NAME_CASE(BUFFER_ATOMIC_AND)		NODE_NAME_CASE(BUFFER_ATOMIC_AND)
▲ Show 20 Lines • Show All 166 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstrInfo.cpp

	Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	}			}

	// This must be kept in sync with the SIEncodingFamily class in SIInstrInfo.td			// This must be kept in sync with the SIEncodingFamily class in SIInstrInfo.td
	enum SIEncodingFamily {			enum SIEncodingFamily {
	SI = 0,			SI = 0,
	VI = 1,			VI = 1,
	SDWA = 2,			SDWA = 2,
	SDWA9 = 3,			SDWA9 = 3,
	GFX9 = 4			GFX80 = 4,
				GFX9 = 5
	};			};

	static SIEncodingFamily subtargetEncodingFamily(const AMDGPUSubtarget &ST) {			static SIEncodingFamily subtargetEncodingFamily(const AMDGPUSubtarget &ST) {
	switch (ST.getGeneration()) {			switch (ST.getGeneration()) {
	case AMDGPUSubtarget::SOUTHERN_ISLANDS:			case AMDGPUSubtarget::SOUTHERN_ISLANDS:
	case AMDGPUSubtarget::SEA_ISLANDS:			case AMDGPUSubtarget::SEA_ISLANDS:
	return SIEncodingFamily::SI;			return SIEncodingFamily::SI;
	case AMDGPUSubtarget::VOLCANIC_ISLANDS:			case AMDGPUSubtarget::VOLCANIC_ISLANDS:
	Show All 38 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.h

Show First 20 Lines • Show All 159 Lines • ▼ Show 20 Lines	protected:
bool HasSDWAMac;		bool HasSDWAMac;
bool HasSDWAOutModsVOPC;		bool HasSDWAOutModsVOPC;
bool HasDPP;		bool HasDPP;
bool FlatAddressSpace;		bool FlatAddressSpace;
bool FlatInstOffsets;		bool FlatInstOffsets;
bool FlatGlobalInsts;		bool FlatGlobalInsts;
bool FlatScratchInsts;		bool FlatScratchInsts;
bool AddNoCarryInsts;		bool AddNoCarryInsts;
		bool HasUnpackedD16VMem;
bool R600ALUInst;		bool R600ALUInst;
bool CaymanISA;		bool CaymanISA;
bool CFALUBug;		bool CFALUBug;
bool HasVertexCache;		bool HasVertexCache;
short TexVTXClauseSize;		short TexVTXClauseSize;
bool ScalarizeGlobal;		bool ScalarizeGlobal;

// Dummy feature to use for assembler in tablegen.		// Dummy feature to use for assembler in tablegen.
▲ Show 20 Lines • Show All 300 Lines • ▼ Show 20 Lines	public:
bool ldsRequiresM0Init() const {		bool ldsRequiresM0Init() const {
return getGeneration() < GFX9;		return getGeneration() < GFX9;
}		}

bool hasAddNoCarry() const {		bool hasAddNoCarry() const {
return AddNoCarryInsts;		return AddNoCarryInsts;
}		}

		bool hasUnpackedD16VMem() const {
		return HasUnpackedD16VMem;
		}

bool isMesaKernel(const MachineFunction &MF) const {		bool isMesaKernel(const MachineFunction &MF) const {
return isMesa3DOS() && !AMDGPU::isShader(MF.getFunction().getCallingConv());		return isMesa3DOS() && !AMDGPU::isShader(MF.getFunction().getCallingConv());
}		}

// Covers VS/PS/CS graphics shaders		// Covers VS/PS/CS graphics shaders
bool isMesaGfxShader(const MachineFunction &MF) const {		bool isMesaGfxShader(const MachineFunction &MF) const {
return isMesa3DOS() && AMDGPU::isShader(MF.getFunction().getCallingConv());		return isMesa3DOS() && AMDGPU::isShader(MF.getFunction().getCallingConv());
}		}
▲ Show 20 Lines • Show All 456 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

Show First 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	: AMDGPUGenSubtargetInfo(TT, GPU, FS),
HasSDWAMac(false),		HasSDWAMac(false),
HasSDWAOutModsVOPC(false),		HasSDWAOutModsVOPC(false),
HasDPP(false),		HasDPP(false),
FlatAddressSpace(false),		FlatAddressSpace(false),
FlatInstOffsets(false),		FlatInstOffsets(false),
FlatGlobalInsts(false),		FlatGlobalInsts(false),
FlatScratchInsts(false),		FlatScratchInsts(false),
AddNoCarryInsts(false),		AddNoCarryInsts(false),
		HasUnpackedD16VMem(false),

R600ALUInst(false),		R600ALUInst(false),
CaymanISA(false),		CaymanISA(false),
CFALUBug(false),		CFALUBug(false),
HasVertexCache(false),		HasVertexCache(false),
TexVTXClauseSize(0),		TexVTXClauseSize(0),
ScalarizeGlobal(false),		ScalarizeGlobal(false),

▲ Show 20 Lines • Show All 436 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/BUFInstructions.td

Show First 20 Lines • Show All 665 Lines • ▼ Show 20 Lines	defm BUFFER_STORE_FORMAT_XY : MUBUF_Pseudo_Stores <
"buffer_store_format_xy", VReg_64		"buffer_store_format_xy", VReg_64
>;		>;
defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Pseudo_Stores <
"buffer_store_format_xyz", VReg_96		"buffer_store_format_xyz", VReg_96
>;		>;
defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Pseudo_Stores <
"buffer_store_format_xyzw", VReg_128		"buffer_store_format_xyzw", VReg_128
>;		>;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm BUFFER_LOAD_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_x", VGPR_32
		>;
		defm BUFFER_LOAD_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xy", VReg_64
		>;
		defm BUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xyz", VReg_96
		>;
		defm BUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xyzw", VReg_128
		>;
		defm BUFFER_STORE_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_x", VGPR_32
		>;
		defm BUFFER_STORE_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xy", VReg_64
		>;
		defm BUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xyz", VReg_96
		>;
		defm BUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xyzw", VReg_128
		>;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm BUFFER_LOAD_FORMAT_D16_X : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_x", VGPR_32
		>;
		defm BUFFER_LOAD_FORMAT_D16_XY : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xy", VGPR_32
		>;
		defm BUFFER_LOAD_FORMAT_D16_XYZ : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xyz", VReg_64
		>;
		defm BUFFER_LOAD_FORMAT_D16_XYZW : MUBUF_Pseudo_Loads <
		"buffer_load_format_d16_xyzw", VReg_64
		>;
		defm BUFFER_STORE_FORMAT_D16_X : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_x", VGPR_32
		>;
		defm BUFFER_STORE_FORMAT_D16_XY : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xy", VGPR_32
		>;
		defm BUFFER_STORE_FORMAT_D16_XYZ : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xyz", VReg_64
		>;
		defm BUFFER_STORE_FORMAT_D16_XYZW : MUBUF_Pseudo_Stores <
		"buffer_store_format_d16_xyzw", VReg_64
		>;
		} // End HasPackedD16VMem.

defm BUFFER_LOAD_UBYTE : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_UBYTE : MUBUF_Pseudo_Loads <
"buffer_load_ubyte", VGPR_32, i32, mubuf_az_extloadi8		"buffer_load_ubyte", VGPR_32, i32, mubuf_az_extloadi8
>;		>;
defm BUFFER_LOAD_SBYTE : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_SBYTE : MUBUF_Pseudo_Loads <
"buffer_load_sbyte", VGPR_32, i32, mubuf_sextloadi8		"buffer_load_sbyte", VGPR_32, i32, mubuf_sextloadi8
>;		>;
defm BUFFER_LOAD_USHORT : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_USHORT : MUBUF_Pseudo_Loads <
"buffer_load_ushort", VGPR_32, i32, mubuf_az_extloadi16		"buffer_load_ushort", VGPR_32, i32, mubuf_az_extloadi16
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_xy", VReg_64>;		defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_xy", VReg_64>;
defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyz", VReg_128>;		defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyz", VReg_128>;
defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyzw", VReg_128>;		defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyzw", VReg_128>;
defm TBUFFER_STORE_FORMAT_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_x", VGPR_32>;		defm TBUFFER_STORE_FORMAT_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_x", VGPR_32>;
defm TBUFFER_STORE_FORMAT_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_xy", VReg_64>;		defm TBUFFER_STORE_FORMAT_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_xy", VReg_64>;
defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyz", VReg_128>;		defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyz", VReg_128>;
defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyzw", VReg_128>;		defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyzw", VReg_128>;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm TBUFFER_LOAD_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32>;
		defm TBUFFER_LOAD_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VReg_64>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_96>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_128>;
		defm TBUFFER_STORE_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32>;
		defm TBUFFER_STORE_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VReg_64>;
		defm TBUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_96>;
		defm TBUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_128>;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm TBUFFER_LOAD_FORMAT_D16_X : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32>;
		defm TBUFFER_LOAD_FORMAT_D16_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VGPR_32>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_64>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_64>;
		defm TBUFFER_STORE_FORMAT_D16_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32>;
		defm TBUFFER_STORE_FORMAT_D16_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VGPR_32>;
		defm TBUFFER_STORE_FORMAT_D16_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_64>;
		defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_64>;
		} // End HasPackedD16VMem.

let SubtargetPredicate = isCIVI in {		let SubtargetPredicate = isCIVI in {

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Instruction definitions for CI and newer.		// Instruction definitions for CI and newer.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Remaining instructions:		// Remaining instructions:
// BUFFER_LOAD_DWORDX3		// BUFFER_LOAD_DWORDX3
// BUFFER_STORE_DWORDX3		// BUFFER_STORE_DWORDX3
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	(!cast<MUBUF_Pseudo>(opcode # _BOTHEN)
$rsrc, $soffset, (as_i16imm $offset),		$rsrc, $soffset, (as_i16imm $offset),
(as_i1imm $glc), (as_i1imm $slc), 0)		(as_i1imm $glc), (as_i1imm $slc), 0)
>;		>;
}		}

defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, f32, "BUFFER_LOAD_FORMAT_X">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, f32, "BUFFER_LOAD_FORMAT_X">;
defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2f32, "BUFFER_LOAD_FORMAT_XY">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2f32, "BUFFER_LOAD_FORMAT_XY">;
defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4f32, "BUFFER_LOAD_FORMAT_XYZW">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v4f32, "BUFFER_LOAD_FORMAT_XYZW">;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, f16, "BUFFER_LOAD_FORMAT_D16_X_gfx80">;
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v2i32, "BUFFER_LOAD_FORMAT_D16_XY_gfx80">;
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v4i32, "BUFFER_LOAD_FORMAT_D16_XYZW_gfx80">;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, f16, "BUFFER_LOAD_FORMAT_D16_X">;
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format, v2f16, "BUFFER_LOAD_FORMAT_D16_XY">;
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, i32, "BUFFER_LOAD_FORMAT_D16_XY">;
		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load_format_d16, v2i32, "BUFFER_LOAD_FORMAT_D16_XYZW">;
		} // End HasPackedD16VMem.

defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, f32, "BUFFER_LOAD_DWORD">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, f32, "BUFFER_LOAD_DWORD">;
defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, v2f32, "BUFFER_LOAD_DWORDX2">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, v2f32, "BUFFER_LOAD_DWORDX2">;
defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, v4f32, "BUFFER_LOAD_DWORDX4">;		defm : MUBUF_LoadIntrinsicPat<SIbuffer_load, v4f32, "BUFFER_LOAD_DWORDX4">;

multiclass MUBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,		multiclass MUBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,
string opcode> {		string opcode> {
def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, 0,		(name vt:$vdata, v4i32:$rsrc, 0,
Show All 31 Lines	(!cast<MUBUF_Pseudo>(opcode # _BOTHEN_exact)
$rsrc, $soffset, (as_i16imm $offset),		$rsrc, $soffset, (as_i16imm $offset),
(as_i1imm $glc), (as_i1imm $slc), 0)		(as_i1imm $glc), (as_i1imm $slc), 0)
>;		>;
}		}

defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, f32, "BUFFER_STORE_FORMAT_X">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, f32, "BUFFER_STORE_FORMAT_X">;
defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, v2f32, "BUFFER_STORE_FORMAT_XY">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, v2f32, "BUFFER_STORE_FORMAT_XY">;
defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, v4f32, "BUFFER_STORE_FORMAT_XYZW">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format, v4f32, "BUFFER_STORE_FORMAT_XYZW">;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, f16, "BUFFER_STORE_FORMAT_D16_X_gfx80">;
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, v2i32, "BUFFER_STORE_FORMAT_D16_XY_gfx80">;
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, v4i32, "BUFFER_STORE_FORMAT_D16_XYZW_gfx80">;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, f16, "BUFFER_STORE_FORMAT_D16_X">;
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, v2f16, "BUFFER_STORE_FORMAT_D16_XY">;
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, i32, "BUFFER_STORE_FORMAT_D16_XY">;
		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store_format_d16, v2i32, "BUFFER_STORE_FORMAT_D16_XYZW">;
		} // End HasPackedD16VMem.

defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, f32, "BUFFER_STORE_DWORD">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, f32, "BUFFER_STORE_DWORD">;
defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, v2f32, "BUFFER_STORE_DWORDX2">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, v2f32, "BUFFER_STORE_DWORDX2">;
defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, v4f32, "BUFFER_STORE_DWORDX4">;		defm : MUBUF_StoreIntrinsicPat<SIbuffer_store, v4f32, "BUFFER_STORE_DWORDX4">;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// buffer_atomic patterns		// buffer_atomic patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

▲ Show 20 Lines • Show All 397 Lines • ▼ Show 20 Lines

defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, i32, "TBUFFER_LOAD_FORMAT_X">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, i32, "TBUFFER_LOAD_FORMAT_X">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2i32, "TBUFFER_LOAD_FORMAT_XY">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2i32, "TBUFFER_LOAD_FORMAT_XY">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4i32, "TBUFFER_LOAD_FORMAT_XYZW">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4i32, "TBUFFER_LOAD_FORMAT_XYZW">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f32, "TBUFFER_LOAD_FORMAT_X">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f32, "TBUFFER_LOAD_FORMAT_X">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2f32, "TBUFFER_LOAD_FORMAT_XY">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2f32, "TBUFFER_LOAD_FORMAT_XY">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4f32, "TBUFFER_LOAD_FORMAT_XYZW">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4f32, "TBUFFER_LOAD_FORMAT_XYZW">;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f16, "TBUFFER_LOAD_FORMAT_D16_X_gfx80">;
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v2i32, "TBUFFER_LOAD_FORMAT_D16_XY_gfx80">;
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v4i32, "TBUFFER_LOAD_FORMAT_D16_XYZW_gfx80">;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f16, "TBUFFER_LOAD_FORMAT_D16_X">;
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2f16, "TBUFFER_LOAD_FORMAT_D16_XY">;
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, i32, "TBUFFER_LOAD_FORMAT_D16_XY">;
		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v2i32, "TBUFFER_LOAD_FORMAT_D16_XYZW">;
		} // End HasPackedD16VMem.

multiclass MTBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,		multiclass MTBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,
string opcode> {		string opcode> {
def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,		(name vt:$vdata, v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),		imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),
(!cast<MTBUF_Pseudo>(opcode # _OFFSET_exact) $vdata, $rsrc, $soffset,		(!cast<MTBUF_Pseudo>(opcode # _OFFSET_exact) $vdata, $rsrc, $soffset,
(as_i16imm $offset), (as_i8imm $dfmt),		(as_i16imm $offset), (as_i8imm $dfmt),
(as_i8imm $nfmt), (as_i1imm $glc),		(as_i8imm $nfmt), (as_i1imm $glc),
Show All 33 Lines
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2i32, "TBUFFER_STORE_FORMAT_XY">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2i32, "TBUFFER_STORE_FORMAT_XY">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4i32, "TBUFFER_STORE_FORMAT_XYZ">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4i32, "TBUFFER_STORE_FORMAT_XYZ">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4i32, "TBUFFER_STORE_FORMAT_XYZW">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4i32, "TBUFFER_STORE_FORMAT_XYZW">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, f32, "TBUFFER_STORE_FORMAT_X">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, f32, "TBUFFER_STORE_FORMAT_X">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2f32, "TBUFFER_STORE_FORMAT_XY">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2f32, "TBUFFER_STORE_FORMAT_XY">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4f32, "TBUFFER_STORE_FORMAT_XYZ">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4f32, "TBUFFER_STORE_FORMAT_XYZ">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4f32, "TBUFFER_STORE_FORMAT_XYZW">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4f32, "TBUFFER_STORE_FORMAT_XYZW">;

		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, f16, "TBUFFER_STORE_FORMAT_D16_X_gfx80">;
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, v2i32, "TBUFFER_STORE_FORMAT_D16_XY_gfx80">;
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, v4i32, "TBUFFER_STORE_FORMAT_D16_XYZW_gfx80">;
		} // End HasUnpackedD16VMem.

		let SubtargetPredicate = HasPackedD16VMem in {
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, f16, "TBUFFER_STORE_FORMAT_D16_X">;
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, v2f16, "TBUFFER_STORE_FORMAT_D16_XY">;
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, i32, "TBUFFER_STORE_FORMAT_D16_XY">;
		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_d16, v2i32, "TBUFFER_STORE_FORMAT_D16_XYZW">;
		} // End HasPackedD16VMem.

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Target instructions, move to the appropriate target TD file		// Target instructions, move to the appropriate target TD file
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SI		// SI
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines

multiclass MUBUF_Real_AllAddr_vi<bits<7> op> {		multiclass MUBUF_Real_AllAddr_vi<bits<7> op> {
def _OFFSET_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFSET")>;		def _OFFSET_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFSET")>;
def _OFFEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFEN")>;		def _OFFEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFEN")>;
def _IDXEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_IDXEN")>;		def _IDXEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_IDXEN")>;
def _BOTHEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_BOTHEN")>;		def _BOTHEN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_BOTHEN")>;
}		}

		class MUBUF_Real_gfx80 <bits<7> op, MUBUF_Pseudo ps> :
		MUBUF_Real<op, ps>,
		Enc64,
		SIMCInstr<ps.PseudoInstr, SIEncodingFamily.GFX80> {
		let AssemblerPredicate=HasUnpackedD16VMem;
		let DecoderNamespace="GFX80_UNPACKED";

		let Inst{11-0} = !if(ps.has_offset, offset, ?);
		let Inst{12} = ps.offen;
		let Inst{13} = ps.idxen;
		let Inst{14} = !if(ps.has_glc, glc, ps.glc_value);
		let Inst{16} = lds;
		let Inst{17} = !if(ps.has_slc, slc, ?);
		let Inst{24-18} = op;
		let Inst{31-26} = 0x38; //encoding
		let Inst{39-32} = !if(ps.has_vaddr, vaddr, ?);
		let Inst{47-40} = !if(ps.has_vdata, vdata, ?);
		let Inst{52-48} = !if(ps.has_srsrc, srsrc{6-2}, ?);
		let Inst{55} = !if(ps.has_tfe, tfe, ?);
		let Inst{63-56} = !if(ps.has_soffset, soffset, ?);
		}

		multiclass MUBUF_Real_AllAddr_gfx80<bits<7> op> {
		def _OFFSET_vi : MUBUF_Real_gfx80 <op, !cast<MUBUF_Pseudo>(NAME#"_OFFSET")>;
		def _OFFEN_vi : MUBUF_Real_gfx80 <op, !cast<MUBUF_Pseudo>(NAME#"_OFFEN")>;
		def _IDXEN_vi : MUBUF_Real_gfx80 <op, !cast<MUBUF_Pseudo>(NAME#"_IDXEN")>;
		def _BOTHEN_vi : MUBUF_Real_gfx80 <op, !cast<MUBUF_Pseudo>(NAME#"_BOTHEN")>;
		}

multiclass MUBUF_Real_Atomic_vi<bits<7> op> :		multiclass MUBUF_Real_Atomic_vi<bits<7> op> :
MUBUF_Real_AllAddr_vi<op> {		MUBUF_Real_AllAddr_vi<op> {
def _OFFSET_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFSET_RTN")>;		def _OFFSET_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFSET_RTN")>;
def _OFFEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFEN_RTN")>;		def _OFFEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_OFFEN_RTN")>;
def _IDXEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_IDXEN_RTN")>;		def _IDXEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_IDXEN_RTN")>;
def _BOTHEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_BOTHEN_RTN")>;		def _BOTHEN_RTN_vi : MUBUF_Real_vi <op, !cast<MUBUF_Pseudo>(NAME#"_BOTHEN_RTN")>;
}		}

defm BUFFER_LOAD_FORMAT_X : MUBUF_Real_AllAddr_vi <0x00>;		defm BUFFER_LOAD_FORMAT_X : MUBUF_Real_AllAddr_vi <0x00>;
defm BUFFER_LOAD_FORMAT_XY : MUBUF_Real_AllAddr_vi <0x01>;		defm BUFFER_LOAD_FORMAT_XY : MUBUF_Real_AllAddr_vi <0x01>;
defm BUFFER_LOAD_FORMAT_XYZ : MUBUF_Real_AllAddr_vi <0x02>;		defm BUFFER_LOAD_FORMAT_XYZ : MUBUF_Real_AllAddr_vi <0x02>;
defm BUFFER_LOAD_FORMAT_XYZW : MUBUF_Real_AllAddr_vi <0x03>;		defm BUFFER_LOAD_FORMAT_XYZW : MUBUF_Real_AllAddr_vi <0x03>;
defm BUFFER_STORE_FORMAT_X : MUBUF_Real_AllAddr_vi <0x04>;		defm BUFFER_STORE_FORMAT_X : MUBUF_Real_AllAddr_vi <0x04>;
defm BUFFER_STORE_FORMAT_XY : MUBUF_Real_AllAddr_vi <0x05>;		defm BUFFER_STORE_FORMAT_XY : MUBUF_Real_AllAddr_vi <0x05>;
defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Real_AllAddr_vi <0x06>;		defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Real_AllAddr_vi <0x06>;
defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Real_AllAddr_vi <0x07>;		defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Real_AllAddr_vi <0x07>;
		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm BUFFER_LOAD_FORMAT_D16_X_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x08>;
		defm BUFFER_LOAD_FORMAT_D16_XY_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x09>;
		defm BUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0a>;
		defm BUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0b>;
		defm BUFFER_STORE_FORMAT_D16_X_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0c>;
		defm BUFFER_STORE_FORMAT_D16_XY_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0d>;
		defm BUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0e>;
		defm BUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MUBUF_Real_AllAddr_gfx80 <0x0f>;
		} // End HasUnpackedD16VMem.
		let SubtargetPredicate = HasPackedD16VMem in {
		defm BUFFER_LOAD_FORMAT_D16_X : MUBUF_Real_AllAddr_vi <0x08>;
		defm BUFFER_LOAD_FORMAT_D16_XY : MUBUF_Real_AllAddr_vi <0x09>;
		defm BUFFER_LOAD_FORMAT_D16_XYZ : MUBUF_Real_AllAddr_vi <0x0a>;
		defm BUFFER_LOAD_FORMAT_D16_XYZW : MUBUF_Real_AllAddr_vi <0x0b>;
		defm BUFFER_STORE_FORMAT_D16_X : MUBUF_Real_AllAddr_vi <0x0c>;
		defm BUFFER_STORE_FORMAT_D16_XY : MUBUF_Real_AllAddr_vi <0x0d>;
		defm BUFFER_STORE_FORMAT_D16_XYZ : MUBUF_Real_AllAddr_vi <0x0e>;
		defm BUFFER_STORE_FORMAT_D16_XYZW : MUBUF_Real_AllAddr_vi <0x0f>;
		} // End HasPackedD16VMem.
defm BUFFER_LOAD_UBYTE : MUBUF_Real_AllAddr_vi <0x10>;		defm BUFFER_LOAD_UBYTE : MUBUF_Real_AllAddr_vi <0x10>;
defm BUFFER_LOAD_SBYTE : MUBUF_Real_AllAddr_vi <0x11>;		defm BUFFER_LOAD_SBYTE : MUBUF_Real_AllAddr_vi <0x11>;
defm BUFFER_LOAD_USHORT : MUBUF_Real_AllAddr_vi <0x12>;		defm BUFFER_LOAD_USHORT : MUBUF_Real_AllAddr_vi <0x12>;
defm BUFFER_LOAD_SSHORT : MUBUF_Real_AllAddr_vi <0x13>;		defm BUFFER_LOAD_SSHORT : MUBUF_Real_AllAddr_vi <0x13>;
defm BUFFER_LOAD_DWORD : MUBUF_Real_AllAddr_vi <0x14>;		defm BUFFER_LOAD_DWORD : MUBUF_Real_AllAddr_vi <0x14>;
defm BUFFER_LOAD_DWORDX2 : MUBUF_Real_AllAddr_vi <0x15>;		defm BUFFER_LOAD_DWORDX2 : MUBUF_Real_AllAddr_vi <0x15>;
defm BUFFER_LOAD_DWORDX3 : MUBUF_Real_AllAddr_vi <0x16>;		defm BUFFER_LOAD_DWORDX3 : MUBUF_Real_AllAddr_vi <0x16>;
defm BUFFER_LOAD_DWORDX4 : MUBUF_Real_AllAddr_vi <0x17>;		defm BUFFER_LOAD_DWORDX4 : MUBUF_Real_AllAddr_vi <0x17>;
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines

multiclass MTBUF_Real_AllAddr_vi<bits<4> op> {		multiclass MTBUF_Real_AllAddr_vi<bits<4> op> {
def _OFFSET_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_OFFSET")>;		def _OFFSET_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_OFFSET")>;
def _OFFEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_OFFEN")>;		def _OFFEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_OFFEN")>;
def _IDXEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_IDXEN")>;		def _IDXEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_IDXEN")>;
def _BOTHEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_BOTHEN")>;		def _BOTHEN_vi : MTBUF_Real_vi <op, !cast<MTBUF_Pseudo>(NAME#"_BOTHEN")>;
}		}

defm TBUFFER_LOAD_FORMAT_X : MTBUF_Real_AllAddr_vi <0>;		class MTBUF_Real_gfx80 <bits<4> op, MTBUF_Pseudo ps> :
defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Real_AllAddr_vi <1>;		MTBUF_Real<ps>,
//defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Real_AllAddr_vi <2>;		Enc64,
defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Real_AllAddr_vi <3>;		SIMCInstr<ps.PseudoInstr, SIEncodingFamily.GFX80> {
defm TBUFFER_STORE_FORMAT_X : MTBUF_Real_AllAddr_vi <4>;		let AssemblerPredicate=HasUnpackedD16VMem;
defm TBUFFER_STORE_FORMAT_XY : MTBUF_Real_AllAddr_vi <5>;		let DecoderNamespace="GFX80_UNPACKED";
defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Real_AllAddr_vi <6>;
defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Real_AllAddr_vi <7>;		let Inst{11-0} = !if(ps.has_offset, offset, ?);
		let Inst{12} = ps.offen;
		let Inst{13} = ps.idxen;
		let Inst{14} = !if(ps.has_glc, glc, ps.glc_value);
		let Inst{18-15} = op;
		let Inst{22-19} = !if(ps.has_dfmt, dfmt, ps.dfmt_value);
		let Inst{25-23} = !if(ps.has_nfmt, nfmt, ps.nfmt_value);
		let Inst{31-26} = 0x3a; //encoding
		let Inst{39-32} = !if(ps.has_vaddr, vaddr, ?);
		let Inst{47-40} = !if(ps.has_vdata, vdata, ?);
		let Inst{52-48} = !if(ps.has_srsrc, srsrc{6-2}, ?);
		let Inst{54} = !if(ps.has_slc, slc, ?);
		let Inst{55} = !if(ps.has_tfe, tfe, ?);
		let Inst{63-56} = !if(ps.has_soffset, soffset, ?);
		}

		multiclass MTBUF_Real_AllAddr_gfx80<bits<4> op> {
		def _OFFSET_gfx80 : MTBUF_Real_gfx80 <op, !cast<MTBUF_Pseudo>(NAME#"_OFFSET")>;
		def _OFFEN_gfx80 : MTBUF_Real_gfx80 <op, !cast<MTBUF_Pseudo>(NAME#"_OFFEN")>;
		def _IDXEN_gfx80 : MTBUF_Real_gfx80 <op, !cast<MTBUF_Pseudo>(NAME#"_IDXEN")>;
		def _BOTHEN_gfx80 : MTBUF_Real_gfx80 <op, !cast<MTBUF_Pseudo>(NAME#"_BOTHEN")>;
		}

		defm TBUFFER_LOAD_FORMAT_X : MTBUF_Real_AllAddr_vi <0x00>;
		defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Real_AllAddr_vi <0x01>;
		defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Real_AllAddr_vi <0x02>;
		defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Real_AllAddr_vi <0x03>;
		defm TBUFFER_STORE_FORMAT_X : MTBUF_Real_AllAddr_vi <0x04>;
		defm TBUFFER_STORE_FORMAT_XY : MTBUF_Real_AllAddr_vi <0x05>;
		defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Real_AllAddr_vi <0x06>;
		defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Real_AllAddr_vi <0x07>;
		let SubtargetPredicate = HasUnpackedD16VMem in {
		defm TBUFFER_LOAD_FORMAT_D16_X_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x08>;
		defm TBUFFER_LOAD_FORMAT_D16_XY_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x09>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0a>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0b>;
		defm TBUFFER_STORE_FORMAT_D16_X_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0c>;
		defm TBUFFER_STORE_FORMAT_D16_XY_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0d>;
		defm TBUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0e>;
		defm TBUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MTBUF_Real_AllAddr_gfx80 <0x0f>;
		} // End HasUnpackedD16VMem.
		let SubtargetPredicate = HasPackedD16VMem in {
		defm TBUFFER_LOAD_FORMAT_D16_X : MTBUF_Real_AllAddr_vi <0x08>;
		defm TBUFFER_LOAD_FORMAT_D16_XY : MTBUF_Real_AllAddr_vi <0x09>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZ : MTBUF_Real_AllAddr_vi <0x0a>;
		defm TBUFFER_LOAD_FORMAT_D16_XYZW : MTBUF_Real_AllAddr_vi <0x0b>;
		defm TBUFFER_STORE_FORMAT_D16_X : MTBUF_Real_AllAddr_vi <0x0c>;
		defm TBUFFER_STORE_FORMAT_D16_XY : MTBUF_Real_AllAddr_vi <0x0d>;
		defm TBUFFER_STORE_FORMAT_D16_XYZ : MTBUF_Real_AllAddr_vi <0x0e>;
		defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Real_AllAddr_vi <0x0f>;
		} // End HasUnpackedD16VMem.

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	class SITargetLowering final : public AMDGPUTargetLowering {
SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINT_TO_FP(SDValue Op, SelectionDAG &DAG, bool Signed) const;		SDValue LowerINT_TO_FP(SDValue Op, SelectionDAG &DAG, bool Signed) const;
SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerTrig(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerTrig(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerATOMIC_CMP_SWAP(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerATOMIC_CMP_SWAP(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerBRCOND(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerBRCOND(SDValue Op, SelectionDAG &DAG) const;

		SDValue lowerIntrinsicWChain_IllegalReturnType(SDValue Op, SDValue &Chain,
		SelectionDAG &DAG) const;
		SDValue handleD16VData(SDValue VData, SelectionDAG &DAG) const;

/// \brief Converts \p Op, which must be of floating point type, to the		/// \brief Converts \p Op, which must be of floating point type, to the
/// floating point type \p VT, by either extending or truncating it.		/// floating point type \p VT, by either extending or truncating it.
SDValue getFPExtOrFPTrunc(SelectionDAG &DAG,		SDValue getFPExtOrFPTrunc(SelectionDAG &DAG,
SDValue Op,		SDValue Op,
const SDLoc &DL,		const SDLoc &DL,
EVT VT) const;		EVT VT) const;

SDValue convertArgType(		SDValue convertArgType(
▲ Show 20 Lines • Show All 221 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 201 Lines • ▼ Show 20 Lines	SITargetLowering::SITargetLowering(const TargetMachine &TM,
setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i16, Custom);		setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i16, Custom);
setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::Other, Custom);		setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::Other, Custom);

setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);
setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2f16, Custom);		setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v2f16, Custom);

		setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::v2f16, Custom);
		setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::v4f16, Custom);
setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::Other, Custom);		setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::Other, Custom);

setOperationAction(ISD::INTRINSIC_VOID, MVT::Other, Custom);		setOperationAction(ISD::INTRINSIC_VOID, MVT::Other, Custom);
setOperationAction(ISD::INTRINSIC_VOID, MVT::v2i16, Custom);		setOperationAction(ISD::INTRINSIC_VOID, MVT::v2i16, Custom);
setOperationAction(ISD::INTRINSIC_VOID, MVT::v2f16, Custom);		setOperationAction(ISD::INTRINSIC_VOID, MVT::v2f16, Custom);
		setOperationAction(ISD::INTRINSIC_VOID, MVT::v4f16, Custom);

setOperationAction(ISD::BRCOND, MVT::Other, Custom);		setOperationAction(ISD::BRCOND, MVT::Other, Custom);
setOperationAction(ISD::BR_CC, MVT::i1, Expand);		setOperationAction(ISD::BR_CC, MVT::i1, Expand);
setOperationAction(ISD::BR_CC, MVT::i32, Expand);		setOperationAction(ISD::BR_CC, MVT::i32, Expand);
setOperationAction(ISD::BR_CC, MVT::i64, Expand);		setOperationAction(ISD::BR_CC, MVT::i64, Expand);
setOperationAction(ISD::BR_CC, MVT::f32, Expand);		setOperationAction(ISD::BR_CC, MVT::f32, Expand);
setOperationAction(ISD::BR_CC, MVT::f64, Expand);		setOperationAction(ISD::BR_CC, MVT::f64, Expand);

▲ Show 20 Lines • Show All 3,273 Lines • ▼ Show 20 Lines	case ISD::FP_ROUND:
return lowerFP_ROUND(Op, DAG);		return lowerFP_ROUND(Op, DAG);
case ISD::TRAP:		case ISD::TRAP:
case ISD::DEBUGTRAP:		case ISD::DEBUGTRAP:
return lowerTRAP(Op, DAG);		return lowerTRAP(Op, DAG);
}		}
return SDValue();		return SDValue();
}		}

		static SDValue adjustLoadValueType(SDValue Result, EVT LoadVT, SDLoc DL,
		SelectionDAG &DAG, bool Unpacked) {
		if (Unpacked) { // From v2i32/v4i32 back to v2f16/v4f16.
		// Truncate to v2i16/v4i16.
		EVT IntLoadVT = LoadVT.changeTypeToInteger();
		SDValue Trunc = DAG.getNode(ISD::TRUNCATE, DL, IntLoadVT, Result);
		// Bitcast to original type (v2f16/v4f16).
		return DAG.getNode(ISD::BITCAST, DL, LoadVT, Trunc);
		}
		// Cast back to the original packed type.
		return DAG.getNode(ISD::BITCAST, DL, LoadVT, Result);
		}

		// This is to lower INTRINSIC_W_CHAIN with illegal result types.
		SDValue SITargetLowering::lowerIntrinsicWChain_IllegalReturnType(SDValue Op,
		SDValue &Chain, SelectionDAG &DAG) const {
		EVT LoadVT = Op.getValueType();
		// TODO: handle v3f16.
		if (LoadVT != MVT::v2f16 && LoadVT != MVT::v4f16)
		return SDValue();

		bool Unpacked = Subtarget->hasUnpackedD16VMem();
		EVT UnpackedLoadVT = (LoadVT == MVT::v2f16) ? MVT::v2i32 : MVT::v4i32;
		EVT EquivLoadVT = Unpacked ? UnpackedLoadVT :
		getEquivalentMemType(*DAG.getContext(), LoadVT);
		// Change from v4f16/v2f16 to EquivLoadVT.
		SDVTList VTList = DAG.getVTList(EquivLoadVT, MVT::Other);

		SDValue Res;
		SDLoc DL(Op);
		MemSDNode *M = cast<MemSDNode>(Op);
		unsigned IID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
		switch (IID) {
		case Intrinsic::amdgcn_tbuffer_load: {
		SDValue Ops[] = {
		Op.getOperand(0), // Chain
		Op.getOperand(2), // rsrc
		Op.getOperand(3), // vindex
		Op.getOperand(4), // voffset
		Op.getOperand(5), // soffset
		Op.getOperand(6), // offset
		Op.getOperand(7), // dfmt
		Op.getOperand(8), // nfmt
		Op.getOperand(9), // glc
		Op.getOperand(10) // slc
		};
		Res = DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_LOAD_FORMAT_D16, DL,
		VTList, Ops, M->getMemoryVT(),
		M->getMemOperand());
		Chain = Res.getValue(1);
		return adjustLoadValueType(Res, LoadVT, DL, DAG, Unpacked);
		}
		case Intrinsic::amdgcn_buffer_load_format: {
		SDValue Ops[] = {
		Op.getOperand(0), // Chain
		Op.getOperand(2), // rsrc
		Op.getOperand(3), // vindex
		Op.getOperand(4), // offset
		Op.getOperand(5), // glc
		Op.getOperand(6) // slc
		};
		Res = DAG.getMemIntrinsicNode(AMDGPUISD::BUFFER_LOAD_FORMAT_D16,
		DL, VTList, Ops, M->getMemoryVT(),
		M->getMemOperand());
		Chain = Res.getValue(1);
		return adjustLoadValueType(Res, LoadVT, DL, DAG, Unpacked);
		}
		default:
		return SDValue();
		}
		}

void SITargetLowering::ReplaceNodeResults(SDNode *N,		void SITargetLowering::ReplaceNodeResults(SDNode *N,
SmallVectorImpl<SDValue> &Results,		SmallVectorImpl<SDValue> &Results,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
switch (N->getOpcode()) {		switch (N->getOpcode()) {
case ISD::INSERT_VECTOR_ELT: {		case ISD::INSERT_VECTOR_ELT: {
if (SDValue Res = lowerINSERT_VECTOR_ELT(SDValue(N, 0), DAG))		if (SDValue Res = lowerINSERT_VECTOR_ELT(SDValue(N, 0), DAG))
Results.push_back(Res);		Results.push_back(Res);
return;		return;
Show All 11 Lines	if (IID == Intrinsic::amdgcn_cvt_pkrtz) {
SDLoc SL(N);		SDLoc SL(N);
SDValue Cvt = DAG.getNode(AMDGPUISD::CVT_PKRTZ_F16_F32, SL, MVT::i32,		SDValue Cvt = DAG.getNode(AMDGPUISD::CVT_PKRTZ_F16_F32, SL, MVT::i32,
Src0, Src1);		Src0, Src1);
Results.push_back(DAG.getNode(ISD::BITCAST, SL, MVT::v2f16, Cvt));		Results.push_back(DAG.getNode(ISD::BITCAST, SL, MVT::v2f16, Cvt));
return;		return;
}		}
break;		break;
}		}
		case ISD::INTRINSIC_W_CHAIN: {
		SDValue Chain;
		if (SDValue Res = lowerIntrinsicWChain_IllegalReturnType(SDValue(N, 0),
		Chain, DAG)) {
		Results.push_back(Res);
		Results.push_back(Chain);
		return;
		}
		break;
		}
case ISD::SELECT: {		case ISD::SELECT: {
SDLoc SL(N);		SDLoc SL(N);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
EVT NewVT = getEquivalentMemType(*DAG.getContext(), VT);		EVT NewVT = getEquivalentMemType(*DAG.getContext(), VT);
SDValue LHS = DAG.getNode(ISD::BITCAST, SL, NewVT, N->getOperand(1));		SDValue LHS = DAG.getNode(ISD::BITCAST, SL, NewVT, N->getOperand(1));
SDValue RHS = DAG.getNode(ISD::BITCAST, SL, NewVT, N->getOperand(2));		SDValue RHS = DAG.getNode(ISD::BITCAST, SL, NewVT, N->getOperand(2));

EVT SelectVT = NewVT;		EVT SelectVT = NewVT;
▲ Show 20 Lines • Show All 1,112 Lines • ▼ Show 20 Lines	case Intrinsic::amdgcn_image_sample_c_cd_cl_o: {

return SDValue();		return SDValue();
}		}
default:		default:
return SDValue();		return SDValue();
}		}
}		}

		SDValue SITargetLowering::handleD16VData(SDValue VData,
		SelectionDAG &DAG) const {
		EVT StoreVT = VData.getValueType();
		SDLoc DL(VData);

		if (StoreVT.isVector()) {
		assert ((StoreVT.getVectorNumElements() != 3) && "Handle v3f16");
		if (!Subtarget->hasUnpackedD16VMem()) {
		if (!isTypeLegal(StoreVT)) {
		// If Target supports packed vmem, we just need to workaround
		// the illegal type by casting to an equivalent one.
		EVT EquivStoreVT = getEquivalentMemType(*DAG.getContext(), StoreVT);
		return DAG.getNode(ISD::BITCAST, DL, EquivStoreVT, VData);
		}
		} else { // We need to unpack the packed data to store.
		EVT IntStoreVT = StoreVT.changeTypeToInteger();
		SDValue IntVData = DAG.getNode(ISD::BITCAST, DL, IntStoreVT, VData);
		EVT EquivStoreVT = (StoreVT == MVT::v2f16) ? MVT::v2i32 : MVT::v4i32;
		return DAG.getNode(ISD::ZERO_EXTEND, DL, EquivStoreVT, IntVData);
		}
		}
		// No change for f16 and legal vector D16 types.
		return VData;
		}

SDValue SITargetLowering::LowerINTRINSIC_VOID(SDValue Op,		SDValue SITargetLowering::LowerINTRINSIC_VOID(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDLoc DL(Op);		SDLoc DL(Op);
SDValue Chain = Op.getOperand(0);		SDValue Chain = Op.getOperand(0);
unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();		unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
MachineFunction &MF = DAG.getMachineFunction();		MachineFunction &MF = DAG.getMachineFunction();

switch (IntrinsicID) {		switch (IntrinsicID) {
▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	MachineMemOperand *MMO = MF.getMachineMemOperand(
MachinePointerInfo(),		MachinePointerInfo(),
MachineMemOperand::MOStore,		MachineMemOperand::MOStore,
VT.getStoreSize(), 4);		VT.getStoreSize(), 4);
return DAG.getMemIntrinsicNode(Opcode, DL,		return DAG.getMemIntrinsicNode(Opcode, DL,
Op->getVTList(), Ops, VT, MMO);		Op->getVTList(), Ops, VT, MMO);
}		}

case Intrinsic::amdgcn_tbuffer_store: {		case Intrinsic::amdgcn_tbuffer_store: {
		SDValue VData = Op.getOperand(2);
		bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);
		if (IsD16)
		VData = handleD16VData(VData, DAG);
SDValue Ops[] = {		SDValue Ops[] = {
Chain,		Chain,
Op.getOperand(2), // vdata		VData, // vdata
Op.getOperand(3), // rsrc		Op.getOperand(3), // rsrc
Op.getOperand(4), // vindex		Op.getOperand(4), // vindex
Op.getOperand(5), // voffset		Op.getOperand(5), // voffset
Op.getOperand(6), // soffset		Op.getOperand(6), // soffset
Op.getOperand(7), // offset		Op.getOperand(7), // offset
Op.getOperand(8), // dfmt		Op.getOperand(8), // dfmt
Op.getOperand(9), // nfmt		Op.getOperand(9), // nfmt
Op.getOperand(10), // glc		Op.getOperand(10), // glc
Op.getOperand(11) // slc		Op.getOperand(11) // slc
};		};
EVT VT = Op.getOperand(3).getValueType();		unsigned Opc = IsD16 ? AMDGPUISD::TBUFFER_STORE_FORMAT_D16 :
MachineMemOperand *MMO = MF.getMachineMemOperand(		AMDGPUISD::TBUFFER_STORE_FORMAT;
MachinePointerInfo(),		MemSDNode *M = cast<MemSDNode>(Op);
MachineMemOperand::MOStore,		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,
VT.getStoreSize(), 4);		M->getMemoryVT(), M->getMemOperand());
return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_STORE_FORMAT, DL,
Op->getVTList(), Ops, VT, MMO);
}		}

case Intrinsic::amdgcn_buffer_store:		case Intrinsic::amdgcn_buffer_store:
case Intrinsic::amdgcn_buffer_store_format: {		case Intrinsic::amdgcn_buffer_store_format: {
		SDValue VData = Op.getOperand(2);
		bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);
		if (IsD16)
		VData = handleD16VData(VData, DAG);
SDValue Ops[] = {		SDValue Ops[] = {
Chain,		Chain,
Op.getOperand(2), // vdata		VData, // vdata
Op.getOperand(3), // rsrc		Op.getOperand(3), // rsrc
Op.getOperand(4), // vindex		Op.getOperand(4), // vindex
Op.getOperand(5), // offset		Op.getOperand(5), // offset
Op.getOperand(6), // glc		Op.getOperand(6), // glc
Op.getOperand(7) // slc		Op.getOperand(7) // slc
};		};
EVT VT = Op.getOperand(3).getValueType();		unsigned Opc = IntrinsicID == Intrinsic::amdgcn_buffer_store ?
MachineMemOperand *MMO = MF.getMachineMemOperand(		AMDGPUISD::BUFFER_STORE : AMDGPUISD::BUFFER_STORE_FORMAT;
MachinePointerInfo(),		Opc = IsD16 ? AMDGPUISD::BUFFER_STORE_FORMAT_D16 : Opc;
MachineMemOperand::MOStore \|		MemSDNode *M = cast<MemSDNode>(Op);
MachineMemOperand::MODereferenceable,		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,
VT.getStoreSize(), 4);		M->getMemoryVT(), M->getMemOperand());

unsigned Opcode = IntrinsicID == Intrinsic::amdgcn_buffer_store ?
AMDGPUISD::BUFFER_STORE :
AMDGPUISD::BUFFER_STORE_FORMAT;
return DAG.getMemIntrinsicNode(Opcode, DL, Op->getVTList(), Ops, VT, MMO);
}		}

default:		default:
return Op;		return Op;
}		}
}		}

SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
▲ Show 20 Lines • Show All 2,438 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

Show All 19 Lines
// Execpt for the NONE field, this must be kept in sync with the		// Execpt for the NONE field, this must be kept in sync with the
// SIEncodingFamily enum in AMDGPUInstrInfo.cpp		// SIEncodingFamily enum in AMDGPUInstrInfo.cpp
def SIEncodingFamily {		def SIEncodingFamily {
int NONE = -1;		int NONE = -1;
int SI = 0;		int SI = 0;
int VI = 1;		int VI = 1;
int SDWA = 2;		int SDWA = 2;
int SDWA9 = 3;		int SDWA9 = 3;
int GFX9 = 4;		int GFX80 = 4;
		int GFX9 = 5;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SI DAG Nodes		// SI DAG Nodes
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def SIload_constant : SDNode<"AMDGPUISD::LOAD_CONSTANT",		def SIload_constant : SDNode<"AMDGPUISD::LOAD_CONSTANT",
SDTypeProfile<1, 2, [SDTCisVT<0, f32>, SDTCisVT<1, v4i32>, SDTCisVT<2, i32>]>,		SDTypeProfile<1, 2, [SDTCisVT<0, f32>, SDTCisVT<1, v4i32>, SDTCisVT<2, i32>]>,
[SDNPMayLoad, SDNPMemOperand]		[SDNPMayLoad, SDNPMemOperand]
>;		>;

def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,		def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

def SIatomic_dec : SDNode<"AMDGPUISD::ATOMIC_DEC", SDTAtomic2,		def SIatomic_dec : SDNode<"AMDGPUISD::ATOMIC_DEC", SDTAtomic2,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

def SItbuffer_load : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT",		def SDTbuffer_load : SDTypeProfile<1, 9,
SDTypeProfile<1, 9,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex(VGPR)		SDTCisVT<2, i32>, // vindex(VGPR)
SDTCisVT<3, i32>, // voffset(VGPR)		SDTCisVT<3, i32>, // voffset(VGPR)
SDTCisVT<4, i32>, // soffset(SGPR)		SDTCisVT<4, i32>, // soffset(SGPR)
SDTCisVT<5, i32>, // offset(imm)		SDTCisVT<5, i32>, // offset(imm)
SDTCisVT<6, i32>, // dfmt(imm)		SDTCisVT<6, i32>, // dfmt(imm)
SDTCisVT<7, i32>, // nfmt(imm)		SDTCisVT<7, i32>, // nfmt(imm)
SDTCisVT<8, i32>, // glc(imm)		SDTCisVT<8, i32>, // glc(imm)
SDTCisVT<9, i32> // slc(imm)		SDTCisVT<9, i32> // slc(imm)
]>,		]>;
[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
>;		def SItbuffer_load : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT", SDTbuffer_load,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;
		def SItbuffer_load_d16 : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT_D16",
		SDTbuffer_load,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;

def SDTtbuffer_store : SDTypeProfile<0, 10,		def SDTtbuffer_store : SDTypeProfile<0, 10,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex(VGPR)		SDTCisVT<2, i32>, // vindex(VGPR)
SDTCisVT<3, i32>, // voffset(VGPR)		SDTCisVT<3, i32>, // voffset(VGPR)
SDTCisVT<4, i32>, // soffset(SGPR)		SDTCisVT<4, i32>, // soffset(SGPR)
SDTCisVT<5, i32>, // offset(imm)		SDTCisVT<5, i32>, // offset(imm)
SDTCisVT<6, i32>, // dfmt(imm)		SDTCisVT<6, i32>, // dfmt(imm)
SDTCisVT<7, i32>, // nfmt(imm)		SDTCisVT<7, i32>, // nfmt(imm)
SDTCisVT<8, i32>, // glc(imm)		SDTCisVT<8, i32>, // glc(imm)
SDTCisVT<9, i32> // slc(imm)		SDTCisVT<9, i32> // slc(imm)
]>;		]>;

def SItbuffer_store : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT", SDTtbuffer_store,		def SItbuffer_store : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT", SDTtbuffer_store,
[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
def SItbuffer_store_x3 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_X3",		def SItbuffer_store_x3 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_X3",
SDTtbuffer_store,		SDTtbuffer_store,
[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
		def SItbuffer_store_d16 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_D16",
		SDTtbuffer_store,
		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;

def SDTBufferLoad : SDTypeProfile<1, 5,		def SDTBufferLoad : SDTypeProfile<1, 5,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex		SDTCisVT<2, i32>, // vindex
SDTCisVT<3, i32>, // offset		SDTCisVT<3, i32>, // offset
SDTCisVT<4, i1>, // glc		SDTCisVT<4, i1>, // glc
SDTCisVT<5, i1>]>; // slc		SDTCisVT<5, i1>]>; // slc

def SIbuffer_load : SDNode <"AMDGPUISD::BUFFER_LOAD", SDTBufferLoad,		def SIbuffer_load : SDNode <"AMDGPUISD::BUFFER_LOAD", SDTBufferLoad,
[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;		[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
def SIbuffer_load_format : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT", SDTBufferLoad,		def SIbuffer_load_format : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT", SDTBufferLoad,
[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;		[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;
		def SIbuffer_load_format_d16 : SDNode <"AMDGPUISD::BUFFER_LOAD_FORMAT_D16",
		SDTBufferLoad,
		[SDNPMemOperand, SDNPHasChain, SDNPMayLoad]>;

def SDTBufferStore : SDTypeProfile<0, 6,		def SDTBufferStore : SDTypeProfile<0, 6,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex		SDTCisVT<2, i32>, // vindex
SDTCisVT<3, i32>, // offset		SDTCisVT<3, i32>, // offset
SDTCisVT<4, i1>, // glc		SDTCisVT<4, i1>, // glc
SDTCisVT<5, i1>]>; // slc		SDTCisVT<5, i1>]>; // slc

def SIbuffer_store : SDNode <"AMDGPUISD::BUFFER_STORE", SDTBufferStore,		def SIbuffer_store : SDNode <"AMDGPUISD::BUFFER_STORE", SDTBufferStore,
[SDNPMemOperand, SDNPHasChain, SDNPMayStore]>;		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
def SIbuffer_store_format : SDNode <"AMDGPUISD::BUFFER_STORE_FORMAT", SDTBufferStore,		def SIbuffer_store_format : SDNode <"AMDGPUISD::BUFFER_STORE_FORMAT",
[SDNPMemOperand, SDNPHasChain, SDNPMayStore]>;		SDTBufferStore,
		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
		def SIbuffer_store_format_d16 : SDNode <"AMDGPUISD::BUFFER_STORE_FORMAT_D16",
		SDTBufferStore,
		[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;

class SDBufferAtomic<string opcode> : SDNode <opcode,		class SDBufferAtomic<string opcode> : SDNode <opcode,
SDTypeProfile<1, 5,		SDTypeProfile<1, 5,
[SDTCisVT<0, i32>, // dst		[SDTCisVT<0, i32>, // dst
SDTCisVT<1, i32>, // vdata		SDTCisVT<1, i32>, // vdata
SDTCisVT<2, v4i32>, // rsrc		SDTCisVT<2, v4i32>, // rsrc
SDTCisVT<3, i32>, // vindex		SDTCisVT<3, i32>, // vindex
SDTCisVT<4, i32>, // offset		SDTCisVT<4, i32>, // offset
▲ Show 20 Lines • Show All 1,761 Lines • ▼ Show 20 Lines	def getMCOpcodeGen : InstrMapping {
let FilterClass = "SIMCInstr";		let FilterClass = "SIMCInstr";
let RowFields = ["PseudoInstr"];		let RowFields = ["PseudoInstr"];
let ColFields = ["Subtarget"];		let ColFields = ["Subtarget"];
let KeyCol = [!cast<string>(SIEncodingFamily.NONE)];		let KeyCol = [!cast<string>(SIEncodingFamily.NONE)];
let ValueCols = [[!cast<string>(SIEncodingFamily.SI)],		let ValueCols = [[!cast<string>(SIEncodingFamily.SI)],
[!cast<string>(SIEncodingFamily.VI)],		[!cast<string>(SIEncodingFamily.VI)],
[!cast<string>(SIEncodingFamily.SDWA)],		[!cast<string>(SIEncodingFamily.SDWA)],
[!cast<string>(SIEncodingFamily.SDWA9)],		[!cast<string>(SIEncodingFamily.SDWA9)],
		// GFX80 encoding is added to work around a multiple matching
		// issue for buffer instructions with unpacked d16 data. This
		// does not actually change the encoding, and thus may be
		// removed later.
		[!cast<string>(SIEncodingFamily.GFX80)],
[!cast<string>(SIEncodingFamily.GFX9)]];		[!cast<string>(SIEncodingFamily.GFX9)]];
}		}

// Get equivalent SOPK instruction.		// Get equivalent SOPK instruction.
def getSOPKOp : InstrMapping {		def getSOPKOp : InstrMapping {
let FilterClass = "SOPKInstTable";		let FilterClass = "SOPKInstTable";
let RowFields = ["BaseCmpOp"];		let RowFields = ["BaseCmpOp"];
let ColFields = ["IsSOPK"];		let ColFields = ["IsSOPK"];
Show All 34 Lines

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.format.d16.ll

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s

				; GCN-LABEL: {{^}}buffer_load_format_d16_x:
				; GCN: buffer_load_format_d16_x v{{[0-9]+}}, off, s[{{[0-9]+:[0-9]+}}], 0
				define amdgpu_ps half @buffer_load_format_d16_x(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call half @llvm.amdgcn.buffer.load.format.f16(<4 x i32> %rsrc, i32 0, i32 0, i1 0, i1 0)
				ret half %data
				}

				; GCN-LABEL: {{^}}buffer_load_format_d16_xy:
				; UNPACKED: buffer_load_format_d16_xy v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: buffer_load_format_d16_xy v[[FULL:[0-9]+]], off, s[{{[0-9]+:[0-9]+}}], 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[FULL]]
				define amdgpu_ps half @buffer_load_format_d16_xy(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <2 x half> @llvm.amdgcn.buffer.load.format.v2f16(<4 x i32> %rsrc, i32 0, i32 0, i1 0, i1 0)
				%elt = extractelement <2 x half> %data, i32 1
				ret half %elt
				}

				; GCN-LABEL: {{^}}buffer_load_format_d16_xyzw:
				; UNPACKED: buffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: buffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[HI]]
				define amdgpu_ps half @buffer_load_format_d16_xyzw(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <4 x half> @llvm.amdgcn.buffer.load.format.v4f16(<4 x i32> %rsrc, i32 0, i32 0, i1 0, i1 0)
				%elt = extractelement <4 x half> %data, i32 3
				ret half %elt
				}

				declare half @llvm.amdgcn.buffer.load.format.f16(<4 x i32>, i32, i32, i1, i1)
				declare <2 x half> @llvm.amdgcn.buffer.load.format.v2f16(<4 x i32>, i32, i32, i1, i1)
				declare <4 x half> @llvm.amdgcn.buffer.load.format.v4f16(<4 x i32>, i32, i32, i1, i1)

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s

				; GCN-LABEL: {{^}}buffer_store_format_d16_x:
				; GCN: v_trunc_f16_e32 v[[LO:[0-9]+]], s{{[0-9]+}}
				; GCN: buffer_store_format_d16_x v[[LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen
				define amdgpu_kernel void @buffer_store_format_d16_x(<4 x i32> %rsrc, half %data, i32 %index) {
				main_body:
				call void @llvm.amdgcn.buffer.store.format.f16(half %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)
				ret void
				}

				; GCN-LABEL: {{^}}buffer_store_format_d16_xy:

				; UNPACKED: flat_load_ushort v[[HI:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v[[LO:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: buffer_store_format_d16_xy v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen

				; PACKED: buffer_store_format_d16_xy v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen
				define amdgpu_kernel void @buffer_store_format_d16_xy(<4 x i32> %rsrc, <2 x half> %data, i32 %index) {
				main_body:
				call void @llvm.amdgcn.buffer.store.format.v2f16(<2 x half> %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)
				ret void
				}

				; GCN-LABEL: {{^}}buffer_store_format_d16_xyzw:

				; UNPACKED: flat_load_ushort v[[HI:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v{{[0-9]+}}, v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v{{[0-9]+}}, v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v[[LO:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: buffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen

				; GFX81: v_or_b32_e32 v[[HI:[0-9]+]]
				; GFX81: v_or_b32_e32 v[[LO:[0-9]+]]

				; GFX9: v_mov_b32_e32 v[[LO:[0-9]+]]
				; GFX9: v_mov_b32_e32 v[[HI:[0-9]+]]

				; PACKED: buffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0 idxen
				define amdgpu_kernel void @buffer_store_format_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data, i32 %index) {
				main_body:
				call void @llvm.amdgcn.buffer.store.format.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 %index, i32 0, i1 0, i1 0)
				ret void
				}

				declare void @llvm.amdgcn.buffer.store.format.f16(half, <4 x i32>, i32, i32, i1, i1)
				declare void @llvm.amdgcn.buffer.store.format.v2f16(<2 x half>, <4 x i32>, i32, i32, i1, i1)
				declare void @llvm.amdgcn.buffer.store.format.v4f16(<4 x half>, <4 x i32>, i32, i32, i1, i1)

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.load.d16.ll

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s

				; GCN-LABEL: {{^}}tbuffer_load_d16_x:
				; GCN: tbuffer_load_format_d16_x v{{[0-9]+}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				define amdgpu_ps half @tbuffer_load_d16_x(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call half @llvm.amdgcn.tbuffer.load.f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 6, i32 1, i1 0, i1 0)
				ret half %data
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xy:
				; UNPACKED: tbuffer_load_format_d16_xy v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xy v[[FULL:[0-9]+]], off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[FULL]]
				define amdgpu_ps half @tbuffer_load_d16_xy(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <2 x half> @llvm.amdgcn.tbuffer.load.v2f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 6, i32 1, i1 0, i1 0)
				%elt = extractelement <2 x half> %data, i32 1
				ret half %elt
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xyzw:
				; UNPACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[HI]]
				define amdgpu_ps half @tbuffer_load_d16_xyzw(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <4 x half> @llvm.amdgcn.tbuffer.load.v4f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 6, i32 1, i1 0, i1 0)
				%elt = extractelement <4 x half> %data, i32 3
				ret half %elt
				}

				declare half @llvm.amdgcn.tbuffer.load.f16(<4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
				declare <2 x half> @llvm.amdgcn.tbuffer.load.v2f16(<4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
				declare <4 x half> @llvm.amdgcn.tbuffer.load.v4f16(<4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s


				; GCN-LABEL: {{^}}tbuffer_store_d16_x:
				; GCN: v_trunc_f16_e32 v[[LO:[0-9]+]], s{{[0-9]+}}
				; GCN: tbuffer_store_format_d16_x v[[LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
				ret void
				}


				; GCN-LABEL: {{^}}tbuffer_store_d16_xy:

				; UNPACKED: flat_load_ushort v[[HI:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v[[LO:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: tbuffer_store_format_d16_xy v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen

				; PACKED: tbuffer_store_format_d16_xy v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_xy(<4 x i32> %rsrc, <2 x half> %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.tbuffer.store.v2f16(<2 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
				ret void
				}


				; GCN-LABEL: {{^}}tbuffer_store_d16_xyzw:

				; UNPACKED: flat_load_ushort v[[HI:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v{{[0-9]+}}, v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v{{[0-9]+}}, v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: flat_load_ushort v[[LO:[0-9]+]], v[{{[0-9]+:[0-9]+}}] glc slc
				; UNPACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen

				; GFX81: v_or_b32_e32 v[[HI:[0-9]+]]
				; GFX81: v_or_b32_e32 v[[LO:[0-9]+]]

				; GFX9: v_mov_b32_e32 v[[LO:[0-9]+]]
				; GFX9: v_mov_b32_e32 v[[HI:[0-9]+]]

				; PACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)
				ret void
				}

				declare void @llvm.amdgcn.tbuffer.store.f16(half, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
				declare void @llvm.amdgcn.tbuffer.store.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)
				declare void @llvm.amdgcn.tbuffer.store.v4f16(<4 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1)

llvm/trunk/test/MC/AMDGPU/buf-fmt-d16-packed.s

				// RUN: llvm-mc -arch=amdgcn -mcpu=gfx810 -show-encoding %s \| FileCheck -check-prefix=GCN -check-prefix=PACKED %s
				// RUN: llvm-mc -arch=amdgcn -mcpu=gfx900 -show-encoding %s \| FileCheck -check-prefix=GCN -check-prefix=PACKED %s

				// RUN: not llvm-mc -arch=amdgcn -mcpu=fiji -show-encoding 2>&1 %s \| FileCheck -check-prefix=UNPACKED-ERR -check-prefix=GCN-ERR %s


				//===----------------------------------------------------------------------===//
				// Buffer Format Instructions.
				//===----------------------------------------------------------------------===//

				buffer_load_format_d16_x v1, off, s[4:7], s1
				// PACKED: buffer_load_format_d16_x v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x20,0xe0,0x00,0x01,0x01,0x01]

				buffer_load_format_d16_xy v1, off, s[4:7], s1
				// PACKED: buffer_load_format_d16_xy v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x24,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				buffer_load_format_d16_xyz v[1:2], off, s[4:7], s1
				// PACKED: buffer_load_format_d16_xyz v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x28,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				buffer_load_format_d16_xyzw v[1:2], off, s[4:7], s1
				// PACKED: buffer_load_format_d16_xyzw v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x2c,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_x v1, off, s[4:7], s1
				// PACKED: buffer_store_format_d16_x v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x30,0xe0,0x00,0x01,0x01,0x01]

				buffer_store_format_d16_xy v1, off, s[4:7], s1
				// PACKED: buffer_store_format_d16_xy v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x34,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_xyz v[1:2], off, s[4:7], s1
				// PACKED: buffer_store_format_d16_xyz v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x38,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_xyzw v[1:2], off, s[4:7], s1
				// PACKED: buffer_store_format_d16_xyzw v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x3c,0xe0,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU


				//===----------------------------------------------------------------------===//
				// TBuffer Format Instructions.
				//===----------------------------------------------------------------------===//

				tbuffer_load_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_load_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7c,0xe9,0x00,0x01,0x01,0x01]

				tbuffer_load_format_d16_xy v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_load_format_d16_xy v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7c,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				tbuffer_load_format_d16_xyz v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_load_format_d16_xyz v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7d,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				tbuffer_load_format_d16_xyzw v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_load_format_d16_xyzw v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7d,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_store_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7e,0xe9,0x00,0x01,0x01,0x01]

				tbuffer_store_format_d16_xy v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_store_format_d16_xy v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7e,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_xyz v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_store_format_d16_xyz v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7f,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_xyzw v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// PACKED: tbuffer_store_format_d16_xyzw v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7f,0xe9,0x00,0x01,0x01,0x01]
				// UNPACKED-ERR: error: instruction not supported on this GPU

llvm/trunk/test/MC/AMDGPU/buf-fmt-d16-unpacked.s

				// RUN: llvm-mc -arch=amdgcn -mcpu=fiji -show-encoding %s \| FileCheck -check-prefix=GCN -check-prefix=UNPACKED %s
				// RUN: not llvm-mc -arch=amdgcn -mcpu=gfx810 -show-encoding 2>&1 %s \| FileCheck -check-prefix=PACKED-ERR -check-prefix=GCN-ERR %s
				// RUN: not llvm-mc -arch=amdgcn -mcpu=gfx900 -show-encoding 2>&1 %s \| FileCheck -check-prefix=PACKED-ERR -check-prefix=GCN-ERR %s


				//===----------------------------------------------------------------------===//
				// Buffer Format Instructions.
				//===----------------------------------------------------------------------===//

				buffer_load_format_d16_x v1, off, s[4:7], s1
				// UNPACKED: buffer_load_format_d16_x v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x20,0xe0,0x00,0x01,0x01,0x01]

				buffer_load_format_d16_xy v[1:2], off, s[4:7], s1
				// UNPACKED: buffer_load_format_d16_xy v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x24,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				buffer_load_format_d16_xyz v[1:3], off, s[4:7], s1
				// UNPACKED: buffer_load_format_d16_xyz v[1:3], off, s[4:7], s1 ; encoding: [0x00,0x00,0x28,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				buffer_load_format_d16_xyzw v[1:4], off, s[4:7], s1
				// UNPACKED: buffer_load_format_d16_xyzw v[1:4], off, s[4:7], s1 ; encoding: [0x00,0x00,0x2c,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_x v1, off, s[4:7], s1
				// UNPACKED: buffer_store_format_d16_x v1, off, s[4:7], s1 ; encoding: [0x00,0x00,0x30,0xe0,0x00,0x01,0x01,0x01]

				buffer_store_format_d16_xy v[1:2], off, s[4:7], s1
				// UNPACKED: buffer_store_format_d16_xy v[1:2], off, s[4:7], s1 ; encoding: [0x00,0x00,0x34,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_xyz v[1:3], off, s[4:7], s1
				// UNPACKED: buffer_store_format_d16_xyz v[1:3], off, s[4:7], s1 ; encoding: [0x00,0x00,0x38,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				buffer_store_format_d16_xyzw v[1:4], off, s[4:7], s1
				// UNPACKED: buffer_store_format_d16_xyzw v[1:4], off, s[4:7], s1 ; encoding: [0x00,0x00,0x3c,0xe0,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU


				//===----------------------------------------------------------------------===//
				// TBuffer Format Instructions.
				//===----------------------------------------------------------------------===//

				tbuffer_load_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_load_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7c,0xe9,0x00,0x01,0x01,0x01]

				tbuffer_load_format_d16_xy v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_load_format_d16_xy v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7c,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				tbuffer_load_format_d16_xyz v[1:3], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_load_format_d16_xyz v[1:3], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7d,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				tbuffer_load_format_d16_xyzw v[1:4], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_load_format_d16_xyzw v[1:4], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7d,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_store_format_d16_x v1, off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7e,0xe9,0x00,0x01,0x01,0x01]

				tbuffer_store_format_d16_xy v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_store_format_d16_xy v[1:2], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7e,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_xyz v[1:3], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_store_format_d16_xyz v[1:3], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x00,0x7f,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

				tbuffer_store_format_d16_xyzw v[1:4], off, s[4:7], dfmt:15, nfmt:2, s1
				// UNPACKED: tbuffer_store_format_d16_xyzw v[1:4], off, s[4:7], dfmt:15, nfmt:2, s1 ; encoding: [0x00,0x80,0x7f,0xe9,0x00,0x01,0x01,0x01]
				// PACKED-ERR: error: instruction not supported on this GPU

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/SI: Implement d16 support for buffer intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 129695

llvm/trunk/lib/Target/AMDGPU/AMDGPU.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstrInfo.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

llvm/trunk/lib/Target/AMDGPU/BUFInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.h

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.buffer.load.format.d16.ll

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.buffer.store.format.d16.ll

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.load.d16.ll

llvm/trunk/test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.d16.ll

llvm/trunk/test/MC/AMDGPU/buf-fmt-d16-packed.s

llvm/trunk/test/MC/AMDGPU/buf-fmt-d16-unpacked.s

AMDGPU/SI: Implement d16 support for buffer intrinsics
ClosedPublic