This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
BUFInstructions.td
-
DSInstructions.td
-
FLATInstructions.td
-
SIDefines.h
3/6
SIInsertWaitcnts.cpp
-
SIInstrFormats.td
-
SIInstrInfo.h
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
3/3
chain-hi-to-lo.ll
-
load-hi16.ll
-
vector_shuffle.packed.ll

Differential D140537

AMDGPU/SIInsertWait: Skip dummy tied source
ClosedPublic

Authored by ruiling on Dec 22 2022, 2:35 AM.

Download Raw Diff

Details

Reviewers

arsenm
foad

Commits

rG9119d9bfcef4: AMDGPU/SIInsertWait: Skip dummy tied source

Summary

For D16 memory load instructions, the hardware usually only write to half
of the 32bit register, but we define the destination register using
32bit register for the MachineIR instruction. Without the extra tied
source register, LLVM framework will think previous write to the other
half of the register being dead. This is because by using 32bit register
as the destination register, LLVM will think the instruction will always
overwrite the whole 32bit register. By adding the extra tied source,
LLVM will think we are reading the register, so previous write to the
register will not be dead. This dummy tied source is introducing
unnecessary read-after-write dependency. The change here is to bypass the
tied source that can be skipped, thus avoiding an unnecessary s_waitcnt.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

ruiling created this revision.Dec 22 2022, 2:35 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 22 2022, 2:35 AM

Herald added subscribers: kosarev, kerbowa, hiraditya, jvesely. · View Herald Transcript

ruiling requested review of this revision.Dec 22 2022, 2:35 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 22 2022, 2:35 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

ruiling added a parent revision: D140536: AMDGPU: Mark global/scratch_load_d16 as D16Buf.Dec 22 2022, 2:36 AM

Harbormaster completed remote builds in B204532: Diff 484775.Dec 22 2022, 3:25 AM

foad added inline comments.Dec 22 2022, 3:40 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1181	Should we do the same thing for _d16 DS, FLAT, SCRATCH and GLOBAL instructions?

arsenm added inline comments.Dec 22 2022, 4:08 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1184	Don't see the point of the "Buf" part of the name, it's just D16

ruiling added inline comments.Dec 22 2022, 4:15 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1181	For _d16 DS/FLAT, skipping the tied source does not change the code generation. As we always need a s_waitcnt for two successive _d16 ds/flat load because they may return out of order. So, I would rather not handle them here. I am actually setting the D16Buf bit for global/scratch load in parent change. Should I change `D16Buf` to something else? I will update the comment.

This needs a test case to show the effect it has on _d16 buffer instructions.

ruiling added inline comments.Dec 22 2022, 4:24 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1184	`D16` was renamed into `D16Buf` in D47434. I think it should be ok to change back? The only one user in cpp source code is: https://github.com/llvm/llvm-project/blob/main/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp#L8048 I don't know what it is doing here.

arsenm added inline comments.Dec 22 2022, 4:55 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1181	Since when can't they return out of order? Could you demonstrate a change by combining a ds load with a global load? The two halves don't need to access the same address space

ruiling added inline comments.Dec 22 2022, 5:49 AM

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp
1181	Since when can't they return out of order? Sorry I don't know what you are asking. Could you help explain? Could you demonstrate a change by combining a ds load with a global load? The two halves don't need to access the same address space A ds load followed by a global_load to the same VGPR will always have a WAW dependency. The change here is to remove a false read-after-write dependency.

Update the change to use a new bit in TSFlags

Herald added a subscriber: StephenFan. · View Herald TranscriptJan 8 2023, 5:30 AM

Harbormaster completed remote builds in B206349: Diff 487173.Jan 8 2023, 5:31 AM

ruiling edited parent revisions, added: D141223: AMDGPU: Remove IsSourceOfDivergence check; removed: D140536: AMDGPU: Mark global/scratch_load_d16 as D16Buf.Jan 8 2023, 5:32 AM

ruiling retitled this revision from SIInsertWait: Skip tied source of d16 buffer instruction to AMDGPU/SIInsertWait: Skip dummy tied source.Jan 8 2023, 5:35 AM

ruiling edited the summary of this revision. (Show Details)

Herald added subscribers: tpr, dstuttard, yaxunl, kzhuravl. · View Herald TranscriptJan 8 2023, 5:35 AM

I like this but it would be nice to have tests showing the effect on DS, FLAT and SCRATCH instructions.

foad mentioned this in D140069: [DAGCombiner] Scalarize vectorized loads that are splatted.Jan 9 2023, 3:01 AM

luke added a subscriber: luke.Jan 9 2023, 7:16 AM

In D140537#4035672, @foad wrote:

I like this but it would be nice to have tests showing the effect on DS, FLAT and SCRATCH instructions.

I have pointed out some tests that will hit the code path added in this patch, but for DS and FLAT instructions, there will be no change in generated assembly as there is still a Write-After-Write dependency there.

llvm/test/CodeGen/AMDGPU/chain-hi-to-lo.ll
25	This shows the effect on scratch_load_d16.
204	This is the test for ds_read_xxx_d16, but the patch won't change the generated code because there is always a WAW dependency.
364	This will test for the flat_load_xxx_d16, but like ds_load, there is no change in the generated code.

Thanks!

This revision is now accepted and ready to land.Jan 10 2023, 2:41 AM

This revision was landed with ongoing or failed builds.Jan 10 2023, 6:00 PM

Closed by commit rG9119d9bfcef4: AMDGPU/SIInsertWait: Skip dummy tied source (authored by ruiling). · Explain Why

This revision was automatically updated to reflect the committed changes.

ruiling added a commit: rG9119d9bfcef4: AMDGPU/SIInsertWait: Skip dummy tied source.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

17 lines

2 lines

7 lines

3 lines

5 lines

5 lines

8 lines

test/

CodeGen/

AMDGPU/

chain-hi-to-lo.ll

22 lines

load-hi16.ll

4 lines

vector_shuffle.packed.ll

4 lines

Diff 488048

llvm/lib/Target/AMDGPU/BUFInstructions.td

	Show First 20 Lines • Show All 804 Lines • ▼ Show 20 Lines
	defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_XYZ : MUBUF_Pseudo_Stores <
	"buffer_store_format_xyz", v3f32			"buffer_store_format_xyz", v3f32
	>;			>;
	defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_XYZW : MUBUF_Pseudo_Stores <
	"buffer_store_format_xyzw", v4f32			"buffer_store_format_xyzw", v4f32
	>;			>;

	let SubtargetPredicate = HasUnpackedD16VMem, D16Buf = 1 in {			let SubtargetPredicate = HasUnpackedD16VMem, D16Buf = 1 in {
				let TiedSourceNotRead = 1 in {
	defm BUFFER_LOAD_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_x", i32			"buffer_load_format_d16_x", i32
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xy", v2i32			"buffer_load_format_d16_xy", v2i32
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xyz", v3i32			"buffer_load_format_d16_xyz", v3i32
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xyzw", v4i32			"buffer_load_format_d16_xyzw", v4i32
	>;			>;
				}
	defm BUFFER_STORE_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_X_gfx80 : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_x", i32			"buffer_store_format_d16_x", i32
	>;			>;
	defm BUFFER_STORE_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_XY_gfx80 : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_xy", v2i32			"buffer_store_format_d16_xy", v2i32
	>;			>;
	defm BUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_xyz", v3i32			"buffer_store_format_d16_xyz", v3i32
	>;			>;
	defm BUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_xyzw", v4i32			"buffer_store_format_d16_xyzw", v4i32
	>;			>;
	} // End HasUnpackedD16VMem.			} // End HasUnpackedD16VMem.

	let SubtargetPredicate = HasPackedD16VMem, D16Buf = 1 in {			let SubtargetPredicate = HasPackedD16VMem, D16Buf = 1 in {
				let TiedSourceNotRead = 1 in {
	defm BUFFER_LOAD_FORMAT_D16_X : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_X : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_x", f16			"buffer_load_format_d16_x", f16
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XY : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XY : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xy", v2f16			"buffer_load_format_d16_xy", v2f16
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XYZ : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XYZ : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xyz", v3f16			"buffer_load_format_d16_xyz", v3f16
	>;			>;
	defm BUFFER_LOAD_FORMAT_D16_XYZW : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_FORMAT_D16_XYZW : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_xyzw", v4f16			"buffer_load_format_d16_xyzw", v4f16
	>;			>;
				}
	defm BUFFER_STORE_FORMAT_D16_X : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_X : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_x", f16			"buffer_store_format_d16_x", f16
	>;			>;
	defm BUFFER_STORE_FORMAT_D16_XY : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_XY : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_xy", v2f16			"buffer_store_format_d16_xy", v2f16
	>;			>;
	defm BUFFER_STORE_FORMAT_D16_XYZ : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_XYZ : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_xyz", v3f16			"buffer_store_format_d16_xyz", v3f16
	▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
	>;			>;
	defm BUFFER_ATOMIC_FMAX_X2 : MUBUF_Pseudo_Atomics <			defm BUFFER_ATOMIC_FMAX_X2 : MUBUF_Pseudo_Atomics <
	"buffer_atomic_fmax_x2", VReg_64, f64, null_frag			"buffer_atomic_fmax_x2", VReg_64, f64, null_frag
	>;			>;

	}			}

	let SubtargetPredicate = HasD16LoadStore in {			let SubtargetPredicate = HasD16LoadStore in {
				let TiedSourceNotRead = 1 in {

	defm BUFFER_LOAD_UBYTE_D16 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_UBYTE_D16 : MUBUF_Pseudo_Loads <
	"buffer_load_ubyte_d16", i32, 1			"buffer_load_ubyte_d16", i32, 1
	>;			>;

	defm BUFFER_LOAD_UBYTE_D16_HI : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_UBYTE_D16_HI : MUBUF_Pseudo_Loads <
	"buffer_load_ubyte_d16_hi", i32, 1			"buffer_load_ubyte_d16_hi", i32, 1
	>;			>;
	Show All 9 Lines
	defm BUFFER_LOAD_SHORT_D16 : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_SHORT_D16 : MUBUF_Pseudo_Loads <
	"buffer_load_short_d16", i32, 1			"buffer_load_short_d16", i32, 1
	>;			>;

	defm BUFFER_LOAD_SHORT_D16_HI : MUBUF_Pseudo_Loads <			defm BUFFER_LOAD_SHORT_D16_HI : MUBUF_Pseudo_Loads <
	"buffer_load_short_d16_hi", i32, 1			"buffer_load_short_d16_hi", i32, 1
	>;			>;

				defm BUFFER_LOAD_FORMAT_D16_HI_X : MUBUF_Pseudo_Loads <
				"buffer_load_format_d16_hi_x", i32
				>;
				} // End TiedSourceNotRead

	defm BUFFER_STORE_BYTE_D16_HI : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_BYTE_D16_HI : MUBUF_Pseudo_Stores <
	"buffer_store_byte_d16_hi", i32			"buffer_store_byte_d16_hi", i32
	>;			>;

	defm BUFFER_STORE_SHORT_D16_HI : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_SHORT_D16_HI : MUBUF_Pseudo_Stores <
	"buffer_store_short_d16_hi", i32			"buffer_store_short_d16_hi", i32
	>;			>;

	defm BUFFER_LOAD_FORMAT_D16_HI_X : MUBUF_Pseudo_Loads <
	"buffer_load_format_d16_hi_x", i32
	>;
	defm BUFFER_STORE_FORMAT_D16_HI_X : MUBUF_Pseudo_Stores <			defm BUFFER_STORE_FORMAT_D16_HI_X : MUBUF_Pseudo_Stores <
	"buffer_store_format_d16_hi_x", i32			"buffer_store_format_d16_hi_x", i32
	>;			>;

	} // End HasD16LoadStore			} // End HasD16LoadStore

	def BUFFER_WBINVL1 : MUBUF_Invalidate <"buffer_wbinvl1",			def BUFFER_WBINVL1 : MUBUF_Invalidate <"buffer_wbinvl1",
	int_amdgcn_buffer_wbinvl1>;			int_amdgcn_buffer_wbinvl1>;
	Show All 27 Lines
	defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyz", VReg_96, 3>;			defm TBUFFER_LOAD_FORMAT_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyz", VReg_96, 3>;
	defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyzw", VReg_128, 4>;			defm TBUFFER_LOAD_FORMAT_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_xyzw", VReg_128, 4>;
	defm TBUFFER_STORE_FORMAT_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_x", VGPR_32, 1>;			defm TBUFFER_STORE_FORMAT_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_x", VGPR_32, 1>;
	defm TBUFFER_STORE_FORMAT_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_xy", VReg_64, 2>;			defm TBUFFER_STORE_FORMAT_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_xy", VReg_64, 2>;
	defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyz", VReg_96, 3>;			defm TBUFFER_STORE_FORMAT_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyz", VReg_96, 3>;
	defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyzw", VReg_128, 4>;			defm TBUFFER_STORE_FORMAT_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_xyzw", VReg_128, 4>;

	let SubtargetPredicate = HasUnpackedD16VMem, D16Buf = 1 in {			let SubtargetPredicate = HasUnpackedD16VMem, D16Buf = 1 in {
				let TiedSourceNotRead = 1 in {
	defm TBUFFER_LOAD_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32, 1>;			defm TBUFFER_LOAD_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32, 1>;
	defm TBUFFER_LOAD_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VReg_64, 2>;			defm TBUFFER_LOAD_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VReg_64, 2>;
	defm TBUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_96, 3>;			defm TBUFFER_LOAD_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_96, 3>;
	defm TBUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_128, 4>;			defm TBUFFER_LOAD_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_128, 4>;
				}
	defm TBUFFER_STORE_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32, 1>;			defm TBUFFER_STORE_FORMAT_D16_X_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32, 1>;
	defm TBUFFER_STORE_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VReg_64, 2>;			defm TBUFFER_STORE_FORMAT_D16_XY_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VReg_64, 2>;
	defm TBUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_96, 3>;			defm TBUFFER_STORE_FORMAT_D16_XYZ_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_96, 3>;
	defm TBUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_128, 4>;			defm TBUFFER_STORE_FORMAT_D16_XYZW_gfx80 : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_128, 4>;
	} // End HasUnpackedD16VMem.			} // End HasUnpackedD16VMem.

	let SubtargetPredicate = HasPackedD16VMem, D16Buf = 1 in {			let SubtargetPredicate = HasPackedD16VMem, D16Buf = 1 in {
				let TiedSourceNotRead = 1 in {
	defm TBUFFER_LOAD_FORMAT_D16_X : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32, 1>;			defm TBUFFER_LOAD_FORMAT_D16_X : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_x", VGPR_32, 1>;
	defm TBUFFER_LOAD_FORMAT_D16_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VGPR_32, 2>;			defm TBUFFER_LOAD_FORMAT_D16_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xy", VGPR_32, 2>;
	defm TBUFFER_LOAD_FORMAT_D16_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_64, 3>;			defm TBUFFER_LOAD_FORMAT_D16_XYZ : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyz", VReg_64, 3>;
	defm TBUFFER_LOAD_FORMAT_D16_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_64, 4>;			defm TBUFFER_LOAD_FORMAT_D16_XYZW : MTBUF_Pseudo_Loads <"tbuffer_load_format_d16_xyzw", VReg_64, 4>;
				}
	defm TBUFFER_STORE_FORMAT_D16_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32, 1>;			defm TBUFFER_STORE_FORMAT_D16_X : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_x", VGPR_32, 1>;
	defm TBUFFER_STORE_FORMAT_D16_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VGPR_32, 2>;			defm TBUFFER_STORE_FORMAT_D16_XY : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xy", VGPR_32, 2>;
	defm TBUFFER_STORE_FORMAT_D16_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_64, 3>;			defm TBUFFER_STORE_FORMAT_D16_XYZ : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyz", VReg_64, 3>;
	defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_64, 4>;			defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_64, 4>;
	} // End HasPackedD16VMem.			} // End HasPackedD16VMem.

	let SubtargetPredicate = isGFX7Plus in {			let SubtargetPredicate = isGFX7Plus in {

	▲ Show 20 Lines • Show All 1,892 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/DSInstructions.td

	Show First 20 Lines • Show All 643 Lines • ▼ Show 20 Lines

	defm DS_READ2_B32 : DS_1A_Off8_RET_mc<"ds_read2_b32", VReg_64>;			defm DS_READ2_B32 : DS_1A_Off8_RET_mc<"ds_read2_b32", VReg_64>;
	defm DS_READ2ST64_B32: DS_1A_Off8_RET_mc<"ds_read2st64_b32", VReg_64>;			defm DS_READ2ST64_B32: DS_1A_Off8_RET_mc<"ds_read2st64_b32", VReg_64>;

	defm DS_READ2_B64 : DS_1A_Off8_RET_mc<"ds_read2_b64", VReg_128>;			defm DS_READ2_B64 : DS_1A_Off8_RET_mc<"ds_read2_b64", VReg_128>;
	defm DS_READ2ST64_B64: DS_1A_Off8_RET_mc<"ds_read2st64_b64", VReg_128>;			defm DS_READ2ST64_B64: DS_1A_Off8_RET_mc<"ds_read2st64_b64", VReg_128>;

	let has_m0_read = 0 in {			let has_m0_read = 0 in {
	let SubtargetPredicate = HasD16LoadStore in {			let SubtargetPredicate = HasD16LoadStore, TiedSourceNotRead = 1 in {
	def DS_READ_U8_D16 : DS_1A_RET_Tied<"ds_read_u8_d16">;			def DS_READ_U8_D16 : DS_1A_RET_Tied<"ds_read_u8_d16">;
	def DS_READ_U8_D16_HI : DS_1A_RET_Tied<"ds_read_u8_d16_hi">;			def DS_READ_U8_D16_HI : DS_1A_RET_Tied<"ds_read_u8_d16_hi">;
	def DS_READ_I8_D16 : DS_1A_RET_Tied<"ds_read_i8_d16">;			def DS_READ_I8_D16 : DS_1A_RET_Tied<"ds_read_i8_d16">;
	def DS_READ_I8_D16_HI : DS_1A_RET_Tied<"ds_read_i8_d16_hi">;			def DS_READ_I8_D16_HI : DS_1A_RET_Tied<"ds_read_i8_d16_hi">;
	def DS_READ_U16_D16 : DS_1A_RET_Tied<"ds_read_u16_d16">;			def DS_READ_U16_D16 : DS_1A_RET_Tied<"ds_read_u16_d16">;
	def DS_READ_U16_D16_HI : DS_1A_RET_Tied<"ds_read_u16_d16_hi">;			def DS_READ_U16_D16_HI : DS_1A_RET_Tied<"ds_read_u16_d16_hi">;
	}			}
	} // End has_m0_read = 0			} // End has_m0_read = 0
	▲ Show 20 Lines • Show All 1,037 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/FLATInstructions.td

	Show First 20 Lines • Show All 589 Lines • ▼ Show 20 Lines
	def FLAT_STORE_BYTE : FLAT_Store_Pseudo <"flat_store_byte", VGPR_32>;			def FLAT_STORE_BYTE : FLAT_Store_Pseudo <"flat_store_byte", VGPR_32>;
	def FLAT_STORE_SHORT : FLAT_Store_Pseudo <"flat_store_short", VGPR_32>;			def FLAT_STORE_SHORT : FLAT_Store_Pseudo <"flat_store_short", VGPR_32>;
	def FLAT_STORE_DWORD : FLAT_Store_Pseudo <"flat_store_dword", VGPR_32>;			def FLAT_STORE_DWORD : FLAT_Store_Pseudo <"flat_store_dword", VGPR_32>;
	def FLAT_STORE_DWORDX2 : FLAT_Store_Pseudo <"flat_store_dwordx2", VReg_64>;			def FLAT_STORE_DWORDX2 : FLAT_Store_Pseudo <"flat_store_dwordx2", VReg_64>;
	def FLAT_STORE_DWORDX4 : FLAT_Store_Pseudo <"flat_store_dwordx4", VReg_128>;			def FLAT_STORE_DWORDX4 : FLAT_Store_Pseudo <"flat_store_dwordx4", VReg_128>;
	def FLAT_STORE_DWORDX3 : FLAT_Store_Pseudo <"flat_store_dwordx3", VReg_96>;			def FLAT_STORE_DWORDX3 : FLAT_Store_Pseudo <"flat_store_dwordx3", VReg_96>;

	let SubtargetPredicate = HasD16LoadStore in {			let SubtargetPredicate = HasD16LoadStore in {
				let TiedSourceNotRead = 1 in {
	def FLAT_LOAD_UBYTE_D16 : FLAT_Load_Pseudo <"flat_load_ubyte_d16", VGPR_32, 1>;			def FLAT_LOAD_UBYTE_D16 : FLAT_Load_Pseudo <"flat_load_ubyte_d16", VGPR_32, 1>;
	def FLAT_LOAD_UBYTE_D16_HI : FLAT_Load_Pseudo <"flat_load_ubyte_d16_hi", VGPR_32, 1>;			def FLAT_LOAD_UBYTE_D16_HI : FLAT_Load_Pseudo <"flat_load_ubyte_d16_hi", VGPR_32, 1>;
	def FLAT_LOAD_SBYTE_D16 : FLAT_Load_Pseudo <"flat_load_sbyte_d16", VGPR_32, 1>;			def FLAT_LOAD_SBYTE_D16 : FLAT_Load_Pseudo <"flat_load_sbyte_d16", VGPR_32, 1>;
	def FLAT_LOAD_SBYTE_D16_HI : FLAT_Load_Pseudo <"flat_load_sbyte_d16_hi", VGPR_32, 1>;			def FLAT_LOAD_SBYTE_D16_HI : FLAT_Load_Pseudo <"flat_load_sbyte_d16_hi", VGPR_32, 1>;
	def FLAT_LOAD_SHORT_D16 : FLAT_Load_Pseudo <"flat_load_short_d16", VGPR_32, 1>;			def FLAT_LOAD_SHORT_D16 : FLAT_Load_Pseudo <"flat_load_short_d16", VGPR_32, 1>;
	def FLAT_LOAD_SHORT_D16_HI : FLAT_Load_Pseudo <"flat_load_short_d16_hi", VGPR_32, 1>;			def FLAT_LOAD_SHORT_D16_HI : FLAT_Load_Pseudo <"flat_load_short_d16_hi", VGPR_32, 1>;
				}

	def FLAT_STORE_BYTE_D16_HI : FLAT_Store_Pseudo <"flat_store_byte_d16_hi", VGPR_32>;			def FLAT_STORE_BYTE_D16_HI : FLAT_Store_Pseudo <"flat_store_byte_d16_hi", VGPR_32>;
	def FLAT_STORE_SHORT_D16_HI : FLAT_Store_Pseudo <"flat_store_short_d16_hi", VGPR_32>;			def FLAT_STORE_SHORT_D16_HI : FLAT_Store_Pseudo <"flat_store_short_d16_hi", VGPR_32>;
	}			}

	defm FLAT_ATOMIC_CMPSWAP : FLAT_Atomic_Pseudo <"flat_atomic_cmpswap",			defm FLAT_ATOMIC_CMPSWAP : FLAT_Atomic_Pseudo <"flat_atomic_cmpswap",
	VGPR_32, i32, v2i32, VReg_64>;			VGPR_32, i32, v2i32, VReg_64>;

	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	defm GLOBAL_LOAD_SBYTE : FLAT_Global_Load_Pseudo <"global_load_sbyte", VGPR_32>;			defm GLOBAL_LOAD_SBYTE : FLAT_Global_Load_Pseudo <"global_load_sbyte", VGPR_32>;
	defm GLOBAL_LOAD_USHORT : FLAT_Global_Load_Pseudo <"global_load_ushort", VGPR_32>;			defm GLOBAL_LOAD_USHORT : FLAT_Global_Load_Pseudo <"global_load_ushort", VGPR_32>;
	defm GLOBAL_LOAD_SSHORT : FLAT_Global_Load_Pseudo <"global_load_sshort", VGPR_32>;			defm GLOBAL_LOAD_SSHORT : FLAT_Global_Load_Pseudo <"global_load_sshort", VGPR_32>;
	defm GLOBAL_LOAD_DWORD : FLAT_Global_Load_Pseudo <"global_load_dword", VGPR_32>;			defm GLOBAL_LOAD_DWORD : FLAT_Global_Load_Pseudo <"global_load_dword", VGPR_32>;
	defm GLOBAL_LOAD_DWORDX2 : FLAT_Global_Load_Pseudo <"global_load_dwordx2", VReg_64>;			defm GLOBAL_LOAD_DWORDX2 : FLAT_Global_Load_Pseudo <"global_load_dwordx2", VReg_64>;
	defm GLOBAL_LOAD_DWORDX3 : FLAT_Global_Load_Pseudo <"global_load_dwordx3", VReg_96>;			defm GLOBAL_LOAD_DWORDX3 : FLAT_Global_Load_Pseudo <"global_load_dwordx3", VReg_96>;
	defm GLOBAL_LOAD_DWORDX4 : FLAT_Global_Load_Pseudo <"global_load_dwordx4", VReg_128>;			defm GLOBAL_LOAD_DWORDX4 : FLAT_Global_Load_Pseudo <"global_load_dwordx4", VReg_128>;

				let TiedSourceNotRead = 1 in {
	defm GLOBAL_LOAD_UBYTE_D16 : FLAT_Global_Load_Pseudo <"global_load_ubyte_d16", VGPR_32, 1>;			defm GLOBAL_LOAD_UBYTE_D16 : FLAT_Global_Load_Pseudo <"global_load_ubyte_d16", VGPR_32, 1>;
	defm GLOBAL_LOAD_UBYTE_D16_HI : FLAT_Global_Load_Pseudo <"global_load_ubyte_d16_hi", VGPR_32, 1>;			defm GLOBAL_LOAD_UBYTE_D16_HI : FLAT_Global_Load_Pseudo <"global_load_ubyte_d16_hi", VGPR_32, 1>;
	defm GLOBAL_LOAD_SBYTE_D16 : FLAT_Global_Load_Pseudo <"global_load_sbyte_d16", VGPR_32, 1>;			defm GLOBAL_LOAD_SBYTE_D16 : FLAT_Global_Load_Pseudo <"global_load_sbyte_d16", VGPR_32, 1>;
	defm GLOBAL_LOAD_SBYTE_D16_HI : FLAT_Global_Load_Pseudo <"global_load_sbyte_d16_hi", VGPR_32, 1>;			defm GLOBAL_LOAD_SBYTE_D16_HI : FLAT_Global_Load_Pseudo <"global_load_sbyte_d16_hi", VGPR_32, 1>;
	defm GLOBAL_LOAD_SHORT_D16 : FLAT_Global_Load_Pseudo <"global_load_short_d16", VGPR_32, 1>;			defm GLOBAL_LOAD_SHORT_D16 : FLAT_Global_Load_Pseudo <"global_load_short_d16", VGPR_32, 1>;
	defm GLOBAL_LOAD_SHORT_D16_HI : FLAT_Global_Load_Pseudo <"global_load_short_d16_hi", VGPR_32, 1>;			defm GLOBAL_LOAD_SHORT_D16_HI : FLAT_Global_Load_Pseudo <"global_load_short_d16_hi", VGPR_32, 1>;
				}

	let OtherPredicates = [HasGFX10_BEncoding] in			let OtherPredicates = [HasGFX10_BEncoding] in
	defm GLOBAL_LOAD_DWORD_ADDTID : FLAT_Global_Load_AddTid_Pseudo <"global_load_dword_addtid", VGPR_32>;			defm GLOBAL_LOAD_DWORD_ADDTID : FLAT_Global_Load_AddTid_Pseudo <"global_load_dword_addtid", VGPR_32>;

	defm GLOBAL_STORE_BYTE : FLAT_Global_Store_Pseudo <"global_store_byte", VGPR_32>;			defm GLOBAL_STORE_BYTE : FLAT_Global_Store_Pseudo <"global_store_byte", VGPR_32>;
	defm GLOBAL_STORE_SHORT : FLAT_Global_Store_Pseudo <"global_store_short", VGPR_32>;			defm GLOBAL_STORE_SHORT : FLAT_Global_Store_Pseudo <"global_store_short", VGPR_32>;
	defm GLOBAL_STORE_DWORD : FLAT_Global_Store_Pseudo <"global_store_dword", VGPR_32>;			defm GLOBAL_STORE_DWORD : FLAT_Global_Store_Pseudo <"global_store_dword", VGPR_32>;
	defm GLOBAL_STORE_DWORDX2 : FLAT_Global_Store_Pseudo <"global_store_dwordx2", VReg_64>;			defm GLOBAL_STORE_DWORDX2 : FLAT_Global_Store_Pseudo <"global_store_dwordx2", VReg_64>;
	defm GLOBAL_STORE_DWORDX3 : FLAT_Global_Store_Pseudo <"global_store_dwordx3", VReg_96>;			defm GLOBAL_STORE_DWORDX3 : FLAT_Global_Store_Pseudo <"global_store_dwordx3", VReg_96>;
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	defm SCRATCH_LOAD_SBYTE : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte", VGPR_32>;			defm SCRATCH_LOAD_SBYTE : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte", VGPR_32>;
	defm SCRATCH_LOAD_USHORT : FLAT_Scratch_Load_Pseudo <"scratch_load_ushort", VGPR_32>;			defm SCRATCH_LOAD_USHORT : FLAT_Scratch_Load_Pseudo <"scratch_load_ushort", VGPR_32>;
	defm SCRATCH_LOAD_SSHORT : FLAT_Scratch_Load_Pseudo <"scratch_load_sshort", VGPR_32>;			defm SCRATCH_LOAD_SSHORT : FLAT_Scratch_Load_Pseudo <"scratch_load_sshort", VGPR_32>;
	defm SCRATCH_LOAD_DWORD : FLAT_Scratch_Load_Pseudo <"scratch_load_dword", VGPR_32>;			defm SCRATCH_LOAD_DWORD : FLAT_Scratch_Load_Pseudo <"scratch_load_dword", VGPR_32>;
	defm SCRATCH_LOAD_DWORDX2 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx2", VReg_64>;			defm SCRATCH_LOAD_DWORDX2 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx2", VReg_64>;
	defm SCRATCH_LOAD_DWORDX3 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx3", VReg_96>;			defm SCRATCH_LOAD_DWORDX3 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx3", VReg_96>;
	defm SCRATCH_LOAD_DWORDX4 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx4", VReg_128>;			defm SCRATCH_LOAD_DWORDX4 : FLAT_Scratch_Load_Pseudo <"scratch_load_dwordx4", VReg_128>;

				let TiedSourceNotRead = 1 in {
	defm SCRATCH_LOAD_UBYTE_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_ubyte_d16", VGPR_32, 1>;			defm SCRATCH_LOAD_UBYTE_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_ubyte_d16", VGPR_32, 1>;
	defm SCRATCH_LOAD_UBYTE_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_ubyte_d16_hi", VGPR_32, 1>;			defm SCRATCH_LOAD_UBYTE_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_ubyte_d16_hi", VGPR_32, 1>;
	defm SCRATCH_LOAD_SBYTE_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte_d16", VGPR_32, 1>;			defm SCRATCH_LOAD_SBYTE_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte_d16", VGPR_32, 1>;
	defm SCRATCH_LOAD_SBYTE_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte_d16_hi", VGPR_32, 1>;			defm SCRATCH_LOAD_SBYTE_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_sbyte_d16_hi", VGPR_32, 1>;
	defm SCRATCH_LOAD_SHORT_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_short_d16", VGPR_32, 1>;			defm SCRATCH_LOAD_SHORT_D16 : FLAT_Scratch_Load_Pseudo <"scratch_load_short_d16", VGPR_32, 1>;
	defm SCRATCH_LOAD_SHORT_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_short_d16_hi", VGPR_32, 1>;			defm SCRATCH_LOAD_SHORT_D16_HI : FLAT_Scratch_Load_Pseudo <"scratch_load_short_d16_hi", VGPR_32, 1>;
				}

	defm SCRATCH_STORE_BYTE : FLAT_Scratch_Store_Pseudo <"scratch_store_byte", VGPR_32>;			defm SCRATCH_STORE_BYTE : FLAT_Scratch_Store_Pseudo <"scratch_store_byte", VGPR_32>;
	defm SCRATCH_STORE_SHORT : FLAT_Scratch_Store_Pseudo <"scratch_store_short", VGPR_32>;			defm SCRATCH_STORE_SHORT : FLAT_Scratch_Store_Pseudo <"scratch_store_short", VGPR_32>;
	defm SCRATCH_STORE_DWORD : FLAT_Scratch_Store_Pseudo <"scratch_store_dword", VGPR_32>;			defm SCRATCH_STORE_DWORD : FLAT_Scratch_Store_Pseudo <"scratch_store_dword", VGPR_32>;
	defm SCRATCH_STORE_DWORDX2 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx2", VReg_64>;			defm SCRATCH_STORE_DWORDX2 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx2", VReg_64>;
	defm SCRATCH_STORE_DWORDX3 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx3", VReg_96>;			defm SCRATCH_STORE_DWORDX3 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx3", VReg_96>;
	defm SCRATCH_STORE_DWORDX4 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx4", VReg_128>;			defm SCRATCH_STORE_DWORDX4 : FLAT_Scratch_Store_Pseudo <"scratch_store_dwordx4", VReg_128>;

	▲ Show 20 Lines • Show All 1,477 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIDefines.h

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	enum : uint64_t {
// Atomic without return.		// Atomic without return.
IsAtomicNoRet = UINT64_C(1) << 57,		IsAtomicNoRet = UINT64_C(1) << 57,

// Atomic with return.		// Atomic with return.
IsAtomicRet = UINT64_C(1) << 58,		IsAtomicRet = UINT64_C(1) << 58,

// Is a WMMA instruction.		// Is a WMMA instruction.
IsWMMA = UINT64_C(1) << 59,		IsWMMA = UINT64_C(1) << 59,

		// Whether tied sources will be read.
		TiedSourceNotRead = UINT64_C(1) << 60,
};		};

// v_cmp_class_* etc. use a 10-bit mask for what operation is checked.		// v_cmp_class_* etc. use a 10-bit mask for what operation is checked.
// The result is true if any of these tests are true.		// The result is true if any of these tests are true.
enum ClassFlags : unsigned {		enum ClassFlags : unsigned {
S_NAN = 1 << 0, // Signaling NaN		S_NAN = 1 << 0, // Signaling NaN
Q_NAN = 1 << 1, // Quiet NaN		Q_NAN = 1 << 1, // Quiet NaN
N_INFINITY = 1 << 2, // Negative infinity		N_INFINITY = 1 << 2, // Negative infinity
▲ Show 20 Lines • Show All 919 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

Show First 20 Lines • Show All 1,171 Lines • ▼ Show 20 Lines	if (MI.isCall() && callWaitsOnFunctionEntry(MI)) {
}		}
}		}

// Loop over use and def operands.		// Loop over use and def operands.
for (unsigned I = 0, E = MI.getNumOperands(); I != E; ++I) {		for (unsigned I = 0, E = MI.getNumOperands(); I != E; ++I) {
MachineOperand &Op = MI.getOperand(I);		MachineOperand &Op = MI.getOperand(I);
if (!Op.isReg())		if (!Op.isReg())
continue;		continue;

		// If the instruction does not read tied source, skip the operand.
		foadUnsubmitted Not Done Reply Inline Actions Should we do the same thing for _d16 DS, FLAT, SCRATCH and GLOBAL instructions? foad: Should we do the same thing for _d16 DS, FLAT, SCRATCH and GLOBAL instructions?
		ruilingAuthorUnsubmitted Done Reply Inline Actions For _d16 DS/FLAT, skipping the tied source does not change the code generation. As we always need a s_waitcnt for two successive _d16 ds/flat load because they may return out of order. So, I would rather not handle them here. I am actually setting the D16Buf bit for global/scratch load in parent change. Should I change `D16Buf` to something else? I will update the comment. ruiling: For _d16 DS/FLAT, skipping the tied source does not change the code generation. As we always…
		arsenmUnsubmitted Not Done Reply Inline Actions Since when can't they return out of order? Could you demonstrate a change by combining a ds load with a global load? The two halves don't need to access the same address space arsenm: Since when can't they return out of order? Could you demonstrate a change by combining a ds…
		ruilingAuthorUnsubmitted Done Reply Inline Actions Since when can't they return out of order? Sorry I don't know what you are asking. Could you help explain? Could you demonstrate a change by combining a ds load with a global load? The two halves don't need to access the same address space A ds load followed by a global_load to the same VGPR will always have a WAW dependency. The change here is to remove a false read-after-write dependency. ruiling: > Since when can't they return out of order? Sorry I don't know what you are asking. Could you…
		if (Op.isTied() && Op.isUse() && TII->doesNotReadTiedSource(MI))
		continue;

		arsenmUnsubmitted Not Done Reply Inline Actions Don't see the point of the "Buf" part of the name, it's just D16 arsenm: Don't see the point of the "Buf" part of the name, it's just D16
		ruilingAuthorUnsubmitted Done Reply Inline Actions `D16` was renamed into `D16Buf` in D47434. I think it should be ok to change back? The only one user in cpp source code is: https://github.com/llvm/llvm-project/blob/main/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp#L8048 I don't know what it is doing here. ruiling: `D16` was renamed into `D16Buf` in D47434. I think it should be ok to change back? The only one…
RegInterval Interval =		RegInterval Interval =
ScoreBrackets.getRegInterval(&MI, TII, MRI, TRI, I);		ScoreBrackets.getRegInterval(&MI, TII, MRI, TRI, I);

const bool IsVGPR = TRI->isVectorRegister(*MRI, Op.getReg());		const bool IsVGPR = TRI->isVectorRegister(*MRI, Op.getReg());
for (int RegNo = Interval.first; RegNo < Interval.second; ++RegNo) {		for (int RegNo = Interval.first; RegNo < Interval.second; ++RegNo) {
if (IsVGPR) {		if (IsVGPR) {
// RAW always needs an s_waitcnt. WAW needs an s_waitcnt unless the		// RAW always needs an s_waitcnt. WAW needs an s_waitcnt unless the
// previous write and this write are the same type of VMEM		// previous write and this write are the same type of VMEM
▲ Show 20 Lines • Show All 736 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstrFormats.td

Show First 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	class InstSI <dag outs, dag ins, string asm = "",
field bit IsAtomicNoRet = 0;		field bit IsAtomicNoRet = 0;

// Atomic with return.		// Atomic with return.
field bit IsAtomicRet = 0;		field bit IsAtomicRet = 0;

// This bit indicates that this is one of WMMA instructions.		// This bit indicates that this is one of WMMA instructions.
field bit IsWMMA = 0;		field bit IsWMMA = 0;

		// This bit indicates that tied source will not be read.
		field bit TiedSourceNotRead = 0;

// These need to be kept in sync with the enum in SIInstrFlags.		// These need to be kept in sync with the enum in SIInstrFlags.
let TSFlags{0} = SALU;		let TSFlags{0} = SALU;
let TSFlags{1} = VALU;		let TSFlags{1} = VALU;

let TSFlags{2} = SOP1;		let TSFlags{2} = SOP1;
let TSFlags{3} = SOP2;		let TSFlags{3} = SOP2;
let TSFlags{4} = SOPC;		let TSFlags{4} = SOPC;
let TSFlags{5} = SOPK;		let TSFlags{5} = SOPK;
▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	class InstSI <dag outs, dag ins, string asm = "",
let TSFlags{56} = FlatScratch;		let TSFlags{56} = FlatScratch;

let TSFlags{57} = IsAtomicNoRet;		let TSFlags{57} = IsAtomicNoRet;

let TSFlags{58} = IsAtomicRet;		let TSFlags{58} = IsAtomicRet;

let TSFlags{59} = IsWMMA;		let TSFlags{59} = IsWMMA;

		let TSFlags{60} = TiedSourceNotRead;

let SchedRW = [Write32Bit];		let SchedRW = [Write32Bit];

let AsmVariantName = AMDGPUAsmVariants.Default;		let AsmVariantName = AMDGPUAsmVariants.Default;

// Avoid changing source registers in a way that violates constant bus read limitations.		// Avoid changing source registers in a way that violates constant bus read limitations.
let hasExtraSrcRegAllocReq = !or(VOP1, VOP2, VOP3, VOPC, SDWA, VALU);		let hasExtraSrcRegAllocReq = !or(VOP1, VOP2, VOP3, VOPC, SDWA, VALU);
}		}

▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstrInfo.h

Show First 20 Lines • Show All 771 Lines • ▼ Show 20 Lines	public:
static bool isFPAtomic(const MachineInstr &MI) {		static bool isFPAtomic(const MachineInstr &MI) {
return MI.getDesc().TSFlags & SIInstrFlags::FPAtomic;		return MI.getDesc().TSFlags & SIInstrFlags::FPAtomic;
}		}

bool isFPAtomic(uint16_t Opcode) const {		bool isFPAtomic(uint16_t Opcode) const {
return get(Opcode).TSFlags & SIInstrFlags::FPAtomic;		return get(Opcode).TSFlags & SIInstrFlags::FPAtomic;
}		}

		static bool doesNotReadTiedSource(const MachineInstr &MI) {
		return MI.getDesc().TSFlags & SIInstrFlags::TiedSourceNotRead;
		}

		bool doesNotReadTiedSource(uint16_t Opcode) const {
		return get(Opcode).TSFlags & SIInstrFlags::TiedSourceNotRead;
		}

bool isVGPRCopy(const MachineInstr &MI) const {		bool isVGPRCopy(const MachineInstr &MI) const {
assert(MI.isCopy());		assert(MI.isCopy());
Register Dest = MI.getOperand(0).getReg();		Register Dest = MI.getOperand(0).getReg();
const MachineFunction &MF = *MI.getParent()->getParent();		const MachineFunction &MF = *MI.getParent()->getParent();
const MachineRegisterInfo &MRI = MF.getRegInfo();		const MachineRegisterInfo &MRI = MF.getRegInfo();
return !RI.isSGPRReg(MRI, Dest);		return !RI.isSGPRReg(MRI, Dest);
}		}

▲ Show 20 Lines • Show All 551 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/chain-hi-to-lo.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GCN,GFX900 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GCN,GFX900 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLATSCR %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLATSCR %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GFX10,GFX10_DEFAULT %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GFX10,GFX10_DEFAULT %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GFX10,FLATSCR_GFX10 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GFX10,FLATSCR_GFX10 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GFX11 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 -verify-machineinstrs -mattr=-unaligned-access-mode < %s \| FileCheck -check-prefixes=GFX11 %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GFX11 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1100 -verify-machineinstrs -mattr=-unaligned-access-mode -mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GFX11 %s

	define <2 x half> @chain_hi_to_lo_private() {			define <2 x half> @chain_hi_to_lo_private() {
	; GFX900-LABEL: chain_hi_to_lo_private:			; GFX900-LABEL: chain_hi_to_lo_private:
	; GFX900: ; %bb.0: ; %bb			; GFX900: ; %bb.0: ; %bb
	; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:2			; GFX900-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:2
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_nop 0
	; GFX900-NEXT: buffer_load_short_d16_hi v0, off, s[0:3], 0			; GFX900-NEXT: buffer_load_short_d16_hi v0, off, s[0:3], 0
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0)
	; GFX900-NEXT: s_setpc_b64 s[30:31]			; GFX900-NEXT: s_setpc_b64 s[30:31]
	;			;
	; FLATSCR-LABEL: chain_hi_to_lo_private:			; FLATSCR-LABEL: chain_hi_to_lo_private:
	; FLATSCR: ; %bb.0: ; %bb			; FLATSCR: ; %bb.0: ; %bb
	; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; FLATSCR-NEXT: s_mov_b32 s0, 2			; FLATSCR-NEXT: s_mov_b32 s0, 2
	; FLATSCR-NEXT: scratch_load_ushort v0, off, s0			; FLATSCR-NEXT: scratch_load_ushort v0, off, s0
	; FLATSCR-NEXT: s_mov_b32 s0, 0			; FLATSCR-NEXT: s_mov_b32 s0, 0
	; FLATSCR-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR-NEXT: scratch_load_short_d16_hi v0, off, s0			; FLATSCR-NEXT: scratch_load_short_d16_hi v0, off, s0
				ruilingAuthorUnsubmitted Done Reply Inline Actions This shows the effect on scratch_load_d16. ruiling: This shows the effect on scratch_load_d16.
	; FLATSCR-NEXT: s_waitcnt vmcnt(0)			; FLATSCR-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR-NEXT: s_setpc_b64 s[30:31]			; FLATSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10_DEFAULT-LABEL: chain_hi_to_lo_private:			; GFX10_DEFAULT-LABEL: chain_hi_to_lo_private:
	; GFX10_DEFAULT: ; %bb.0: ; %bb			; GFX10_DEFAULT: ; %bb.0: ; %bb
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10_DEFAULT-NEXT: s_clause 0x1
	; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:2			; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, off, s[0:3], 0 offset:2
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
	; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v0, off, s[0:3], 0			; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v0, off, s[0:3], 0
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)			; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
	; GFX10_DEFAULT-NEXT: s_setpc_b64 s[30:31]			; GFX10_DEFAULT-NEXT: s_setpc_b64 s[30:31]
	;			;
	; FLATSCR_GFX10-LABEL: chain_hi_to_lo_private:			; FLATSCR_GFX10-LABEL: chain_hi_to_lo_private:
	; FLATSCR_GFX10: ; %bb.0: ; %bb			; FLATSCR_GFX10: ; %bb.0: ; %bb
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; FLATSCR_GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; FLATSCR_GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; FLATSCR_GFX10-NEXT: s_mov_b32 s0, 2			; FLATSCR_GFX10-NEXT: s_mov_b32 s0, 2
	; FLATSCR_GFX10-NEXT: scratch_load_ushort v0, off, s0			; FLATSCR_GFX10-NEXT: scratch_load_ushort v0, off, s0
	; FLATSCR_GFX10-NEXT: s_waitcnt_depctr 0xffe3			; FLATSCR_GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; FLATSCR_GFX10-NEXT: s_mov_b32 s0, 0			; FLATSCR_GFX10-NEXT: s_mov_b32 s0, 0
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR_GFX10-NEXT: scratch_load_short_d16_hi v0, off, s0			; FLATSCR_GFX10-NEXT: scratch_load_short_d16_hi v0, off, s0
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)			; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR_GFX10-NEXT: s_setpc_b64 s[30:31]			; FLATSCR_GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: chain_hi_to_lo_private:			; GFX11-LABEL: chain_hi_to_lo_private:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: s_mov_b32 s0, 2			; GFX11-NEXT: s_mov_b32 s0, 2
	; GFX11-NEXT: scratch_load_u16 v0, off, s0			; GFX11-NEXT: scratch_load_u16 v0, off, s0
	; GFX11-NEXT: s_mov_b32 s0, 0			; GFX11-NEXT: s_mov_b32 s0, 0
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: scratch_load_d16_hi_b16 v0, off, s0			; GFX11-NEXT: scratch_load_d16_hi_b16 v0, off, s0
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	bb:			bb:
	%gep_lo = getelementptr inbounds half, ptr addrspace(5) null, i64 1			%gep_lo = getelementptr inbounds half, ptr addrspace(5) null, i64 1
	%load_lo = load half, ptr addrspace(5) %gep_lo			%load_lo = load half, ptr addrspace(5) %gep_lo
	%load_hi = load half, ptr addrspace(5) null			%load_hi = load half, ptr addrspace(5) null

	%temp = insertelement <2 x half> undef, half %load_lo, i32 0			%temp = insertelement <2 x half> undef, half %load_lo, i32 0
	%result = insertelement <2 x half> %temp, half %load_hi, i32 1			%result = insertelement <2 x half> %temp, half %load_hi, i32 1

	ret <2 x half> %result			ret <2 x half> %result
	}			}

	define <2 x half> @chain_hi_to_lo_private_different_bases(ptr addrspace(5) %base_lo, ptr addrspace(5) %base_hi) {			define <2 x half> @chain_hi_to_lo_private_different_bases(ptr addrspace(5) %base_lo, ptr addrspace(5) %base_hi) {
	; GFX900-LABEL: chain_hi_to_lo_private_different_bases:			; GFX900-LABEL: chain_hi_to_lo_private_different_bases:
	; GFX900: ; %bb.0: ; %bb			; GFX900: ; %bb.0: ; %bb
	; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-NEXT: buffer_load_ushort v0, v0, s[0:3], 0 offen			; GFX900-NEXT: buffer_load_ushort v0, v0, s[0:3], 0 offen
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_nop 0
	; GFX900-NEXT: buffer_load_short_d16_hi v0, v1, s[0:3], 0 offen			; GFX900-NEXT: buffer_load_short_d16_hi v0, v1, s[0:3], 0 offen
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0)
	; GFX900-NEXT: s_setpc_b64 s[30:31]			; GFX900-NEXT: s_setpc_b64 s[30:31]
	;			;
	; FLATSCR-LABEL: chain_hi_to_lo_private_different_bases:			; FLATSCR-LABEL: chain_hi_to_lo_private_different_bases:
	; FLATSCR: ; %bb.0: ; %bb			; FLATSCR: ; %bb.0: ; %bb
	; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; FLATSCR-NEXT: scratch_load_ushort v0, v0, off			; FLATSCR-NEXT: scratch_load_ushort v0, v0, off
	; FLATSCR-NEXT: s_waitcnt vmcnt(0)			; FLATSCR-NEXT: s_nop 0
	; FLATSCR-NEXT: scratch_load_short_d16_hi v0, v1, off			; FLATSCR-NEXT: scratch_load_short_d16_hi v0, v1, off
	; FLATSCR-NEXT: s_waitcnt vmcnt(0)			; FLATSCR-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR-NEXT: s_setpc_b64 s[30:31]			; FLATSCR-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10_DEFAULT-LABEL: chain_hi_to_lo_private_different_bases:			; GFX10_DEFAULT-LABEL: chain_hi_to_lo_private_different_bases:
	; GFX10_DEFAULT: ; %bb.0: ; %bb			; GFX10_DEFAULT: ; %bb.0: ; %bb
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10_DEFAULT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10_DEFAULT-NEXT: s_clause 0x1
	; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, v0, s[0:3], 0 offen			; GFX10_DEFAULT-NEXT: buffer_load_ushort v0, v0, s[0:3], 0 offen
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
	; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v0, v1, s[0:3], 0 offen			; GFX10_DEFAULT-NEXT: buffer_load_short_d16_hi v0, v1, s[0:3], 0 offen
	; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)			; GFX10_DEFAULT-NEXT: s_waitcnt vmcnt(0)
	; GFX10_DEFAULT-NEXT: s_setpc_b64 s[30:31]			; GFX10_DEFAULT-NEXT: s_setpc_b64 s[30:31]
	;			;
	; FLATSCR_GFX10-LABEL: chain_hi_to_lo_private_different_bases:			; FLATSCR_GFX10-LABEL: chain_hi_to_lo_private_different_bases:
	; FLATSCR_GFX10: ; %bb.0: ; %bb			; FLATSCR_GFX10: ; %bb.0: ; %bb
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; FLATSCR_GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; FLATSCR_GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; FLATSCR_GFX10-NEXT: scratch_load_ushort v0, v0, off			; FLATSCR_GFX10-NEXT: scratch_load_ushort v0, v0, off
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR_GFX10-NEXT: scratch_load_short_d16_hi v0, v1, off			; FLATSCR_GFX10-NEXT: scratch_load_short_d16_hi v0, v1, off
	; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)			; FLATSCR_GFX10-NEXT: s_waitcnt vmcnt(0)
	; FLATSCR_GFX10-NEXT: s_setpc_b64 s[30:31]			; FLATSCR_GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: chain_hi_to_lo_private_different_bases:			; GFX11-LABEL: chain_hi_to_lo_private_different_bases:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: scratch_load_u16 v0, v0, off			; GFX11-NEXT: scratch_load_u16 v0, v0, off
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: scratch_load_d16_hi_b16 v0, v1, off			; GFX11-NEXT: scratch_load_d16_hi_b16 v0, v1, off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	bb:			bb:
	%load_lo = load half, ptr addrspace(5) %base_lo			%load_lo = load half, ptr addrspace(5) %base_lo
	%load_hi = load half, ptr addrspace(5) %base_hi			%load_hi = load half, ptr addrspace(5) %base_hi

	%temp = insertelement <2 x half> undef, half %load_lo, i32 0			%temp = insertelement <2 x half> undef, half %load_lo, i32 0
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: chain_hi_to_lo_group:			; GFX10-LABEL: chain_hi_to_lo_group:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: ds_read_u16 v0, v1 offset:2			; GFX10-NEXT: ds_read_u16 v0, v1 offset:2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: ds_read_u16_d16_hi v0, v1			; GFX10-NEXT: ds_read_u16_d16_hi v0, v1
				ruilingAuthorUnsubmitted Done Reply Inline Actions This is the test for ds_read_xxx_d16, but the patch won't change the generated code because there is always a WAW dependency. ruiling: This is the test for ds_read_xxx_d16, but the patch won't change the generated code because…
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: chain_hi_to_lo_group:			; GFX11-LABEL: chain_hi_to_lo_group:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_mov_b32_e32 v1, 0			; GFX11-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GCN-LABEL: chain_hi_to_lo_global:			; GCN-LABEL: chain_hi_to_lo_global:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, 2			; GCN-NEXT: v_mov_b32_e32 v0, 2
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: global_load_ushort v0, v[0:1], off			; GCN-NEXT: global_load_ushort v0, v[0:1], off
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: global_load_short_d16_hi v0, v[1:2], off			; GCN-NEXT: global_load_short_d16_hi v0, v[1:2], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: chain_hi_to_lo_global:			; GFX10-LABEL: chain_hi_to_lo_global:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v0, 2			; GFX10-NEXT: v_mov_b32_e32 v0, 2
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_load_ushort v0, v[0:1], off			; GFX10-NEXT: global_load_ushort v0, v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_short_d16_hi v0, v[1:2], off			; GFX10-NEXT: global_load_short_d16_hi v0, v[1:2], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: chain_hi_to_lo_global:			; GFX11-LABEL: chain_hi_to_lo_global:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_mov_b32_e32 v0, 2			; GFX11-NEXT: v_mov_b32_e32 v0, 2
	; GFX11-NEXT: v_mov_b32_e32 v1, 0			; GFX11-NEXT: v_mov_b32_e32 v1, 0
	; GFX11-NEXT: global_load_u16 v0, v[0:1], off			; GFX11-NEXT: global_load_u16 v0, v[0:1], off
	; GFX11-NEXT: v_mov_b32_e32 v1, 0			; GFX11-NEXT: v_mov_b32_e32 v1, 0
	; GFX11-NEXT: v_mov_b32_e32 v2, 0			; GFX11-NEXT: v_mov_b32_e32 v2, 0
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: global_load_d16_hi_b16 v0, v[1:2], off			; GFX11-NEXT: global_load_d16_hi_b16 v0, v[1:2], off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	bb:			bb:
	%gep_lo = getelementptr inbounds half, ptr addrspace(1) null, i64 1			%gep_lo = getelementptr inbounds half, ptr addrspace(1) null, i64 1
	%load_lo = load half, ptr addrspace(1) %gep_lo			%load_lo = load half, ptr addrspace(1) %gep_lo
	%load_hi = load half, ptr addrspace(1) null			%load_hi = load half, ptr addrspace(1) null

	%temp = insertelement <2 x half> undef, half %load_lo, i32 0			%temp = insertelement <2 x half> undef, half %load_lo, i32 0
	%result = insertelement <2 x half> %temp, half %load_hi, i32 1			%result = insertelement <2 x half> %temp, half %load_hi, i32 1

	ret <2 x half> %result			ret <2 x half> %result
	}			}

	define <2 x half> @chain_hi_to_lo_global_different_bases(ptr addrspace(1) %base_lo, ptr addrspace(1) %base_hi) {			define <2 x half> @chain_hi_to_lo_global_different_bases(ptr addrspace(1) %base_lo, ptr addrspace(1) %base_hi) {
	; GCN-LABEL: chain_hi_to_lo_global_different_bases:			; GCN-LABEL: chain_hi_to_lo_global_different_bases:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: global_load_ushort v0, v[0:1], off			; GCN-NEXT: global_load_ushort v0, v[0:1], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_load_short_d16_hi v0, v[2:3], off			; GCN-NEXT: global_load_short_d16_hi v0, v[2:3], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: chain_hi_to_lo_global_different_bases:			; GFX10-LABEL: chain_hi_to_lo_global_different_bases:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_ushort v0, v[0:1], off			; GFX10-NEXT: global_load_ushort v0, v[0:1], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_short_d16_hi v0, v[2:3], off			; GFX10-NEXT: global_load_short_d16_hi v0, v[2:3], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: chain_hi_to_lo_global_different_bases:			; GFX11-LABEL: chain_hi_to_lo_global_different_bases:
	; GFX11: ; %bb.0: ; %bb			; GFX11: ; %bb.0: ; %bb
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_load_u16 v0, v[0:1], off			; GFX11-NEXT: global_load_u16 v0, v[0:1], off
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: global_load_d16_hi_b16 v0, v[2:3], off			; GFX11-NEXT: global_load_d16_hi_b16 v0, v[2:3], off
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	bb:			bb:
	%load_lo = load half, ptr addrspace(1) %base_lo			%load_lo = load half, ptr addrspace(1) %base_lo
	%load_hi = load half, ptr addrspace(1) %base_hi			%load_hi = load half, ptr addrspace(1) %base_hi

	%temp = insertelement <2 x half> undef, half %load_lo, i32 0			%temp = insertelement <2 x half> undef, half %load_lo, i32 0
	%result = insertelement <2 x half> %temp, half %load_hi, i32 1			%result = insertelement <2 x half> %temp, half %load_hi, i32 1

	ret <2 x half> %result			ret <2 x half> %result
	}			}

	define <2 x half> @chain_hi_to_lo_flat() {			define <2 x half> @chain_hi_to_lo_flat() {
	; GCN-LABEL: chain_hi_to_lo_flat:			; GCN-LABEL: chain_hi_to_lo_flat:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, 2			; GCN-NEXT: v_mov_b32_e32 v0, 2
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: flat_load_ushort v0, v[0:1]			; GCN-NEXT: flat_load_ushort v0, v[0:1]
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GCN-NEXT: flat_load_short_d16_hi v0, v[1:2]			; GCN-NEXT: flat_load_short_d16_hi v0, v[1:2]
				ruilingAuthorUnsubmitted Done Reply Inline Actions This will test for the flat_load_xxx_d16, but like ds_load, there is no change in the generated code. ruiling: This will test for the flat_load_xxx_d16, but like ds_load, there is no change in the generated…
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: chain_hi_to_lo_flat:			; GFX10-LABEL: chain_hi_to_lo_flat:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v0, 2			; GFX10-NEXT: v_mov_b32_e32 v0, 2
	▲ Show 20 Lines • Show All 596 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-hi16.ll

	Show First 20 Lines • Show All 2,543 Lines • ▼ Show 20 Lines
	}			}

	; FIXME: Remove waitcnt between reads			; FIXME: Remove waitcnt between reads
	define <2 x i16> @load_constant_v2i16_split(ptr addrspace(4) %in) #0 {			define <2 x i16> @load_constant_v2i16_split(ptr addrspace(4) %in) #0 {
	; GFX900-LABEL: load_constant_v2i16_split:			; GFX900-LABEL: load_constant_v2i16_split:
	; GFX900: ; %bb.0: ; %entry			; GFX900: ; %bb.0: ; %entry
	; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-NEXT: global_load_ushort v2, v[0:1], off glc			; GFX900-NEXT: global_load_ushort v2, v[0:1], off glc
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_nop 0
	; GFX900-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:2 glc			; GFX900-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:2 glc
	; GFX900-NEXT: s_waitcnt vmcnt(0)			; GFX900-NEXT: s_waitcnt vmcnt(0)
	; GFX900-NEXT: v_mov_b32_e32 v0, v2			; GFX900-NEXT: v_mov_b32_e32 v0, v2
	; GFX900-NEXT: s_setpc_b64 s[30:31]			; GFX900-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX906-LABEL: load_constant_v2i16_split:			; GFX906-LABEL: load_constant_v2i16_split:
	; GFX906: ; %bb.0: ; %entry			; GFX906: ; %bb.0: ; %entry
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	Show All 15 Lines
	; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: v_or_b32_e32 v0, v0, v1			; GFX803-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_constant_v2i16_split:			; GFX900-FLATSCR-LABEL: load_constant_v2i16_split:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: global_load_ushort v2, v[0:1], off glc			; GFX900-FLATSCR-NEXT: global_load_ushort v2, v[0:1], off glc
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)			; GFX900-FLATSCR-NEXT: s_nop 0
	; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:2 glc			; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:2 glc
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0)
	; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v0, v2			; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v0, v2
	; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]			; GFX900-FLATSCR-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%gep = getelementptr inbounds i16, ptr addrspace(4) %in, i64 1			%gep = getelementptr inbounds i16, ptr addrspace(4) %in, i64 1
	%load0 = load volatile i16, ptr addrspace(4) %in			%load0 = load volatile i16, ptr addrspace(4) %in
	%load1 = load volatile i16, ptr addrspace(4) %gep			%load1 = load volatile i16, ptr addrspace(4) %gep
	▲ Show 20 Lines • Show All 116 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll

Show First 20 Lines • Show All 2,531 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_setpc_b64 s[30:31]
ret void		ret void
}		}

define void @shuffle_v4i8_concat(ptr addrspace(1) %arg0, ptr addrspace(1) %arg1, ptr addrspace(1) %out) {		define void @shuffle_v4i8_concat(ptr addrspace(1) %arg0, ptr addrspace(1) %arg1, ptr addrspace(1) %out) {
; GFX9-LABEL: shuffle_v4i8_concat:		; GFX9-LABEL: shuffle_v4i8_concat:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_ushort v0, v[0:1], off		; GFX9-NEXT: global_load_ushort v0, v[0:1], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_nop 0
; GFX9-NEXT: global_load_short_d16_hi v0, v[2:3], off		; GFX9-NEXT: global_load_short_d16_hi v0, v[2:3], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_store_dword v[4:5], v0, off		; GFX9-NEXT: global_store_dword v[4:5], v0, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4i8_concat:		; GFX10-LABEL: shuffle_v4i8_concat:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_ushort v0, v[0:1], off		; GFX10-NEXT: global_load_ushort v0, v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_load_short_d16_hi v0, v[2:3], off		; GFX10-NEXT: global_load_short_d16_hi v0, v[2:3], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: global_store_dword v[4:5], v0, off		; GFX10-NEXT: global_store_dword v[4:5], v0, off
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: shuffle_v4i8_concat:		; GFX11-LABEL: shuffle_v4i8_concat:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_load_u16 v0, v[0:1], off		; GFX11-NEXT: global_load_u16 v0, v[0:1], off
; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: global_load_d16_hi_b16 v0, v[2:3], off		; GFX11-NEXT: global_load_d16_hi_b16 v0, v[2:3], off
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: global_store_b32 v[4:5], v0, off		; GFX11-NEXT: global_store_b32 v[4:5], v0, off
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%val0 = load <2 x i8>, ptr addrspace(1) %arg0		%val0 = load <2 x i8>, ptr addrspace(1) %arg0
%val1 = load <2 x i8>, ptr addrspace(1) %arg1		%val1 = load <2 x i8>, ptr addrspace(1) %arg1
%shuffle = shufflevector <2 x i8> %val0, <2 x i8> %val1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuffle = shufflevector <2 x i8> %val0, <2 x i8> %val1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
▲ Show 20 Lines • Show All 277 Lines • Show Last 20 Lines