This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Apply i16 add->sub pattern with zext to i32
ClosedPublic

Authored by arsenm on Jan 7 2020, 10:40 AM.

Download Raw Diff

Details

Reviewers

rampitec
kerbowa

Summary

This was only applying the deeper nested zext pattern, and missing the
special case code size fold.

Diff Detail

Event Timeline

arsenm created this revision.Jan 7 2020, 10:40 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 7 2020, 10:40 AM

Herald added subscribers: hiraditya, t-tye, tpr and 6 others. · View Herald Transcript

Will it correctly work with and without sram-ecc? I.e. do we have any assumptions about high 16 content of an i16 value anywhere?

In D72348#1808333, @rampitec wrote:

Will it correctly work with and without sram-ecc? I.e. do we have any assumptions about high 16 content of an i16 value anywhere?

That only matters for memory accesses as far as I know. This isn't really a new pattern, and the existing predicates don't check

In D72348#1808350, @arsenm wrote:

In D72348#1808333, @rampitec wrote:

Will it correctly work with and without sram-ecc? I.e. do we have any assumptions about high 16 content of an i16 value anywhere?

That only matters for memory accesses as far as I know. This isn't really a new pattern, and the existing predicates don't check

It is more than memory as far as I know, even arithmetic instructions will either zero or preserve the high bits.

In D72348#1808373, @rampitec wrote:

In D72348#1808350, @arsenm wrote:

In D72348#1808333, @rampitec wrote:

Will it correctly work with and without sram-ecc? I.e. do we have any assumptions about high 16 content of an i16 value anywhere?

That only matters for memory accesses as far as I know. This isn't really a new pattern, and the existing predicates don't check

It is more than memory as far as I know, even arithmetic instructions will either zero or preserve the high bits.

This is controlled by a bit starting in gfx9 I think. Eventually we need to split the instruction definitions to add a tied operand for the preserved high case. These are separate problems from this patch anyway

LGTM

This revision is now accepted and ready to land.Jan 7 2020, 12:21 PM

4844bf0fe2c83859cde322a2f952ac8337bdff05

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

VOP2Instructions.td

23 lines

test/

CodeGen/

AMDGPU/

shrink-add-sub-constant.ll

24 lines

sub.v2i16.ll

2 lines

Diff 236627

llvm/lib/Target/AMDGPU/VOP2Instructions.td

	Show First 20 Lines • Show All 760 Lines • ▼ Show 20 Lines
	def : GCNPat <			def : GCNPat <
	(xor vt:$src0, vt:$src1),			(xor vt:$src0, vt:$src1),
	(V_XOR_B32_e64 VSrc_b32:$src0, VSrc_b32:$src1)			(V_XOR_B32_e64 VSrc_b32:$src0, VSrc_b32:$src1)
	>;			>;
	}			}

	let Predicates = [Has16BitInsts] in {			let Predicates = [Has16BitInsts] in {

				// Undo sub x, c -> add x, -c canonicalization since c is more likely
				// an inline immediate than -c.
				// TODO: Also do for 64-bit.
				def : GCNPat<
				(add i16:$src0, (i16 NegSubInlineConst16:$src1)),
				(V_SUB_U16_e64 $src0, NegSubInlineConst16:$src1)
				>;


	let Predicates = [Has16BitInsts, isGFX7GFX8GFX9] in {			let Predicates = [Has16BitInsts, isGFX7GFX8GFX9] in {

				def : GCNPat<
				(i32 (zext (add i16:$src0, (i16 NegSubInlineConst16:$src1)))),
				(V_SUB_U16_e64 $src0, NegSubInlineConst16:$src1)
				>;

	defm : Arithmetic_i16_0Hi_Pats<add, V_ADD_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<add, V_ADD_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<mul, V_MUL_LO_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<mul, V_MUL_LO_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<sub, V_SUB_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<sub, V_SUB_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<smin, V_MIN_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<smin, V_MIN_I16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<smax, V_MAX_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<smax, V_MAX_I16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<umin, V_MIN_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<umin, V_MIN_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<umax, V_MAX_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<umax, V_MAX_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<lshl_rev, V_LSHLREV_B16_e64>;			defm : Arithmetic_i16_0Hi_Pats<lshl_rev, V_LSHLREV_B16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<lshr_rev, V_LSHRREV_B16_e64>;			defm : Arithmetic_i16_0Hi_Pats<lshr_rev, V_LSHRREV_B16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<ashr_rev, V_ASHRREV_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<ashr_rev, V_ASHRREV_I16_e64>;
	} // End Predicates = [Has16BitInsts, isGFX7GFX8GFX9]			} // End Predicates = [Has16BitInsts, isGFX7GFX8GFX9]

	def : ZExt_i16_i1_Pat<zext>;			def : ZExt_i16_i1_Pat<zext>;
	def : ZExt_i16_i1_Pat<anyext>;			def : ZExt_i16_i1_Pat<anyext>;

	def : GCNPat <			def : GCNPat <
	(i16 (sext i1:$src)),			(i16 (sext i1:$src)),
	(V_CNDMASK_B32_e64 /src0mod/(i32 0), /src0/(i32 0),			(V_CNDMASK_B32_e64 /src0mod/(i32 0), /src0/(i32 0),
	/src1mod/(i32 0), /src1/(i32 -1), $src)			/src1mod/(i32 0), /src1/(i32 -1), $src)
	>;			>;

	// Undo sub x, c -> add x, -c canonicalization since c is more likely
	// an inline immediate than -c.
	// TODO: Also do for 64-bit.
	def : GCNPat<
	(add i16:$src0, (i16 NegSubInlineConst16:$src1)),
	(V_SUB_U16_e64 $src0, NegSubInlineConst16:$src1)
	>;

	} // End Predicates = [Has16BitInsts]			} // End Predicates = [Has16BitInsts]


	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Target-specific instruction encodings.			// Target-specific instruction encodings.
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class VOP2_DPP<bits<6> op, VOP2_DPP_Pseudo ps,			class VOP2_DPP<bits<6> op, VOP2_DPP_Pseudo ps,
	▲ Show 20 Lines • Show All 782 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shrink-add-sub-constant.ll

	Show First 20 Lines • Show All 859 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s3			; VI-NEXT: v_mov_b32_e32 v3, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v1			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v3, v[0:1]			; VI-NEXT: flat_load_ushort v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0xffffffc0, v3			; VI-NEXT: v_subrev_u16_e32 v2, 64, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_i16_x_sub_64_zext_to_i32:			; GFX9-LABEL: v_test_i16_x_sub_64_zext_to_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc
	; GFX9-NEXT: global_load_ushort v3, v[0:1], off			; GFX9-NEXT: global_load_ushort v3, v[0:1], off
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v2, 0xffffffc0, v3			; GFX9-NEXT: v_subrev_u16_e32 v2, 64, v3
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_i16_x_sub_64_zext_to_i32:			; GFX10-LABEL: v_test_i16_x_sub_64_zext_to_i32:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 1, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 1, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0xffffffc0, v4			; VI-NEXT: v_sub_u16_sdwa v2, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_sub_u16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_subrev_u16_e32 v3, 64, v4
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_64_64:			; GFX9-LABEL: v_test_v2i16_x_sub_64_64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0xffffffc0, v4			; VI-NEXT: v_add_u16_sdwa v2, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_add_u16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_subrev_u16_e32 v3, 64, v4
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_sub_64_123:			; GFX9-LABEL: v_test_v2i16_x_sub_64_123:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX9-NEXT: s_mov_b32 s4, 0x7b0040			; GFX9-NEXT: s_mov_b32 s4, 0x7b0040
	▲ Show 20 Lines • Show All 383 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_add_u16_e32 v2, 0xffffffe0, v4			; VI-NEXT: v_sub_u16_sdwa v2, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_sub_u16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_subrev_u16_e32 v3, 32, v4
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg32_neg32:			; GFX9-LABEL: v_test_v2i16_x_add_neg32_neg32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v3, v[0:1]			; VI-NEXT: flat_load_dword v3, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; VI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3
	; VI-NEXT: v_add_u16_e32 v3, 0xffffffe0, v3			; VI-NEXT: v_subrev_u16_e32 v3, 32, v3
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_v2i16_x_add_neg32_0:			; GFX9-LABEL: v_test_v2i16_x_add_neg32_0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 772 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

	Show First 20 Lines • Show All 338 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_and_b32_e32 v1, 0xffff0000, v0			; VI-NEXT: v_and_b32_e32 v1, 0xffff0000, v0
	; VI-NEXT: v_add_u16_e32 v0, 0xffffffe0, v0			; VI-NEXT: v_subrev_u16_e32 v0, 32, v0
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	%add = sub <2 x i16> %a, <i16 32, i16 0>			%add = sub <2 x i16> %a, <i16 32, i16 0>
	▲ Show 20 Lines • Show All 318 Lines • Show Last 20 Lines