This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Only select VOP3 forms of VOP2 instructions
ClosedPublic

Authored by foad on Nov 19 2021, 8:49 AM.

Download Raw Diff

Details

Reviewers

arsenm
rampitec
alex-t

Commits

rG8a52bd82e368: [AMDGPU] Only select VOP3 forms of VOP2 instructions

Summary

Change VOP_PAT_GEN to default to not generating an instruction selection
pattern for the VOP2 (e32) form of an instruction, only for the VOP3
(e64) form. This allows SIFoldOperands maximum freedom to fold copies
into the operands of an instruction, before SIShrinkInstructions tries
to shrink it back to the smaller encoding.

This affects the following VOP2 instructions:
v_min_i32
v_max_i32
v_min_u32
v_max_u32
v_and_b32
v_or_b32
v_xor_b32
v_lshr_b32
v_ashr_i32
v_lshl_b32

A further cleanup could simplify or remove VOP_PAT_GEN, since its
optional second argument is never used.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Nov 19 2021, 8:49 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 8 others. · View Herald TranscriptNov 19 2021, 8:49 AM

foad requested review of this revision.Nov 19 2021, 8:49 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 19 2021, 8:49 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

foad added reviewers: arsenm, rampitec, alex-t.Nov 19 2021, 8:56 AM

foad added inline comments.

llvm/test/CodeGen/AMDGPU/ctpop16.ll
776	Small win here.
llvm/test/CodeGen/AMDGPU/flat-scratch.ll
505	The 15 has been folded here, which I think is good, even though it didn't save any instructions or registers.
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wqm.demote.ll
164	Small win here.
llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll
576	More folding here.
llvm/test/CodeGen/AMDGPU/ssubsat.ll
616	Small win here.

Harbormaster completed remote builds in B135133: Diff 388516.Nov 19 2021, 10:08 AM

arsenm accepted this revision.Nov 23 2021, 3:03 PM

This revision is now accepted and ready to land.Nov 23 2021, 3:03 PM

Closed by commit rG8a52bd82e368: [AMDGPU] Only select VOP3 forms of VOP2 instructions (authored by foad). · Explain WhyNov 24 2021, 3:17 AM

This revision was automatically updated to reflect the committed changes.

foad added a commit: rG8a52bd82e368: [AMDGPU] Only select VOP3 forms of VOP2 instructions.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIInstrInfo.td

2 lines

test/

CodeGen/

AMDGPU/

4 lines

18 lines

2 lines

39 lines

4 lines

116 lines

373 lines

69 lines

7 lines

insert_vector_elt.v2i16.ll

12 lines

llvm.amdgcn.wqm.demote.ll

12 lines

lshr.v2i16.ll

12 lines

sdwa-peephole.ll

3 lines

select-constant-xor.ll

2 lines

2 lines

14 lines

12 lines

80 lines

4 lines

wwm-reserved-spill.ll

6 lines

Diff 389449

llvm/lib/Target/AMDGPU/SIInstrInfo.td

	Show First 20 Lines • Show All 2,240 Lines • ▼ Show 20 Lines
	class VOP_NO_EXT <VOPProfile p> : VOPProfile <p.ArgVT> {			class VOP_NO_EXT <VOPProfile p> : VOPProfile <p.ArgVT> {
	let HasExt = 0;			let HasExt = 0;
	let HasExtDPP = 0;			let HasExtDPP = 0;
	let HasExt64BitDPP = 0;			let HasExt64BitDPP = 0;
	let HasExtSDWA = 0;			let HasExtSDWA = 0;
	let HasExtSDWA9 = 0;			let HasExtSDWA9 = 0;
	}			}

	class VOP_PAT_GEN <VOPProfile p, int mode=PatGenMode.Pattern> : VOPProfile <p.ArgVT> {			class VOP_PAT_GEN <VOPProfile p, int mode=PatGenMode.NoPattern> : VOPProfile <p.ArgVT> {
	let NeedPatGen = mode;			let NeedPatGen = mode;
	}			}

	def VOP_F16_F16 : VOPProfile <[f16, f16, untyped, untyped]>;			def VOP_F16_F16 : VOPProfile <[f16, f16, untyped, untyped]>;
	def VOP_F16_I16 : VOPProfile <[f16, i16, untyped, untyped]>;			def VOP_F16_I16 : VOPProfile <[f16, i16, untyped, untyped]>;
	def VOP_I16_F16 : VOPProfile <[i16, f16, untyped, untyped]>;			def VOP_I16_F16 : VOPProfile <[i16, f16, untyped, untyped]>;

	def VOP_F16_F16_F16 : VOPProfile <[f16, f16, f16, untyped]>;			def VOP_F16_F16_F16 : VOPProfile <[f16, f16, f16, untyped]>;
	▲ Show 20 Lines • Show All 337 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ashr.v2i16.ll

	Show All 34 Lines

	; VI: v_ashrrev_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_ashrrev_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_ashrrev_i16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI: v_ashrrev_i16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

	; CI-DAG: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16			; CI-DAG: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16
	; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, 16, [[LHS]]			; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, 16, [[LHS]]
	; CI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
	; CI: v_ashr_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_ashr_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
	; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	; CI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	define amdgpu_kernel void @v_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {			define amdgpu_kernel void @v_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 113 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bfe-patterns.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI %s		; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s

; GCN-LABEL: {{^}}v_ubfe_sub_i32:		; GCN-LABEL: {{^}}v_ubfe_sub_i32:
; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]
; GCN: v_bfe_u32 v{{[0-9]+}}, [[SRC]], 0, [[WIDTH]]		; GCN: v_bfe_u32 v{{[0-9]+}}, [[SRC]], 0, [[WIDTH]]
define amdgpu_kernel void @v_ubfe_sub_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_ubfe_sub_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x		%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x
%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x		%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
%src = load volatile i32, i32 addrspace(1)* %in0.gep		%src = load volatile i32, i32 addrspace(1)* %in0.gep
%width = load volatile i32, i32 addrspace(1)* %in0.gep		%width = load volatile i32, i32 addrspace(1)* %in0.gep
%sub = sub i32 32, %width		%sub = sub i32 32, %width
%shl = shl i32 %src, %sub		%shl = shl i32 %src, %sub
%bfe = lshr i32 %shl, %sub		%bfe = lshr i32 %shl, %sub
store i32 %bfe, i32 addrspace(1)* %out.gep		store i32 %bfe, i32 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_ubfe_sub_multi_use_shl_i32:		; GCN-LABEL: {{^}}v_ubfe_sub_multi_use_shl_i32:
; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]
; GCN: v_sub_{{[iu]}}32_e32 [[SUB:v[0-9]+]], vcc, 32, [[WIDTH]]		; GCN: v_sub_{{[iu]}}32_e32 [[SUB:v[0-9]+]], vcc, 32, [[WIDTH]]

; SI-NEXT: v_lshl_b32_e32 [[SHL:v[0-9]+]], [[SRC]], [[SUB]]		; GCN-NEXT: v_lshlrev_b32_e32 [[SHL:v[0-9]+]], [[SUB]], [[SRC]]
; SI-NEXT: v_lshr_b32_e32 [[BFE:v[0-9]+]], [[SHL]], [[SUB]]		; GCN-NEXT: v_lshrrev_b32_e32 [[BFE:v[0-9]+]], [[SUB]], [[SHL]]

; VI-NEXT: v_lshlrev_b32_e32 [[SHL:v[0-9]+]], [[SUB]], [[SRC]]
; VI-NEXT: v_lshrrev_b32_e32 [[BFE:v[0-9]+]], [[SUB]], [[SHL]]

; GCN: [[BFE]]		; GCN: [[BFE]]
; GCN: [[SHL]]		; GCN: [[SHL]]
define amdgpu_kernel void @v_ubfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_ubfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x		%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x
%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x		%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_sbfe_sub_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_sbfe_sub_multi_use_shl_i32:		; GCN-LABEL: {{^}}v_sbfe_sub_multi_use_shl_i32:
; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[SRC:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[WIDTH:v[0-9]+]]
; GCN: v_sub_{{[iu]}}32_e32 [[SUB:v[0-9]+]], vcc, 32, [[WIDTH]]		; GCN: v_sub_{{[iu]}}32_e32 [[SUB:v[0-9]+]], vcc, 32, [[WIDTH]]

; SI-NEXT: v_lshl_b32_e32 [[SHL:v[0-9]+]], [[SRC]], [[SUB]]		; GCN-NEXT: v_lshlrev_b32_e32 [[SHL:v[0-9]+]], [[SUB]], [[SRC]]
; SI-NEXT: v_ashr_i32_e32 [[BFE:v[0-9]+]], [[SHL]], [[SUB]]		; GCN-NEXT: v_ashrrev_i32_e32 [[BFE:v[0-9]+]], [[SUB]], [[SHL]]

; VI-NEXT: v_lshlrev_b32_e32 [[SHL:v[0-9]+]], [[SUB]], [[SRC]]
; VI-NEXT: v_ashrrev_i32_e32 [[BFE:v[0-9]+]], [[SUB]], [[SHL]]

; GCN: [[BFE]]		; GCN: [[BFE]]
; GCN: [[SHL]]		; GCN: [[SHL]]
define amdgpu_kernel void @v_sbfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_sbfe_sub_multi_use_shl_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in0, i32 addrspace(1)* %in1) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x		%in0.gep = getelementptr i32, i32 addrspace(1)* %in0, i32 %id.x
%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x		%in1.gep = getelementptr i32, i32 addrspace(1)* %in1, i32 %id.x
%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i32, i32 addrspace(1)* %out, i32 %id.x
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/commute-shifts.ll

	Show All 11 Lines
	; SI-NEXT: s_mov_b32 s3, s0			; SI-NEXT: s_mov_b32 s3, s0
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s0			; SI-NEXT: s_mov_b32 s5, s0
	; SI-NEXT: s_mov_b32 s6, s0			; SI-NEXT: s_mov_b32 s6, s0
	; SI-NEXT: s_mov_b32 s7, s0			; SI-NEXT: s_mov_b32 s7, s0
	; SI-NEXT: image_load v2, v0, s[0:7] dmask:0x1 unorm			; SI-NEXT: image_load v2, v0, s[0:7] dmask:0x1 unorm
	; SI-NEXT: v_and_b32_e32 v0, 7, v0			; SI-NEXT: v_and_b32_e32 v0, 7, v0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshr_b32_e32 v0, v2, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, v0, v2
	; SI-NEXT: v_and_b32_e32 v0, 1, v0			; SI-NEXT: v_and_b32_e32 v0, 1, v0
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; SI-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc
	; SI-NEXT: v_cvt_pkrtz_f16_f32_e32 v0, s0, v0			; SI-NEXT: v_cvt_pkrtz_f16_f32_e32 v0, s0, v0
	; SI-NEXT: ; return to shader part epilog			; SI-NEXT: ; return to shader part epilog
	;			;
	; VI-LABEL: main:			; VI-LABEL: main:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	Show All 39 Lines

llvm/test/CodeGen/AMDGPU/ctpop16.ll

	Show First 20 Lines • Show All 724 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v6			; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v6
	; SI-NEXT: v_and_b32_e32 v11, s0, v7			; SI-NEXT: v_and_b32_e32 v11, s0, v7
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v7			; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v13, s0, v1			; SI-NEXT: v_and_b32_e32 v13, s0, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_and_b32_e32 v14, s0, v2			; SI-NEXT: v_and_b32_e32 v14, s0, v2
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_and_b32_e32 v15, 0xffff, v3			; SI-NEXT: v_and_b32_e32 v15, s0, v3
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v4, v4, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v4, v4, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0
	Show All 26 Lines
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_ctpop_v16i16:			; VI-LABEL: v_ctpop_v16i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v0, 5, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 5, v0
	; VI-NEXT: v_mov_b32_e32 v8, 0xffff
	foadAuthorUnsubmitted Done Reply Inline Actions Small win here. foad: Small win here.
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, 16, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 16, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]			; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
	; VI-NEXT: s_mov_b32 s0, 0xffff			; VI-NEXT: s_mov_b32 s0, 0xffff
	; VI-NEXT: s_waitcnt vmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshrrev_b32_e32 v9, 16, v3			; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v3
	; VI-NEXT: v_lshrrev_b32_e32 v10, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v9, 16, v2
	; VI-NEXT: v_lshrrev_b32_e32 v11, 16, v1			; VI-NEXT: v_lshrrev_b32_e32 v10, 16, v1
	; VI-NEXT: v_lshrrev_b32_e32 v12, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v11, 16, v0
	; VI-NEXT: v_and_b32_e32 v3, v8, v3			; VI-NEXT: v_and_b32_e32 v3, s0, v3
	; VI-NEXT: v_and_b32_e32 v2, v8, v2			; VI-NEXT: v_and_b32_e32 v2, s0, v2
	; VI-NEXT: v_and_b32_e32 v1, v8, v1			; VI-NEXT: v_and_b32_e32 v1, s0, v1
	; VI-NEXT: v_and_b32_e32 v0, v8, v0			; VI-NEXT: v_and_b32_e32 v0, s0, v0
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v7			; VI-NEXT: v_lshrrev_b32_e32 v12, 16, v7
	; VI-NEXT: v_lshrrev_b32_e32 v13, 16, v6			; VI-NEXT: v_lshrrev_b32_e32 v13, 16, v6
	; VI-NEXT: v_lshrrev_b32_e32 v14, 16, v5			; VI-NEXT: v_lshrrev_b32_e32 v14, 16, v5
	; VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4			; VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4
				; VI-NEXT: v_bcnt_u32_b32 v8, v8, 0
	; VI-NEXT: v_bcnt_u32_b32 v9, v9, 0			; VI-NEXT: v_bcnt_u32_b32 v9, v9, 0
	; VI-NEXT: v_bcnt_u32_b32 v10, v10, 0			; VI-NEXT: v_bcnt_u32_b32 v10, v10, 0
	; VI-NEXT: v_bcnt_u32_b32 v11, v11, 0			; VI-NEXT: v_bcnt_u32_b32 v11, v11, 0
	; VI-NEXT: v_bcnt_u32_b32 v12, v12, 0
	; VI-NEXT: v_and_b32_e32 v7, s0, v7			; VI-NEXT: v_and_b32_e32 v7, s0, v7
	; VI-NEXT: v_and_b32_e32 v6, s0, v6			; VI-NEXT: v_and_b32_e32 v6, s0, v6
	; VI-NEXT: v_and_b32_e32 v5, s0, v5			; VI-NEXT: v_and_b32_e32 v5, s0, v5
	; VI-NEXT: v_and_b32_e32 v4, s0, v4			; VI-NEXT: v_and_b32_e32 v4, s0, v4
	; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0			; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0
	; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0			; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0
	; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0			; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0
	; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0			; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0
	; VI-NEXT: v_bcnt_u32_b32 v8, v8, 0			; VI-NEXT: v_bcnt_u32_b32 v12, v12, 0
	; VI-NEXT: v_bcnt_u32_b32 v13, v13, 0			; VI-NEXT: v_bcnt_u32_b32 v13, v13, 0
	; VI-NEXT: v_bcnt_u32_b32 v14, v14, 0			; VI-NEXT: v_bcnt_u32_b32 v14, v14, 0
	; VI-NEXT: v_bcnt_u32_b32 v15, v15, 0			; VI-NEXT: v_bcnt_u32_b32 v15, v15, 0
				; VI-NEXT: v_lshlrev_b32_e32 v8, 16, v8
	; VI-NEXT: v_lshlrev_b32_e32 v9, 16, v9			; VI-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; VI-NEXT: v_lshlrev_b32_e32 v10, 16, v10			; VI-NEXT: v_lshlrev_b32_e32 v10, 16, v10
	; VI-NEXT: v_lshlrev_b32_e32 v11, 16, v11			; VI-NEXT: v_lshlrev_b32_e32 v11, 16, v11
	; VI-NEXT: v_lshlrev_b32_e32 v12, 16, v12
	; VI-NEXT: v_bcnt_u32_b32 v7, v7, 0			; VI-NEXT: v_bcnt_u32_b32 v7, v7, 0
	; VI-NEXT: v_bcnt_u32_b32 v6, v6, 0			; VI-NEXT: v_bcnt_u32_b32 v6, v6, 0
	; VI-NEXT: v_bcnt_u32_b32 v5, v5, 0			; VI-NEXT: v_bcnt_u32_b32 v5, v5, 0
	; VI-NEXT: v_bcnt_u32_b32 v4, v4, 0			; VI-NEXT: v_bcnt_u32_b32 v4, v4, 0
	; VI-NEXT: v_lshlrev_b32_e32 v8, 16, v8			; VI-NEXT: v_lshlrev_b32_e32 v12, 16, v12
	; VI-NEXT: v_lshlrev_b32_e32 v13, 16, v13			; VI-NEXT: v_lshlrev_b32_e32 v13, 16, v13
	; VI-NEXT: v_lshlrev_b32_e32 v14, 16, v14			; VI-NEXT: v_lshlrev_b32_e32 v14, 16, v14
	; VI-NEXT: v_lshlrev_b32_e32 v15, 16, v15			; VI-NEXT: v_lshlrev_b32_e32 v15, 16, v15
	; VI-NEXT: v_or_b32_e32 v3, v3, v9			; VI-NEXT: v_or_b32_e32 v3, v3, v8
	; VI-NEXT: v_or_b32_e32 v2, v2, v10			; VI-NEXT: v_or_b32_e32 v2, v2, v9
	; VI-NEXT: v_or_b32_e32 v1, v1, v11			; VI-NEXT: v_or_b32_e32 v1, v1, v10
	; VI-NEXT: v_or_b32_e32 v0, v0, v12			; VI-NEXT: v_or_b32_e32 v0, v0, v11
	; VI-NEXT: v_or_b32_e32 v7, v7, v8			; VI-NEXT: v_or_b32_e32 v7, v7, v12
	; VI-NEXT: v_or_b32_e32 v6, v6, v13			; VI-NEXT: v_or_b32_e32 v6, v6, v13
	; VI-NEXT: v_or_b32_e32 v5, v5, v14			; VI-NEXT: v_or_b32_e32 v5, v5, v14
	; VI-NEXT: v_or_b32_e32 v4, v4, v15			; VI-NEXT: v_or_b32_e32 v4, v4, v15
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: v_ctpop_v16i16:			; EG-LABEL: v_ctpop_v16i16:
	▲ Show 20 Lines • Show All 782 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract-lowbits.ll

Show First 20 Lines • Show All 160 Lines • ▼ Show 20 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
ret i32 %masked		ret i32 %masked
}		}

define i32 @bzhi32_d1_indexzext(i32 %val, i8 %numlowbits) nounwind {		define i32 @bzhi32_d1_indexzext(i32 %val, i8 %numlowbits) nounwind {
; SI-LABEL: bzhi32_d1_indexzext:		; SI-LABEL: bzhi32_d1_indexzext:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_sub_i32_e32 v1, vcc, 32, v1		; SI-NEXT: v_sub_i32_e32 v1, vcc, 32, v1
; SI-NEXT: v_lshl_b32_e32 v0, v0, v1		; SI-NEXT: v_lshlrev_b32_e32 v0, v1, v0
; SI-NEXT: v_lshr_b32_e32 v0, v0, v1		; SI-NEXT: v_lshrrev_b32_e32 v0, v1, v0
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: bzhi32_d1_indexzext:		; VI-LABEL: bzhi32_d1_indexzext:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_sub_u16_e32 v1, 32, v1		; VI-NEXT: v_sub_u16_e32 v1, 32, v1
; VI-NEXT: v_lshlrev_b32_e32 v0, v1, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, v1, v0
; VI-NEXT: v_lshrrev_b32_e32 v0, v1, v0		; VI-NEXT: v_lshrrev_b32_e32 v0, v1, v0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%numhighbits = sub i8 32, %numlowbits		%numhighbits = sub i8 32, %numlowbits
%sh_prom = zext i8 %numhighbits to i32		%sh_prom = zext i8 %numhighbits to i32
%highbitscleared = shl i32 %val, %sh_prom		%highbitscleared = shl i32 %val, %sh_prom
%masked = lshr i32 %highbitscleared, %sh_prom		%masked = lshr i32 %highbitscleared, %sh_prom
ret i32 %masked		ret i32 %masked
}		}

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

Show First 20 Lines • Show All 494 Lines • ▼ Show 20 Lines	bb:
ret void		ret void
}		}

define void @store_load_vindex_foo(i32 %idx) {		define void @store_load_vindex_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_foo:		; GFX9-LABEL: store_load_vindex_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s32		; GFX9-NEXT: v_mov_b32_e32 v1, s32
; GFX9-NEXT: v_mov_b32_e32 v3, 15
; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
		foadAuthorUnsubmitted Done Reply Inline Actions The 15 has been folded here, which I think is good, even though it didn't save any instructions or registers. foad: The 15 has been folded here, which I think is good, even though it didn't save any instructions…
; GFX9-NEXT: scratch_store_dword v2, v3, off		; GFX9-NEXT: scratch_store_dword v2, v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_foo:		; GFX10-LABEL: store_load_vindex_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mov_b32_e32 v1, 15		; GFX10-NEXT: v_mov_b32_e32 v1, s32
; GFX10-NEXT: v_mov_b32_e32 v2, s32		; GFX10-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-NEXT: v_mov_b32_e32 v3, 15
; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-NEXT: v_lshl_add_u32 v1, v2, 2, v1
; GFX10-NEXT: scratch_store_dword v0, v1, off		; GFX10-NEXT: scratch_store_dword v0, v3, off
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-PAL-LABEL: store_load_vindex_foo:		; GFX9-PAL-LABEL: store_load_vindex_foo:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s32		; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s32
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-PAL-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-PAL-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off		; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-PAL-LABEL: store_load_vindex_foo:		; GFX10-PAL-LABEL: store_load_vindex_foo:
; GFX10-PAL: ; %bb.0: ; %bb		; GFX10-PAL: ; %bb.0: ; %bb
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: v_mov_b32_e32 v1, 15		; GFX10-PAL-NEXT: v_mov_b32_e32 v1, s32
; GFX10-PAL-NEXT: v_mov_b32_e32 v2, s32		; GFX10-PAL-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-PAL-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-PAL-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-PAL-NEXT: v_lshl_add_u32 v1, v2, 2, v1
; GFX10-PAL-NEXT: scratch_store_dword v0, v1, off		; GFX10-PAL-NEXT: scratch_store_dword v0, v3, off
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-PAL-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%i = alloca [32 x float], align 4, addrspace(5)		%i = alloca [32 x float], align 4, addrspace(5)
%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*		%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*
%i7 = getelementptr inbounds [32 x float], [32 x float] addrspace(5)* %i, i32 0, i32 %idx		%i7 = getelementptr inbounds [32 x float], [32 x float] addrspace(5)* %i, i32 0, i32 %idx
%i8 = bitcast float addrspace(5)* %i7 to i32 addrspace(5)*		%i8 = bitcast float addrspace(5)* %i7 to i32 addrspace(5)*
store volatile i32 15, i32 addrspace(5)* %i8, align 4		store volatile i32 15, i32 addrspace(5)* %i8, align 4
▲ Show 20 Lines • Show All 680 Lines • ▼ Show 20 Lines
define void @store_load_vindex_small_offset_foo(i32 %idx) {		define void @store_load_vindex_small_offset_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_small_offset_foo:		; GFX9-LABEL: store_load_vindex_small_offset_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: scratch_load_dword v1, off, s32 glc		; GFX9-NEXT: scratch_load_dword v1, off, s32 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x100		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x100
; GFX9-NEXT: v_mov_b32_e32 v1, vcc_hi		; GFX9-NEXT: v_mov_b32_e32 v1, vcc_hi
; GFX9-NEXT: v_mov_b32_e32 v3, 15
; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-NEXT: scratch_store_dword v2, v3, off		; GFX9-NEXT: scratch_store_dword v2, v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_small_offset_foo:		; GFX10-LABEL: store_load_vindex_small_offset_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mov_b32_e32 v1, 15
; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x100		; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x100
; GFX10-NEXT: v_mov_b32_e32 v2, vcc_lo		; GFX10-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-NEXT: v_mov_b32_e32 v1, vcc_lo
; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-NEXT: v_mov_b32_e32 v3, 15
; GFX10-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-NEXT: scratch_load_dword v3, off, s32 glc dlc		; GFX10-NEXT: v_lshl_add_u32 v1, v2, 2, v1
		; GFX10-NEXT: scratch_load_dword v2, off, s32 glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: scratch_store_dword v0, v1, off		; GFX10-NEXT: scratch_store_dword v0, v3, off
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-PAL-LABEL: store_load_vindex_small_offset_foo:		; GFX9-PAL-LABEL: store_load_vindex_small_offset_foo:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-PAL-NEXT: scratch_load_dword v1, off, s32 glc		; GFX9-PAL-NEXT: scratch_load_dword v1, off, s32 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x100		; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x100
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, vcc_hi		; GFX9-PAL-NEXT: v_mov_b32_e32 v1, vcc_hi
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-PAL-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-PAL-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off		; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-PAL-LABEL: store_load_vindex_small_offset_foo:		; GFX10-PAL-LABEL: store_load_vindex_small_offset_foo:
; GFX10-PAL: ; %bb.0: ; %bb		; GFX10-PAL: ; %bb.0: ; %bb
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: v_mov_b32_e32 v1, 15
; GFX10-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x100		; GFX10-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x100
; GFX10-PAL-NEXT: v_mov_b32_e32 v2, vcc_lo		; GFX10-PAL-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-PAL-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-PAL-NEXT: v_mov_b32_e32 v1, vcc_lo
; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX10-PAL-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-PAL-NEXT: scratch_load_dword v3, off, s32 glc dlc		; GFX10-PAL-NEXT: v_lshl_add_u32 v1, v2, 2, v1
		; GFX10-PAL-NEXT: scratch_load_dword v2, off, s32 glc dlc
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX10-PAL-NEXT: scratch_store_dword v0, v1, off		; GFX10-PAL-NEXT: scratch_store_dword v0, v3, off
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-PAL-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%padding = alloca [64 x i32], align 4, addrspace(5)		%padding = alloca [64 x i32], align 4, addrspace(5)
%i = alloca [32 x float], align 4, addrspace(5)		%i = alloca [32 x float], align 4, addrspace(5)
%pad_gep = getelementptr inbounds [64 x i32], [64 x i32] addrspace(5)* %padding, i32 0, i32 undef		%pad_gep = getelementptr inbounds [64 x i32], [64 x i32] addrspace(5)* %padding, i32 0, i32 undef
%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4		%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4
%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*		%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*
▲ Show 20 Lines • Show All 696 Lines • ▼ Show 20 Lines
define void @store_load_vindex_large_offset_foo(i32 %idx) {		define void @store_load_vindex_large_offset_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_large_offset_foo:		; GFX9-LABEL: store_load_vindex_large_offset_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: scratch_load_dword v1, off, s32 offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, s32 offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
; GFX9-NEXT: v_mov_b32_e32 v1, vcc_hi		; GFX9-NEXT: v_mov_b32_e32 v1, vcc_hi
; GFX9-NEXT: v_mov_b32_e32 v3, 15
; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-NEXT: scratch_store_dword v2, v3, off		; GFX9-NEXT: scratch_store_dword v2, v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_large_offset_foo:		; GFX10-LABEL: store_load_vindex_large_offset_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_mov_b32_e32 v1, 15
; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004		; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004
; GFX10-NEXT: v_mov_b32_e32 v2, vcc_lo		; GFX10-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-NEXT: v_mov_b32_e32 v1, vcc_lo
; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-NEXT: v_mov_b32_e32 v3, 15
; GFX10-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-NEXT: scratch_load_dword v3, off, s32 offset:4 glc dlc		; GFX10-NEXT: v_lshl_add_u32 v1, v2, 2, v1
		; GFX10-NEXT: scratch_load_dword v2, off, s32 offset:4 glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: scratch_store_dword v0, v1, off		; GFX10-NEXT: scratch_store_dword v0, v3, off
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-PAL-LABEL: store_load_vindex_large_offset_foo:		; GFX9-PAL-LABEL: store_load_vindex_large_offset_foo:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-PAL-NEXT: scratch_load_dword v1, off, s32 offset:4 glc		; GFX9-PAL-NEXT: scratch_load_dword v1, off, s32 offset:4 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004		; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, vcc_hi		; GFX9-PAL-NEXT: v_mov_b32_e32 v1, vcc_hi
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v2, v0, 2, v1
; GFX9-PAL-NEXT: v_and_b32_e32 v0, v0, v3		; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15
		; GFX9-PAL-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off		; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1		; GFX9-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-PAL-LABEL: store_load_vindex_large_offset_foo:		; GFX10-PAL-LABEL: store_load_vindex_large_offset_foo:
; GFX10-PAL: ; %bb.0: ; %bb		; GFX10-PAL: ; %bb.0: ; %bb
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: v_mov_b32_e32 v1, 15
; GFX10-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004		; GFX10-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
; GFX10-PAL-NEXT: v_mov_b32_e32 v2, vcc_lo		; GFX10-PAL-NEXT: v_and_b32_e32 v2, 15, v0
; GFX10-PAL-NEXT: v_and_b32_e32 v3, v0, v1		; GFX10-PAL-NEXT: v_mov_b32_e32 v1, vcc_lo
; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v2		; GFX10-PAL-NEXT: v_mov_b32_e32 v3, 15
; GFX10-PAL-NEXT: v_lshl_add_u32 v2, v3, 2, v2		; GFX10-PAL-NEXT: v_lshl_add_u32 v0, v0, 2, v1
; GFX10-PAL-NEXT: scratch_load_dword v3, off, s32 offset:4 glc dlc		; GFX10-PAL-NEXT: v_lshl_add_u32 v1, v2, 2, v1
		; GFX10-PAL-NEXT: scratch_load_dword v2, off, s32 offset:4 glc dlc
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX10-PAL-NEXT: scratch_store_dword v0, v1, off		; GFX10-PAL-NEXT: scratch_store_dword v0, v3, off
; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-PAL-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-PAL-NEXT: scratch_load_dword v0, v2, off glc dlc		; GFX10-PAL-NEXT: scratch_load_dword v0, v1, off glc dlc
; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX10-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]		; GFX10-PAL-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%padding = alloca [4096 x i32], align 4, addrspace(5)		%padding = alloca [4096 x i32], align 4, addrspace(5)
%i = alloca [32 x float], align 4, addrspace(5)		%i = alloca [32 x float], align 4, addrspace(5)
%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef		%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef
%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4		%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4
%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*		%i1 = bitcast [32 x float] addrspace(5)* %i to i8 addrspace(5)*
▲ Show 20 Lines • Show All 759 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 333 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_add_u32 s12, s12, s3			; GFX7-NEXT: s_add_u32 s12, s12, s3
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX7-NEXT: buffer_load_ushort v16, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff			; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
				; GFX7-NEXT: s_waitcnt vmcnt(2)
				; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 4
				; GFX7-NEXT: v_bfe_i32 v3, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v1, v3, 0, 4			; GFX7-NEXT: v_bfe_i32 v9, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v3, 4, 4
	; GFX7-NEXT: v_bfe_i32 v5, v3, 8, 4
	; GFX7-NEXT: v_bfe_i32 v6, v3, 12, 4
	; GFX7-NEXT: v_bfe_i32 v7, v3, 16, 4
	; GFX7-NEXT: v_bfe_i32 v8, v3, 20, 4
	; GFX7-NEXT: v_bfe_i32 v9, v3, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v3, 28, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v9, v2, v9
	; GFX7-NEXT: v_and_b32_e32 v3, v2, v3
	; GFX7-NEXT: v_and_b32_e32 v15, v2, v15
	; GFX7-NEXT: v_and_b32_e32 v16, v2, v16
	; GFX7-NEXT: v_and_b32_e32 v0, v2, v0
	; GFX7-NEXT: buffer_load_ushort v2, off, s[0:3], 0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
				; GFX7-NEXT: v_bfe_i32 v10, v0, 4, 4
				; GFX7-NEXT: v_and_b32_e32 v9, s4, v9
				; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 4
				; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
				; GFX7-NEXT: v_bfe_i32 v11, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v10			; GFX7-NEXT: v_and_b32_e32 v10, s4, v10
				; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: v_mad_u32_u24 v1, v1, v9, v16
				; GFX7-NEXT: v_bfe_i32 v5, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
				; GFX7-NEXT: v_bfe_i32 v12, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, s4, v11
				; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
				; GFX7-NEXT: v_bfe_i32 v6, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: v_bfe_i32 v13, v0, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v12			; GFX7-NEXT: v_and_b32_e32 v12, s4, v12
				; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
				; GFX7-NEXT: v_bfe_i32 v7, v2, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
				; GFX7-NEXT: v_bfe_i32 v14, v0, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v13			; GFX7-NEXT: v_and_b32_e32 v13, s4, v13
				; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
				; GFX7-NEXT: v_bfe_i32 v8, v2, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
				; GFX7-NEXT: v_bfe_i32 v15, v0, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v14			; GFX7-NEXT: v_and_b32_e32 v14, s4, v14
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v10, v2
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
				; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2
				; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
				; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
				; GFX7-NEXT: v_and_b32_e32 v15, s4, v15
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
				; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
				; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16:			; GFX8-LABEL: idot8_acc16:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 507 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_add_u32 s12, s12, s3			; GFX7-NEXT: s_add_u32 s12, s12, s3
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: v_mov_b32_e32 v2, 0xff			; GFX7-NEXT: buffer_load_ubyte v16, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
				; GFX7-NEXT: s_waitcnt vmcnt(2)
				; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 4
				; GFX7-NEXT: v_bfe_i32 v3, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v1, v3, 0, 4			; GFX7-NEXT: v_bfe_i32 v9, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v3, 4, 4
	; GFX7-NEXT: v_bfe_i32 v5, v3, 8, 4
	; GFX7-NEXT: v_bfe_i32 v6, v3, 12, 4
	; GFX7-NEXT: v_bfe_i32 v7, v3, 16, 4
	; GFX7-NEXT: v_bfe_i32 v8, v3, 20, 4
	; GFX7-NEXT: v_bfe_i32 v9, v3, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v3, 28, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v9, v2, v9
	; GFX7-NEXT: v_and_b32_e32 v3, v2, v3
	; GFX7-NEXT: v_and_b32_e32 v15, v2, v15
	; GFX7-NEXT: v_and_b32_e32 v16, v2, v16
	; GFX7-NEXT: v_and_b32_e32 v0, v2, v0
	; GFX7-NEXT: buffer_load_ubyte v2, off, s[0:3], 0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
				; GFX7-NEXT: v_bfe_i32 v10, v0, 4, 4
				; GFX7-NEXT: v_and_b32_e32 v9, s4, v9
				; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 4
				; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
				; GFX7-NEXT: v_bfe_i32 v11, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v10			; GFX7-NEXT: v_and_b32_e32 v10, s4, v10
				; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: v_mad_u32_u24 v1, v1, v9, v16
				; GFX7-NEXT: v_bfe_i32 v5, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
				; GFX7-NEXT: v_bfe_i32 v12, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, s4, v11
				; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
				; GFX7-NEXT: v_bfe_i32 v6, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: v_bfe_i32 v13, v0, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v12			; GFX7-NEXT: v_and_b32_e32 v12, s4, v12
				; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
				; GFX7-NEXT: v_bfe_i32 v7, v2, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
				; GFX7-NEXT: v_bfe_i32 v14, v0, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v13			; GFX7-NEXT: v_and_b32_e32 v13, s4, v13
				; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
				; GFX7-NEXT: v_bfe_i32 v8, v2, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
				; GFX7-NEXT: v_bfe_i32 v15, v0, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v14			; GFX7-NEXT: v_and_b32_e32 v14, s4, v14
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v10, v2
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
				; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2
				; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
				; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
				; GFX7-NEXT: v_and_b32_e32 v15, s4, v15
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
				; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
				; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc8:			; GFX8-LABEL: idot8_acc8:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 1,221 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_add_u32 s12, s12, s3			; GFX7-NEXT: s_add_u32 s12, s12, s3
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
				; GFX7-NEXT: buffer_load_ushort v16, off, s[0:3], 0
				; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v1, v3, 20, 4			; GFX7-NEXT: v_bfe_i32 v1, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v4, v3, 16, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v5, v3, 4, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v6, v3, 0, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 0, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: s_waitcnt vmcnt(1)
				; GFX7-NEXT: v_bfe_i32 v9, v0, 20, 4
				; GFX7-NEXT: v_bfe_i32 v10, v0, 16, 4
				; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4
				; GFX7-NEXT: v_bfe_i32 v12, v0, 0, 4
				; GFX7-NEXT: v_or_b32_e32 v1, v3, v1
				; GFX7-NEXT: v_or_b32_e32 v3, v5, v4
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v9
				; GFX7-NEXT: v_and_b32_e32 v5, s4, v10
				; GFX7-NEXT: v_lshlrev_b32_e32 v9, 16, v11
				; GFX7-NEXT: v_and_b32_e32 v10, s4, v12
				; GFX7-NEXT: v_bfe_i32 v13, v0, 24, 4
				; GFX7-NEXT: v_ashrrev_i32_e32 v15, 28, v0
				; GFX7-NEXT: v_or_b32_e32 v4, v5, v4
				; GFX7-NEXT: v_or_b32_e32 v5, v10, v9
				; GFX7-NEXT: v_and_b32_e32 v11, s4, v13
				; GFX7-NEXT: v_and_b32_e32 v13, s4, v15
				; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v3
				; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
				; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v5
				; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
				; GFX7-NEXT: v_bfe_i32 v7, v2, 8, 4
				; GFX7-NEXT: v_bfe_i32 v14, v0, 8, 4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 20, 4			; GFX7-NEXT: v_mad_u32_u24 v3, v3, v5, v16
	; GFX7-NEXT: v_bfe_i32 v11, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 4, 4			; GFX7-NEXT: v_ashrrev_i32_e32 v8, 28, v2
	; GFX7-NEXT: v_bfe_i32 v13, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4
	; GFX7-NEXT: v_or_b32_e32 v1, v4, v1			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v10
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v12
	; GFX7-NEXT: v_and_b32_e32 v11, v2, v13
	; GFX7-NEXT: v_bfe_i32 v7, v3, 24, 4
	; GFX7-NEXT: v_bfe_i32 v8, v3, 8, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v3
	; GFX7-NEXT: v_bfe_i32 v3, v3, 12, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 24, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 8, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_and_b32_e32 v12, s4, v14
	; GFX7-NEXT: v_or_b32_e32 v6, v11, v10			; GFX7-NEXT: v_mad_u32_u24 v3, v15, v10, v3
	; GFX7-NEXT: v_and_b32_e32 v3, v2, v3			; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: v_and_b32_e32 v9, v2, v9			; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_and_b32_e32 v12, v2, v14			; GFX7-NEXT: v_mad_u32_u24 v3, v7, v12, v3
	; GFX7-NEXT: v_and_b32_e32 v13, v2, v15			; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v0, v2, v0			; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
	; GFX7-NEXT: v_and_b32_e32 v14, v2, v16			; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v1			; GFX7-NEXT: v_and_b32_e32 v4, s4, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v4			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v3
	; GFX7-NEXT: v_and_b32_e32 v4, v2, v4			; GFX7-NEXT: v_mad_u32_u24 v0, v1, v4, v0
	; GFX7-NEXT: v_and_b32_e32 v1, v2, v1			; GFX7-NEXT: v_and_b32_e32 v6, s4, v6
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v5			; GFX7-NEXT: v_mad_u32_u24 v0, v14, v9, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v6, v2, v6
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v5
	; GFX7-NEXT: buffer_load_ushort v5, off, s[0:3], 0
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_mad_u32_u24 v0, v6, v11, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: v_mad_u32_u24 v0, v8, v13, v0
	; GFX7-NEXT: v_mad_u32_u24 v4, v4, v6, v5
	; GFX7-NEXT: v_mad_u32_u24 v4, v16, v11, v4
	; GFX7-NEXT: v_mad_u32_u24 v4, v8, v13, v4
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v4
	; GFX7-NEXT: v_mad_u32_u24 v0, v1, v2, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v15, v10, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v7, v12, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v14, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16_vecMul:			; GFX8-LABEL: idot8_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 533 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_add_u32 s12, s12, s3			; GFX7-NEXT: s_add_u32 s12, s12, s3
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v4, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
	; GFX7-NEXT: s_mov_b32 s5, 0xffff			; GFX7-NEXT: s_mov_b32 s5, 0xffff
	; GFX7-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v4, 20, 4			; GFX7-NEXT: v_ashrrev_i32_e32 v1, 28, v2
	; GFX7-NEXT: v_bfe_i32 v7, v4, 16, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v8, v4, 12, 4			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v1
	; GFX7-NEXT: v_bfe_i32 v9, v4, 8, 4			; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_i32 v13, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 16, 4
	; GFX7-NEXT: v_bfe_i32 v16, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v16, v0, 4, 4
	; GFX7-NEXT: v_or_b32_e32 v6, v7, v6			; GFX7-NEXT: v_or_b32_e32 v3, v3, v9
	; GFX7-NEXT: v_or_b32_e32 v7, v9, v8			; GFX7-NEXT: v_and_b32_e32 v9, s4, v13
	; GFX7-NEXT: v_and_b32_e32 v9, v2, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v16
	; GFX7-NEXT: buffer_load_ubyte v16, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v16, off, s[0:3], 0
	; GFX7-NEXT: v_ashrrev_i32_e32 v1, 28, v4			; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v5, v4, 24, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v10, v4, 4, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 12, 4
	; GFX7-NEXT: v_bfe_i32 v4, v4, 0, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 8, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v1			; GFX7-NEXT: v_bfe_i32 v8, v2, 4, 4
				; GFX7-NEXT: v_bfe_i32 v2, v2, 0, 4
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_and_b32_e32 v4, v2, v4			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_ashrrev_i32_e32 v12, 28, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_bfe_i32 v14, v0, 20, 4			; GFX7-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX7-NEXT: v_bfe_i32 v15, v0, 16, 4			; GFX7-NEXT: v_ashrrev_i32_e32 v10, 28, v0
	; GFX7-NEXT: v_bfe_i32 v17, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v11, v0, 24, 4
	; GFX7-NEXT: v_bfe_i32 v18, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 20, 4
				; GFX7-NEXT: v_bfe_i32 v14, v0, 12, 4
				; GFX7-NEXT: v_bfe_i32 v15, v0, 8, 4
	; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 4
	; GFX7-NEXT: v_or_b32_e32 v5, v5, v11			; GFX7-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v10			; GFX7-NEXT: v_or_b32_e32 v5, v7, v6
				; GFX7-NEXT: v_or_b32_e32 v2, v2, v8
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v10
				; GFX7-NEXT: v_and_b32_e32 v7, s4, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v12			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v12
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v14
	; GFX7-NEXT: v_and_b32_e32 v11, v2, v15			; GFX7-NEXT: v_and_b32_e32 v12, s4, v15
	; GFX7-NEXT: v_and_b32_e32 v14, v2, v17			; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v18			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_and_b32_e32 v6, s5, v6
	; GFX7-NEXT: v_or_b32_e32 v8, v9, v8
	; GFX7-NEXT: v_or_b32_e32 v9, v11, v10
	; GFX7-NEXT: v_or_b32_e32 v10, v14, v13
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v15
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX7-NEXT: v_and_b32_e32 v4, s5, v4			; GFX7-NEXT: v_and_b32_e32 v4, s5, v4
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_or_b32_e32 v6, v7, v6
				; GFX7-NEXT: v_or_b32_e32 v7, v9, v8
				; GFX7-NEXT: v_or_b32_e32 v8, v12, v11
				; GFX7-NEXT: v_or_b32_e32 v0, v0, v13
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GFX7-NEXT: v_and_b32_e32 v2, s5, v2
				; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 16, v10			; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_and_b32_e32 v0, v3, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v5
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v7			; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_and_b32_e32 v7, v3, v9			; GFX7-NEXT: v_and_b32_e32 v6, s4, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v8			; GFX7-NEXT: v_and_b32_e32 v12, s4, v0
	; GFX7-NEXT: v_or_b32_e32 v3, v7, v6			; GFX7-NEXT: v_and_b32_e32 v5, s5, v7
	; GFX7-NEXT: v_and_b32_e32 v7, v2, v4			; GFX7-NEXT: v_bfe_u32 v7, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v13, v2, v0			; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 8
	; GFX7-NEXT: v_bfe_u32 v8, v4, 8, 8			; GFX7-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 8			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v4			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v11, 24, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, v2, v1			; GFX7-NEXT: v_and_b32_e32 v8, s4, v3
	; GFX7-NEXT: v_and_b32_e32 v12, v2, v12			; GFX7-NEXT: v_and_b32_e32 v14, s4, v4
	; GFX7-NEXT: v_and_b32_e32 v9, v2, v5			; GFX7-NEXT: v_bfe_u32 v9, v3, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v3			; GFX7-NEXT: v_bfe_u32 v15, v4, 8, 8
	; GFX7-NEXT: v_bfe_u32 v10, v5, 8, 8
	; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8
	; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
				; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
				; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
				; GFX7-NEXT: v_and_b32_e32 v10, s4, v10
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v7, v7, v13, v16			; GFX7-NEXT: v_mad_u32_u24 v6, v6, v12, v16
	; GFX7-NEXT: v_mad_u32_u24 v7, v8, v14, v7			; GFX7-NEXT: v_mad_u32_u24 v6, v7, v13, v6
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v0, v7			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v6
	; GFX7-NEXT: v_mad_u32_u24 v0, v6, v11, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v5, v11, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v2, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v8, v14, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v10, v15, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v15, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v5, v3, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v4, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v1, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v1, v10, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc8_vecMul:			; GFX8-LABEL: idot8_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 615 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,475 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v16, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v16, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xf00			; GFX7-NEXT: s_movk_i32 s4, 0xf00
	; GFX7-NEXT: v_mov_b32_e32 v3, 0xf00
	; GFX7-NEXT: s_movk_i32 s5, 0xf0f			; GFX7-NEXT: s_movk_i32 s5, 0xf0f
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 28, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 4, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 12, v2
	; GFX7-NEXT: v_bfe_u32 v1, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v1, v2, 8, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 4, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 28, v2
	; GFX7-NEXT: v_and_b32_e32 v5, 15, v2			; GFX7-NEXT: v_bfe_u32 v6, v2, 16, 4
	; GFX7-NEXT: v_bfe_u32 v7, v2, 16, 4			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 4, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 12, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 4, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v10, 4, v0
	; GFX7-NEXT: v_alignbit_b32 v2, v6, v2, 24			; GFX7-NEXT: v_lshrrev_b32_e32 v12, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v9			; GFX7-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v0			; GFX7-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 4			; GFX7-NEXT: v_and_b32_e32 v4, 15, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 4
	; GFX7-NEXT: v_or_b32_e32 v5, v5, v6			; GFX7-NEXT: v_and_b32_e32 v11, 15, v0
	; GFX7-NEXT: v_and_b32_e32 v6, v3, v9			; GFX7-NEXT: v_bfe_u32 v13, v0, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v3, v3, v11			; GFX7-NEXT: v_lshrrev_b32_e32 v14, 12, v0
	; GFX7-NEXT: v_and_b32_e32 v12, 15, v0			; GFX7-NEXT: v_alignbit_b32 v2, v5, v2, 24
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_and_b32_e32 v5, s4, v8
	; GFX7-NEXT: v_or_b32_e32 v3, v10, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 4, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 28, v0			; GFX7-NEXT: v_or_b32_e32 v6, v6, v7
				; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
				; GFX7-NEXT: v_alignbit_b32 v0, v12, v0, 24
				; GFX7-NEXT: v_and_b32_e32 v7, s4, v10
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_and_b32_e32 v3, s4, v14
				; GFX7-NEXT: v_and_b32_e32 v5, s4, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_or_b32_e32 v6, v12, v6			; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_or_b32_e32 v7, v9, v7
	; GFX7-NEXT: v_bfe_u32 v14, v0, 16, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 12, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: v_and_b32_e32 v2, s5, v2			; GFX7-NEXT: v_and_b32_e32 v2, s5, v2
	; GFX7-NEXT: v_alignbit_b32 v0, v13, v0, 24			; GFX7-NEXT: v_or_b32_e32 v3, v13, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v5, v1			; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v6, v3			; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_or_b32_e32 v7, v7, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
				; GFX7-NEXT: v_or_b32_e32 v3, v5, v4
				; GFX7-NEXT: v_or_b32_e32 v2, v6, v2
	; GFX7-NEXT: v_and_b32_e32 v6, 15, v1			; GFX7-NEXT: v_and_b32_e32 v6, 15, v1
	; GFX7-NEXT: v_and_b32_e32 v12, 15, v3			; GFX7-NEXT: v_and_b32_e32 v12, 15, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v14, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v7, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 4			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 4			; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v6, v6, v12, v16			; GFX7-NEXT: v_mad_u32_u24 v6, v6, v12, v16
	; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 4			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v3
	; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 4			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 4
	; GFX7-NEXT: v_mad_u32_u24 v6, v7, v13, v6			; GFX7-NEXT: v_mad_u32_u24 v6, v7, v13, v6
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, v6			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, v6
	; GFX7-NEXT: v_and_b32_e32 v8, 15, v2			; GFX7-NEXT: v_and_b32_e32 v8, 15, v2
	; GFX7-NEXT: v_and_b32_e32 v14, 15, v0			; GFX7-NEXT: v_and_b32_e32 v14, 15, v0
	▲ Show 20 Lines • Show All 875 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/inline-asm.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefix=CHECK --check-prefix=PRE-GFX8 %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefix=CHECK %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefix=CHECK --check-prefix=GFX8 %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefix=CHECK %s

; CHECK-LABEL: {{^}}inline_asm:		; CHECK-LABEL: {{^}}inline_asm:
; CHECK: s_endpgm		; CHECK: s_endpgm
; CHECK: s_endpgm		; CHECK: s_endpgm
define amdgpu_kernel void @inline_asm(i32 addrspace(1)* %out) {		define amdgpu_kernel void @inline_asm(i32 addrspace(1)* %out) {
entry:		entry:
store i32 5, i32 addrspace(1)* %out		store i32 5, i32 addrspace(1)* %out
call void asm sideeffect "s_endpgm", ""()		call void asm sideeffect "s_endpgm", ""()
▲ Show 20 Lines • Show All 244 Lines • ▼ Show 20 Lines	entry:
call void asm sideeffect "; use $0 $1 ", "{v0}, {v1}"(i1 %val0, i1 %val1)		call void asm sideeffect "; use $0 $1 ", "{v0}, {v1}"(i1 %val0, i1 %val1)
ret void		ret void
}		}

; CHECK-LABEL: {{^}}muliple_def_phys_vgpr:		; CHECK-LABEL: {{^}}muliple_def_phys_vgpr:
; CHECK: ; def v0		; CHECK: ; def v0
; CHECK: v_mov_b32_e32 v1, v0		; CHECK: v_mov_b32_e32 v1, v0
; CHECK: ; def v0		; CHECK: ; def v0
; PRE-GFX8: v_lshl_b32_e32 v{{[0-9]+}}, v1, v0		; CHECK: v_lshlrev_b32_e32 v{{[0-9]+}}, v0, v1
; GFX8: v_lshlrev_b32_e32 v{{[0-9]+}}, v0, v1
define amdgpu_kernel void @muliple_def_phys_vgpr() {		define amdgpu_kernel void @muliple_def_phys_vgpr() {
entry:		entry:
%def0 = call i32 asm sideeffect "; def $0 ", "={v0}"()		%def0 = call i32 asm sideeffect "; def $0 ", "={v0}"()
%def1 = call i32 asm sideeffect "; def $0 ", "={v0}"()		%def1 = call i32 asm sideeffect "; def $0 ", "={v0}"()
%add = shl i32 %def0, %def1		%add = shl i32 %def0, %def1
store i32 %add, i32 addrspace(1)* undef		store i32 %add, i32 addrspace(1)* undef
ret void		ret void
}		}
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

	Show First 20 Lines • Show All 705 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, 0x3e70000			; VI-NEXT: v_mov_b32_e32 v1, 0x3e70000
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_1:			; CI-LABEL: v_insertelement_v2i16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, 0xfff10000			; VI-NEXT: v_mov_b32_e32 v1, 0xfff10000
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2i16_1_inlineimm:			; CI-LABEL: v_insertelement_v2i16_1_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, 0x45000000			; VI-NEXT: v_mov_b32_e32 v1, 0x45000000
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_1:			; CI-LABEL: v_insertelement_v2f16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_mov_b32_e32 v1, 0x230000			; VI-NEXT: v_mov_b32_e32 v1, 0x230000
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dword v[2:3], v0			; VI-NEXT: flat_store_dword v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v2f16_1_inlineimm:			; CI-LABEL: v_insertelement_v2f16_1_inlineimm:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 323 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s4, 16			; VI-NEXT: s_lshl_b32 s0, s4, 16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_1:			; CI-LABEL: v_insertelement_v4f16_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: s_lshl_b32 s0, s4, 16			; VI-NEXT: s_lshl_b32 s0, s4, 16
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v4f16_3:			; CI-LABEL: v_insertelement_v4f16_3:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	▲ Show 20 Lines • Show All 267 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wqm.demote.ll

	Show First 20 Lines • Show All 155 Lines • ▼ Show 20 Lines

	define amdgpu_ps void @branch(float %arg0, float %arg1) {			define amdgpu_ps void @branch(float %arg0, float %arg1) {
	; SI-LABEL: branch:			; SI-LABEL: branch:
	; SI: ; %bb.0: ; %.entry			; SI: ; %bb.0: ; %.entry
	; SI-NEXT: v_cvt_i32_f32_e32 v0, v0			; SI-NEXT: v_cvt_i32_f32_e32 v0, v0
	; SI-NEXT: v_cvt_i32_f32_e32 v1, v1			; SI-NEXT: v_cvt_i32_f32_e32 v1, v1
	; SI-NEXT: s_mov_b64 s[2:3], exec			; SI-NEXT: s_mov_b64 s[2:3], exec
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_and_b32_e32 v1, 1, v0
	foadAuthorUnsubmitted Done Reply Inline Actions Small win here. foad: Small win here.
	; SI-NEXT: v_and_b32_e32 v0, 1, v0			; SI-NEXT: v_and_b32_e32 v0, 1, v0
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0			; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0
	; SI-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]			; SI-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]
	; SI-NEXT: s_xor_b64 s[0:1], exec, s[4:5]			; SI-NEXT: s_xor_b64 s[0:1], exec, s[4:5]
	; SI-NEXT: s_cbranch_execz .LBB2_3			; SI-NEXT: s_cbranch_execz .LBB2_3
	; SI-NEXT: ; %bb.1: ; %.demote			; SI-NEXT: ; %bb.1: ; %.demote
	; SI-NEXT: s_andn2_b64 s[2:3], s[2:3], exec			; SI-NEXT: s_andn2_b64 s[2:3], s[2:3], exec
	; SI-NEXT: s_cbranch_scc0 .LBB2_4			; SI-NEXT: s_cbranch_scc0 .LBB2_4
	; SI-NEXT: ; %bb.2: ; %.demote			; SI-NEXT: ; %bb.2: ; %.demote
	Show All 9 Lines
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: branch:			; GFX9-LABEL: branch:
	; GFX9: ; %bb.0: ; %.entry			; GFX9: ; %bb.0: ; %.entry
	; GFX9-NEXT: v_cvt_i32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_i32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_i32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: v_and_b32_e32 v1, 1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 1, v0			; GFX9-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]
	; GFX9-NEXT: s_xor_b64 s[0:1], exec, s[4:5]			; GFX9-NEXT: s_xor_b64 s[0:1], exec, s[4:5]
	; GFX9-NEXT: s_cbranch_execz .LBB2_3			; GFX9-NEXT: s_cbranch_execz .LBB2_3
	; GFX9-NEXT: ; %bb.1: ; %.demote			; GFX9-NEXT: ; %bb.1: ; %.demote
	; GFX9-NEXT: s_andn2_b64 s[2:3], s[2:3], exec			; GFX9-NEXT: s_andn2_b64 s[2:3], s[2:3], exec
	; GFX9-NEXT: s_cbranch_scc0 .LBB2_4			; GFX9-NEXT: s_cbranch_scc0 .LBB2_4
	; GFX9-NEXT: ; %bb.2: ; %.demote			; GFX9-NEXT: ; %bb.2: ; %.demote
	Show All 9 Lines
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-32-LABEL: branch:			; GFX10-32-LABEL: branch:
	; GFX10-32: ; %bb.0: ; %.entry			; GFX10-32: ; %bb.0: ; %.entry
	; GFX10-32-NEXT: v_cvt_i32_f32_e32 v0, v0			; GFX10-32-NEXT: v_cvt_i32_f32_e32 v0, v0
	; GFX10-32-NEXT: v_cvt_i32_f32_e32 v1, v1			; GFX10-32-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GFX10-32-NEXT: s_mov_b32 s1, exec_lo			; GFX10-32-NEXT: s_mov_b32 s1, exec_lo
	; GFX10-32-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-32-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-32-NEXT: v_and_b32_e32 v1, 1, v0
	; GFX10-32-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-32-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-32-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v1			; GFX10-32-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX10-32-NEXT: v_cmp_eq_u32_e64 s0, 1, v0			; GFX10-32-NEXT: v_cmp_eq_u32_e64 s0, 1, v0
	; GFX10-32-NEXT: s_and_saveexec_b32 s2, s0			; GFX10-32-NEXT: s_and_saveexec_b32 s2, s0
	; GFX10-32-NEXT: s_xor_b32 s0, exec_lo, s2			; GFX10-32-NEXT: s_xor_b32 s0, exec_lo, s2
	; GFX10-32-NEXT: s_cbranch_execz .LBB2_3			; GFX10-32-NEXT: s_cbranch_execz .LBB2_3
	; GFX10-32-NEXT: ; %bb.1: ; %.demote			; GFX10-32-NEXT: ; %bb.1: ; %.demote
	; GFX10-32-NEXT: s_andn2_b32 s1, s1, exec_lo			; GFX10-32-NEXT: s_andn2_b32 s1, s1, exec_lo
	; GFX10-32-NEXT: s_cbranch_scc0 .LBB2_4			; GFX10-32-NEXT: s_cbranch_scc0 .LBB2_4
	; GFX10-32-NEXT: ; %bb.2: ; %.demote			; GFX10-32-NEXT: ; %bb.2: ; %.demote
	Show All 9 Lines
	; GFX10-32-NEXT: s_endpgm			; GFX10-32-NEXT: s_endpgm
	;			;
	; GFX10-64-LABEL: branch:			; GFX10-64-LABEL: branch:
	; GFX10-64: ; %bb.0: ; %.entry			; GFX10-64: ; %bb.0: ; %.entry
	; GFX10-64-NEXT: v_cvt_i32_f32_e32 v0, v0			; GFX10-64-NEXT: v_cvt_i32_f32_e32 v0, v0
	; GFX10-64-NEXT: v_cvt_i32_f32_e32 v1, v1			; GFX10-64-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GFX10-64-NEXT: s_mov_b64 s[2:3], exec			; GFX10-64-NEXT: s_mov_b64 s[2:3], exec
	; GFX10-64-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-64-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-64-NEXT: v_and_b32_e32 v1, 1, v0
	; GFX10-64-NEXT: v_and_b32_e32 v0, 1, v0			; GFX10-64-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX10-64-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; GFX10-64-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX10-64-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0			; GFX10-64-NEXT: v_cmp_eq_u32_e64 s[0:1], 1, v0
	; GFX10-64-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]			; GFX10-64-NEXT: s_and_saveexec_b64 s[4:5], s[0:1]
	; GFX10-64-NEXT: s_xor_b64 s[0:1], exec, s[4:5]			; GFX10-64-NEXT: s_xor_b64 s[0:1], exec, s[4:5]
	; GFX10-64-NEXT: s_cbranch_execz .LBB2_3			; GFX10-64-NEXT: s_cbranch_execz .LBB2_3
	; GFX10-64-NEXT: ; %bb.1: ; %.demote			; GFX10-64-NEXT: ; %bb.1: ; %.demote
	; GFX10-64-NEXT: s_andn2_b64 s[2:3], s[2:3], exec			; GFX10-64-NEXT: s_andn2_b64 s[2:3], s[2:3], exec
	; GFX10-64-NEXT: s_cbranch_scc0 .LBB2_4			; GFX10-64-NEXT: s_cbranch_scc0 .LBB2_4
	; GFX10-64-NEXT: ; %bb.2: ; %.demote			; GFX10-64-NEXT: ; %bb.2: ; %.demote
	▲ Show 20 Lines • Show All 981 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

	Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64
	; CI-NEXT: buffer_load_dword v3, v[0:1], s[0:3], 0 addr64 offset:4			; CI-NEXT: buffer_load_dword v3, v[0:1], s[0:3], 0 addr64 offset:4
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b64 s[6:7], s[2:3]
	; CI-NEXT: s_waitcnt vmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; CI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; CI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v5, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v5, 16, v3
	; CI-NEXT: v_lshr_b32_e32 v2, v2, v3			; CI-NEXT: v_lshrrev_b32_e32 v2, v3, v2
	; CI-NEXT: v_lshr_b32_e32 v3, v4, v5			; CI-NEXT: v_lshrrev_b32_e32 v3, v5, v4
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_or_b32_e32 v2, v2, v3			; CI-NEXT: v_or_b32_e32 v2, v2, v3
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_lshr_v2i16:			; GFX10-LABEL: v_lshr_v2i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 371 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_waitcnt vmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v2
	; CI-NEXT: v_and_b32_e32 v2, s0, v2			; CI-NEXT: v_and_b32_e32 v2, s0, v2
	; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; CI-NEXT: v_and_b32_e32 v3, s0, v3			; CI-NEXT: v_and_b32_e32 v3, s0, v3
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v5			; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v5
	; CI-NEXT: v_lshr_b32_e32 v3, v3, v5			; CI-NEXT: v_lshrrev_b32_e32 v3, v5, v3
	; CI-NEXT: v_lshr_b32_e32 v5, v7, v9			; CI-NEXT: v_lshrrev_b32_e32 v5, v9, v7
	; CI-NEXT: v_lshr_b32_e32 v2, v2, v4			; CI-NEXT: v_lshrrev_b32_e32 v2, v4, v2
	; CI-NEXT: v_lshr_b32_e32 v4, v6, v8			; CI-NEXT: v_lshrrev_b32_e32 v4, v8, v6
	; CI-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; CI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; CI-NEXT: v_or_b32_e32 v3, v3, v5			; CI-NEXT: v_or_b32_e32 v3, v3, v5
	; CI-NEXT: v_or_b32_e32 v2, v2, v4			; CI-NEXT: v_or_b32_e32 v2, v2, v4
	; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_lshr_v4i16:			; GFX10-LABEL: v_lshr_v4i16:
	▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

	Show First 20 Lines • Show All 567 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}sdwa_crash_inlineasm_def:			; GCN-LABEL: {{^}}sdwa_crash_inlineasm_def:
	; GCN: s_mov_b32 s{{[0-9]+}}, 0xffff			; GCN: s_mov_b32 s{{[0-9]+}}, 0xffff
	; GCN: v_and_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_and_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
	;			;
	; TODO: Why is the constant not peepholed into the v_or_b32_e32?			; TODO: Why is the constant not peepholed into the v_or_b32_e32?
	;			;
	; NOSDWA: s_mov_b32 [[CONST:s[0-9]+]], 0x10000			; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, 0x10000,
				foadAuthorUnsubmitted Done Reply Inline Actions More folding here. foad: More folding here.
	; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, s0,
	; SDWA: v_or_b32_e32 v{{[0-9]+}}, 0x10000,			; SDWA: v_or_b32_e32 v{{[0-9]+}}, 0x10000,
	define amdgpu_kernel void @sdwa_crash_inlineasm_def() #0 {			define amdgpu_kernel void @sdwa_crash_inlineasm_def() #0 {
	bb:			bb:
	br label %bb1			br label %bb1

	bb1: ; preds = %bb11, %bb			bb1: ; preds = %bb11, %bb
	%tmp = phi <2 x i32> [ %tmp12, %bb11 ], [ undef, %bb ]			%tmp = phi <2 x i32> [ %tmp12, %bb11 ], [ undef, %bb ]
	br i1 true, label %bb2, label %bb11			br i1 true, label %bb2, label %bb11
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/select-constant-xor.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	define i32 @selecti8i32(i8 %a) {			define i32 @selecti8i32(i8 %a) {
	; CHECK-LABEL: selecti8i32:			; CHECK-LABEL: selecti8i32:
	; CHECK: ; %bb.0:			; CHECK: ; %bb.0:
	; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CHECK-NEXT: s_waitcnt_vscnt null, 0x0			; CHECK-NEXT: s_waitcnt_vscnt null, 0x0
	; CHECK-NEXT: v_bfe_i32 v0, v0, 0, 8			; CHECK-NEXT: v_bfe_i32 v0, v0, 0, 8
	; CHECK-NEXT: v_mov_b32_e32 v1, 0x54			; CHECK-NEXT: v_mov_b32_e32 v1, 0x54
	; CHECK-NEXT: v_ashrrev_i16 v0, 7, v0			; CHECK-NEXT: v_ashrrev_i16 v0, 7, v0
	; CHECK-NEXT: v_xor_b32_sdwa v0, v1, sext(v0) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; CHECK-NEXT: v_xor_b32_sdwa v0, sext(v0), v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; CHECK-NEXT: s_setpc_b64 s[30:31]			; CHECK-NEXT: s_setpc_b64 s[30:31]
	%c = icmp sgt i8 %a, -1			%c = icmp sgt i8 %a, -1
	%s = select i1 %c, i32 84, i32 -85			%s = select i1 %c, i32 84, i32 -85
	ret i32 %s			ret i32 %s
	}			}

	define i32 @icmpasreq(i32 %input, i32 %a, i32 %b) {			define i32 @icmpasreq(i32 %input, i32 %a, i32 %b) {
	; CHECK-LABEL: icmpasreq:			; CHECK-LABEL: icmpasreq:
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sext-in-reg.ll

Show First 20 Lines • Show All 571 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_sext_in_reg_i1_i16(i16 addrspace(3)* %out, i16 addrspace(1)* %ptr) #0 {
store i16 %sext, i16 addrspace(3)* %out.gep		store i16 %sext, i16 addrspace(3)* %out.gep
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_sext_in_reg_i1_i16_nonload:		; FUNC-LABEL: {{^}}v_sext_in_reg_i1_i16_nonload:
; GCN: {{buffer\|flat\|global}}_load_ushort [[VAL0:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_ushort [[VAL0:v[0-9]+]]
; GCN: {{buffer\|flat\|global}}_load_ushort [[VAL1:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_ushort [[VAL1:v[0-9]+]]

; SI: v_lshl_b32_e32 [[REG:v[0-9]+]], [[VAL0]], [[VAL1]]		; SI: v_lshlrev_b32_e32 [[REG:v[0-9]+]], [[VAL1]], [[VAL0]]
; GFX89: v_lshlrev_b16_e32 [[REG:v[0-9]+]], [[VAL1]], [[VAL0]]		; GFX89: v_lshlrev_b16_e32 [[REG:v[0-9]+]], [[VAL1]], [[VAL0]]

; GCN: v_bfe_i32 [[BFE:v[0-9]+]], [[REG]], 0, 1{{$}}		; GCN: v_bfe_i32 [[BFE:v[0-9]+]], [[REG]], 0, 1{{$}}
; GCN: ds_write_b16 v{{[0-9]+}}, [[BFE]]		; GCN: ds_write_b16 v{{[0-9]+}}, [[BFE]]
define amdgpu_kernel void @v_sext_in_reg_i1_i16_nonload(i16 addrspace(3)* %out, i16 addrspace(1)* %aptr, i16 addrspace(1)* %bptr, i16 %s.val) nounwind {		define amdgpu_kernel void @v_sext_in_reg_i1_i16_nonload(i16 addrspace(3)* %out, i16 addrspace(1)* %aptr, i16 addrspace(1)* %bptr, i16 %s.val) nounwind {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%a.gep = getelementptr i16, i16 addrspace(1)* %aptr, i32 %tid		%a.gep = getelementptr i16, i16 addrspace(1)* %aptr, i32 %tid
%b.gep = getelementptr i16, i16 addrspace(1)* %bptr, i32 %tid		%b.gep = getelementptr i16, i16 addrspace(1)* %bptr, i32 %tid
▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.ll

	Show First 20 Lines • Show All 391 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b64 s[12:13], s[6:7]			; SI-NEXT: s_mov_b64 s[12:13], s[6:7]
	; SI-NEXT: buffer_load_ushort v2, off, s[8:11], 0 glc			; SI-NEXT: buffer_load_ushort v2, off, s[8:11], 0 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: buffer_load_ushort v0, v[0:1], s[12:15], 0 addr64 offset:2 glc			; SI-NEXT: buffer_load_ushort v0, v[0:1], s[12:15], 0 addr64 offset:2 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: s_mov_b32 s0, s4			; SI-NEXT: s_mov_b32 s0, s4
	; SI-NEXT: s_mov_b32 s1, s5			; SI-NEXT: s_mov_b32 s1, s5
	; SI-NEXT: v_add_i32_e32 v0, vcc, 3, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 3, v0
	; SI-NEXT: v_lshl_b32_e32 v0, v2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, v0, v2
	; SI-NEXT: buffer_store_short v0, off, s[0:3], 0			; SI-NEXT: buffer_store_short v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: shl_i16_computed_amount:			; VI-LABEL: shl_i16_computed_amount:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; SI-NEXT: buffer_load_dword v2, off, s[8:11], 0			; SI-NEXT: buffer_load_dword v2, off, s[8:11], 0
	; SI-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64 offset:4			; SI-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64 offset:4
	; SI-NEXT: s_mov_b32 s0, s4			; SI-NEXT: s_mov_b32 s0, s4
	; SI-NEXT: s_mov_b32 s1, s5			; SI-NEXT: s_mov_b32 s1, s5
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; SI-NEXT: v_lshl_b32_e32 v0, v2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, v0, v2
	; SI-NEXT: v_lshl_b32_e32 v1, v1, v3			; SI-NEXT: v_lshlrev_b32_e32 v1, v3, v1
	; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: shl_v2i16:			; VI-LABEL: shl_v2i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s0, 0xffff			; SI-NEXT: s_mov_b32 s0, 0xffff
	; SI-NEXT: s_mov_b64 s[6:7], s[2:3]			; SI-NEXT: s_mov_b64 s[6:7], s[2:3]
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v2
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; SI-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; SI-NEXT: v_lshrrev_b32_e32 v9, 16, v5			; SI-NEXT: v_lshrrev_b32_e32 v9, 16, v5
	; SI-NEXT: v_lshl_b32_e32 v3, v3, v5			; SI-NEXT: v_lshlrev_b32_e32 v3, v5, v3
	; SI-NEXT: v_lshl_b32_e32 v2, v2, v4			; SI-NEXT: v_lshlrev_b32_e32 v2, v4, v2
	; SI-NEXT: v_lshl_b32_e32 v4, v7, v9			; SI-NEXT: v_lshlrev_b32_e32 v4, v9, v7
	; SI-NEXT: v_lshl_b32_e32 v5, v6, v8			; SI-NEXT: v_lshlrev_b32_e32 v5, v8, v6
	; SI-NEXT: v_and_b32_e32 v3, s0, v3			; SI-NEXT: v_and_b32_e32 v3, s0, v3
	; SI-NEXT: v_and_b32_e32 v2, s0, v2			; SI-NEXT: v_and_b32_e32 v2, s0, v2
	; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; SI-NEXT: v_or_b32_e32 v3, v3, v4			; SI-NEXT: v_or_b32_e32 v3, v3, v4
	; SI-NEXT: v_or_b32_e32 v2, v2, v5			; SI-NEXT: v_or_b32_e32 v2, v2, v5
	; SI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64			; SI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 1,583 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

	Show First 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_mov_b64 s[0:1], s[6:7]			; CI-NEXT: s_mov_b64 s[0:1], s[6:7]
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64
	; CI-NEXT: buffer_load_dword v3, v[0:1], s[0:3], 0 addr64 offset:4			; CI-NEXT: buffer_load_dword v3, v[0:1], s[0:3], 0 addr64 offset:4
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b64 s[6:7], s[2:3]
	; CI-NEXT: s_waitcnt vmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v5, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v5, 16, v3
	; CI-NEXT: v_lshl_b32_e32 v2, v2, v3			; CI-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; CI-NEXT: v_lshl_b32_e32 v3, v4, v5			; CI-NEXT: v_lshlrev_b32_e32 v3, v5, v4
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; CI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; CI-NEXT: v_or_b32_e32 v2, v2, v3			; CI-NEXT: v_or_b32_e32 v2, v2, v3
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_shl_v2i16:			; GFX10-LABEL: v_shl_v2i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 372 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_mov_b32 s0, 0xffff			; CI-NEXT: s_mov_b32 s0, 0xffff
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b64 s[6:7], s[2:3]
	; CI-NEXT: s_waitcnt vmcnt(1)			; CI-NEXT: s_waitcnt vmcnt(1)
	; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v2
	; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v5			; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v5
	; CI-NEXT: v_lshl_b32_e32 v3, v3, v5			; CI-NEXT: v_lshlrev_b32_e32 v3, v5, v3
	; CI-NEXT: v_lshl_b32_e32 v2, v2, v4			; CI-NEXT: v_lshlrev_b32_e32 v2, v4, v2
	; CI-NEXT: v_lshl_b32_e32 v4, v7, v9			; CI-NEXT: v_lshlrev_b32_e32 v4, v9, v7
	; CI-NEXT: v_lshl_b32_e32 v5, v6, v8			; CI-NEXT: v_lshlrev_b32_e32 v5, v8, v6
	; CI-NEXT: v_and_b32_e32 v3, s0, v3			; CI-NEXT: v_and_b32_e32 v3, s0, v3
	; CI-NEXT: v_and_b32_e32 v2, s0, v2			; CI-NEXT: v_and_b32_e32 v2, s0, v2
	; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; CI-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; CI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; CI-NEXT: v_or_b32_e32 v3, v3, v4			; CI-NEXT: v_or_b32_e32 v3, v3, v4
	; CI-NEXT: v_or_b32_e32 v2, v2, v5			; CI-NEXT: v_or_b32_e32 v2, v2, v5
	; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 113 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ssubsat.ll

	Show First 20 Lines • Show All 519 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v4
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v7			; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v7
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v4
	; GFX6-NEXT: v_xor_b32_e32 v3, 0x80000000, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v4i32:			; GFX8-LABEL: v_ssubsat_v4i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4
	Show All 17 Lines
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v4
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v3, v7			; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v3, v7
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v4
	; GFX8-NEXT: v_xor_b32_e32 v3, 0x80000000, v3			; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v4i32:			; GFX9-LABEL: v_ssubsat_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v4 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v4 clamp
	Show All 37 Lines
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v2, v10			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v2, v10
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v11			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v11
	; GFX6-NEXT: v_bfrev_b32_e32 v16, 1
	foadAuthorUnsubmitted Done Reply Inline Actions Small win here. foad: Small win here.
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v3, v16, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v4, v12			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v4, v12
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v4, v16, v4			; GFX6-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v13			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v13
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v5, v16, v5			; GFX6-NEXT: v_xor_b32_e32 v5, s6, v5
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v6, v14			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v6, v14
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v6, v16, v6			; GFX6-NEXT: v_xor_b32_e32 v6, s6, v6
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v7, v15			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v7, v15
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v7, v16, v7			; GFX6-NEXT: v_xor_b32_e32 v7, s6, v7
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v8i32:			; GFX8-LABEL: v_ssubsat_v8i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8
	Show All 14 Lines
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v2, v10			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v2, v10
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v3, v11			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v3, v11
	; GFX8-NEXT: v_bfrev_b32_e32 v16, 1
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v3, v16, v3			; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v4, v12			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v4, v12
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4
	; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v4, v16, v4			; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v5, v13			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v5, v13
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5
	; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v5, v16, v5			; GFX8-NEXT: v_xor_b32_e32 v5, s6, v5
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v6, v14			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v6, v14
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6
	; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v6, v16, v6			; GFX8-NEXT: v_xor_b32_e32 v6, s6, v6
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v7, v15			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v7, v15
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7
	; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v7, v16, v7			; GFX8-NEXT: v_xor_b32_e32 v7, s6, v7
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v8i32:			; GFX9-LABEL: v_ssubsat_v8i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v8 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v8 clamp
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v3, v19			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v3, v19
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3
	; GFX6-NEXT: v_bfrev_b32_e32 v17, 1
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v3, v17, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v4, v20			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v4, v20
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v4, v17, v4			; GFX6-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v5, v21			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v5, v21
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v5			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v5, v17, v5			; GFX6-NEXT: v_xor_b32_e32 v5, s6, v5
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v16, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v16, v5, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v6, v22			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v6, v22
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v6			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v6
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v6, v17, v6			; GFX6-NEXT: v_xor_b32_e32 v6, s6, v6
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v6, v16, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, v16, v6, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v7, v23			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v7, v23
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v7			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v7, v17, v7			; GFX6-NEXT: v_xor_b32_e32 v7, s6, v7
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v16, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v7, v16, v7, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v8, v24			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v8, v24
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v8			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v8
	; GFX6-NEXT: v_ashrrev_i32_e32 v8, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v8, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v8, v17, v8			; GFX6-NEXT: v_xor_b32_e32 v8, s6, v8
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v8, v16, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v8, v16, v8, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v9, v25			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v9, v25
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v9			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v9
	; GFX6-NEXT: v_ashrrev_i32_e32 v9, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v9, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v9, v17, v9			; GFX6-NEXT: v_xor_b32_e32 v9, s6, v9
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v9, v16, v9, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v9, v16, v9, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v10, v26			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v10, v26
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v10			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v10
	; GFX6-NEXT: v_ashrrev_i32_e32 v10, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v10, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v10, v17, v10			; GFX6-NEXT: v_xor_b32_e32 v10, s6, v10
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v10, v16, v10, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v10, v16, v10, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v11, v27			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v11, v27
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v11			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v11
	; GFX6-NEXT: v_ashrrev_i32_e32 v11, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v11, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v11, v17, v11			; GFX6-NEXT: v_xor_b32_e32 v11, s6, v11
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v11, v16, v11, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v11, v16, v11, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v12, v28			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v12, v28
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v12			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v12
	; GFX6-NEXT: v_ashrrev_i32_e32 v12, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v12, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v12, v17, v12			; GFX6-NEXT: v_xor_b32_e32 v12, s6, v12
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v12, v16, v12, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v12, v16, v12, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v13, v29			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v13, v29
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v13			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v13
	; GFX6-NEXT: v_ashrrev_i32_e32 v13, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v13, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v13, v17, v13			; GFX6-NEXT: v_xor_b32_e32 v13, s6, v13
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v13, v16, v13, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v13, v16, v13, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v14, v30			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v14, v30
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v14			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v14
	; GFX6-NEXT: v_ashrrev_i32_e32 v14, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v14, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v14, v17, v14			; GFX6-NEXT: v_xor_b32_e32 v14, s6, v14
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v14, v16, v14, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v14, v16, v14, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v15, v31			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v15, v31
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v31			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v31
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15
	; GFX6-NEXT: v_ashrrev_i32_e32 v15, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v15, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v15, v17, v15			; GFX6-NEXT: v_xor_b32_e32 v15, s6, v15
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v16i32:			; GFX8-LABEL: v_ssubsat_v16i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16
	Show All 16 Lines
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v3, v19			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v3, v19
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3
	; GFX8-NEXT: v_bfrev_b32_e32 v17, 1
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v3, v17, v3			; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v4, v20			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v4, v20
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4
	; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v4, v17, v4			; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v5, v21			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v5, v21
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v5			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v5
	; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v5, v17, v5			; GFX8-NEXT: v_xor_b32_e32 v5, s6, v5
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v16, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v16, v5, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v6, v22			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v6, v22
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v6			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v6
	; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v6, v17, v6			; GFX8-NEXT: v_xor_b32_e32 v6, s6, v6
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v16, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v6, v16, v6, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v7, v23			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v7, v23
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v7			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v7
	; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v7, v17, v7			; GFX8-NEXT: v_xor_b32_e32 v7, s6, v7
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v16, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v16, v7, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v8, v24			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v8, v24
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v8			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v8
	; GFX8-NEXT: v_ashrrev_i32_e32 v8, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v8, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v8, v17, v8			; GFX8-NEXT: v_xor_b32_e32 v8, s6, v8
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v8, v16, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v8, v16, v8, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v9, v25			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v9, v25
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v9			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v9
	; GFX8-NEXT: v_ashrrev_i32_e32 v9, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v9, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v9, v17, v9			; GFX8-NEXT: v_xor_b32_e32 v9, s6, v9
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v9, v16, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v9, v16, v9, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v10, v26			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v10, v26
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v10			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v10
	; GFX8-NEXT: v_ashrrev_i32_e32 v10, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v10, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v10, v17, v10			; GFX8-NEXT: v_xor_b32_e32 v10, s6, v10
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v10, v16, v10, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v10, v16, v10, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v11, v27			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v11, v27
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v11			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v11
	; GFX8-NEXT: v_ashrrev_i32_e32 v11, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v11, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v11, v17, v11			; GFX8-NEXT: v_xor_b32_e32 v11, s6, v11
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v11, v16, v11, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v11, v16, v11, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v12, v28			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v12, v28
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v12			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v12
	; GFX8-NEXT: v_ashrrev_i32_e32 v12, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v12, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v12, v17, v12			; GFX8-NEXT: v_xor_b32_e32 v12, s6, v12
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v12, v16, v12, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v12, v16, v12, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v13, v29			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v13, v29
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v13			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v13
	; GFX8-NEXT: v_ashrrev_i32_e32 v13, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v13, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v13, v17, v13			; GFX8-NEXT: v_xor_b32_e32 v13, s6, v13
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v13, v16, v13, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v13, v16, v13, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v14, v30			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v14, v30
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v14			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v14
	; GFX8-NEXT: v_ashrrev_i32_e32 v14, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v14, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v14, v17, v14			; GFX8-NEXT: v_xor_b32_e32 v14, s6, v14
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v14, v16, v14, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v14, v16, v14, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v15, v31			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v15, v31
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v31			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v31
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15
	; GFX8-NEXT: v_ashrrev_i32_e32 v15, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v15, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v15, v17, v15			; GFX8-NEXT: v_xor_b32_e32 v15, s6, v15
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v16i32:			; GFX9-LABEL: v_ssubsat_v16i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v16 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v16 clamp
	▲ Show 20 Lines • Show All 118 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/stack-realign.ll

	Show All 31 Lines
	}			}

	; GCN-LABEL: {{^}}needs_align16_stack_align4:			; GCN-LABEL: {{^}}needs_align16_stack_align4:
	; GCN: s_add_i32 [[SCRATCH_REG:s[0-9]+]], s32, 0x3c0{{$}}			; GCN: s_add_i32 [[SCRATCH_REG:s[0-9]+]], s32, 0x3c0{{$}}
	; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xfffffc00			; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xfffffc00

	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
	; GCN: v_or_b32_e32 v{{[0-9]+}}, 12			; GCN: v_or_b32_e32 v{{[0-9]+}}, 12
	; GCN: s_addk_i32 s32, 0x2800{{$}}
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
				; GCN: s_addk_i32 s32, 0x2800{{$}}
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen

	; GCN: s_addk_i32 s32, 0xd800			; GCN: s_addk_i32 s32, 0xd800

	; GCN: ; ScratchSize: 160			; GCN: ; ScratchSize: 160
	define void @needs_align16_stack_align4(i32 %idx) #2 {			define void @needs_align16_stack_align4(i32 %idx) #2 {
	%alloca.align16 = alloca [8 x <4 x i32>], align 16, addrspace(5)			%alloca.align16 = alloca [8 x <4 x i32>], align 16, addrspace(5)
	%gep0 = getelementptr inbounds [8 x <4 x i32>], [8 x <4 x i32>] addrspace(5)* %alloca.align16, i32 0, i32 %idx			%gep0 = getelementptr inbounds [8 x <4 x i32>], [8 x <4 x i32>] addrspace(5)* %alloca.align16, i32 0, i32 %idx
	store volatile <4 x i32> <i32 1, i32 2, i32 3, i32 4>, <4 x i32> addrspace(5)* %gep0, align 16			store volatile <4 x i32> <i32 1, i32 2, i32 3, i32 4>, <4 x i32> addrspace(5)* %gep0, align 16
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}needs_align32:			; GCN-LABEL: {{^}}needs_align32:
	; GCN: s_add_i32 [[SCRATCH_REG:s[0-9]+]], s32, 0x7c0{{$}}			; GCN: s_add_i32 [[SCRATCH_REG:s[0-9]+]], s32, 0x7c0{{$}}
	; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xfffff800			; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xfffff800

	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
	; GCN: v_or_b32_e32 v{{[0-9]+}}, 12			; GCN: v_or_b32_e32 v{{[0-9]+}}, 12
	; GCN: s_addk_i32 s32, 0x3000{{$}}
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
				; GCN: s_addk_i32 s32, 0x3000{{$}}
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen
	; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen			; GCN: buffer_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s[0:3], 0 offen

	; GCN: s_addk_i32 s32, 0xd000			; GCN: s_addk_i32 s32, 0xd000

	; GCN: ; ScratchSize: 192			; GCN: ; ScratchSize: 192
	define void @needs_align32(i32 %idx) #0 {			define void @needs_align32(i32 %idx) #0 {
	%alloca.align16 = alloca [8 x <4 x i32>], align 32, addrspace(5)			%alloca.align16 = alloca [8 x <4 x i32>], align 32, addrspace(5)
	▲ Show 20 Lines • Show All 263 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/wwm-reserved-spill.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GFX9-O0-NEXT: v_add_u32_e64 v0, v1, v0			; GFX9-O0-NEXT: v_add_u32_e64 v0, v1, v0
	; GFX9-O0-NEXT: s_mov_b64 exec, s[40:41]			; GFX9-O0-NEXT: s_mov_b64 exec, s[40:41]
	; GFX9-O0-NEXT: v_mov_b32_e32 v4, v0			; GFX9-O0-NEXT: v_mov_b32_e32 v4, v0
	; GFX9-O0-NEXT: v_cmp_eq_u32_e64 s[40:41], v3, v4			; GFX9-O0-NEXT: v_cmp_eq_u32_e64 s[40:41], v3, v4
	; GFX9-O0-NEXT: v_cndmask_b32_e64 v3, 0, 1, s[40:41]			; GFX9-O0-NEXT: v_cndmask_b32_e64 v3, 0, 1, s[40:41]
	; GFX9-O0-NEXT: s_mov_b32 s35, 1			; GFX9-O0-NEXT: s_mov_b32 s35, 1
	; GFX9-O0-NEXT: v_lshlrev_b32_e64 v3, s35, v3			; GFX9-O0-NEXT: v_lshlrev_b32_e64 v3, s35, v3
	; GFX9-O0-NEXT: s_mov_b32 s35, 2			; GFX9-O0-NEXT: s_mov_b32 s35, 2
	; GFX9-O0-NEXT: v_mov_b32_e32 v4, s35			; GFX9-O0-NEXT: v_and_b32_e64 v3, v3, s35
	; GFX9-O0-NEXT: v_and_b32_e32 v3, v3, v4
	; GFX9-O0-NEXT: buffer_store_dword v3, off, s[36:39], s34 offset:4			; GFX9-O0-NEXT: buffer_store_dword v3, off, s[36:39], s34 offset:4
	; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1			; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1
	; GFX9-O0-NEXT: buffer_load_dword v0, off, s[0:3], s32 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v0, off, s[0:3], s32 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]			; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]
	; GFX9-O0-NEXT: s_waitcnt vmcnt(0)			; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
	; GFX9-O0-NEXT: s_setpc_b64 s[30:31]			; GFX9-O0-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; GFX9-O0-NEXT: buffer_load_dword v0, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v0, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: s_waitcnt vmcnt(0)			; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
	; GFX9-O0-NEXT: v_cmp_eq_u32_e64 s[34:35], v0, v3			; GFX9-O0-NEXT: v_cmp_eq_u32_e64 s[34:35], v0, v3
	; GFX9-O0-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]			; GFX9-O0-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[34:35]
	; GFX9-O0-NEXT: s_mov_b32 s34, 1			; GFX9-O0-NEXT: s_mov_b32 s34, 1
	; GFX9-O0-NEXT: v_lshlrev_b32_e64 v0, s34, v0			; GFX9-O0-NEXT: v_lshlrev_b32_e64 v0, s34, v0
	; GFX9-O0-NEXT: s_mov_b32 s34, 2			; GFX9-O0-NEXT: s_mov_b32 s34, 2
	; GFX9-O0-NEXT: v_mov_b32_e32 v3, s34			; GFX9-O0-NEXT: v_and_b32_e64 v0, v0, s34
	; GFX9-O0-NEXT: v_and_b32_e32 v0, v0, v3
	; GFX9-O0-NEXT: s_mov_b32 s34, 0			; GFX9-O0-NEXT: s_mov_b32 s34, 0
	; GFX9-O0-NEXT: buffer_store_dword v0, off, s[36:39], s34 offset:4			; GFX9-O0-NEXT: buffer_store_dword v0, off, s[36:39], s34 offset:4
	; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1			; GFX9-O0-NEXT: s_or_saveexec_b64 s[34:35], -1
	; GFX9-O0-NEXT: buffer_load_dword v5, off, s[0:3], s32 offset:24 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v5, off, s[0:3], s32 offset:24 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: buffer_load_dword v1, off, s[0:3], s32 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v1, off, s[0:3], s32 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload			; GFX9-O0-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
	; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]			; GFX9-O0-NEXT: s_mov_b64 exec, s[34:35]
	; GFX9-O0-NEXT: s_waitcnt vmcnt(0)			; GFX9-O0-NEXT: s_waitcnt vmcnt(0)
	▲ Show 20 Lines • Show All 628 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Only select VOP3 forms of VOP2 instructionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 389449

llvm/lib/Target/AMDGPU/SIInstrInfo.td

llvm/test/CodeGen/AMDGPU/ashr.v2i16.ll

llvm/test/CodeGen/AMDGPU/bfe-patterns.ll

llvm/test/CodeGen/AMDGPU/commute-shifts.ll

llvm/test/CodeGen/AMDGPU/ctpop16.ll

llvm/test/CodeGen/AMDGPU/extract-lowbits.ll

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/inline-asm.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.wqm.demote.ll

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

llvm/test/CodeGen/AMDGPU/select-constant-xor.ll

llvm/test/CodeGen/AMDGPU/sext-in-reg.ll

llvm/test/CodeGen/AMDGPU/shl.ll

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

llvm/test/CodeGen/AMDGPU/ssubsat.ll

llvm/test/CodeGen/AMDGPU/stack-realign.ll

llvm/test/CodeGen/AMDGPU/wwm-reserved-spill.ll

[AMDGPU] Only select VOP3 forms of VOP2 instructions
ClosedPublic