This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
1
SIInstrInfo.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
bitreverse.ll
-
call-argument-types.ll
-
copy-illegal-type.ll
-
ctlz.ll
-
ctpop64.ll
-
cvt_f32_ubyte.ll
-
fneg-combines.ll
-
idot2.ll
-
idot4s.ll
-
idot4u.ll
-
idot8s.ll
-
idot8u.ll
-
insert-subvector-unused-scratch.ll
-
insert_vector_dynelt.ll
-
insert_vector_elt.ll
-
insert_vector_elt.v2i16.ll
-
llvm.amdgcn.s.barrier.ll
-
llvm.amdgcn.ubfe.ll
-
llvm.round.f64.ll
-
lshr.v2i16.ll
-
madak.ll
-
memory_clause.ll
-
promote-constOffset-to-imm.ll
-
scratch-simple.ll
-
setcc-limit-load-shrink.ll
-
shift-i128.ll
-
shl.v2i16.ll
-
sign_extend.ll
-
smrd-vccz-bug.ll
-
store-weird-sizes.ll
-
sub.v2i16.ll
-
vgpr-descriptor-waterfall-loop-idom-update.ll
-
wwm-reserved.ll

Differential D72325

[AMDGPU] Fix cluster size threshold calculation
AbandonedPublic

Authored by foad on Jan 7 2020, 5:17 AM.

Download Raw Diff

Details

Reviewers

tstellar
arsenm
nhaehnle

Summary

The intention was to limit the size of a cluster to 16 bytes, but it was
testing NumLoads which is the number of loads/stores in the cluster
*before* adding the current one. So in fact it would have happily
clustered two dwordx4 loads, making a total cluster size of 32 bytes.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Jan 7 2020, 5:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 7 2020, 5:17 AM

Herald added subscribers: hiraditya, t-tye, tpr and 5 others. · View Herald Transcript

Unit tests: pass. 61291 tests passed, 0 failed and 736 were skipped.

clang-tidy: fail. Please fix clang-tidy findings.

clang-format: pass.

Build artifacts: diff.json, clang-tidy.txt, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Harbormaster failed remote builds in B43419: Diff 236559!Jan 7 2020, 5:50 AM

Don't we *want* clusters that large, and even larger?

Consider some code that loads an array-of-structures (AoS). We really want to cluster that as aggressively as possible, to increase the chance of lowest-level cache hits on successive instructions? I would say the method is *very* inexact :)

The comment talks about not wanting to drive register pressure up too much. That's a legitimate concern, but this approach here seems to be quite wrong to me. The scheduler ought to track register pressure properly, and that's where the knowledge about whether to break clusters based on register pressure should be.

In D72325#1811961, @nhaehnle wrote:

Don't we *want* clusters that large, and even larger?

Maybe :-)

Consider some code that loads an array-of-structures (AoS). We really want to cluster that as aggressively as possible, to increase the chance of lowest-level cache hits on successive instructions? I would say the method is *very* inexact :)

The comment talks about not wanting to drive register pressure up too much. That's a legitimate concern, but this approach here seems to be quite wrong to me. The scheduler ought to track register pressure properly, and that's where the knowledge about whether to break clusters based on register pressure should be.

shouldClusterMemOps runs as part of a DAG mutation to insert "cluster" edges in the DAG, before we try to schedule the DAG. So yes you could argue that shouldClusterMemOps should aspire to cluster as much as possible, and it should be up to the the scheduler proper to worry about register pressure, and decide whether or not to schedule those mem ops contiguously. The scheduler does already track register pressure, so it should be able to make this kind of decision, but I don't know how well it works in practice.

foad mentioned this in D73292: [AMDGPU] Correct NumLoads in clustering.Jan 23 2020, 2:20 PM

Is this needed anymore?

Herald added a subscriber: kerbowa. · View Herald TranscriptMar 23 2020, 11:11 AM

In D72325#1937424, @arsenm wrote:

Is this needed anymore?

Since D73292 landed this is equivalent to fixing the FIXME at the end of SIInstrInfo::shouldClusterMemOps. I'll rebase it accordingly. As for whether it's actually needed, I think only benchmarks can tell, and I don't have any up-to-date numbers at the moment.

Rebase.

LGTM

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
489–490	Extra parens around LHS

This revision is now accepted and ready to land.Mar 24 2020, 8:47 AM

Abandoning as there have been other changes to SIInstrInfo::shouldClusterMemOps since I wrote this patch.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIInstrInfo.cpp

3 lines

test/

CodeGen/

AMDGPU/

bitreverse.ll

278 lines

call-argument-types.ll

64 lines

113 lines

295 lines

4 lines

560 lines

10 lines

285 lines

364 lines

1146 lines

841 lines

1750 lines

insert-subvector-unused-scratch.ll

4 lines

insert_vector_dynelt.ll

2 lines

insert_vector_elt.ll

64 lines

insert_vector_elt.v2i16.ll

272 lines

llvm.amdgcn.s.barrier.ll

4 lines

2 lines

52 lines

54 lines

4 lines

19 lines

promote-constOffset-to-imm.ll

30 lines

scratch-simple.ll

9 lines

setcc-limit-load-shrink.ll

8 lines

6 lines

54 lines

8 lines

4 lines

16 lines

14 lines

vgpr-descriptor-waterfall-loop-idom-update.ll

21 lines

wwm-reserved.ll

4 lines

Diff 236559

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 480 Lines • ▼ Show 20 Lines	const MachineRegisterInfo &MRI =
FirstLdSt.getParent()->getParent()->getRegInfo();		FirstLdSt.getParent()->getParent()->getRegInfo();

const Register Reg = FirstDst->getReg();		const Register Reg = FirstDst->getReg();

const TargetRegisterClass *DstRC = Register::isVirtualRegister(Reg)		const TargetRegisterClass *DstRC = Register::isVirtualRegister(Reg)
? MRI.getRegClass(Reg)		? MRI.getRegClass(Reg)
: RI.getPhysRegClass(Reg);		: RI.getPhysRegClass(Reg);

return (NumLoads * (RI.getRegSizeInBits(*DstRC) / 8)) <= LoadClusterThreshold;		return (NumLoads + 1) * (RI.getRegSizeInBits(*DstRC) / 8) <=
		LoadClusterThreshold;
		arsenmUnsubmitted Not Done Reply Inline Actions Extra parens around LHS arsenm: Extra parens around LHS
}		}

// FIXME: This behaves strangely. If, for example, you have 32 load + stores,		// FIXME: This behaves strangely. If, for example, you have 32 load + stores,
// the first 16 loads will be interleaved with the stores, and the next 16 will		// the first 16 loads will be interleaved with the stores, and the next 16 will
// be clustered as expected. It should really split into 2 16 store batches.		// be clustered as expected. It should really split into 2 16 store batches.
//		//
// Loads are clustered until this returns false, rather than trying to schedule		// Loads are clustered until this returns false, rather than trying to schedule
// groups of stores. This also means we have to deal with saying different		// groups of stores. This also means we have to deal with saying different
▲ Show 20 Lines • Show All 6,130 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bitreverse.ll

Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	; FLAT-NEXT: s_endpgm
%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1		%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1
store i32 %brev, i32 addrspace(1)* %out		store i32 %brev, i32 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_brev_i32(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) #0 {		define amdgpu_kernel void @v_brev_i32(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) #0 {
; SI-LABEL: v_brev_i32:		; SI-LABEL: v_brev_i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_bfrev_b32_e32 v0, v0		; SI-NEXT: v_bfrev_b32_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; FLAT-LABEL: v_brev_i32:		; FLAT-LABEL: v_brev_i32:
; FLAT: ; %bb.0:		; FLAT: ; %bb.0:
; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; FLAT-NEXT: s_mov_b32 s7, 0xf000		; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; FLAT-NEXT: s_mov_b32 s6, -1		; FLAT-NEXT: s_mov_b32 s3, 0xf000
		; FLAT-NEXT: s_mov_b32 s2, -1
; FLAT-NEXT: s_waitcnt lgkmcnt(0)		; FLAT-NEXT: s_waitcnt lgkmcnt(0)
; FLAT-NEXT: v_mov_b32_e32 v1, s1		; FLAT-NEXT: v_mov_b32_e32 v1, s5
; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; FLAT-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; FLAT-NEXT: flat_load_dword v0, v[0:1]		; FLAT-NEXT: flat_load_dword v0, v[0:1]
; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; FLAT-NEXT: v_bfrev_b32_e32 v0, v0		; FLAT-NEXT: v_bfrev_b32_e32 v0, v0
; FLAT-NEXT: buffer_store_dword v0, off, s[4:7], 0		; FLAT-NEXT: buffer_store_dword v0, off, s[0:3], 0
; FLAT-NEXT: s_endpgm		; FLAT-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %valptr, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %valptr, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1		%brev = call i32 @llvm.bitreverse.i32(i32 %val) #1
store i32 %brev, i32 addrspace(1)* %out		store i32 %brev, i32 addrspace(1)* %out
ret void		ret void
}		}
Show All 29 Lines	; FLAT-NEXT: s_endpgm
%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1		%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1
store <2 x i32> %brev, <2 x i32> addrspace(1)* %out		store <2 x i32> %brev, <2 x i32> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_brev_v2i32(<2 x i32> addrspace(1)* noalias %out, <2 x i32> addrspace(1)* noalias %valptr) #0 {		define amdgpu_kernel void @v_brev_v2i32(<2 x i32> addrspace(1)* noalias %out, <2 x i32> addrspace(1)* noalias %valptr) #0 {
; SI-LABEL: v_brev_v2i32:		; SI-LABEL: v_brev_v2i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_bfrev_b32_e32 v1, v1		; SI-NEXT: v_bfrev_b32_e32 v1, v1
; SI-NEXT: v_bfrev_b32_e32 v0, v0		; SI-NEXT: v_bfrev_b32_e32 v0, v0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; FLAT-LABEL: v_brev_v2i32:		; FLAT-LABEL: v_brev_v2i32:
; FLAT: ; %bb.0:		; FLAT: ; %bb.0:
; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; FLAT-NEXT: s_mov_b32 s7, 0xf000		; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; FLAT-NEXT: s_mov_b32 s6, -1		; FLAT-NEXT: s_mov_b32 s3, 0xf000
		; FLAT-NEXT: s_mov_b32 s2, -1
; FLAT-NEXT: s_waitcnt lgkmcnt(0)		; FLAT-NEXT: s_waitcnt lgkmcnt(0)
; FLAT-NEXT: v_mov_b32_e32 v1, s1		; FLAT-NEXT: v_mov_b32_e32 v1, s5
; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; FLAT-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; FLAT-NEXT: v_bfrev_b32_e32 v1, v1		; FLAT-NEXT: v_bfrev_b32_e32 v1, v1
; FLAT-NEXT: v_bfrev_b32_e32 v0, v0		; FLAT-NEXT: v_bfrev_b32_e32 v0, v0
; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; FLAT-NEXT: s_endpgm		; FLAT-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %valptr, i32 %tid		%gep = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %valptr, i32 %tid
%val = load <2 x i32>, <2 x i32> addrspace(1)* %gep		%val = load <2 x i32>, <2 x i32> addrspace(1)* %gep
%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1		%brev = call <2 x i32> @llvm.bitreverse.v2i32(<2 x i32> %val) #1
store <2 x i32> %brev, <2 x i32> addrspace(1)* %out		store <2 x i32> %brev, <2 x i32> addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines	; FLAT-NEXT: s_endpgm
%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1		%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1
store i64 %brev, i64 addrspace(1)* %out		store i64 %brev, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_brev_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %valptr) #0 {		define amdgpu_kernel void @v_brev_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %valptr) #0 {
; SI-LABEL: v_brev_i64:		; SI-LABEL: v_brev_i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s0, 0xff00		; SI-NEXT: s_mov_b32 s4, 0xff00
; SI-NEXT: s_mov_b32 s1, 0xf0f0f0f		; SI-NEXT: s_mov_b32 s5, 0xf0f0f0f
; SI-NEXT: s_mov_b32 s2, 0xf0f0f0f0		; SI-NEXT: s_mov_b32 s6, 0xf0f0f0f0
; SI-NEXT: s_mov_b32 s3, 0x33333333		; SI-NEXT: s_mov_b32 s7, 0x33333333
; SI-NEXT: s_mov_b32 s6, 0xcccccccc		; SI-NEXT: s_mov_b32 s8, 0xcccccccc
; SI-NEXT: s_mov_b32 s8, 0x55555555		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s9, 0xaaaaaaaa		; SI-NEXT: s_mov_b32 s9, 0x55555555
		; SI-NEXT: s_mov_b32 s10, 0xaaaaaaaa
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshl_b64 v[2:3], v[0:1], 8		; SI-NEXT: v_lshl_b64 v[2:3], v[0:1], 8
; SI-NEXT: v_alignbit_b32 v4, v1, v0, 24		; SI-NEXT: v_alignbit_b32 v4, v1, v0, 24
; SI-NEXT: v_alignbit_b32 v5, v1, v0, 8		; SI-NEXT: v_alignbit_b32 v5, v1, v0, 8
; SI-NEXT: v_lshrrev_b32_e32 v7, 8, v1		; SI-NEXT: v_lshrrev_b32_e32 v7, 8, v1
; SI-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; SI-NEXT: v_lshrrev_b32_e32 v6, 24, v1
; SI-NEXT: v_lshl_b64 v[1:2], v[0:1], 24		; SI-NEXT: v_lshl_b64 v[1:2], v[0:1], 24
; SI-NEXT: v_lshlrev_b32_e32 v1, 24, v0		; SI-NEXT: v_lshlrev_b32_e32 v1, 24, v0
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_and_b32_e32 v0, 0xff0000, v0		; SI-NEXT: v_and_b32_e32 v0, 0xff0000, v0
; SI-NEXT: v_and_b32_e32 v4, 0xff0000, v4		; SI-NEXT: v_and_b32_e32 v4, 0xff0000, v4
; SI-NEXT: v_and_b32_e32 v5, 0xff000000, v5		; SI-NEXT: v_and_b32_e32 v5, 0xff000000, v5
; SI-NEXT: v_and_b32_e32 v7, s0, v7		; SI-NEXT: v_and_b32_e32 v7, s4, v7
; SI-NEXT: v_and_b32_e32 v3, 0xff, v3		; SI-NEXT: v_and_b32_e32 v3, 0xff, v3
; SI-NEXT: v_and_b32_e32 v2, s0, v2		; SI-NEXT: v_and_b32_e32 v2, s4, v2
; SI-NEXT: v_or_b32_e32 v4, v5, v4		; SI-NEXT: v_or_b32_e32 v4, v5, v4
; SI-NEXT: v_or_b32_e32 v5, v7, v6		; SI-NEXT: v_or_b32_e32 v5, v7, v6
; SI-NEXT: v_or_b32_e32 v0, v1, v0		; SI-NEXT: v_or_b32_e32 v0, v1, v0
; SI-NEXT: v_or_b32_e32 v2, v2, v3		; SI-NEXT: v_or_b32_e32 v2, v2, v3
; SI-NEXT: v_or_b32_e32 v1, v4, v5		; SI-NEXT: v_or_b32_e32 v1, v4, v5
; SI-NEXT: v_or_b32_e32 v3, v0, v2		; SI-NEXT: v_or_b32_e32 v3, v0, v2
; SI-NEXT: v_and_b32_e32 v0, s1, v1		; SI-NEXT: v_and_b32_e32 v0, s5, v1
; SI-NEXT: v_and_b32_e32 v2, s2, v1		; SI-NEXT: v_and_b32_e32 v2, s6, v1
; SI-NEXT: v_and_b32_e32 v1, s1, v3		; SI-NEXT: v_and_b32_e32 v1, s5, v3
; SI-NEXT: v_and_b32_e32 v3, s2, v3		; SI-NEXT: v_and_b32_e32 v3, s6, v3
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_and_b32_e32 v1, s3, v3		; SI-NEXT: v_and_b32_e32 v1, s7, v3
; SI-NEXT: v_and_b32_e32 v0, s3, v2		; SI-NEXT: v_and_b32_e32 v0, s7, v2
; SI-NEXT: v_and_b32_e32 v3, s6, v3		; SI-NEXT: v_and_b32_e32 v3, s8, v3
; SI-NEXT: v_and_b32_e32 v2, s6, v2		; SI-NEXT: v_and_b32_e32 v2, s8, v2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2
; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_and_b32_e32 v1, s8, v3		; SI-NEXT: v_and_b32_e32 v1, s9, v3
; SI-NEXT: v_and_b32_e32 v0, s8, v2		; SI-NEXT: v_and_b32_e32 v0, s9, v2
; SI-NEXT: v_and_b32_e32 v3, s9, v3		; SI-NEXT: v_and_b32_e32 v3, s10, v3
; SI-NEXT: v_and_b32_e32 v2, s9, v2		; SI-NEXT: v_and_b32_e32 v2, s10, v2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1
; SI-NEXT: v_or_b32_e32 v1, v3, v1		; SI-NEXT: v_or_b32_e32 v1, v3, v1
; SI-NEXT: v_or_b32_e32 v0, v2, v0		; SI-NEXT: v_or_b32_e32 v0, v2, v0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; FLAT-LABEL: v_brev_i64:		; FLAT-LABEL: v_brev_i64:
; FLAT: ; %bb.0:		; FLAT: ; %bb.0:
; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; FLAT-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; FLAT-NEXT: v_mov_b32_e32 v4, 8		; FLAT-NEXT: v_mov_b32_e32 v4, 8
; FLAT-NEXT: s_mov_b32 s2, 0xf0f0f0f		; FLAT-NEXT: s_mov_b32 s4, 0xf0f0f0f
; FLAT-NEXT: s_mov_b32 s3, 0xf0f0f0f0		; FLAT-NEXT: s_mov_b32 s5, 0xf0f0f0f0
; FLAT-NEXT: s_waitcnt lgkmcnt(0)		; FLAT-NEXT: s_waitcnt lgkmcnt(0)
; FLAT-NEXT: v_mov_b32_e32 v1, s1		; FLAT-NEXT: v_mov_b32_e32 v1, s3
; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; FLAT-NEXT: v_add_u32_e32 v0, vcc, s2, v0
; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
; FLAT-NEXT: s_mov_b32 s0, 0x33333333		; FLAT-NEXT: s_mov_b32 s6, 0x33333333
; FLAT-NEXT: s_mov_b32 s1, 0xcccccccc		; FLAT-NEXT: s_mov_b32 s7, 0xcccccccc
; FLAT-NEXT: s_mov_b32 s6, 0x55555555		; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; FLAT-NEXT: s_mov_b32 s8, 0xaaaaaaaa		; FLAT-NEXT: s_mov_b32 s8, 0x55555555
; FLAT-NEXT: s_mov_b32 s7, 0xf000		; FLAT-NEXT: s_mov_b32 s9, 0xaaaaaaaa
		; FLAT-NEXT: s_mov_b32 s3, 0xf000
		; FLAT-NEXT: s_mov_b32 s2, -1
; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; FLAT-NEXT: v_lshlrev_b64 v[2:3], 24, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[2:3], 24, v[0:1]
; FLAT-NEXT: v_alignbit_b32 v2, v1, v0, 24		; FLAT-NEXT: v_alignbit_b32 v2, v1, v0, 24
; FLAT-NEXT: v_alignbit_b32 v6, v1, v0, 8		; FLAT-NEXT: v_alignbit_b32 v6, v1, v0, 8
; FLAT-NEXT: v_lshlrev_b32_sdwa v7, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; FLAT-NEXT: v_lshlrev_b32_sdwa v7, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; FLAT-NEXT: v_lshlrev_b64 v[4:5], 8, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[4:5], 8, v[0:1]
; FLAT-NEXT: v_lshlrev_b32_e32 v4, 24, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v4, 24, v0
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; FLAT-NEXT: v_and_b32_e32 v2, 0xff0000, v2		; FLAT-NEXT: v_and_b32_e32 v2, 0xff0000, v2
; FLAT-NEXT: v_and_b32_e32 v6, 0xff000000, v6		; FLAT-NEXT: v_and_b32_e32 v6, 0xff000000, v6
; FLAT-NEXT: v_and_b32_e32 v0, 0xff0000, v0		; FLAT-NEXT: v_and_b32_e32 v0, 0xff0000, v0
; FLAT-NEXT: v_or_b32_sdwa v1, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; FLAT-NEXT: v_or_b32_sdwa v1, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; FLAT-NEXT: v_or_b32_e32 v2, v6, v2		; FLAT-NEXT: v_or_b32_e32 v2, v6, v2
; FLAT-NEXT: v_and_b32_e32 v3, 0xff00, v3		; FLAT-NEXT: v_and_b32_e32 v3, 0xff00, v3
; FLAT-NEXT: v_or_b32_e32 v1, v2, v1		; FLAT-NEXT: v_or_b32_e32 v1, v2, v1
; FLAT-NEXT: v_or_b32_e32 v0, v4, v0		; FLAT-NEXT: v_or_b32_e32 v0, v4, v0
; FLAT-NEXT: v_or_b32_sdwa v2, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; FLAT-NEXT: v_or_b32_sdwa v2, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; FLAT-NEXT: v_or_b32_e32 v3, v0, v2		; FLAT-NEXT: v_or_b32_e32 v3, v0, v2
; FLAT-NEXT: v_and_b32_e32 v0, s2, v1		; FLAT-NEXT: v_and_b32_e32 v0, s4, v1
; FLAT-NEXT: v_and_b32_e32 v2, s3, v1		; FLAT-NEXT: v_and_b32_e32 v2, s5, v1
; FLAT-NEXT: v_and_b32_e32 v1, s2, v3		; FLAT-NEXT: v_and_b32_e32 v1, s4, v3
; FLAT-NEXT: v_and_b32_e32 v3, s3, v3		; FLAT-NEXT: v_and_b32_e32 v3, s5, v3
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_and_b32_e32 v1, s0, v3		; FLAT-NEXT: v_and_b32_e32 v1, s6, v3
; FLAT-NEXT: v_and_b32_e32 v0, s0, v2		; FLAT-NEXT: v_and_b32_e32 v0, s6, v2
; FLAT-NEXT: v_and_b32_e32 v3, s1, v3		; FLAT-NEXT: v_and_b32_e32 v3, s7, v3
; FLAT-NEXT: v_and_b32_e32 v2, s1, v2		; FLAT-NEXT: v_and_b32_e32 v2, s7, v2
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_and_b32_e32 v1, s6, v3		; FLAT-NEXT: v_and_b32_e32 v1, s8, v3
; FLAT-NEXT: v_and_b32_e32 v0, s6, v2		; FLAT-NEXT: v_and_b32_e32 v0, s8, v2
; FLAT-NEXT: v_and_b32_e32 v3, s8, v3		; FLAT-NEXT: v_and_b32_e32 v3, s9, v3
; FLAT-NEXT: v_and_b32_e32 v2, s8, v2		; FLAT-NEXT: v_and_b32_e32 v2, s9, v2
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]
; FLAT-NEXT: s_mov_b32 s6, -1
; FLAT-NEXT: v_or_b32_e32 v1, v3, v1		; FLAT-NEXT: v_or_b32_e32 v1, v3, v1
; FLAT-NEXT: v_or_b32_e32 v0, v2, v0		; FLAT-NEXT: v_or_b32_e32 v0, v2, v0
; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; FLAT-NEXT: s_endpgm		; FLAT-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i64, i64 addrspace(1)* %valptr, i32 %tid		%gep = getelementptr i64, i64 addrspace(1)* %valptr, i32 %tid
%val = load i64, i64 addrspace(1)* %gep		%val = load i64, i64 addrspace(1)* %gep
%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1		%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1
store i64 %brev, i64 addrspace(1)* %out		store i64 %brev, i64 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 253 Lines • ▼ Show 20 Lines	; FLAT-NEXT: s_endpgm
%brev = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %val) #1		%brev = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %val) #1
store <2 x i64> %brev, <2 x i64> addrspace(1)* %out		store <2 x i64> %brev, <2 x i64> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_brev_v2i64(<2 x i64> addrspace(1)* noalias %out, <2 x i64> addrspace(1)* noalias %valptr) #0 {		define amdgpu_kernel void @v_brev_v2i64(<2 x i64> addrspace(1)* noalias %out, <2 x i64> addrspace(1)* noalias %valptr) #0 {
; SI-LABEL: v_brev_v2i64:		; SI-LABEL: v_brev_v2i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s0, 0xff00		; SI-NEXT: s_mov_b32 s4, 0xff00
; SI-NEXT: s_mov_b32 s1, 0xf0f0f0f		; SI-NEXT: s_mov_b32 s5, 0xf0f0f0f
; SI-NEXT: s_mov_b32 s2, 0xf0f0f0f0		; SI-NEXT: s_mov_b32 s6, 0xf0f0f0f0
; SI-NEXT: s_mov_b32 s3, 0x33333333		; SI-NEXT: s_mov_b32 s7, 0x33333333
; SI-NEXT: s_mov_b32 s8, 0xcccccccc		; SI-NEXT: s_mov_b32 s8, 0xcccccccc
; SI-NEXT: s_mov_b32 s9, 0x55555555		; SI-NEXT: s_mov_b32 s9, 0x55555555
; SI-NEXT: s_mov_b32 s10, 0xaaaaaaaa		; SI-NEXT: s_mov_b32 s10, 0xaaaaaaaa
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshl_b64 v[4:5], v[2:3], 8		; SI-NEXT: v_lshl_b64 v[4:5], v[2:3], 8
; SI-NEXT: v_alignbit_b32 v6, v3, v2, 24		; SI-NEXT: v_alignbit_b32 v6, v3, v2, 24
; SI-NEXT: v_alignbit_b32 v7, v3, v2, 8		; SI-NEXT: v_alignbit_b32 v7, v3, v2, 8
; SI-NEXT: v_lshrrev_b32_e32 v9, 8, v3		; SI-NEXT: v_lshrrev_b32_e32 v9, 8, v3
; SI-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; SI-NEXT: v_lshrrev_b32_e32 v8, 24, v3
; SI-NEXT: v_lshl_b64 v[3:4], v[2:3], 24		; SI-NEXT: v_lshl_b64 v[3:4], v[2:3], 24
; SI-NEXT: v_lshlrev_b32_e32 v10, 24, v2		; SI-NEXT: v_lshlrev_b32_e32 v10, 24, v2
; SI-NEXT: v_lshlrev_b32_e32 v11, 8, v2		; SI-NEXT: v_lshlrev_b32_e32 v11, 8, v2
; SI-NEXT: v_lshl_b64 v[2:3], v[0:1], 8		; SI-NEXT: v_lshl_b64 v[2:3], v[0:1], 8
; SI-NEXT: v_alignbit_b32 v12, v1, v0, 24		; SI-NEXT: v_alignbit_b32 v12, v1, v0, 24
; SI-NEXT: v_alignbit_b32 v13, v1, v0, 8		; SI-NEXT: v_alignbit_b32 v13, v1, v0, 8
; SI-NEXT: v_lshrrev_b32_e32 v14, 24, v1		; SI-NEXT: v_lshrrev_b32_e32 v14, 24, v1
; SI-NEXT: v_lshrrev_b32_e32 v15, 8, v1		; SI-NEXT: v_lshrrev_b32_e32 v15, 8, v1
; SI-NEXT: v_lshlrev_b32_e32 v16, 24, v0		; SI-NEXT: v_lshlrev_b32_e32 v16, 24, v0
; SI-NEXT: v_lshlrev_b32_e32 v17, 8, v0		; SI-NEXT: v_lshlrev_b32_e32 v17, 8, v0
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 24		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 24
; SI-NEXT: v_and_b32_e32 v6, 0xff0000, v6		; SI-NEXT: v_and_b32_e32 v6, 0xff0000, v6
; SI-NEXT: v_and_b32_e32 v7, 0xff000000, v7		; SI-NEXT: v_and_b32_e32 v7, 0xff000000, v7
; SI-NEXT: v_mov_b32_e32 v0, 0xff0000		; SI-NEXT: v_mov_b32_e32 v0, 0xff0000
; SI-NEXT: v_or_b32_e32 v6, v7, v6		; SI-NEXT: v_or_b32_e32 v6, v7, v6
; SI-NEXT: v_mov_b32_e32 v7, 0xff00		; SI-NEXT: v_mov_b32_e32 v7, 0xff00
; SI-NEXT: v_and_b32_e32 v2, v0, v11		; SI-NEXT: v_and_b32_e32 v2, v0, v11
; SI-NEXT: v_and_b32_e32 v11, v0, v12		; SI-NEXT: v_and_b32_e32 v11, v0, v12
; SI-NEXT: v_and_b32_e32 v9, s0, v9		; SI-NEXT: v_and_b32_e32 v9, s4, v9
; SI-NEXT: v_and_b32_e32 v12, 0xff000000, v13		; SI-NEXT: v_and_b32_e32 v12, 0xff000000, v13
; SI-NEXT: v_and_b32_e32 v0, v0, v17		; SI-NEXT: v_and_b32_e32 v0, v0, v17
; SI-NEXT: v_and_b32_e32 v13, v7, v15		; SI-NEXT: v_and_b32_e32 v13, v7, v15
; SI-NEXT: v_and_b32_e32 v1, v7, v1		; SI-NEXT: v_and_b32_e32 v1, v7, v1
; SI-NEXT: v_and_b32_e32 v3, 0xff, v3		; SI-NEXT: v_and_b32_e32 v3, 0xff, v3
; SI-NEXT: v_or_b32_e32 v8, v9, v8		; SI-NEXT: v_or_b32_e32 v8, v9, v8
; SI-NEXT: v_or_b32_e32 v2, v10, v2		; SI-NEXT: v_or_b32_e32 v2, v10, v2
; SI-NEXT: v_and_b32_e32 v5, 0xff, v5		; SI-NEXT: v_and_b32_e32 v5, 0xff, v5
; SI-NEXT: v_and_b32_e32 v4, s0, v4		; SI-NEXT: v_and_b32_e32 v4, s4, v4
; SI-NEXT: v_or_b32_e32 v7, v16, v0		; SI-NEXT: v_or_b32_e32 v7, v16, v0
; SI-NEXT: v_or_b32_e32 v1, v1, v3		; SI-NEXT: v_or_b32_e32 v1, v1, v3
; SI-NEXT: v_or_b32_e32 v9, v12, v11		; SI-NEXT: v_or_b32_e32 v9, v12, v11
; SI-NEXT: v_or_b32_e32 v10, v13, v14		; SI-NEXT: v_or_b32_e32 v10, v13, v14
; SI-NEXT: v_or_b32_e32 v0, v4, v5		; SI-NEXT: v_or_b32_e32 v0, v4, v5
; SI-NEXT: v_or_b32_e32 v5, v9, v10		; SI-NEXT: v_or_b32_e32 v5, v9, v10
; SI-NEXT: v_or_b32_e32 v6, v6, v8		; SI-NEXT: v_or_b32_e32 v6, v6, v8
; SI-NEXT: v_or_b32_e32 v7, v7, v1		; SI-NEXT: v_or_b32_e32 v7, v7, v1
; SI-NEXT: v_or_b32_e32 v3, v2, v0		; SI-NEXT: v_or_b32_e32 v3, v2, v0
; SI-NEXT: v_and_b32_e32 v0, s1, v6		; SI-NEXT: v_and_b32_e32 v0, s5, v6
; SI-NEXT: v_and_b32_e32 v2, s2, v6		; SI-NEXT: v_and_b32_e32 v2, s6, v6
; SI-NEXT: v_and_b32_e32 v4, s1, v5		; SI-NEXT: v_and_b32_e32 v4, s5, v5
; SI-NEXT: v_and_b32_e32 v6, s2, v5		; SI-NEXT: v_and_b32_e32 v6, s6, v5
; SI-NEXT: v_and_b32_e32 v5, s1, v7		; SI-NEXT: v_and_b32_e32 v5, s5, v7
; SI-NEXT: v_and_b32_e32 v7, s2, v7		; SI-NEXT: v_and_b32_e32 v7, s6, v7
; SI-NEXT: v_and_b32_e32 v1, s1, v3		; SI-NEXT: v_and_b32_e32 v1, s5, v3
; SI-NEXT: v_and_b32_e32 v3, s2, v3		; SI-NEXT: v_and_b32_e32 v3, s6, v3
; SI-NEXT: v_lshl_b64 v[4:5], v[4:5], 4		; SI-NEXT: v_lshl_b64 v[4:5], v[4:5], 4
; SI-NEXT: v_lshr_b64 v[6:7], v[6:7], 4		; SI-NEXT: v_lshr_b64 v[6:7], v[6:7], 4
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4
; SI-NEXT: v_or_b32_e32 v7, v7, v5		; SI-NEXT: v_or_b32_e32 v7, v7, v5
; SI-NEXT: v_or_b32_e32 v6, v6, v4		; SI-NEXT: v_or_b32_e32 v6, v6, v4
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_and_b32_e32 v5, s3, v7		; SI-NEXT: v_and_b32_e32 v5, s7, v7
; SI-NEXT: v_and_b32_e32 v4, s3, v6		; SI-NEXT: v_and_b32_e32 v4, s7, v6
; SI-NEXT: v_and_b32_e32 v7, s8, v7		; SI-NEXT: v_and_b32_e32 v7, s8, v7
; SI-NEXT: v_and_b32_e32 v6, s8, v6		; SI-NEXT: v_and_b32_e32 v6, s8, v6
; SI-NEXT: v_and_b32_e32 v1, s3, v3		; SI-NEXT: v_and_b32_e32 v1, s7, v3
; SI-NEXT: v_and_b32_e32 v0, s3, v2		; SI-NEXT: v_and_b32_e32 v0, s7, v2
; SI-NEXT: v_and_b32_e32 v3, s8, v3		; SI-NEXT: v_and_b32_e32 v3, s8, v3
; SI-NEXT: v_and_b32_e32 v2, s8, v2		; SI-NEXT: v_and_b32_e32 v2, s8, v2
; SI-NEXT: v_lshl_b64 v[4:5], v[4:5], 2		; SI-NEXT: v_lshl_b64 v[4:5], v[4:5], 2
; SI-NEXT: v_lshr_b64 v[6:7], v[6:7], 2		; SI-NEXT: v_lshr_b64 v[6:7], v[6:7], 2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2
; SI-NEXT: v_or_b32_e32 v7, v7, v5		; SI-NEXT: v_or_b32_e32 v7, v7, v5
; SI-NEXT: v_or_b32_e32 v9, v6, v4		; SI-NEXT: v_or_b32_e32 v9, v6, v4
Show All 10 Lines
; SI-NEXT: v_and_b32_e32 v2, s10, v2		; SI-NEXT: v_and_b32_e32 v2, s10, v2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1
; SI-NEXT: v_lshr_b64 v[4:5], v[5:6], 1		; SI-NEXT: v_lshr_b64 v[4:5], v[5:6], 1
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_or_b32_e32 v1, v5, v8		; SI-NEXT: v_or_b32_e32 v1, v5, v8
; SI-NEXT: v_or_b32_e32 v0, v4, v7		; SI-NEXT: v_or_b32_e32 v0, v4, v7
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; FLAT-LABEL: v_brev_v2i64:		; FLAT-LABEL: v_brev_v2i64:
; FLAT: ; %bb.0:		; FLAT: ; %bb.0:
; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; FLAT-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 4, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 4, v0
; FLAT-NEXT: v_mov_b32_e32 v8, 8		; FLAT-NEXT: v_mov_b32_e32 v8, 8
; FLAT-NEXT: v_mov_b32_e32 v10, 0xff0000		; FLAT-NEXT: v_mov_b32_e32 v10, 0xff0000
; FLAT-NEXT: s_mov_b32 s2, 0xf0f0f0f		; FLAT-NEXT: s_mov_b32 s4, 0xf0f0f0f
; FLAT-NEXT: s_waitcnt lgkmcnt(0)		; FLAT-NEXT: s_waitcnt lgkmcnt(0)
; FLAT-NEXT: v_mov_b32_e32 v1, s1		; FLAT-NEXT: v_mov_b32_e32 v1, s3
; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; FLAT-NEXT: v_add_u32_e32 v0, vcc, s2, v0
; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; FLAT-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; FLAT-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; FLAT-NEXT: s_mov_b32 s0, 0xf0f0f0f0		; FLAT-NEXT: s_mov_b32 s5, 0xf0f0f0f0
; FLAT-NEXT: s_mov_b32 s1, 0x33333333		; FLAT-NEXT: s_mov_b32 s6, 0x33333333
; FLAT-NEXT: s_mov_b32 s3, 0xcccccccc		; FLAT-NEXT: s_mov_b32 s7, 0xcccccccc
		; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; FLAT-NEXT: s_mov_b32 s8, 0x55555555		; FLAT-NEXT: s_mov_b32 s8, 0x55555555
; FLAT-NEXT: s_mov_b32 s9, 0xaaaaaaaa		; FLAT-NEXT: s_mov_b32 s9, 0xaaaaaaaa
; FLAT-NEXT: s_mov_b32 s7, 0xf000		; FLAT-NEXT: s_mov_b32 s3, 0xf000
; FLAT-NEXT: s_mov_b32 s6, -1		; FLAT-NEXT: s_mov_b32 s2, -1
; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; FLAT-NEXT: v_lshlrev_b64 v[4:5], 24, v[2:3]		; FLAT-NEXT: v_lshlrev_b64 v[4:5], 24, v[2:3]
; FLAT-NEXT: v_lshlrev_b32_sdwa v12, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; FLAT-NEXT: v_lshlrev_b32_sdwa v12, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; FLAT-NEXT: v_lshlrev_b32_sdwa v15, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; FLAT-NEXT: v_lshlrev_b32_sdwa v15, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; FLAT-NEXT: v_lshlrev_b64 v[8:9], 8, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[8:9], 8, v[0:1]
; FLAT-NEXT: v_lshlrev_b64 v[6:7], 8, v[2:3]		; FLAT-NEXT: v_lshlrev_b64 v[6:7], 8, v[2:3]
; FLAT-NEXT: v_alignbit_b32 v4, v3, v2, 24		; FLAT-NEXT: v_alignbit_b32 v4, v3, v2, 24
; FLAT-NEXT: v_alignbit_b32 v11, v3, v2, 8		; FLAT-NEXT: v_alignbit_b32 v11, v3, v2, 8
Show All 19 Lines
; FLAT-NEXT: v_or_b32_e32 v2, v6, v2		; FLAT-NEXT: v_or_b32_e32 v2, v6, v2
; FLAT-NEXT: v_or_b32_e32 v3, v0, v3		; FLAT-NEXT: v_or_b32_e32 v3, v0, v3
; FLAT-NEXT: v_or_b32_sdwa v0, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; FLAT-NEXT: v_or_b32_sdwa v0, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; FLAT-NEXT: v_or_b32_e32 v6, v8, v10		; FLAT-NEXT: v_or_b32_e32 v6, v8, v10
; FLAT-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; FLAT-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; FLAT-NEXT: v_or_b32_e32 v7, v2, v0		; FLAT-NEXT: v_or_b32_e32 v7, v2, v0
; FLAT-NEXT: v_or_b32_e32 v5, v5, v12		; FLAT-NEXT: v_or_b32_e32 v5, v5, v12
; FLAT-NEXT: v_or_b32_e32 v8, v6, v1		; FLAT-NEXT: v_or_b32_e32 v8, v6, v1
; FLAT-NEXT: v_and_b32_e32 v0, s2, v3		; FLAT-NEXT: v_and_b32_e32 v0, s4, v3
; FLAT-NEXT: v_and_b32_e32 v1, s2, v7		; FLAT-NEXT: v_and_b32_e32 v1, s4, v7
; FLAT-NEXT: v_and_b32_e32 v2, s0, v3		; FLAT-NEXT: v_and_b32_e32 v2, s5, v3
; FLAT-NEXT: v_and_b32_e32 v3, s0, v7		; FLAT-NEXT: v_and_b32_e32 v3, s5, v7
; FLAT-NEXT: v_and_b32_e32 v4, s2, v5		; FLAT-NEXT: v_and_b32_e32 v4, s4, v5
; FLAT-NEXT: v_and_b32_e32 v6, s0, v5		; FLAT-NEXT: v_and_b32_e32 v6, s5, v5
; FLAT-NEXT: v_and_b32_e32 v5, s2, v8		; FLAT-NEXT: v_and_b32_e32 v5, s4, v8
; FLAT-NEXT: v_and_b32_e32 v7, s0, v8		; FLAT-NEXT: v_and_b32_e32 v7, s5, v8
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]
; FLAT-NEXT: v_lshlrev_b64 v[4:5], 4, v[4:5]		; FLAT-NEXT: v_lshlrev_b64 v[4:5], 4, v[4:5]
; FLAT-NEXT: v_lshrrev_b64 v[6:7], 4, v[6:7]		; FLAT-NEXT: v_lshrrev_b64 v[6:7], 4, v[6:7]
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_or_b32_e32 v7, v7, v5		; FLAT-NEXT: v_or_b32_e32 v7, v7, v5
; FLAT-NEXT: v_or_b32_e32 v6, v6, v4		; FLAT-NEXT: v_or_b32_e32 v6, v6, v4
; FLAT-NEXT: v_and_b32_e32 v1, s1, v3		; FLAT-NEXT: v_and_b32_e32 v1, s6, v3
; FLAT-NEXT: v_and_b32_e32 v0, s1, v2		; FLAT-NEXT: v_and_b32_e32 v0, s6, v2
; FLAT-NEXT: v_and_b32_e32 v5, s1, v7		; FLAT-NEXT: v_and_b32_e32 v5, s6, v7
; FLAT-NEXT: v_and_b32_e32 v4, s1, v6		; FLAT-NEXT: v_and_b32_e32 v4, s6, v6
; FLAT-NEXT: v_and_b32_e32 v3, s3, v3		; FLAT-NEXT: v_and_b32_e32 v3, s7, v3
; FLAT-NEXT: v_and_b32_e32 v2, s3, v2		; FLAT-NEXT: v_and_b32_e32 v2, s7, v2
; FLAT-NEXT: v_and_b32_e32 v7, s3, v7		; FLAT-NEXT: v_and_b32_e32 v7, s7, v7
; FLAT-NEXT: v_and_b32_e32 v6, s3, v6		; FLAT-NEXT: v_and_b32_e32 v6, s7, v6
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]
; FLAT-NEXT: v_lshlrev_b64 v[4:5], 2, v[4:5]		; FLAT-NEXT: v_lshlrev_b64 v[4:5], 2, v[4:5]
; FLAT-NEXT: v_lshrrev_b64 v[6:7], 2, v[6:7]		; FLAT-NEXT: v_lshrrev_b64 v[6:7], 2, v[6:7]
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_or_b32_e32 v7, v7, v5		; FLAT-NEXT: v_or_b32_e32 v7, v7, v5
; FLAT-NEXT: v_or_b32_e32 v6, v6, v4		; FLAT-NEXT: v_or_b32_e32 v6, v6, v4
; FLAT-NEXT: v_and_b32_e32 v1, s8, v3		; FLAT-NEXT: v_and_b32_e32 v1, s8, v3
; FLAT-NEXT: v_and_b32_e32 v0, s8, v2		; FLAT-NEXT: v_and_b32_e32 v0, s8, v2
; FLAT-NEXT: v_and_b32_e32 v5, s8, v7		; FLAT-NEXT: v_and_b32_e32 v5, s8, v7
; FLAT-NEXT: v_and_b32_e32 v4, s8, v6		; FLAT-NEXT: v_and_b32_e32 v4, s8, v6
; FLAT-NEXT: v_and_b32_e32 v3, s9, v3		; FLAT-NEXT: v_and_b32_e32 v3, s9, v3
; FLAT-NEXT: v_and_b32_e32 v2, s9, v2		; FLAT-NEXT: v_and_b32_e32 v2, s9, v2
; FLAT-NEXT: v_and_b32_e32 v7, s9, v7		; FLAT-NEXT: v_and_b32_e32 v7, s9, v7
; FLAT-NEXT: v_and_b32_e32 v6, s9, v6		; FLAT-NEXT: v_and_b32_e32 v6, s9, v6
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]
; FLAT-NEXT: v_lshlrev_b64 v[4:5], 1, v[4:5]		; FLAT-NEXT: v_lshlrev_b64 v[4:5], 1, v[4:5]
; FLAT-NEXT: v_lshrrev_b64 v[6:7], 1, v[6:7]		; FLAT-NEXT: v_lshrrev_b64 v[6:7], 1, v[6:7]
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_or_b32_e32 v1, v7, v5		; FLAT-NEXT: v_or_b32_e32 v1, v7, v5
; FLAT-NEXT: v_or_b32_e32 v0, v6, v4		; FLAT-NEXT: v_or_b32_e32 v0, v6, v4
; FLAT-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; FLAT-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; FLAT-NEXT: s_endpgm		; FLAT-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <2 x i64> , <2 x i64> addrspace(1)* %valptr, i32 %tid		%gep = getelementptr <2 x i64> , <2 x i64> addrspace(1)* %valptr, i32 %tid
%val = load <2 x i64>, <2 x i64> addrspace(1)* %gep		%val = load <2 x i64>, <2 x i64> addrspace(1)* %gep
%brev = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %val) #1		%brev = call <2 x i64> @llvm.bitreverse.v2i64(<2 x i64> %val) #1
store <2 x i64> %brev, <2 x i64> addrspace(1)* %out		store <2 x i64> %brev, <2 x i64> addrspace(1)* %out
ret void		ret void
}		}
Show All 26 Lines

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

Show First 20 Lines • Show All 857 Lines • ▼ Show 20 Lines	call void @external_void_func_12xv3f32(
<3 x float><float 9.0, float 9.0, float 9.0>,		<3 x float><float 9.0, float 9.0, float 9.0>,
<3 x float><float 10.0, float 11.0, float 12.0>,		<3 x float><float 10.0, float 11.0, float 12.0>,
<3 x float><float 13.0, float 14.0, float 15.0>)		<3 x float><float 13.0, float 14.0, float 15.0>)
ret void		ret void
}		}

; GCN-LABEL: {{^}}stack_8xv5i32:		; GCN-LABEL: {{^}}stack_8xv5i32:

; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 8		; GCN-DAG: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 9		; GCN-DAG: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 10		; GCN-DAG: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 11		; GCN-DAG: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12		; GCN-DAG: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
; GCN: buffer_store_dword [[REG8]], {{.*$}}		; GCN-DAG: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4		; GCN-DAG: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8		; GCN-DAG: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12		; GCN-DAG: buffer_store_dword [[REG8]], {{.*$}}
; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16		; GCN-DAG: buffer_store_dword [[REG9]], {{.*}} offset:4
; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13		; GCN-DAG: buffer_store_dword [[REG10]], {{.*}} offset:8
; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14		; GCN-DAG: buffer_store_dword [[REG11]], {{.*}} offset:12
; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15		; GCN-DAG: buffer_store_dword [[REG12]], {{.*}} offset:16
; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20		; GCN-DAG: buffer_store_dword [[REG13]], {{.*}} offset:20
; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24		; GCN-DAG: buffer_store_dword [[REG14]], {{.*}} offset:24
; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28		; GCN-DAG: buffer_store_dword [[REG15]], {{.*}} offset:28

; GCN: v_mov_b32_e32 v31, 7		; GCN: v_mov_b32_e32 v31, 7
; GCN: s_getpc		; GCN: s_getpc
define void @stack_8xv5i32() #0 {		define void @stack_8xv5i32() #0 {
entry:		entry:
call void @external_void_func_8xv5i32(		call void @external_void_func_8xv5i32(
<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,		<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,
<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,		<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,
<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,		<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,
<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,		<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,
<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,		<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,
<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,		<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,
<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,		<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,
<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)		<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)
ret void		ret void
}		}

; GCN-LABEL: {{^}}stack_8xv5f32:		; GCN-LABEL: {{^}}stack_8xv5f32:
; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000		; GCN-DAG: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000
; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000		; GCN-DAG: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000
; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000		; GCN-DAG: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000
; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000		; GCN-DAG: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000
; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000		; GCN-DAG: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000
; GCN: buffer_store_dword [[REG8]], {{.*$}}		; GCN-DAG: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4		; GCN-DAG: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8		; GCN-DAG: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12		; GCN-DAG: buffer_store_dword [[REG8]], {{.*$}}
; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16		; GCN-DAG: buffer_store_dword [[REG9]], {{.*}} offset:4
; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000		; GCN-DAG: buffer_store_dword [[REG10]], {{.*}} offset:8
; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000		; GCN-DAG: buffer_store_dword [[REG11]], {{.*}} offset:12
; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000		; GCN-DAG: buffer_store_dword [[REG12]], {{.*}} offset:16
; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20		; GCN-DAG: buffer_store_dword [[REG13]], {{.*}} offset:20
; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24		; GCN-DAG: buffer_store_dword [[REG14]], {{.*}} offset:24
; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28		; GCN-DAG: buffer_store_dword [[REG15]], {{.*}} offset:28

; GCN: v_mov_b32_e32 v31, 0x40e00000		; GCN: v_mov_b32_e32 v31, 0x40e00000
; GCN: s_getpc		; GCN: s_getpc
define void @stack_8xv5f32() #0 {		define void @stack_8xv5f32() #0 {
entry:		entry:
call void @external_void_func_8xv5f32(		call void @external_void_func_8xv5f32(
<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,		<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,
<5 x float><float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>,		<5 x float><float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>,
Show All 22 Lines

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4		%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_copy_v4i8_x2(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {		define amdgpu_kernel void @test_copy_v4i8_x2(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {
; SI-LABEL: test_copy_v4i8_x2:		; SI-LABEL: test_copy_v4i8_x2:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s11, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s11
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s10, -1		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s8, s6		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s9, s7		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mov_b32 s6, s10		; SI-NEXT: s_mov_b32 s0, s6
; SI-NEXT: s_mov_b32 s7, s11		; SI-NEXT: s_mov_b32 s1, s7
		; SI-NEXT: s_mov_b32 s6, s2
		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; SI-NEXT: buffer_store_dword v0, off, s[8:11], 0		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_copy_v4i8_x2:		; VI-LABEL: test_copy_v4i8_x2:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; VI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s3, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s2, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_mov_b32 s0, s6		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_mov_b32_e32 v1, s9		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_add_u32_e32 v0, vcc, s8, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: s_mov_b32 s0, s6
; VI-NEXT: s_mov_b32 s1, s7		; VI-NEXT: s_mov_b32 s1, s7
; VI-NEXT: s_mov_b32 s6, s2		; VI-NEXT: s_mov_b32 s6, s2
; VI-NEXT: s_mov_b32 s7, s3		; VI-NEXT: s_mov_b32 s7, s3
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0)
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid.x = call i32 @llvm.amdgcn.workitem.id.x()		%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x		%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4		%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4
store <4 x i8> %val, <4 x i8> addrspace(1)* %out1, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out1, align 4
▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
store <4 x i8> %val, <4 x i8> addrspace(1)* %out2, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out2, align 4
store <4 x i8> %val, <4 x i8> addrspace(1)* %out3, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out3, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_copy_v4i8_extra_use(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {		define amdgpu_kernel void @test_copy_v4i8_extra_use(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {
; SI-LABEL: test_copy_v4i8_extra_use:		; SI-LABEL: test_copy_v4i8_extra_use:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s11, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s11
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s10, -1		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s0, 0xff00		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s8, s6		; SI-NEXT: s_mov_b32 s8, 0xff00
; SI-NEXT: s_mov_b32 s9, s7		; SI-NEXT: s_movk_i32 s9, 0xff
; SI-NEXT: s_mov_b32 s6, s10		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mov_b32 s7, s11		; SI-NEXT: s_mov_b32 s0, s6
; SI-NEXT: s_movk_i32 s1, 0xff		; SI-NEXT: s_mov_b32 s1, s7
		; SI-NEXT: s_mov_b32 s6, s2
		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; SI-NEXT: v_and_b32_e32 v2, s0, v0		; SI-NEXT: v_and_b32_e32 v2, s8, v0
; SI-NEXT: s_waitcnt expcnt(0)		; SI-NEXT: s_waitcnt expcnt(0)
; SI-NEXT: v_add_i32_e32 v0, vcc, 9, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, 9, v0
; SI-NEXT: v_and_b32_e32 v0, s1, v0		; SI-NEXT: v_and_b32_e32 v0, s9, v0
; SI-NEXT: v_and_b32_e32 v3, s0, v1		; SI-NEXT: v_and_b32_e32 v3, s8, v1
; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1		; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1
; SI-NEXT: v_or_b32_e32 v0, v2, v0		; SI-NEXT: v_or_b32_e32 v0, v2, v0
; SI-NEXT: v_and_b32_e32 v1, s1, v1		; SI-NEXT: v_and_b32_e32 v1, s9, v1
; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0
; SI-NEXT: v_or_b32_e32 v1, v3, v1		; SI-NEXT: v_or_b32_e32 v1, v3, v1
; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0		; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; SI-NEXT: v_or_b32_e32 v0, v1, v0		; SI-NEXT: v_or_b32_e32 v0, v1, v0
; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0
; SI-NEXT: buffer_store_dword v0, off, s[8:11], 0		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_copy_v4i8_extra_use:		; VI-LABEL: test_copy_v4i8_extra_use:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_movk_i32 s8, 0xff00		; VI-NEXT: s_movk_i32 s8, 0xff00
; VI-NEXT: s_mov_b32 s3, 0xf000		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s2, -1		; VI-NEXT: s_movk_i32 s9, 0xff
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_mov_b32 s0, s6
; VI-NEXT: s_mov_b32 s1, s7
; VI-NEXT: s_movk_i32 s9, 0xff
; VI-NEXT: s_mov_b32 s6, s2
; VI-NEXT: s_mov_b32 s7, s3
; VI-NEXT: s_movk_i32 s10, 0x900		; VI-NEXT: s_movk_i32 s10, 0x900
		; VI-NEXT: s_mov_b32 s7, 0xf000
		; VI-NEXT: s_mov_b32 s6, -1
		; VI-NEXT: s_mov_b32 s4, s2
		; VI-NEXT: s_mov_b32 s5, s3
		; VI-NEXT: s_mov_b32 s2, s6
		; VI-NEXT: s_mov_b32 s3, s7
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; VI-NEXT: v_and_b32_e32 v3, s8, v1		; VI-NEXT: v_and_b32_e32 v4, s8, v1
; VI-NEXT: v_add_u16_e32 v1, 9, v1		; VI-NEXT: v_add_u16_e32 v1, 9, v1
		; VI-NEXT: v_add_u16_e32 v3, 9, v0
; VI-NEXT: v_and_b32_e32 v1, s9, v1		; VI-NEXT: v_and_b32_e32 v1, s9, v1
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: v_or_b32_e32 v1, v4, v1
; VI-NEXT: v_and_b32_e32 v2, s8, v0		; VI-NEXT: v_and_b32_e32 v2, s8, v0
; VI-NEXT: v_add_u16_e32 v0, 9, v0		; VI-NEXT: v_and_b32_e32 v3, s9, v3
; VI-NEXT: v_and_b32_e32 v0, s9, v0		; VI-NEXT: v_or_b32_e32 v2, v2, v3
; VI-NEXT: v_or_b32_e32 v1, v3, v1
; VI-NEXT: v_or_b32_e32 v0, v2, v0
; VI-NEXT: v_add_u16_e32 v1, s10, v1		; VI-NEXT: v_add_u16_e32 v1, s10, v1
; VI-NEXT: v_add_u16_e32 v0, s10, v0		; VI-NEXT: v_add_u16_e32 v2, s10, v2
; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; VI-NEXT: v_or_b32_e32 v0, v0, v1		; VI-NEXT: v_or_b32_e32 v1, v2, v1
; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; VI-NEXT: buffer_store_dword v1, off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid.x = call i32 @llvm.amdgcn.workitem.id.x()		%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x		%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4		%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
%add = add <4 x i8> %val, <i8 9, i8 9, i8 9, i8 9>		%add = add <4 x i8> %val, <i8 9, i8 9, i8 9, i8 9>
store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out0, align 4
store <4 x i8> %add, <4 x i8> addrspace(1)* %out1, align 4		store <4 x i8> %add, <4 x i8> addrspace(1)* %out1, align 4
ret void		ret void
▲ Show 20 Lines • Show All 323 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ctlz.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; EG-NEXT: 32(4.484155e-44), 2(2.802597e-45)
%ctlz = call i32 @llvm.ctlz.i32(i32 %val, i1 false) nounwind readnone		%ctlz = call i32 @llvm.ctlz.i32(i32 %val, i1 false) nounwind readnone
store i32 %ctlz, i32 addrspace(1)* %out, align 4		store i32 %ctlz, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i32(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i32(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i32:		; SI-LABEL: v_ctlz_i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v1, v0		; SI-NEXT: v_ffbh_u32_e32 v1, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i32:		; VI-LABEL: v_ctlz_i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v1, v0		; VI-NEXT: v_ffbh_u32_e32 v1, v0
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i32:		; EG-LABEL: v_ctlz_i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 3, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 3, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
Show All 16 Lines	; EG-NEXT: 32(4.484155e-44), 2(2.802597e-45)
%ctlz = call i32 @llvm.ctlz.i32(i32 %val, i1 false) nounwind readnone		%ctlz = call i32 @llvm.ctlz.i32(i32 %val, i1 false) nounwind readnone
store i32 %ctlz, i32 addrspace(1)* %out, align 4		store i32 %ctlz, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_v2i32(<2 x i32> addrspace(1)* noalias %out, <2 x i32> addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_v2i32(<2 x i32> addrspace(1)* noalias %out, <2 x i32> addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_v2i32:		; SI-LABEL: v_ctlz_v2i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v2, v1		; SI-NEXT: v_ffbh_u32_e32 v2, v1
; SI-NEXT: v_ffbh_u32_e32 v3, v0		; SI-NEXT: v_ffbh_u32_e32 v3, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; SI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc		; SI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; SI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_v2i32:		; VI-LABEL: v_ctlz_v2i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v2, v1		; VI-NEXT: v_ffbh_u32_e32 v2, v1
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; VI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc		; VI-NEXT: v_cndmask_b32_e32 v1, 32, v2, vcc
; VI-NEXT: v_ffbh_u32_e32 v3, v0		; VI-NEXT: v_ffbh_u32_e32 v3, v0
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; VI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, 32, v3, vcc
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_v2i32:		; EG-LABEL: v_ctlz_v2i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 6, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 6, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XY, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XY, T1.X, 1
Show All 19 Lines	; EG-NEXT: 32(4.484155e-44), 2(2.802597e-45)
%ctlz = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %val, i1 false) nounwind readnone		%ctlz = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %val, i1 false) nounwind readnone
store <2 x i32> %ctlz, <2 x i32> addrspace(1)* %out, align 8		store <2 x i32> %ctlz, <2 x i32> addrspace(1)* %out, align 8
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_v4i32(<4 x i32> addrspace(1)* noalias %out, <4 x i32> addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_v4i32(<4 x i32> addrspace(1)* noalias %out, <4 x i32> addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_v4i32:		; SI-LABEL: v_ctlz_v4i32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v4, v3		; SI-NEXT: v_ffbh_u32_e32 v4, v3
; SI-NEXT: v_ffbh_u32_e32 v5, v2		; SI-NEXT: v_ffbh_u32_e32 v5, v2
; SI-NEXT: v_ffbh_u32_e32 v6, v1		; SI-NEXT: v_ffbh_u32_e32 v6, v1
; SI-NEXT: v_ffbh_u32_e32 v7, v0		; SI-NEXT: v_ffbh_u32_e32 v7, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
; SI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc		; SI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
; SI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; SI-NEXT: v_cndmask_b32_e32 v1, 32, v6, vcc		; SI-NEXT: v_cndmask_b32_e32 v1, 32, v6, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; SI-NEXT: v_cndmask_b32_e32 v0, 32, v7, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 32, v7, vcc
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_v4i32:		; VI-LABEL: v_ctlz_v4i32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v4, v3		; VI-NEXT: v_ffbh_u32_e32 v4, v3
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
; VI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc		; VI-NEXT: v_cndmask_b32_e32 v3, 32, v4, vcc
; VI-NEXT: v_ffbh_u32_e32 v5, v2		; VI-NEXT: v_ffbh_u32_e32 v5, v2
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
; VI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc		; VI-NEXT: v_cndmask_b32_e32 v2, 32, v5, vcc
; VI-NEXT: v_ffbh_u32_e32 v6, v1		; VI-NEXT: v_ffbh_u32_e32 v6, v1
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; VI-NEXT: v_cndmask_b32_e32 v1, 32, v6, vcc		; VI-NEXT: v_cndmask_b32_e32 v1, 32, v6, vcc
; VI-NEXT: v_ffbh_u32_e32 v7, v0		; VI-NEXT: v_ffbh_u32_e32 v7, v0
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; VI-NEXT: v_cndmask_b32_e32 v0, 32, v7, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, 32, v7, vcc
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_v4i32:		; EG-LABEL: v_ctlz_v4i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 12, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 12, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XYZW, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.XYZW, T1.X, 1
Show All 25 Lines	; EG-NEXT: 32(4.484155e-44), 2(2.802597e-45)
%ctlz = call <4 x i32> @llvm.ctlz.v4i32(<4 x i32> %val, i1 false) nounwind readnone		%ctlz = call <4 x i32> @llvm.ctlz.v4i32(<4 x i32> %val, i1 false) nounwind readnone
store <4 x i32> %ctlz, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %ctlz, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i8(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i8(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i8:		; SI-LABEL: v_ctlz_i8:
; SI: ; %bb.0:		; SI: ; %bb.0:
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s6, s2		; SI-NEXT: s_mov_b32 s6, s2
; SI-NEXT: s_mov_b32 s7, s3		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v0, off, s[4:7], 0		; SI-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v1, v0		; SI-NEXT: v_ffbh_u32_e32 v1, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
%trunc = trunc i64 %ctlz to i32		%trunc = trunc i64 %ctlz to i32
store i32 %trunc, i32 addrspace(1)* %out		store i32 %trunc, i32 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @v_ctlz_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: v_ctlz_i64:		; SI-LABEL: v_ctlz_i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b64 s[10:11], s[6:7]		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v4, v2		; SI-NEXT: v_ffbh_u32_e32 v4, v2
; SI-NEXT: v_ffbh_u32_e32 v5, v3		; SI-NEXT: v_ffbh_u32_e32 v5, v3
; SI-NEXT: v_or_b32_e32 v2, v2, v3		; SI-NEXT: v_or_b32_e32 v2, v2, v3
; SI-NEXT: v_add_i32_e32 v4, vcc, 32, v4		; SI-NEXT: v_add_i32_e32 v4, vcc, 32, v4
; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3		; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
; SI-NEXT: v_cndmask_b32_e32 v3, v5, v4, vcc		; SI-NEXT: v_cndmask_b32_e32 v3, v5, v4, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
; SI-NEXT: v_cndmask_b32_e32 v2, 64, v3, vcc		; SI-NEXT: v_cndmask_b32_e32 v2, 64, v3, vcc
; SI-NEXT: v_mov_b32_e32 v3, v1		; SI-NEXT: v_mov_b32_e32 v3, v1
; SI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i64:		; VI-LABEL: v_ctlz_i64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; VI-NEXT: v_mov_b32_e32 v5, 0		; VI-NEXT: v_mov_b32_e32 v5, 0
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)		%ctlz = call i64 @llvm.ctlz.i64(i64 %val, i1 false)
store i64 %ctlz, i64 addrspace(1)* %out.gep		store i64 %ctlz, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i64_trunc(i32 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @v_ctlz_i64_trunc(i32 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: v_ctlz_i64_trunc:		; SI-LABEL: v_ctlz_i64_trunc:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: v_lshlrev_b32_e32 v1, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v1, 3, v0
; SI-NEXT: v_mov_b32_e32 v2, 0		; SI-NEXT: v_mov_b32_e32 v2, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[3:4], v[1:2], s[4:7], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[3:4], v[1:2], s[4:7], 0 addr64
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; SI-NEXT: s_mov_b64 s[10:11], s[6:7]
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v3		; SI-NEXT: v_ffbh_u32_e32 v0, v3
; SI-NEXT: v_ffbh_u32_e32 v5, v4		; SI-NEXT: v_ffbh_u32_e32 v5, v4
; SI-NEXT: v_or_b32_e32 v3, v3, v4		; SI-NEXT: v_or_b32_e32 v3, v3, v4
; SI-NEXT: v_add_i32_e32 v0, vcc, 32, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, 32, v0
; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4		; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
; SI-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
; SI-NEXT: v_cndmask_b32_e32 v0, 64, v0, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 64, v0, vcc
; SI-NEXT: buffer_store_dword v0, v[1:2], s[8:11], 0 addr64		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i64_trunc:		; VI-LABEL: v_ctlz_i64_trunc:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v1, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v1, 3, v0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
%trunc = trunc i64 %ctlz to i32		%trunc = trunc i64 %ctlz to i32
store i32 %trunc, i32 addrspace(1)* %out.gep		store i32 %trunc, i32 addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i32_sel_eq_neg1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i32_sel_eq_neg1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i32_sel_eq_neg1:		; SI-LABEL: v_ctlz_i32_sel_eq_neg1:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v0		; SI-NEXT: v_ffbh_u32_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i32_sel_eq_neg1:		; VI-LABEL: v_ctlz_i32_sel_eq_neg1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v0, v0		; VI-NEXT: v_ffbh_u32_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i32_sel_eq_neg1:		; EG-LABEL: v_ctlz_i32_sel_eq_neg1:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 5, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 5, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
Show All 20 Lines	; EG-NEXT: -1(nan), 2(2.802597e-45)
%sel = select i1 %cmp, i32 -1, i32 %ctlz		%sel = select i1 %cmp, i32 -1, i32 %ctlz
store i32 %sel, i32 addrspace(1)* %out		store i32 %sel, i32 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i32_sel_ne_neg1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i32_sel_ne_neg1(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i32_sel_ne_neg1:		; SI-LABEL: v_ctlz_i32_sel_ne_neg1:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v0		; SI-NEXT: v_ffbh_u32_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i32_sel_ne_neg1:		; VI-LABEL: v_ctlz_i32_sel_ne_neg1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v0, v0		; VI-NEXT: v_ffbh_u32_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i32_sel_ne_neg1:		; EG-LABEL: v_ctlz_i32_sel_ne_neg1:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 5, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 5, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
Show All 21 Lines	; EG-NEXT: -1(nan), 2(2.802597e-45)
store i32 %sel, i32 addrspace(1)* %out		store i32 %sel, i32 addrspace(1)* %out
ret void		ret void
}		}

; TODO: Should be able to eliminate select here as well.		; TODO: Should be able to eliminate select here as well.
define amdgpu_kernel void @v_ctlz_i32_sel_eq_bitwidth(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i32_sel_eq_bitwidth(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i32_sel_eq_bitwidth:		; SI-LABEL: v_ctlz_i32_sel_eq_bitwidth:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v1, v0		; SI-NEXT: v_ffbh_u32_e32 v1, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
; SI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i32_sel_eq_bitwidth:		; VI-LABEL: v_ctlz_i32_sel_eq_bitwidth:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v1, v0		; VI-NEXT: v_ffbh_u32_e32 v1, v0
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i32_sel_eq_bitwidth:		; EG-LABEL: v_ctlz_i32_sel_eq_bitwidth:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 7, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 7, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
Show All 22 Lines	; EG-NEXT: -1(nan), 2(2.802597e-45)
%sel = select i1 %cmp, i32 -1, i32 %ctlz		%sel = select i1 %cmp, i32 -1, i32 %ctlz
store i32 %sel, i32 addrspace(1)* %out		store i32 %sel, i32 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i32_sel_ne_bitwidth(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i32_sel_ne_bitwidth(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i32_sel_ne_bitwidth:		; SI-LABEL: v_ctlz_i32_sel_ne_bitwidth:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s10, 0
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v1, v0		; SI-NEXT: v_ffbh_u32_e32 v1, v0
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; SI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0		; SI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
; SI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i32_sel_ne_bitwidth:		; VI-LABEL: v_ctlz_i32_sel_ne_bitwidth:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v1, v0		; VI-NEXT: v_ffbh_u32_e32 v1, v0
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, 32, v1, vcc
; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0		; VI-NEXT: v_cmp_ne_u32_e32 vcc, 32, v0
; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc		; VI-NEXT: v_cndmask_b32_e32 v0, -1, v0, vcc
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i32_sel_ne_bitwidth:		; EG-LABEL: v_ctlz_i32_sel_ne_bitwidth:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 2, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 7, @11, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 7, @11, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1		; EG-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
Show All 22 Lines	; EG-NEXT: -1(nan), 2(2.802597e-45)
%sel = select i1 %cmp, i32 %ctlz, i32 -1		%sel = select i1 %cmp, i32 %ctlz, i32 -1
store i32 %sel, i32 addrspace(1)* %out		store i32 %sel, i32 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i8_sel_eq_neg1(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i8_sel_eq_neg1(i8 addrspace(1)* noalias %out, i8 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i8_sel_eq_neg1:		; SI-LABEL: v_ctlz_i8_sel_eq_neg1:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s10, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v0		; SI-NEXT: v_ffbh_u32_e32 v0, v0
; SI-NEXT: buffer_store_byte v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i8_sel_eq_neg1:		; VI-LABEL: v_ctlz_i8_sel_eq_neg1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v0, v0		; VI-NEXT: v_ffbh_u32_e32 v0, v0
; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0		; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i8_sel_eq_neg1:		; EG-LABEL: v_ctlz_i8_sel_eq_neg1:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT MSKOR T0.XW, T1.X		; EG-NEXT: MEM_RAT MSKOR T0.XW, T1.X
Show All 25 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
%sel = select i1 %cmp, i8 -1, i8 %ctlz		%sel = select i1 %cmp, i8 -1, i8 %ctlz
store i8 %sel, i8 addrspace(1)* %out		store i8 %sel, i8 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_ctlz_i16_sel_eq_neg1(i16 addrspace(1)* noalias %out, i16 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i16_sel_eq_neg1(i16 addrspace(1)* noalias %out, i16 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i16_sel_eq_neg1:		; SI-LABEL: v_ctlz_i16_sel_eq_neg1:
; SI: ; %bb.0:		; SI: ; %bb.0:
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_mov_b32 s6, s2		; SI-NEXT: s_mov_b32 s6, s2
; SI-NEXT: s_mov_b32 s7, s3		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ushort v0, off, s[4:7], 0		; SI-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v0		; SI-NEXT: v_ffbh_u32_e32 v0, v0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
store i16 %sel, i16 addrspace(1)* %out		store i16 %sel, i16 addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
define amdgpu_kernel void @v_ctlz_i7_sel_eq_neg1(i7 addrspace(1)* noalias %out, i7 addrspace(1)* noalias %valptr) nounwind {		define amdgpu_kernel void @v_ctlz_i7_sel_eq_neg1(i7 addrspace(1)* noalias %out, i7 addrspace(1)* noalias %valptr) nounwind {
; SI-LABEL: v_ctlz_i7_sel_eq_neg1:		; SI-LABEL: v_ctlz_i7_sel_eq_neg1:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s10, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s11, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[8:11], 0 addr64		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_ffbh_u32_e32 v0, v0		; SI-NEXT: v_ffbh_u32_e32 v0, v0
; SI-NEXT: v_and_b32_e32 v0, 0x7f, v0		; SI-NEXT: v_and_b32_e32 v0, 0x7f, v0
; SI-NEXT: buffer_store_byte v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_ctlz_i7_sel_eq_neg1:		; VI-LABEL: v_ctlz_i7_sel_eq_neg1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_ffbh_u32_e32 v0, v0		; VI-NEXT: v_ffbh_u32_e32 v0, v0
; VI-NEXT: v_and_b32_e32 v0, 0x7f, v0		; VI-NEXT: v_and_b32_e32 v0, 0x7f, v0
; VI-NEXT: buffer_store_byte v0, off, s[4:7], 0		; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; EG-LABEL: v_ctlz_i7_sel_eq_neg1:		; EG-LABEL: v_ctlz_i7_sel_eq_neg1:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]
; EG-NEXT: MEM_RAT MSKOR T0.XW, T1.X		; EG-NEXT: MEM_RAT MSKOR T0.XW, T1.X
Show All 29 Lines

llvm/test/CodeGen/AMDGPU/ctpop64.ll

Show All 39 Lines	define amdgpu_kernel void @v_ctpop_i64(i32 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {
%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone		%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone
%truncctpop = trunc i64 %ctpop to i32		%truncctpop = trunc i64 %ctpop to i32
store i32 %truncctpop, i32 addrspace(1)* %out, align 4		store i32 %truncctpop, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_ctpop_i64_user:		; FUNC-LABEL: {{^}}v_ctpop_i64_user:
; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},		; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},
		; GCN: v_mov_b32_e32 v[[RESULT_HI:[0-9]+]], s{{[0-9]+}}
; GCN: v_bcnt_u32_b32{{(_e64)*}} [[MIDRESULT:v[0-9]+]], v[[LOVAL]], 0		; GCN: v_bcnt_u32_b32{{(_e64)*}} [[MIDRESULT:v[0-9]+]], v[[LOVAL]], 0
; SI-NEXT: v_bcnt_u32_b32_e32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]		; SI-NEXT: v_bcnt_u32_b32_e32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
; VI-NEXT: v_bcnt_u32_b32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]		; VI-NEXT: v_bcnt_u32_b32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
; GCN-DAG: v_or_b32_e32 v[[RESULT_LO:[0-9]+]], s{{[0-9]+}}, [[RESULT]]		; GCN: v_or_b32_e32 v[[RESULT_LO:[0-9]+]], s{{[0-9]+}}, [[RESULT]]
; GCN-DAG: v_mov_b32_e32 v[[RESULT_HI:[0-9]+]], s{{[0-9]+}}
; GCN: buffer_store_dwordx2 v{{\[}}[[RESULT_LO]]:[[RESULT_HI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[RESULT_LO]]:[[RESULT_HI]]{{\]}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @v_ctpop_i64_user(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in, i64 %s.val) nounwind {		define amdgpu_kernel void @v_ctpop_i64_user(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in, i64 %s.val) nounwind {
%tid = call i32 @llvm.r600.read.tidig.x()		%tid = call i32 @llvm.r600.read.tidig.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %tid		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %tid
%val = load i64, i64 addrspace(1)* %in.gep, align 8		%val = load i64, i64 addrspace(1)* %in.gep, align 8
%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone		%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone
%or = or i64 %ctpop, %s.val		%or = or i64 %ctpop, %s.val
▲ Show 20 Lines • Show All 143 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn-- -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck %s -allow-deprecated-dag-overlap -check-prefixes=GCN,SI		; RUN: llc -mtriple=amdgcn-- -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck %s -allow-deprecated-dag-overlap -check-prefixes=GCN,SI
; RUN: llc -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck %s -allow-deprecated-dag-overlap -check-prefixes=GCN,VI		; RUN: llc -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck %s -allow-deprecated-dag-overlap -check-prefixes=GCN,VI

declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
declare i32 @llvm.amdgcn.workitem.id.y() nounwind readnone		declare i32 @llvm.amdgcn.workitem.id.y() nounwind readnone

define amdgpu_kernel void @load_i8_to_f32(float addrspace(1)* noalias %out, i8 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_i8_to_f32(float addrspace(1)* noalias %out, i8 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_i8_to_f32:		; SI-LABEL: load_i8_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s3, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_i8_to_f32:		; VI-LABEL: load_i8_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid		%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
%load = load i8, i8 addrspace(1)* %gep, align 1		%load = load i8, i8 addrspace(1)* %gep, align 1
%cvt = uitofp i8 %load to float		%cvt = uitofp i8 %load to float
store float %cvt, float addrspace(1)* %out, align 4		store float %cvt, float addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @load_v2i8_to_v2f32(<2 x float> addrspace(1)* noalias %out, <2 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v2i8_to_v2f32(<2 x float> addrspace(1)* noalias %out, <2 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v2i8_to_v2f32:		; SI-LABEL: load_v2i8_to_v2f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ushort v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v2i8_to_v2f32:		; VI-LABEL: load_v2i8_to_v2f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ushort v0, v[0:1]		; VI-NEXT: flat_load_ushort v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <2 x i8>, <2 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <2 x i8>, <2 x i8> addrspace(1)* %in, i32 %tid
%load = load <2 x i8>, <2 x i8> addrspace(1)* %gep, align 2		%load = load <2 x i8>, <2 x i8> addrspace(1)* %gep, align 2
%cvt = uitofp <2 x i8> %load to <2 x float>		%cvt = uitofp <2 x i8> %load to <2 x float>
store <2 x float> %cvt, <2 x float> addrspace(1)* %out, align 16		store <2 x float> %cvt, <2 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @load_v3i8_to_v3f32(<3 x float> addrspace(1)* noalias %out, <3 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v3i8_to_v3f32(<3 x float> addrspace(1)* noalias %out, <3 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v3i8_to_v3f32:		; SI-LABEL: load_v3i8_to_v3f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v2, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v2		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v2
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v2		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v2
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2
; SI-NEXT: buffer_store_dword v2, off, s[4:7], 0 offset:8		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dword v2, off, s[0:3], 0 offset:8
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v3i8_to_v3f32:		; VI-LABEL: load_v3i8_to_v3f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <3 x i8>, <3 x i8> addrspace(1)* %in, i32 %tid
%load = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4		%load = load <3 x i8>, <3 x i8> addrspace(1)* %gep, align 4
%cvt = uitofp <3 x i8> %load to <3 x float>		%cvt = uitofp <3 x i8> %load to <3 x float>
store <3 x float> %cvt, <3 x float> addrspace(1)* %out, align 16		store <3 x float> %cvt, <3 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @load_v4i8_to_v4f32(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v4i8_to_v4f32(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v4i8_to_v4f32:		; SI-LABEL: load_v4i8_to_v4f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v4i8_to_v4f32:		; VI-LABEL: load_v4i8_to_v4f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4		%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
%cvt = uitofp <4 x i8> %load to <4 x float>		%cvt = uitofp <4 x i8> %load to <4 x float>
store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; This should not be adding instructions to shift into the correct		; This should not be adding instructions to shift into the correct
; position in the word for the component.		; position in the word for the component.

; FIXME: Packing bytes		; FIXME: Packing bytes
define amdgpu_kernel void @load_v4i8_to_v4f32_unaligned(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v4i8_to_v4f32_unaligned(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v4i8_to_v4f32_unaligned:		; SI-LABEL: load_v4i8_to_v4f32_unaligned:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[4:7], 0 addr64
; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[0:3], 0 addr64 offset:1		; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[4:7], 0 addr64 offset:1
; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[0:3], 0 addr64 offset:2		; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[4:7], 0 addr64 offset:2
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64 offset:3		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64 offset:3
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(2)		; SI-NEXT: s_waitcnt vmcnt(2)
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v3		; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v3
; SI-NEXT: v_or_b32_e32 v1, v1, v2		; SI-NEXT: v_or_b32_e32 v1, v1, v2
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_or_b32_e32 v0, v0, v4		; SI-NEXT: v_or_b32_e32 v0, v0, v4
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v4i8_to_v4f32_unaligned:		; VI-LABEL: load_v4i8_to_v4f32_unaligned:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0		; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0
; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0		; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0		; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0
; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: flat_load_ubyte v1, v[6:7]		; VI-NEXT: flat_load_ubyte v1, v[6:7]
; VI-NEXT: flat_load_ubyte v4, v[4:5]		; VI-NEXT: flat_load_ubyte v4, v[4:5]
; VI-NEXT: flat_load_ubyte v2, v[2:3]		; VI-NEXT: flat_load_ubyte v2, v[2:3]
; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)		; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; VI-NEXT: v_or_b32_e32 v0, v1, v0		; VI-NEXT: v_or_b32_e32 v0, v1, v0
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; VI-NEXT: v_or_b32_e32 v2, v2, v4		; VI-NEXT: v_or_b32_e32 v2, v2, v4
; VI-NEXT: v_lshlrev_b32_e32 v3, 16, v2		; VI-NEXT: v_lshlrev_b32_e32 v3, 16, v2
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2		; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v3		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v3
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1		%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
%cvt = uitofp <4 x i8> %load to <4 x float>		%cvt = uitofp <4 x i8> %load to <4 x float>
store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
store <4 x i8> %add, <4 x i8> addrspace(1)* %out2, align 4		store <4 x i8> %add, <4 x i8> addrspace(1)* %out2, align 4
ret void		ret void
}		}

; Make sure this doesn't crash.		; Make sure this doesn't crash.
define amdgpu_kernel void @load_v7i8_to_v7f32(<7 x float> addrspace(1)* noalias %out, <7 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v7i8_to_v7f32(<7 x float> addrspace(1)* noalias %out, <7 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v7i8_to_v7f32:		; SI-LABEL: load_v7i8_to_v7f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[4:7], 0 addr64 offset:4
; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[0:3], 0 addr64 offset:1		; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[4:7], 0 addr64 offset:5
; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[0:3], 0 addr64 offset:2		; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[4:7], 0 addr64 offset:6
; SI-NEXT: buffer_load_ubyte v5, v[0:1], s[0:3], 0 addr64 offset:3		; SI-NEXT: buffer_load_ubyte v5, v[0:1], s[4:7], 0 addr64
; SI-NEXT: buffer_load_ubyte v6, v[0:1], s[0:3], 0 addr64 offset:4		; SI-NEXT: buffer_load_ubyte v6, v[0:1], s[4:7], 0 addr64 offset:1
; SI-NEXT: buffer_load_ubyte v7, v[0:1], s[0:3], 0 addr64 offset:5		; SI-NEXT: buffer_load_ubyte v7, v[0:1], s[4:7], 0 addr64 offset:2
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64 offset:6		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64 offset:3
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(5)		; SI-NEXT: s_waitcnt vmcnt(5)
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v3		; SI-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; SI-NEXT: v_or_b32_e32 v1, v1, v2		; SI-NEXT: s_waitcnt vmcnt(4)
		; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v4
		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v4, off, s[0:3], 0 offset:24
; SI-NEXT: s_waitcnt vmcnt(3)		; SI-NEXT: s_waitcnt vmcnt(3)
; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v5		; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v6
; SI-NEXT: v_or_b32_e32 v2, v2, v4		; SI-NEXT: v_or_b32_e32 v1, v1, v5
; SI-NEXT: s_waitcnt vmcnt(1)		; SI-NEXT: s_waitcnt vmcnt(1)
; SI-NEXT: v_lshlrev_b32_e32 v3, 8, v7		; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: v_or_b32_e32 v0, v0, v7
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0 offset:24
; SI-NEXT: s_waitcnt expcnt(0)
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_or_b32_e32 v4, v3, v6		; SI-NEXT: v_or_b32_e32 v5, v3, v2
; SI-NEXT: v_and_b32_e32 v5, 0xffff0000, v0		; SI-NEXT: s_waitcnt expcnt(0)
; SI-NEXT: v_or_b32_e32 v4, v4, v5		; SI-NEXT: v_and_b32_e32 v4, 0xffff0000, v0
		; SI-NEXT: v_or_b32_e32 v4, v5, v4
; SI-NEXT: v_cvt_f32_ubyte1_e32 v5, v4		; SI-NEXT: v_cvt_f32_ubyte1_e32 v5, v4
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v4		; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v4
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[4:7], 0 offset:16		; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v7i8_to_v7f32:		; VI-LABEL: load_v7i8_to_v7f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0		; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0
; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v4, vcc, 3, v0		; VI-NEXT: v_add_u32_e32 v4, vcc, 3, v0
; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v10, v[4:5]		; VI-NEXT: v_add_u32_e32 v6, vcc, 2, v0
; VI-NEXT: flat_load_ubyte v11, v[2:3]		; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v2, vcc, 2, v0		; VI-NEXT: flat_load_ubyte v8, v[6:7]
		; VI-NEXT: flat_load_ubyte v9, v[4:5]
		; VI-NEXT: flat_load_ubyte v10, v[2:3]
		; VI-NEXT: v_add_u32_e32 v2, vcc, 5, v0
; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v4, vcc, 5, v0		; VI-NEXT: v_add_u32_e32 v4, vcc, 4, v0
; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v6, vcc, 4, v0		; VI-NEXT: v_add_u32_e32 v6, vcc, 6, v0
; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v8, vcc, 6, v0
; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: flat_load_ubyte v1, v[8:9]		; VI-NEXT: flat_load_ubyte v1, v[6:7]
; VI-NEXT: flat_load_ubyte v7, v[6:7]
; VI-NEXT: flat_load_ubyte v4, v[4:5]		; VI-NEXT: flat_load_ubyte v4, v[4:5]
; VI-NEXT: flat_load_ubyte v2, v[2:3]		; VI-NEXT: flat_load_ubyte v2, v[2:3]
; VI-NEXT: s_waitcnt vmcnt(6) lgkmcnt(6)
; VI-NEXT: v_lshlrev_b32_e32 v5, 8, v10
; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)		; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)
; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v11		; VI-NEXT: v_lshlrev_b32_e32 v5, 8, v9
; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)		; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)
; VI-NEXT: v_or_b32_e32 v0, v3, v0		; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v10
; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)		; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)
		; VI-NEXT: v_or_b32_e32 v0, v3, v0
		; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v1		; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v1
; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)		; VI-NEXT: v_or_b32_sdwa v1, v5, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NEXT: v_lshlrev_b32_e32 v4, 8, v4
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_or_b32_sdwa v1, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NEXT: v_or_b32_e32 v0, v1, v0		; VI-NEXT: v_or_b32_e32 v0, v1, v0
; VI-NEXT: v_or_b32_e32 v4, v4, v7		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
		; VI-NEXT: v_or_b32_e32 v4, v2, v4
; VI-NEXT: v_and_b32_e32 v5, 0xffff0000, v0		; VI-NEXT: v_and_b32_e32 v5, 0xffff0000, v0
; VI-NEXT: v_or_b32_e32 v4, v4, v5		; VI-NEXT: v_or_b32_e32 v4, v4, v5
; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v4		; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v4
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v4		; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v4
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16		; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[0:3], 0 offset:16
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid
%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1		%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1
%cvt = uitofp <7 x i8> %load to <7 x float>		%cvt = uitofp <7 x i8> %load to <7 x float>
store <7 x float> %cvt, <7 x float> addrspace(1)* %out, align 16		store <7 x float> %cvt, <7 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @load_v8i8_to_v8f32(<8 x float> addrspace(1)* noalias %out, <8 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @load_v8i8_to_v8f32(<8 x float> addrspace(1)* noalias %out, <8 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: load_v8i8_to_v8f32:		; SI-LABEL: load_v8i8_to_v8f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[7:8], v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[7:8], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7
; SI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8		; SI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8
; SI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8		; SI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8
; SI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8		; SI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8
; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8		; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: load_v8i8_to_v8f32:		; VI-LABEL: load_v8i8_to_v8f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dwordx2 v[7:8], v[0:1]		; VI-NEXT: flat_load_dwordx2 v[7:8], v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v7
; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7		; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v7
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v7
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v7
; VI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8		; VI-NEXT: v_cvt_f32_ubyte3_e32 v7, v8
; VI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8		; VI-NEXT: v_cvt_f32_ubyte2_e32 v6, v8
; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8		; VI-NEXT: v_cvt_f32_ubyte1_e32 v5, v8
; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8		; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <8 x i8>, <8 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <8 x i8>, <8 x i8> addrspace(1)* %in, i32 %tid
%load = load <8 x i8>, <8 x i8> addrspace(1)* %gep, align 8		%load = load <8 x i8>, <8 x i8> addrspace(1)* %gep, align 8
%cvt = uitofp <8 x i8> %load to <8 x float>		%cvt = uitofp <8 x i8> %load to <8 x float>
store <8 x float> %cvt, <8 x float> addrspace(1)* %out, align 16		store <8 x float> %cvt, <8 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @i8_zext_inreg_i32_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @i8_zext_inreg_i32_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: i8_zext_inreg_i32_to_f32:		; SI-LABEL: i8_zext_inreg_i32_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_add_i32_e32 v0, vcc, 2, v0		; SI-NEXT: v_add_i32_e32 v0, vcc, 2, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: i8_zext_inreg_i32_to_f32:		; VI-LABEL: i8_zext_inreg_i32_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%load = load i32, i32 addrspace(1)* %gep, align 4		%load = load i32, i32 addrspace(1)* %gep, align 4
%add = add i32 %load, 2		%add = add i32 %load, 2
%inreg = and i32 %add, 255		%inreg = and i32 %add, 255
%cvt = uitofp i32 %inreg to float		%cvt = uitofp i32 %inreg to float
store float %cvt, float addrspace(1)* %out, align 4		store float %cvt, float addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @i8_zext_inreg_hi1_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @i8_zext_inreg_hi1_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: i8_zext_inreg_hi1_to_f32:		; SI-LABEL: i8_zext_inreg_hi1_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: i8_zext_inreg_hi1_to_f32:		; VI-LABEL: i8_zext_inreg_hi1_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%load = load i32, i32 addrspace(1)* %gep, align 4		%load = load i32, i32 addrspace(1)* %gep, align 4
%inreg = and i32 %load, 65280		%inreg = and i32 %load, 65280
%shr = lshr i32 %inreg, 8		%shr = lshr i32 %inreg, 8
%cvt = uitofp i32 %shr to float		%cvt = uitofp i32 %shr to float
store float %cvt, float addrspace(1)* %out, align 4		store float %cvt, float addrspace(1)* %out, align 4
ret void		ret void
}		}

; We don't get these ones because of the zext, but instcombine removes		; We don't get these ones because of the zext, but instcombine removes
; them so it shouldn't really matter.		; them so it shouldn't really matter.
define amdgpu_kernel void @i8_zext_i32_to_f32(float addrspace(1)* noalias %out, i8 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @i8_zext_i32_to_f32(float addrspace(1)* noalias %out, i8 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: i8_zext_i32_to_f32:		; SI-LABEL: i8_zext_i32_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s3, s7		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: i8_zext_i32_to_f32:		; VI-LABEL: i8_zext_i32_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s3, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid		%gep = getelementptr i8, i8 addrspace(1)* %in, i32 %tid
%load = load i8, i8 addrspace(1)* %gep, align 1		%load = load i8, i8 addrspace(1)* %gep, align 1
%ext = zext i8 %load to i32		%ext = zext i8 %load to i32
%cvt = uitofp i32 %ext to float		%cvt = uitofp i32 %ext to float
store float %cvt, float addrspace(1)* %out, align 4		store float %cvt, float addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @v4i8_zext_v4i32_to_v4f32(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @v4i8_zext_v4i32_to_v4f32(<4 x float> addrspace(1)* noalias %out, <4 x i8> addrspace(1)* noalias %in) nounwind {
; SI-LABEL: v4i8_zext_v4i32_to_v4f32:		; SI-LABEL: v4i8_zext_v4i32_to_v4f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[4:7], 0 addr64
; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[0:3], 0 addr64 offset:1		; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[4:7], 0 addr64 offset:1
; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[0:3], 0 addr64 offset:2		; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[4:7], 0 addr64 offset:2
; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64 offset:3		; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[4:7], 0 addr64 offset:3
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(2)		; SI-NEXT: s_waitcnt vmcnt(2)
; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v3		; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v3
; SI-NEXT: v_or_b32_e32 v1, v1, v2		; SI-NEXT: v_or_b32_e32 v1, v1, v2
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; SI-NEXT: v_or_b32_e32 v0, v0, v4		; SI-NEXT: v_or_b32_e32 v0, v0, v4
; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v4i8_zext_v4i32_to_v4f32:		; VI-LABEL: v4i8_zext_v4i32_to_v4f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0		; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0
; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v4, vcc, 3, v0		; VI-NEXT: v_add_u32_e32 v4, vcc, 3, v0
; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
; VI-NEXT: v_add_u32_e32 v6, vcc, 2, v0		; VI-NEXT: v_add_u32_e32 v6, vcc, 2, v0
; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
; VI-NEXT: flat_load_ubyte v0, v[0:1]		; VI-NEXT: flat_load_ubyte v0, v[0:1]
; VI-NEXT: flat_load_ubyte v1, v[6:7]		; VI-NEXT: flat_load_ubyte v1, v[6:7]
; VI-NEXT: flat_load_ubyte v4, v[4:5]		; VI-NEXT: flat_load_ubyte v4, v[4:5]
; VI-NEXT: flat_load_ubyte v2, v[2:3]		; VI-NEXT: flat_load_ubyte v2, v[2:3]
; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)		; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v4		; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v4
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; VI-NEXT: v_or_b32_e32 v4, v2, v0		; VI-NEXT: v_or_b32_e32 v4, v2, v0
; VI-NEXT: v_or_b32_sdwa v0, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI-NEXT: v_or_b32_sdwa v0, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NEXT: v_or_b32_e32 v0, v0, v4		; VI-NEXT: v_or_b32_e32 v0, v0, v4
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0		; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4		; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid		%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1		%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
%ext = zext <4 x i8> %load to <4 x i32>		%ext = zext <4 x i8> %load to <4 x i32>
%cvt = uitofp <4 x i32> %ext to <4 x float>		%cvt = uitofp <4 x i32> %ext to <4 x float>
store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @extract_byte0_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @extract_byte0_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: extract_byte0_to_f32:		; SI-LABEL: extract_byte0_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte0_to_f32:		; VI-LABEL: extract_byte0_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%and = and i32 %val, 255		%and = and i32 %val, 255
%cvt = uitofp i32 %and to float		%cvt = uitofp i32 %and to float
store float %cvt, float addrspace(1)* %out		store float %cvt, float addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @extract_byte1_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @extract_byte1_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: extract_byte1_to_f32:		; SI-LABEL: extract_byte1_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte1_to_f32:		; VI-LABEL: extract_byte1_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte1_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%srl = lshr i32 %val, 8		%srl = lshr i32 %val, 8
%and = and i32 %srl, 255		%and = and i32 %srl, 255
%cvt = uitofp i32 %and to float		%cvt = uitofp i32 %and to float
store float %cvt, float addrspace(1)* %out		store float %cvt, float addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @extract_byte2_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @extract_byte2_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: extract_byte2_to_f32:		; SI-LABEL: extract_byte2_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte2_to_f32:		; VI-LABEL: extract_byte2_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte2_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%srl = lshr i32 %val, 16		%srl = lshr i32 %val, 16
%and = and i32 %srl, 255		%and = and i32 %srl, 255
%cvt = uitofp i32 %and to float		%cvt = uitofp i32 %and to float
store float %cvt, float addrspace(1)* %out		store float %cvt, float addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @extract_byte3_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @extract_byte3_to_f32(float addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in) nounwind {
; SI-LABEL: extract_byte3_to_f32:		; SI-LABEL: extract_byte3_to_f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte3_to_f32:		; VI-LABEL: extract_byte3_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v0, v0
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%srl = lshr i32 %val, 24		%srl = lshr i32 %val, 24
%and = and i32 %srl, 255		%and = and i32 %srl, 255
%cvt = uitofp i32 %and to float		%cvt = uitofp i32 %and to float
store float %cvt, float addrspace(1)* %out		store float %cvt, float addrspace(1)* %out
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

Show First 20 Lines • Show All 2,398 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @free_fold_src_code_size_cost_use_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float addrspace(1)* %d.ptr) #0 {
%mul2 = fmul float %fneg.fma0, %d		%mul2 = fmul float %fneg.fma0, %d

store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
store volatile float %mul2, float addrspace(1)* %out		store volatile float %mul2, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}free_fold_src_code_size_cost_use_f64:		; GCN-LABEL: {{^}}free_fold_src_code_size_cost_use_f64:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[B:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[B:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[C:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[C:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[D:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[D:v\[[0-9]+:[0-9]+\]]]

; GCN: v_fma_f64 [[FMA0:v\[[0-9]+:[0-9]+\]]], [[A]], [[B]], 2.0		; GCN-DAG: v_fma_f64 [[FMA0:v\[[0-9]+:[0-9]+\]]], [[A]], [[B]], 2.0
; GCN-DAG: v_mul_f64 [[MUL0:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[C]]		; GCN-DAG: v_mul_f64 [[MUL0:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[C]]
; GCN-DAG: v_mul_f64 [[MUL1:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[D]]		; GCN-DAG: v_mul_f64 [[MUL1:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[D]]

; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]
; GCN-NEXT: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]		; GCN-NEXT: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]
define amdgpu_kernel void @free_fold_src_code_size_cost_use_f64(double addrspace(1)* %out, double addrspace(1)* %a.ptr, double addrspace(1)* %b.ptr, double addrspace(1)* %c.ptr, double addrspace(1)* %d.ptr) #0 {		define amdgpu_kernel void @free_fold_src_code_size_cost_use_f64(double addrspace(1)* %out, double addrspace(1)* %a.ptr, double addrspace(1)* %b.ptr, double addrspace(1)* %c.ptr, double addrspace(1)* %d.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
▲ Show 20 Lines • Show All 106 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot2.ll

Show First 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2:		; GFX10-DL-LABEL: udot2:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<2 x i16> addrspace(1)* %src2,		<2 x i16> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1		%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2		%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

▲ Show 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot2_i32_i16 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot2_i32_i16 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot2:		; GFX10-DL-LABEL: idot2:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot2_i32_i16 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot2_i32_i16 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<2 x i16> addrspace(1)* %src2,		<2 x i16> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1		%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2		%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_alt_AddOperands:		; GFX10-DL-LABEL: udot2_alt_AddOperands:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<2 x i16> addrspace(1)* %src2,		<2 x i16> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1		%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2		%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
; GFX8-LABEL: notudot2_SameVec:		; GFX8-LABEL: notudot2_SameVec:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0		; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0
; GFX8-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_lshr_b32 s2, s2, 16
		; GFX8-NEXT: v_mov_b32_e32 v0, s3
		; GFX8-NEXT: s_and_b32 s4, s4, 0xffff
		; GFX8-NEXT: v_mad_u32_u24 v0, s2, s2, v0
		; GFX8-NEXT: v_mad_u32_u24 v2, s4, s4, v0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s0, s2, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s3
; GFX8-NEXT: s_and_b32 s1, s4, 0xffff
; GFX8-NEXT: v_mad_u32_u24 v2, s0, s0, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s1, s1, v2
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: notudot2_SameVec:		; GFX9-NODL-LABEL: notudot2_SameVec:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-NODL-NEXT: s_load_dword s3, s[0:1], 0x0		; GFX9-NODL-NEXT: s_load_dword s3, s[0:1], 0x0
; GFX9-NODL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 16
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s3
		; GFX9-NODL-NEXT: s_and_b32 s4, s4, 0xffff
		; GFX9-NODL-NEXT: v_mad_u32_u24 v0, s2, s2, v0
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, s4, v0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_lshr_b32 s0, s2, 16
; GFX9-NODL-NEXT: v_mov_b32_e32 v2, s3
; GFX9-NODL-NEXT: s_and_b32 s1, s4, 0xffff
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, s0, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, s1, v2
; GFX9-NODL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: notudot2_SameVec:		; GFX9-DL-LABEL: notudot2_SameVec:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 16
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s3
		; GFX9-DL-NEXT: s_and_b32 s4, s4, 0xffff
		; GFX9-DL-NEXT: v_mad_u32_u24 v0, s2, s2, v0
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, s4, v0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_lshr_b32 s0, s2, 16
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s3
; GFX9-DL-NEXT: s_and_b32 s1, s4, 0xffff
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, s0, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, s1, v2
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: notudot2_SameVec:		; GFX10-DL-LABEL: notudot2_SameVec:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_v4i16:		; GFX10-DL-LABEL: udot2_v4i16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i16> addrspace(1)* %src2,		<4 x i16> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1		%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1
%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2		%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2

▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_v4i16_Hi:		; GFX10-DL-LABEL: udot2_v4i16_Hi:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x4		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x4
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x4		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x4
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i16> addrspace(1)* %src2,		<4 x i16> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1		%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1
%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2		%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2

▲ Show 20 Lines • Show All 1,347 Lines • ▼ Show 20 Lines	entry:

store i32 %add2, i32 addrspace(1)* %dst, align 4		store i32 %add2, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @udot2_acc16(<2 x i16> addrspace(1)* %src1,		define amdgpu_kernel void @udot2_acc16(<2 x i16> addrspace(1)* %src1,
; GFX7-LABEL: udot2_acc16:		; GFX7-LABEL: udot2_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 16		; GFX7-NEXT: s_lshr_b32 s2, s0, 16
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_lshr_b32 s3, s1, 16
; GFX7-NEXT: s_lshr_b32 s7, s5, 16		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot2_acc16:		; GFX8-LABEL: udot2_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: v_mov_b32_e32 v0, s4
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_mov_b32 s0, 0xffff		; GFX8-NEXT: s_mov_b32 s1, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_and_b32 s3, s2, s1
; GFX8-NEXT: s_lshr_b32 s1, s1, 16
; GFX8-NEXT: s_and_b32 s0, s2, s0
; GFX8-NEXT: s_lshr_b32 s2, s2, 16		; GFX8-NEXT: s_lshr_b32 s2, s2, 16
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: s_and_b32 s1, s0, s1
		; GFX8-NEXT: s_lshr_b32 s0, s0, 16
		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s3
		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot2_acc16:		; GFX9-NODL-LABEL: udot2_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_mov_b32 s0, 0xffff		; GFX9-NODL-NEXT: s_mov_b32 s1, 0xffff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 16
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 16		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 16
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 16
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot2_acc16:		; GFX9-DL-LABEL: udot2_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_acc16:		; GFX10-DL-LABEL: udot2_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
Show All 40 Lines
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s10, s2		; GFX7-NEXT: s_mov_b32 s10, s2
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_mov_b32 s8, s6		; GFX7-NEXT: s_mov_b32 s8, s6
; GFX7-NEXT: s_mov_b32 s9, s7		; GFX7-NEXT: s_mov_b32 s9, s7
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
; GFX7-NEXT: s_mov_b32 s6, s2		; GFX7-NEXT: s_mov_b32 s6, s2
; GFX7-NEXT: s_mov_b32 s7, s3		; GFX7-NEXT: s_mov_b32 s7, s3
; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[8:11], 0
; GFX7-NEXT: buffer_load_ushort v1, off, s[8:11], 0		; GFX7-NEXT: buffer_load_ushort v1, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
; GFX7-NEXT: s_waitcnt vmcnt(1)		; GFX7-NEXT: s_waitcnt vmcnt(1)
; GFX7-NEXT: v_bfe_i32 v2, v0, 0, 8		; GFX7-NEXT: v_bfe_i32 v3, v0, 0, 8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_i32 v3, v1, 0, 8		; GFX7-NEXT: v_bfe_i32 v2, v1, 0, 8
; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
; GFX7-NEXT: v_bfe_i32 v1, v1, 8, 8		; GFX7-NEXT: v_bfe_i32 v1, v1, 8, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: v_mad_i32_i24 v0, v1, v0, s4		; GFX7-NEXT: v_mad_i32_i24 v0, v0, v1, s4
; GFX7-NEXT: v_mad_i32_i24 v0, v3, v2, v0		; GFX7-NEXT: v_mad_i32_i24 v0, v3, v2, v0
; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: notsdot2_sext8:		; GFX8-LABEL: notsdot2_sext8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: v_mov_b32_e32 v2, s4		; GFX8-NEXT: v_mov_b32_e32 v2, s4
; GFX8-NEXT: v_mov_b32_e32 v3, s5		; GFX8-NEXT: v_mov_b32_e32 v3, s5
; GFX8-NEXT: flat_load_ushort v2, v[2:3]
; GFX8-NEXT: flat_load_ushort v0, v[0:1]		; GFX8-NEXT: flat_load_ushort v0, v[0:1]
		; GFX8-NEXT: flat_load_ushort v1, v[2:3]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(1) lgkmcnt(0)
; GFX8-NEXT: v_bfe_i32 v1, v2, 0, 8
; GFX8-NEXT: v_lshrrev_b16_e32 v2, 8, v2
; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_bfe_i32 v3, v0, 0, 8		; GFX8-NEXT: v_bfe_i32 v3, v0, 0, 8
; GFX8-NEXT: v_lshrrev_b16_e32 v0, 8, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v0, 8, v0
; GFX8-NEXT: v_bfe_i32 v2, v2, 0, 8		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX8-NEXT: v_lshrrev_b16_e32 v1, 8, v1
		; GFX8-NEXT: v_bfe_i32 v1, v1, 0, 8
; GFX8-NEXT: v_bfe_i32 v0, v0, 0, 8		; GFX8-NEXT: v_bfe_i32 v0, v0, 0, 8
; GFX8-NEXT: v_mad_i32_i24 v0, v0, v2, s2		; GFX8-NEXT: v_mad_i32_i24 v0, v0, v1, s2
; GFX8-NEXT: v_mad_i32_i24 v2, v3, v1, v0		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v2, v0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: notsdot2_sext8:		; GFX9-NODL-LABEL: notsdot2_sext8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s6		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s6
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s7		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s7
; GFX9-NODL-NEXT: v_mov_b32_e32 v2, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v2, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-NODL-NEXT: global_load_ushort v2, v[2:3], off
; GFX9-NODL-NEXT: global_load_ushort v0, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v0, v[0:1], off
		; GFX9-NODL-NEXT: global_load_ushort v1, v[2:3], off
		; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
; GFX9-NODL-NEXT: v_bfe_i32 v1, v2, 0, 8
; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v2, 8, v2
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_bfe_i32 v3, v0, 0, 8		; GFX9-NODL-NEXT: v_bfe_i32 v3, v0, 0, 8
; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v0, 8, v0		; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v0, 8, v0
; GFX9-NODL-NEXT: v_bfe_i32 v2, v2, 0, 8		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v1, 8, v1
		; GFX9-NODL-NEXT: v_bfe_i32 v1, v1, 0, 8
; GFX9-NODL-NEXT: v_bfe_i32 v0, v0, 0, 8		; GFX9-NODL-NEXT: v_bfe_i32 v0, v0, 0, 8
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mad_i32_i24 v0, v0, v2, s2		; GFX9-NODL-NEXT: v_mad_i32_i24 v0, v0, v1, s2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v1, v0		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v2, v0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: notsdot2_sext8:		; GFX9-DL-LABEL: notsdot2_sext8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s6		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s7
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v2, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s5		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-DL-NEXT: global_load_ushort v2, v[2:3], off
; GFX9-DL-NEXT: global_load_ushort v0, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v0, v[0:1], off
		; GFX9-DL-NEXT: global_load_ushort v1, v[2:3], off
		; GFX9-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_bfe_i32 v1, v2, 0, 8
; GFX9-DL-NEXT: v_lshrrev_b16_e32 v2, 8, v2
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_bfe_i32 v3, v0, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v3, v0, 0, 8
; GFX9-DL-NEXT: v_lshrrev_b16_e32 v0, 8, v0		; GFX9-DL-NEXT: v_lshrrev_b16_e32 v0, 8, v0
; GFX9-DL-NEXT: v_bfe_i32 v2, v2, 0, 8		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX9-DL-NEXT: v_lshrrev_b16_e32 v1, 8, v1
		; GFX9-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
; GFX9-DL-NEXT: v_bfe_i32 v0, v0, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v0, v0, 0, 8
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mad_i32_i24 v0, v0, v2, s2		; GFX9-DL-NEXT: v_mad_i32_i24 v0, v0, v1, s2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, v3, v1, v0		; GFX9-DL-NEXT: v_mad_i32_i24 v2, v3, v2, v0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: notsdot2_sext8:		; GFX10-DL-LABEL: notsdot2_sext8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

Show First 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
; GFX9-DL-LABEL: idot4_acc32:		; GFX9-DL-LABEL: idot4_acc32:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
		; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s4, v2, v3
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc32:		; GFX10-DL-LABEL: idot4_acc32:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s3, s4, v0		; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s0, s1, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i8> addrspace(1)* %src2,		<4 x i8> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1		%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2		%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

Show All 30 Lines	entry:
ret void		ret void
}		}

; TODO: Currently, vector elements{0 and 3} get zero_extended from i16 to i32 which should		; TODO: Currently, vector elements{0 and 3} get zero_extended from i16 to i32 which should
; be sign_extended directly to i32; prevents the pattern recognizer to recognize this pattern.		; be sign_extended directly to i32; prevents the pattern recognizer to recognize this pattern.
define amdgpu_kernel void @idot4_acc16(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc16(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc16:		; GFX7-LABEL: idot4_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_sext_i32_i8 s6, s4		; GFX7-NEXT: s_sext_i32_i8 s2, s0
; GFX7-NEXT: s_bfe_i32 s9, s4, 0x80008		; GFX7-NEXT: s_sext_i32_i8 s3, s1
; GFX7-NEXT: s_sext_i32_i8 s7, s5		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x80008
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x80008		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_bfe_i32 s12, s1, 0x80010
; GFX7-NEXT: s_bfe_i32 s12, s5, 0x80010		; GFX7-NEXT: s_bfe_i32 s9, s0, 0x80008
; GFX7-NEXT: s_and_b32 s10, s10, s8		; GFX7-NEXT: s_and_b32 s10, s10, s8
; GFX7-NEXT: s_and_b32 s6, s6, s8		; GFX7-NEXT: s_and_b32 s2, s2, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_i32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x80010
; GFX7-NEXT: s_ashr_i32 s5, s5, 24		; GFX7-NEXT: s_ashr_i32 s1, s1, 24
; GFX7-NEXT: s_and_b32 s12, s12, s8		; GFX7-NEXT: s_and_b32 s12, s12, s8
; GFX7-NEXT: s_and_b32 s9, s9, s8		; GFX7-NEXT: s_and_b32 s9, s9, s8
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: s_ashr_i32 s4, s4, 24		; GFX7-NEXT: s_ashr_i32 s0, s0, 24
; GFX7-NEXT: s_and_b32 s11, s11, s8		; GFX7-NEXT: s_and_b32 s11, s11, s8
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc16:		; GFX8-LABEL: idot4_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_sext_i32_i8 s1, s2		; GFX8-NEXT: s_sext_i32_i8 s3, s2
; GFX8-NEXT: s_bfe_i32 s3, s2, 0x80008		; GFX8-NEXT: s_bfe_i32 s5, s2, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_i32 s5, s2, 0x80010		; GFX8-NEXT: s_bfe_i32 s7, s2, 0x80010
; GFX8-NEXT: s_sext_i32_i8 s1, s0		; GFX8-NEXT: s_sext_i32_i8 s1, s0
; GFX8-NEXT: v_mov_b32_e32 v4, s3
; GFX8-NEXT: s_bfe_i32 s4, s0, 0x80008		; GFX8-NEXT: s_bfe_i32 s4, s0, 0x80008
; GFX8-NEXT: s_bfe_i32 s3, s0, 0x80010		; GFX8-NEXT: v_mov_b32_e32 v4, s5
		; GFX8-NEXT: s_bfe_i32 s6, s0, 0x80010
; GFX8-NEXT: s_ashr_i32 s2, s2, 24		; GFX8-NEXT: s_ashr_i32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s5		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_ashr_i32 s0, s0, 24		; GFX8-NEXT: s_ashr_i32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_i32_i24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s4, v4, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s3, v5, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: idot4_acc16:		; GFX9-NODL-LABEL: idot4_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s2		; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2
; GFX9-NODL-NEXT: s_bfe_i32 s3, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_i32 s5, s2, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_i32 s5, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_i32 s7, s2, 0x80010
; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0		; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-NODL-NEXT: s_bfe_i32 s4, s0, 0x80008		; GFX9-NODL-NEXT: s_bfe_i32 s4, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_i32 s3, s0, 0x80010		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5
		; GFX9-NODL-NEXT: s_bfe_i32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_ashr_i32 s2, s2, 24		; GFX9-NODL-NEXT: s_ashr_i32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_ashr_i32 s0, s0, 24		; GFX9-NODL-NEXT: s_ashr_i32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v3, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s4, v4, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s3, v5, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc16:		; GFX9-DL-LABEL: idot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc16:		; GFX10-DL-LABEL: idot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	entry:
%add4 = add i16 %add3, %mul4		%add4 = add i16 %add3, %mul4
store i16 %add4, i16 addrspace(1)* %dst, align 2		store i16 %add4, i16 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @idot4_acc8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc8:		; GFX7-LABEL: idot4_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc8:		; GFX8-LABEL: idot4_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: v_mov_b32_e32 v0, s4
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_movk_i32 s1, 0xff
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80008
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_and_b32 s3, s2, s1
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_and_b32 s1, s0, s1
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX8-NEXT: s_and_b32 s0, s2, s0
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s2, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
		; GFX8-NEXT: v_mov_b32_e32 v5, s6
		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: idot4_acc8:		; GFX9-NODL-LABEL: idot4_acc8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_movk_i32 s1, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s2, 0x80010
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc8:		; GFX9-DL-LABEL: idot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc8:		; GFX10-DL-LABEL: idot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
▲ Show 20 Lines • Show All 420 Lines • ▼ Show 20 Lines	entry:

store i32 %add4, i32 addrspace(1)* %dst, align 4		store i32 %add4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @idot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc16_vecMul:		; GFX7-LABEL: idot4_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_ashr_i32 s6, s4, 24		; GFX7-NEXT: s_ashr_i32 s2, s0, 24
; GFX7-NEXT: s_bfe_i32 s7, s4, 0x80010		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x80010
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x80010		; GFX7-NEXT: s_bfe_i32 s11, s1, 0x80008
; GFX7-NEXT: s_bfe_i32 s11, s5, 0x80008		; GFX7-NEXT: s_ashr_i32 s9, s1, 24
; GFX7-NEXT: s_ashr_i32 s9, s5, 24		; GFX7-NEXT: s_sext_i32_i8 s1, s1
; GFX7-NEXT: s_sext_i32_i8 s5, s5		; GFX7-NEXT: s_bfe_i32 s3, s0, 0x80010
; GFX7-NEXT: s_bfe_i32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_i32 s8, s0, 0x80008
; GFX7-NEXT: s_sext_i32_i8 s4, s4		; GFX7-NEXT: s_sext_i32_i8 s0, s0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_i32_i24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s8, v2, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s8, v2, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s7, v3, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s3, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: v_mad_i32_i24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc16_vecMul:		; GFX8-LABEL: idot4_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_mov_b32 s2, 0xffff		; GFX8-NEXT: s_mov_b32 s6, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s6, s3, 0x80000		; GFX8-NEXT: s_bfe_i32 s5, s2, 0x80000
; GFX8-NEXT: s_lshr_b32 s4, s3, 16
; GFX8-NEXT: v_ashrrev_i16_e64 v3, 8, s3
; GFX8-NEXT: s_bfe_i32 s3, s4, 0x80000
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: s_bfe_i32 s5, s0, 0x80000		; GFX8-NEXT: s_lshr_b32 s3, s2, 16
		; GFX8-NEXT: s_bfe_i32 s4, s0, 0x80000
; GFX8-NEXT: v_ashrrev_i16_e64 v4, 8, s0		; GFX8-NEXT: v_ashrrev_i16_e64 v4, 8, s0
; GFX8-NEXT: s_bfe_i32 s0, s1, 0x80000		; GFX8-NEXT: s_bfe_i32 s0, s1, 0x80000
; GFX8-NEXT: v_ashrrev_i16_e64 v6, 8, s1		; GFX8-NEXT: v_ashrrev_i16_e64 v6, 8, s1
; GFX8-NEXT: s_and_b32 s1, s2, s6		; GFX8-NEXT: s_and_b32 s1, s6, s5
; GFX8-NEXT: v_ashrrev_i16_e64 v5, 8, s4		; GFX8-NEXT: v_ashrrev_i16_e64 v3, 8, s2
; GFX8-NEXT: s_and_b32 s4, s2, s5		; GFX8-NEXT: s_bfe_i32 s2, s3, 0x80000
		; GFX8-NEXT: v_ashrrev_i16_e64 v5, 8, s3
		; GFX8-NEXT: s_and_b32 s3, s6, s4
; GFX8-NEXT: v_mov_b32_e32 v7, s1		; GFX8-NEXT: v_mov_b32_e32 v7, s1
; GFX8-NEXT: s_and_b32 s3, s2, s3		; GFX8-NEXT: s_and_b32 s2, s6, s2
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s0, s6, s0
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v7, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, v6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v6, v5, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: idot4_acc16_vecMul:		; GFX9-NODL-LABEL: idot4_acc16_vecMul:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2		; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc16_vecMul:		; GFX10-DL-LABEL: idot4_acc16_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off		; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_bfe_i32 s4, s0, 0x80000		; GFX10-DL-NEXT: s_bfe_i32 s4, s0, 0x80000
; GFX10-DL-NEXT: s_bfe_i32 s3, s1, 0x80000		; GFX10-DL-NEXT: s_bfe_i32 s3, s1, 0x80000
; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16		; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16
; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 8, s0		; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 8, s0
; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 16		; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 16
; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 8, s1		; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 8, s1
; GFX10-DL-NEXT: v_and_b32_e32 v6, s3, v2		; GFX10-DL-NEXT: v_and_b32_e32 v6, s3, v2
; GFX10-DL-NEXT: v_and_b32_e32 v7, s4, v2		; GFX10-DL-NEXT: v_and_b32_e32 v7, s4, v2
▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
; GFX9-DL-LABEL: udot4_acc32:		; GFX9-DL-LABEL: udot4_acc32:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s4, v2, v3
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc32:		; GFX10-DL-LABEL: udot4_acc32:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s3, s4, v0		; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i8> addrspace(1)* %src2,		<4 x i8> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1		%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2		%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

Show All 29 Lines	entry:

store i32 %mad4, i32 addrspace(1)* %dst, align 4		store i32 %mad4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @udot4_acc16(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc16(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc16:		; GFX7-LABEL: udot4_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc16:		; GFX8-LABEL: udot4_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_movk_i32 s3, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v4, s5		; GFX8-NEXT: v_mov_b32_e32 v4, s5
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_and_b32 s1, s0, s3
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s3, s2, s3
; GFX8-NEXT: v_mov_b32_e32 v3, s0		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc16:		; GFX9-NODL-LABEL: udot4_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_movk_i32 s3, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s3
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s3
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc16:		; GFX9-DL-LABEL: udot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc16:		; GFX10-DL-LABEL: udot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	entry:

store i16 %mad4, i16 addrspace(1)* %dst, align 2		store i16 %mad4, i16 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @udot4_acc8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc8:		; GFX7-LABEL: udot4_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc8:		; GFX8-LABEL: udot4_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_movk_i32 s1, 0xff
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x80010
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_and_b32 s3, s2, s1
		; GFX8-NEXT: s_and_b32 s1, s0, s1
		; GFX8-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s2, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
		; GFX8-NEXT: v_mov_b32_e32 v5, s6
		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc8:		; GFX9-NODL-LABEL: udot4_acc8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_movk_i32 s1, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s2, 0x80010
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc8:		; GFX9-DL-LABEL: udot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc8:		; GFX10-DL-LABEL: udot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	entry:
store i8 %mad4, i8 addrspace(1)* %dst, align 2		store i8 %mad4, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

; TODO: Generate udot4?		; TODO: Generate udot4?
define amdgpu_kernel void @udot2_8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot2_8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot2_8:		; GFX7-LABEL: udot2_8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s7, s4, s8		; GFX7-NEXT: s_and_b32 s3, s0, s8
; GFX7-NEXT: s_bfe_u32 s4, s4, 0x80008		; GFX7-NEXT: s_and_b32 s2, s1, s8
; GFX7-NEXT: s_and_b32 s6, s5, s8		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80008
; GFX7-NEXT: s_bfe_u32 s5, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot2_8:		; GFX8-LABEL: udot2_8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s3, s2, s0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_and_b32 s0, s1, s0		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX8-NEXT: s_and_b32 s3, s0, s4
		; GFX8-NEXT: s_and_b32 s2, s1, s4
		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot2_8:		; GFX9-NODL-LABEL: udot2_8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_and_b32 s3, s2, s0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_and_b32 s0, s1, s0		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX9-NODL-NEXT: s_and_b32 s3, s0, s4
		; GFX9-NODL-NEXT: s_and_b32 s2, s1, s4
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX9-NODL-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot2_8:		; GFX9-DL-LABEL: udot2_8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_movk_i32 s4, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s3, s2, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_and_b32 s0, s1, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX9-DL-NEXT: s_and_b32 s3, s0, s4
		; GFX9-DL-NEXT: s_and_b32 s2, s1, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_8:		; GFX10-DL-LABEL: udot2_8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_movk_i32 s4, 0xff
; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s3, s0, s2		; GFX10-DL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX10-DL-NEXT: s_and_b32 s2, s1, s2		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_and_b32 s1, s2, s4
		; GFX10-DL-NEXT: s_and_b32 s3, s0, s4
		; GFX10-DL-NEXT: s_bfe_u32 s2, s2, 0x80008
; GFX10-DL-NEXT: s_bfe_u32 s0, s0, 0x80008		; GFX10-DL-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX10-DL-NEXT: s_bfe_u32 s1, s1, 0x80008
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s1, v2
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s2, v2
; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i8> addrspace(1)* %src2,		<4 x i8> addrspace(1)* %src2,
i8 addrspace(1)* nocapture %dst) {		i8 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1		%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2		%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

Show All 10 Lines	entry:
%mad2 = add i8 %mad1, %mul2		%mad2 = add i8 %mad1, %mul2
store i8 %mad2, i8 addrspace(1)* %dst, align 2		store i8 %mad2, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @udot4_CommutationInsideMAD(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_CommutationInsideMAD(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_CommutationInsideMAD:		; GFX7-LABEL: udot4_CommutationInsideMAD:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s6, s4, s8		; GFX7-NEXT: s_and_b32 s2, s0, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: s_and_b32 s3, s1, s8
; GFX7-NEXT: s_and_b32 s7, s5, s8		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80010
; GFX7-NEXT: s_bfe_u32 s9, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s1, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_bfe_u32 s11, s5, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s1, 0x80010
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s5, s5, 24		; GFX7-NEXT: s_lshr_b32 s1, s1, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s4		; GFX7-NEXT: v_mov_b32_e32 v1, s0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_CommutationInsideMAD:		; GFX8-LABEL: udot4_CommutationInsideMAD:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_and_b32 s2, s0, s4
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s3, s1, s4
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
		; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6		; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_CommutationInsideMAD:		; GFX9-NODL-LABEL: udot4_CommutationInsideMAD:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_and_b32 s2, s0, s4
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s1, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationInsideMAD:		; GFX9-DL-LABEL: udot4_CommutationInsideMAD:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationInsideMAD:		; GFX10-DL-LABEL: udot4_CommutationInsideMAD:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
Show All 39 Lines	entry:
store i8 %mad4, i8 addrspace(1)* %dst, align 2		store i8 %mad4, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

; TODO: Support commutation accross the adds.		; TODO: Support commutation accross the adds.
define amdgpu_kernel void @udot4_CommutationAccrossMADs(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_CommutationAccrossMADs(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_CommutationAccrossMADs:		; GFX7-LABEL: udot4_CommutationAccrossMADs:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s6, s4, s8		; GFX7-NEXT: s_and_b32 s2, s0, s8
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80010		; GFX7-NEXT: s_and_b32 s3, s1, s8
; GFX7-NEXT: s_and_b32 s7, s5, s8		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s1, 0x80008
; GFX7-NEXT: s_bfe_u32 s9, s5, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v1, s8		; GFX7-NEXT: v_mov_b32_e32 v1, s8
; GFX7-NEXT: v_mov_b32_e32 v2, s6		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80010
; GFX7-NEXT: s_bfe_u32 s11, s5, 0x80010		; GFX7-NEXT: v_mov_b32_e32 v2, s2
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_bfe_u32 s11, s1, 0x80010
		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s5, s5, 24		; GFX7-NEXT: s_lshr_b32 s1, s1, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s4		; GFX7-NEXT: v_mov_b32_e32 v1, s0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_CommutationAccrossMADs:		; GFX8-LABEL: udot4_CommutationAccrossMADs:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_and_b32 s2, s0, s4
		; GFX8-NEXT: s_and_b32 s3, s1, s4
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s4		; GFX8-NEXT: v_mov_b32_e32 v3, s4
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: v_mov_b32_e32 v4, s2
; GFX8-NEXT: v_mov_b32_e32 v4, s3		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6		; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_CommutationAccrossMADs:		; GFX9-NODL-LABEL: udot4_CommutationAccrossMADs:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: s_and_b32 s2, s0, s4
		; GFX9-NODL-NEXT: s_and_b32 s3, s1, s4
		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s4
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-NODL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_movk_i32 s4, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_and_b32 s3, s1, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_and_b32 s2, s0, s4
		; GFX9-DL-NEXT: s_and_b32 s3, s1, s4
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-DL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s4
; GFX9-DL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-DL-NEXT: s_and_b32 s0, s2, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-DL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-DL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-DL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_movk_i32 s4, 0xff
; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_bfe_u32 s3, s0, 0x80008		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_and_b32 s5, s0, s2		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s1, s2		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80008
		; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80008
		; GFX10-DL-NEXT: s_and_b32 s5, s0, s4
		; GFX10-DL-NEXT: s_and_b32 s4, s1, s4
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s3, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s2, v2
; GFX10-DL-NEXT: s_bfe_u32 s3, s0, 0x80010		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80010
; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x80010		; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80010
; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24		; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24
; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 24		; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 24
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s5, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s5, v2
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s3, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s2, v2
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2
; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<4 x i8> addrspace(1)* %src2,		<4 x i8> addrspace(1)* %src2,
i8 addrspace(1)* nocapture %dst) {		i8 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1		%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2		%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2
▲ Show 20 Lines • Show All 433 Lines • ▼ Show 20 Lines	entry:
%res = add i32 %add4, %add		%res = add i32 %add4, %add
store i32 %res, i32 addrspace(1)* %dst, align 4		store i32 %res, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @notdot4_mixedtypes(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @notdot4_mixedtypes(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: notdot4_mixedtypes:		; GFX7-LABEL: notdot4_mixedtypes:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_sext_i32_i8 s7, s6		; GFX7-NEXT: s_sext_i32_i8 s3, s2
; GFX7-NEXT: s_bfe_u32 s9, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s2, 0x80008
; GFX7-NEXT: s_sext_i32_i8 s5, s4		; GFX7-NEXT: s_sext_i32_i8 s1, s0
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: s_bfe_u32 s11, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s2, 0x80010
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s7		; GFX7-NEXT: v_mov_b32_e32 v3, s3
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x80010
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: notdot4_mixedtypes:		; GFX8-LABEL: notdot4_mixedtypes:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s1, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX8-NEXT: s_sext_i32_i8 s3, s2		; GFX8-NEXT: s_sext_i32_i8 s3, s2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s5
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX8-NEXT: s_bfe_u32 s1, s0, 0x80008		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX8-NEXT: s_sext_i32_i8 s1, s0
; GFX8-NEXT: v_mov_b32_e32 v4, s3		; GFX8-NEXT: v_mov_b32_e32 v4, s3
; GFX8-NEXT: s_sext_i32_i8 s4, s0		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_bfe_u32 s3, s0, 0x80010
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s5		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_lshr_b32 s0, s0, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v3, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s1, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: notdot4_mixedtypes:		; GFX9-NODL-LABEL: notdot4_mixedtypes:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s1, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2		; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX9-NODL-NEXT: s_bfe_u32 s1, s0, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-NODL-NEXT: s_sext_i32_i8 s4, s0		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_bfe_u32 s3, s0, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v3, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: notdot4_mixedtypes:		; GFX9-DL-LABEL: notdot4_mixedtypes:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s1, s2, 0x80008		; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX9-DL-NEXT: s_sext_i32_i8 s3, s2		; GFX9-DL-NEXT: s_sext_i32_i8 s3, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80010		; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX9-DL-NEXT: s_bfe_u32 s1, s0, 0x80008		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-DL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-DL-NEXT: s_sext_i32_i8 s4, s0		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-DL-NEXT: s_bfe_u32 s3, s0, 0x80010
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s5		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24		; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v3, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s1, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s3, v5, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: notdot4_mixedtypes:		; GFX10-DL-LABEL: notdot4_mixedtypes:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80008		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80008
; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80008		; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80008
; GFX10-DL-NEXT: s_sext_i32_i8 s4, s0		; GFX10-DL-NEXT: s_sext_i32_i8 s4, s0
; GFX10-DL-NEXT: s_sext_i32_i8 s5, s1		; GFX10-DL-NEXT: s_sext_i32_i8 s5, s1
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v2
; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80010		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80010
; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80010		; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80010
▲ Show 20 Lines • Show All 230 Lines • ▼ Show 20 Lines	entry:
store i32 %add4, i32 addrspace(1)* %dst, align 4		store i32 %add4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: This pattern should be recognized.		; TODO: This pattern should be recognized.
define amdgpu_kernel void @udot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc16_vecMul:		; GFX7-LABEL: udot4_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_movk_i32 s7, 0xff		; GFX7-NEXT: s_movk_i32 s3, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80008
; GFX7-NEXT: s_bfe_u32 s12, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s12, s2, 0x80010
; GFX7-NEXT: s_lshr_b32 s9, s6, 24		; GFX7-NEXT: s_lshr_b32 s9, s2, 24
; GFX7-NEXT: s_and_b32 s6, s6, s7		; GFX7-NEXT: s_and_b32 s2, s2, s3
; GFX7-NEXT: s_lshr_b32 s5, s4, 24		; GFX7-NEXT: s_lshr_b32 s1, s0, 24
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
; GFX7-NEXT: s_and_b32 s4, s4, s7		; GFX7-NEXT: s_and_b32 s0, s0, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc16_vecMul:		; GFX8-LABEL: udot4_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_and_b32 s6, s1, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s6, s0, s4
; GFX8-NEXT: v_mov_b32_e32 v5, s0		; GFX8-NEXT: s_and_b32 s4, s1, s4
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: v_mov_b32_e32 v5, s4
; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s2		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s1		; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s1
; GFX8-NEXT: s_lshr_b32 s4, s2, 24		; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s0
; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: s_lshr_b32 s3, s1, 24		; GFX8-NEXT: s_lshr_b32 s3, s1, 24
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80010
		; GFX8-NEXT: v_mov_b32_e32 v6, s7
		; GFX8-NEXT: s_lshr_b32 s2, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v6, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v6, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s4		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc16_vecMul:		; GFX9-NODL-LABEL: udot4_acc16_vecMul:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0xffff
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc16_vecMul:		; GFX10-DL-LABEL: udot4_acc16_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off		; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s0		; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s0
; GFX10-DL-NEXT: v_and_b32_sdwa v7, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX10-DL-NEXT: v_and_b32_sdwa v7, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX10-DL-NEXT: v_lshrrev_b16_e64 v5, 8, s1		; GFX10-DL-NEXT: v_lshrrev_b16_e64 v5, 8, s1
; GFX10-DL-NEXT: v_and_b32_sdwa v6, v2, s1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX10-DL-NEXT: v_and_b32_sdwa v6, v2, s1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16		; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16
; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 16		; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 16
; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v7		; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v7
; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24		; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24
Show All 36 Lines	entry:
store i16 %add4, i16 addrspace(1)* %dst, align 4		store i16 %add4, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @udot4_acc8_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc8_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc8_vecMul:		; GFX7-LABEL: udot4_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s6, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s2, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s7, s4, 16		; GFX7-NEXT: s_bfe_u32 s10, s1, 0x80008
; GFX7-NEXT: s_bfe_u32 s10, s5, 0x80008		; GFX7-NEXT: s_lshr_b32 s11, s1, 16
; GFX7-NEXT: s_lshr_b32 s11, s5, 16		; GFX7-NEXT: s_lshr_b32 s12, s1, 24
; GFX7-NEXT: s_lshr_b32 s12, s5, 24
; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s9, s4, 24		; GFX7-NEXT: s_lshr_b32 s3, s0, 16
		; GFX7-NEXT: v_mov_b32_e32 v2, s11
		; GFX7-NEXT: s_lshr_b32 s9, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v1, s12		; GFX7-NEXT: v_mov_b32_e32 v1, s12
; GFX7-NEXT: s_mul_i32 s4, s4, s5		; GFX7-NEXT: s_mul_i32 s0, s0, s1
; GFX7-NEXT: v_mul_u32_u24_e32 v1, s9, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v1, s9, v1
; GFX7-NEXT: v_mul_u32_u24_e32 v2, s7, v2		; GFX7-NEXT: v_mul_u32_u24_e32 v2, s3, v2
; GFX7-NEXT: v_mul_u32_u24_e32 v3, s6, v3		; GFX7-NEXT: v_mul_u32_u24_e32 v3, s2, v3
; GFX7-NEXT: s_and_b32 s5, s4, s8		; GFX7-NEXT: s_and_b32 s1, s0, s8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_and_b32_e32 v2, s8, v2		; GFX7-NEXT: v_and_b32_e32 v2, s8, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_or_b32_e32 v2, s5, v3		; GFX7-NEXT: v_or_b32_e32 v2, s1, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, s0, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc8_vecMul:		; GFX8-LABEL: udot4_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s7, 0xff
; GFX8-NEXT: s_movk_i32 s8, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_and_b32 s5, s0, s7
		; GFX8-NEXT: s_and_b32 s7, s1, s7
; GFX8-NEXT: v_mov_b32_e32 v3, s0		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mov_b32_e32 v4, s1		; GFX8-NEXT: v_mov_b32_e32 v4, s1
; GFX8-NEXT: s_and_b32 s7, s1, s8
; GFX8-NEXT: s_lshr_b32 s2, s0, 24		; GFX8-NEXT: s_lshr_b32 s2, s0, 24
; GFX8-NEXT: s_lshr_b32 s3, s1, 24		; GFX8-NEXT: s_lshr_b32 s3, s1, 24
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010
; GFX8-NEXT: v_mul_u32_u24_sdwa v3, v3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1		; GFX8-NEXT: v_mul_u32_u24_sdwa v3, v3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX8-NEXT: s_and_b32 s5, s0, s8
; GFX8-NEXT: v_mov_b32_e32 v4, s7		; GFX8-NEXT: v_mov_b32_e32 v4, s7
; GFX8-NEXT: v_mul_u32_u24_e32 v4, s5, v4		; GFX8-NEXT: v_mul_u32_u24_e32 v4, s5, v4
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80010		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v5, s6		; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: v_mov_b32_e32 v6, s3		; GFX8-NEXT: v_mov_b32_e32 v6, s3
; GFX8-NEXT: v_mov_b32_e32 v7, s2		; GFX8-NEXT: v_mov_b32_e32 v7, s2
; GFX8-NEXT: v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s4, v5		; GFX8-NEXT: v_mul_u32_u24_e32 v5, s4, v5
Show All 10 Lines
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc8_vecMul:		; GFX9-NODL-LABEL: udot4_acc8_vecMul:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0
		; GFX9-NODL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: s_lshr_b32 s4, s2, 16
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s3
		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
		; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v0, s2, v0
		; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v1, s2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NODL-NEXT: s_lshr_b32 s6, s3, 16
		; GFX9-NODL-NEXT: s_lshr_b32 s7, s3, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s6
		; GFX9-NODL-NEXT: v_and_b32_e32 v2, 0xffff, v0
		; GFX9-NODL-NEXT: s_lshr_b32 s5, s2, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s7
		; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v0, s5, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v1, s4, v1
		; GFX9-NODL-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_or_b32_e32 v3, v2, v0
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v5, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 8, v3
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-NODL-NEXT: s_lshr_b32 s1, s2, 16
; GFX9-NODL-NEXT: s_lshr_b32 s3, s2, 24
; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v3, s0, v3
; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v4, s0, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-NODL-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NODL-NEXT: s_lshr_b32 s2, s0, 16
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s1
; GFX9-NODL-NEXT: s_lshr_b32 s4, s0, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v4, s4, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NODL-NEXT: v_mul_lo_u16_e32 v5, s2, v5
; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX9-NODL-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NODL-NEXT: v_or_b32_e32 v4, v3, v4
; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 8, v4
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-NODL-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-NODL-NEXT: v_add_u32_e32 v2, v2, v5
; GFX9-NODL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NODL-NEXT: v_add_u32_e32 v2, v2, v4
; GFX9-NODL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NODL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
		; GFX9-NODL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc8_vecMul:		; GFX9-DL-LABEL: udot4_acc8_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_lshr_b32 s4, s2, 16
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s3
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v0, s2, v0
		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v1, s2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-DL-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-DL-NEXT: s_lshr_b32 s6, s3, 16
		; GFX9-DL-NEXT: s_lshr_b32 s7, s3, 24
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s6
		; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v0
		; GFX9-DL-NEXT: s_lshr_b32 s5, s2, 24
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s7
		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v0, s5, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v1, s4, v1
		; GFX9-DL-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-DL-NEXT: v_or_b32_e32 v3, v2, v0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v5, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v3
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-DL-NEXT: s_lshr_b32 s1, s2, 16
; GFX9-DL-NEXT: s_lshr_b32 s3, s2, 24
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v3, s0, v3
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, s0, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-DL-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 16
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s1
; GFX9-DL-NEXT: s_lshr_b32 s4, s0, 24
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, s4, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, s2, v5
; GFX9-DL-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX9-DL-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: v_or_b32_e32 v4, v3, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v4
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v5
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc8_vecMul:		; GFX10-DL-LABEL: udot4_acc8_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_lshrrev_b16_e64 v3, 8, s0		; GFX10-DL-NEXT: v_lshrrev_b16_e64 v3, 8, s0
; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s1		; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s1
; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 24		; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 24
; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 24		; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 24
; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 16		; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 16
; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, v3, v4		; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, v3, v4
; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s0, s1		; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s0, s1
; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s2, s3		; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s2, s3
Show All 37 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
; GFX9-DL-LABEL: idot8_acc32:		; GFX9-DL-LABEL: idot8_acc32:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s6
		; GFX9-DL-NEXT: v_dot8_i32_i4 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6
; GFX9-DL-NEXT: v_dot8_i32_i4 v2, s4, v2, v3
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc32:		; GFX10-DL-LABEL: idot8_acc32:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_dot8_i32_i4 v2, s4, s5, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_dot8_i32_i4 v2, s1, s2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<8 x i4> addrspace(1)* %src2,		<8 x i4> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1		%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2		%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Once the unnecessary zero extentions of the elements are removed;		; TODO: Once the unnecessary zero extentions of the elements are removed;
; pattern recognizer will kick in.		; pattern recognizer will kick in.
define amdgpu_kernel void @idot8_acc16(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc16(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc16:		; GFX7-LABEL: idot8_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s0, 0xffff		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s2, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s1, s[8:9], 0x0
; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s2, s[10:11], 0x0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s8, s1, 0x40000		; GFX7-NEXT: s_bfe_i32 s8, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s10, s1, 0x40004		; GFX7-NEXT: s_bfe_i32 s9, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s9, s2, 0x40000		; GFX7-NEXT: s_bfe_i32 s11, s1, 0x40004
; GFX7-NEXT: s_bfe_i32 s11, s2, 0x40004		; GFX7-NEXT: s_and_b32 s9, s9, s2
; GFX7-NEXT: s_and_b32 s9, s9, s0		; GFX7-NEXT: s_bfe_i32 s10, s0, 0x40004
; GFX7-NEXT: s_bfe_i32 s13, s2, 0x40008		; GFX7-NEXT: s_bfe_i32 s13, s1, 0x40008
; GFX7-NEXT: s_and_b32 s11, s11, s0		; GFX7-NEXT: s_and_b32 s11, s11, s2
; GFX7-NEXT: s_and_b32 s8, s8, s0		; GFX7-NEXT: s_and_b32 s8, s8, s2
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: s_bfe_i32 s12, s1, 0x40008		; GFX7-NEXT: s_bfe_i32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_i32 s15, s2, 0x4000c		; GFX7-NEXT: s_bfe_i32 s15, s1, 0x4000c
; GFX7-NEXT: s_and_b32 s13, s13, s0		; GFX7-NEXT: s_and_b32 s13, s13, s2
; GFX7-NEXT: s_and_b32 s10, s10, s0		; GFX7-NEXT: s_and_b32 s10, s10, s2
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: s_bfe_i32 s14, s1, 0x4000c		; GFX7-NEXT: s_bfe_i32 s14, s0, 0x4000c
; GFX7-NEXT: s_bfe_i32 s17, s2, 0x40010		; GFX7-NEXT: s_bfe_i32 s17, s1, 0x40010
; GFX7-NEXT: s_and_b32 s15, s15, s0		; GFX7-NEXT: s_and_b32 s15, s15, s2
; GFX7-NEXT: s_and_b32 s12, s12, s0		; GFX7-NEXT: s_and_b32 s12, s12, s2
; GFX7-NEXT: v_mov_b32_e32 v3, s13		; GFX7-NEXT: v_mov_b32_e32 v3, s13
; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40010		; GFX7-NEXT: s_bfe_i32 s16, s0, 0x40010
; GFX7-NEXT: s_bfe_i32 s19, s2, 0x40014		; GFX7-NEXT: s_bfe_i32 s19, s1, 0x40014
; GFX7-NEXT: s_and_b32 s17, s17, s0		; GFX7-NEXT: s_and_b32 s17, s17, s2
; GFX7-NEXT: s_and_b32 s14, s14, s0		; GFX7-NEXT: s_and_b32 s14, s14, s2
; GFX7-NEXT: v_mov_b32_e32 v4, s15		; GFX7-NEXT: v_mov_b32_e32 v4, s15
; GFX7-NEXT: s_bfe_i32 s21, s2, 0x40018		; GFX7-NEXT: s_bfe_i32 s21, s1, 0x40018
; GFX7-NEXT: s_bfe_i32 s18, s1, 0x40014		; GFX7-NEXT: s_bfe_i32 s18, s0, 0x40014
; GFX7-NEXT: s_and_b32 s19, s19, s0		; GFX7-NEXT: s_and_b32 s19, s19, s2
; GFX7-NEXT: s_and_b32 s16, s16, s0		; GFX7-NEXT: s_and_b32 s16, s16, s2
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40018		; GFX7-NEXT: s_bfe_i32 s20, s0, 0x40018
; GFX7-NEXT: s_ashr_i32 s2, s2, 28
; GFX7-NEXT: s_and_b32 s21, s21, s0
; GFX7-NEXT: s_and_b32 s18, s18, s0
; GFX7-NEXT: v_mov_b32_e32 v6, s19
; GFX7-NEXT: s_ashr_i32 s1, s1, 28		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: s_and_b32 s20, s20, s0		; GFX7-NEXT: s_and_b32 s21, s21, s2
; GFX7-NEXT: s_and_b32 s2, s2, s0		; GFX7-NEXT: s_and_b32 s18, s18, s2
		; GFX7-NEXT: v_mov_b32_e32 v6, s19
		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
		; GFX7-NEXT: s_and_b32 s20, s20, s2
		; GFX7-NEXT: s_and_b32 s1, s1, s2
; GFX7-NEXT: v_mov_b32_e32 v7, s21		; GFX7-NEXT: v_mov_b32_e32 v7, s21
; GFX7-NEXT: s_and_b32 s0, s1, s0		; GFX7-NEXT: s_and_b32 s0, s0, s2
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s14, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s14, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s16, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s16, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s18, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s18, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s20, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s20, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s2		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc16:		; GFX8-LABEL: idot8_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s1, s2, 0x40000		; GFX8-NEXT: s_bfe_i32 s5, s0, 0x40000
; GFX8-NEXT: s_bfe_i32 s4, s2, 0x40004		; GFX8-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX8-NEXT: s_bfe_i32 s5, s2, 0x40008		; GFX8-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX8-NEXT: s_bfe_i32 s6, s0, 0x40000		; GFX8-NEXT: v_mov_b32_e32 v6, s6
; GFX8-NEXT: s_lshr_b32 s1, s0, 12		; GFX8-NEXT: s_lshr_b32 s2, s0, 12
; GFX8-NEXT: s_lshr_b32 s7, s2, 12		; GFX8-NEXT: s_lshr_b32 s4, s1, 12
; GFX8-NEXT: v_mov_b32_e32 v4, s5		; GFX8-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX8-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX8-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v5, s4		; GFX8-NEXT: v_mov_b32_e32 v3, s10
; GFX8-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v7, s8
; GFX8-NEXT: v_lshlrev_b16_e64 v6, 12, s1		; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s2
; GFX8-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s4
; GFX8-NEXT: v_mul_i32_i24_e32 v4, s9, v4		; GFX8-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX8-NEXT: s_bfe_i32 s1, s2, 0x40010		; GFX8-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX8-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX8-NEXT: v_ashrrev_i16_e32 v7, 12, v7		; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX8-NEXT: s_bfe_i32 s5, s2, 0x40014		; GFX8-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s1		; GFX8-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX8-NEXT: s_bfe_i32 s4, s0, 0x40010		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: s_bfe_i32 s7, s2, 0x40018		; GFX8-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s5		; GFX8-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX8-NEXT: s_bfe_i32 s1, s0, 0x40014		; GFX8-NEXT: v_mov_b32_e32 v9, s14
; GFX8-NEXT: s_bfe_i32 s5, s0, 0x40018		; GFX8-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX8-NEXT: s_ashr_i32 s2, s2, 28		; GFX8-NEXT: s_ashr_i32 s1, s1, 28
; GFX8-NEXT: v_mov_b32_e32 v10, s7		; GFX8-NEXT: v_mov_b32_e32 v10, s16
; GFX8-NEXT: s_ashr_i32 s0, s0, 28		; GFX8-NEXT: s_ashr_i32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_i32_i24 v2, s6, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s5, v6, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s8, v5, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; GFX8-NEXT: v_mad_u32_u24 v2, v6, v7, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s4, v8, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s1, v9, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s5, v10, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc16:		; GFX9-LABEL: idot8_acc16:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NEXT: global_load_ushort v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_i32 s1, s2, 0x40000		; GFX9-NEXT: s_bfe_i32 s5, s0, 0x40000
; GFX9-NEXT: s_bfe_i32 s4, s2, 0x40004		; GFX9-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX9-NEXT: s_bfe_i32 s5, s2, 0x40008		; GFX9-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX9-NEXT: s_bfe_i32 s6, s0, 0x40000		; GFX9-NEXT: v_mov_b32_e32 v6, s6
; GFX9-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-NEXT: s_lshr_b32 s2, s0, 12
; GFX9-NEXT: s_lshr_b32 s7, s2, 12		; GFX9-NEXT: s_lshr_b32 s4, s1, 12
; GFX9-NEXT: v_mov_b32_e32 v4, s5		; GFX9-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX9-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX9-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v5, s4		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v7, s8
; GFX9-NEXT: v_lshlrev_b16_e64 v6, 12, s1		; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s2
; GFX9-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX9-NEXT: v_lshlrev_b16_e64 v5, 12, s4
; GFX9-NEXT: v_mul_i32_i24_e32 v4, s9, v4		; GFX9-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX9-NEXT: s_bfe_i32 s1, s2, 0x40010		; GFX9-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-NEXT: v_ashrrev_i16_e32 v7, 12, v7		; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-NEXT: s_bfe_i32 s5, s2, 0x40014		; GFX9-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s1		; GFX9-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX9-NEXT: s_bfe_i32 s4, s0, 0x40010		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: s_bfe_i32 s7, s2, 0x40018		; GFX9-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX9-NEXT: v_mov_b32_e32 v9, s5		; GFX9-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX9-NEXT: s_bfe_i32 s1, s0, 0x40014		; GFX9-NEXT: v_mov_b32_e32 v9, s14
; GFX9-NEXT: s_bfe_i32 s5, s0, 0x40018		; GFX9-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX9-NEXT: s_ashr_i32 s2, s2, 28		; GFX9-NEXT: s_ashr_i32 s1, s1, 28
; GFX9-NEXT: v_mov_b32_e32 v10, s7		; GFX9-NEXT: v_mov_b32_e32 v10, s16
; GFX9-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-NEXT: s_ashr_i32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_i32_i24 v2, s6, v3, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s5, v6, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s8, v5, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; GFX9-NEXT: v_mad_u32_u24 v2, v6, v7, v2		; GFX9-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s4, v8, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s1, v9, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s5, v10, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc16:		; GFX9-DL-LABEL: idot8_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_i32 s1, s2, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s5, s0, 0x40000
; GFX9-DL-NEXT: s_bfe_i32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX9-DL-NEXT: s_bfe_i32 s5, s2, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX9-DL-NEXT: s_bfe_i32 s6, s0, 0x40000		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s6
; GFX9-DL-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 12
; GFX9-DL-NEXT: s_lshr_b32 s7, s2, 12		; GFX9-DL-NEXT: s_lshr_b32 s4, s1, 12
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s5		; GFX9-DL-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX9-DL-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s8
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v6, 12, s1		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s2
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s4
; GFX9-DL-NEXT: v_mul_i32_i24_e32 v4, s9, v4		; GFX9-DL-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX9-DL-NEXT: s_bfe_i32 s1, s2, 0x40010		; GFX9-DL-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v7, 12, v7		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-DL-NEXT: s_bfe_i32 s5, s2, 0x40014		; GFX9-DL-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s1		; GFX9-DL-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX9-DL-NEXT: s_bfe_i32 s4, s0, 0x40010		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: s_bfe_i32 s7, s2, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s5		; GFX9-DL-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX9-DL-NEXT: s_bfe_i32 s1, s0, 0x40014		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s14
; GFX9-DL-NEXT: s_bfe_i32 s5, s0, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX9-DL-NEXT: s_ashr_i32 s2, s2, 28		; GFX9-DL-NEXT: s_ashr_i32 s1, s1, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v10, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v10, s16
; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s6, v3, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s5, v6, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s8, v5, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; GFX9-DL-NEXT: v_mad_u32_u24 v2, v6, v7, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s4, v8, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s1, v9, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s5, v10, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc16:		; GFX10-DL-LABEL: idot8_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff		; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 12		; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 12
; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 12		; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 12
; GFX10-DL-NEXT: s_bfe_i32 s6, s0, 0x40000		; GFX10-DL-NEXT: s_bfe_i32 s6, s0, 0x40000
; GFX10-DL-NEXT: s_bfe_i32 s7, s1, 0x40000		; GFX10-DL-NEXT: s_bfe_i32 s7, s1, 0x40000
; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40004
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s4		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s4
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s5		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s5
▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @idot8_acc8(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc8(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc8:		; GFX7-LABEL: idot8_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
		; GFX7-NEXT: s_movk_i32 s2, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s1, s[8:9], 0x0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s2, s[10:11], 0x0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s8, s1, 0x40000		; GFX7-NEXT: s_bfe_i32 s8, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s10, s1, 0x40004		; GFX7-NEXT: s_bfe_i32 s9, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s9, s2, 0x40000		; GFX7-NEXT: s_bfe_i32 s11, s1, 0x40004
; GFX7-NEXT: s_bfe_i32 s11, s2, 0x40004		; GFX7-NEXT: s_and_b32 s9, s9, s2
; GFX7-NEXT: s_and_b32 s9, s9, s0		; GFX7-NEXT: s_bfe_i32 s10, s0, 0x40004
; GFX7-NEXT: s_bfe_i32 s13, s2, 0x40008		; GFX7-NEXT: s_bfe_i32 s13, s1, 0x40008
; GFX7-NEXT: s_and_b32 s11, s11, s0		; GFX7-NEXT: s_and_b32 s11, s11, s2
; GFX7-NEXT: s_and_b32 s8, s8, s0		; GFX7-NEXT: s_and_b32 s8, s8, s2
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: s_bfe_i32 s12, s1, 0x40008		; GFX7-NEXT: s_bfe_i32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_i32 s15, s2, 0x4000c		; GFX7-NEXT: s_bfe_i32 s15, s1, 0x4000c
; GFX7-NEXT: s_and_b32 s13, s13, s0		; GFX7-NEXT: s_and_b32 s13, s13, s2
; GFX7-NEXT: s_and_b32 s10, s10, s0		; GFX7-NEXT: s_and_b32 s10, s10, s2
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: s_bfe_i32 s14, s1, 0x4000c		; GFX7-NEXT: s_bfe_i32 s14, s0, 0x4000c
; GFX7-NEXT: s_bfe_i32 s17, s2, 0x40010		; GFX7-NEXT: s_bfe_i32 s17, s1, 0x40010
; GFX7-NEXT: s_and_b32 s15, s15, s0		; GFX7-NEXT: s_and_b32 s15, s15, s2
; GFX7-NEXT: s_and_b32 s12, s12, s0		; GFX7-NEXT: s_and_b32 s12, s12, s2
; GFX7-NEXT: v_mov_b32_e32 v3, s13		; GFX7-NEXT: v_mov_b32_e32 v3, s13
; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40010		; GFX7-NEXT: s_bfe_i32 s16, s0, 0x40010
; GFX7-NEXT: s_bfe_i32 s19, s2, 0x40014		; GFX7-NEXT: s_bfe_i32 s19, s1, 0x40014
; GFX7-NEXT: s_and_b32 s17, s17, s0		; GFX7-NEXT: s_and_b32 s17, s17, s2
; GFX7-NEXT: s_and_b32 s14, s14, s0		; GFX7-NEXT: s_and_b32 s14, s14, s2
; GFX7-NEXT: v_mov_b32_e32 v4, s15		; GFX7-NEXT: v_mov_b32_e32 v4, s15
; GFX7-NEXT: s_bfe_i32 s21, s2, 0x40018		; GFX7-NEXT: s_bfe_i32 s21, s1, 0x40018
; GFX7-NEXT: s_bfe_i32 s18, s1, 0x40014		; GFX7-NEXT: s_bfe_i32 s18, s0, 0x40014
; GFX7-NEXT: s_and_b32 s19, s19, s0		; GFX7-NEXT: s_and_b32 s19, s19, s2
; GFX7-NEXT: s_and_b32 s16, s16, s0		; GFX7-NEXT: s_and_b32 s16, s16, s2
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40018		; GFX7-NEXT: s_bfe_i32 s20, s0, 0x40018
; GFX7-NEXT: s_ashr_i32 s2, s2, 28
; GFX7-NEXT: s_and_b32 s21, s21, s0
; GFX7-NEXT: s_and_b32 s18, s18, s0
; GFX7-NEXT: v_mov_b32_e32 v6, s19
; GFX7-NEXT: s_ashr_i32 s1, s1, 28		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: s_and_b32 s20, s20, s0		; GFX7-NEXT: s_and_b32 s21, s21, s2
; GFX7-NEXT: s_and_b32 s2, s2, s0		; GFX7-NEXT: s_and_b32 s18, s18, s2
		; GFX7-NEXT: v_mov_b32_e32 v6, s19
		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
		; GFX7-NEXT: s_and_b32 s20, s20, s2
		; GFX7-NEXT: s_and_b32 s1, s1, s2
; GFX7-NEXT: v_mov_b32_e32 v7, s21		; GFX7-NEXT: v_mov_b32_e32 v7, s21
; GFX7-NEXT: s_and_b32 s0, s1, s0		; GFX7-NEXT: s_and_b32 s0, s0, s2
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s14, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s14, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s16, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s16, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s18, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s18, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s20, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s20, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s2		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc8:		; GFX8-LABEL: idot8_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_movk_i32 s2, 0xff		; GFX8-NEXT: s_movk_i32 s2, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s8
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s9
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s7, s6, 0x40000		; GFX8-NEXT: s_bfe_i32 s7, s0, 0x40000
; GFX8-NEXT: s_lshr_b32 s4, s6, 12		; GFX8-NEXT: s_lshr_b32 s4, s1, 12
; GFX8-NEXT: s_bfe_i32 s9, s6, 0x40004		; GFX8-NEXT: s_lshr_b32 s5, s0, 12
; GFX8-NEXT: s_bfe_i32 s11, s6, 0x40008		; GFX8-NEXT: s_bfe_i32 s9, s0, 0x40004
; GFX8-NEXT: s_lshr_b32 s1, s0, 12		; GFX8-NEXT: s_bfe_i32 s11, s0, 0x40008
; GFX8-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX8-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX8-NEXT: v_mov_b32_e32 v6, s7		; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s4
; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s5
; GFX8-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX8-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX8-NEXT: s_bfe_i32 s10, s0, 0x40008		; GFX8-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v3, s11		; GFX8-NEXT: v_mov_b32_e32 v3, s11
; GFX8-NEXT: v_mov_b32_e32 v7, s9		; GFX8-NEXT: v_mov_b32_e32 v7, s9
; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX8-NEXT: v_mul_i32_i24_e32 v3, s10, v3		; GFX8-NEXT: v_mul_i32_i24_e32 v3, s10, v3
; GFX8-NEXT: s_bfe_i32 s13, s6, 0x40010		; GFX8-NEXT: s_bfe_i32 s13, s0, 0x40010
; GFX8-NEXT: v_and_b32_e32 v4, s2, v4		; GFX8-NEXT: v_and_b32_e32 v4, s2, v4
; GFX8-NEXT: v_and_b32_e32 v5, s2, v5		; GFX8-NEXT: v_and_b32_e32 v5, s2, v5
; GFX8-NEXT: s_bfe_i32 s15, s6, 0x40014		; GFX8-NEXT: s_bfe_i32 s15, s0, 0x40014
; GFX8-NEXT: s_bfe_i32 s12, s0, 0x40010		; GFX8-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v8, s13		; GFX8-NEXT: v_mov_b32_e32 v8, s13
; GFX8-NEXT: s_bfe_i32 s17, s6, 0x40018		; GFX8-NEXT: s_bfe_i32 s17, s0, 0x40018
; GFX8-NEXT: s_bfe_i32 s14, s0, 0x40014		; GFX8-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v9, s15		; GFX8-NEXT: v_mov_b32_e32 v9, s15
; GFX8-NEXT: s_bfe_i32 s16, s0, 0x40018		; GFX8-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX8-NEXT: s_ashr_i32 s6, s6, 28
; GFX8-NEXT: v_mov_b32_e32 v10, s17
; GFX8-NEXT: s_ashr_i32 s0, s0, 28		; GFX8-NEXT: s_ashr_i32 s0, s0, 28
		; GFX8-NEXT: v_mov_b32_e32 v10, s17
		; GFX8-NEXT: s_ashr_i32 s1, s1, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s6, v6, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s8, v7, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s8, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s12, v8, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s12, v8, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s14, v9, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s14, v9, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s16, v10, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s16, v10, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s6		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc8:		; GFX9-LABEL: idot8_acc8:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
		; GFX9-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_movk_i32 s2, 0xff		; GFX9-NEXT: s_movk_i32 s2, 0xff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s8
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s9
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_i32 s7, s6, 0x40000		; GFX9-NEXT: s_bfe_i32 s7, s0, 0x40000
; GFX9-NEXT: s_lshr_b32 s4, s6, 12		; GFX9-NEXT: s_lshr_b32 s4, s1, 12
; GFX9-NEXT: s_bfe_i32 s9, s6, 0x40004		; GFX9-NEXT: s_lshr_b32 s5, s0, 12
; GFX9-NEXT: s_bfe_i32 s11, s6, 0x40008		; GFX9-NEXT: s_bfe_i32 s9, s0, 0x40004
; GFX9-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-NEXT: s_bfe_i32 s11, s0, 0x40008
; GFX9-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX9-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX9-NEXT: v_mov_b32_e32 v6, s7		; GFX9-NEXT: v_mov_b32_e32 v6, s7
; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s4
; GFX9-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX9-NEXT: v_lshlrev_b16_e64 v5, 12, s5
; GFX9-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX9-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX9-NEXT: s_bfe_i32 s10, s0, 0x40008		; GFX9-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v3, s11		; GFX9-NEXT: v_mov_b32_e32 v3, s11
; GFX9-NEXT: v_mov_b32_e32 v7, s9		; GFX9-NEXT: v_mov_b32_e32 v7, s9
; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-NEXT: v_mul_i32_i24_e32 v3, s10, v3		; GFX9-NEXT: v_mul_i32_i24_e32 v3, s10, v3
; GFX9-NEXT: s_bfe_i32 s13, s6, 0x40010		; GFX9-NEXT: s_bfe_i32 s13, s0, 0x40010
; GFX9-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-NEXT: v_and_b32_e32 v4, s2, v4
; GFX9-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-NEXT: v_and_b32_e32 v5, s2, v5
; GFX9-NEXT: s_bfe_i32 s15, s6, 0x40014		; GFX9-NEXT: s_bfe_i32 s15, s0, 0x40014
; GFX9-NEXT: s_bfe_i32 s12, s0, 0x40010		; GFX9-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v8, s13		; GFX9-NEXT: v_mov_b32_e32 v8, s13
; GFX9-NEXT: s_bfe_i32 s17, s6, 0x40018		; GFX9-NEXT: s_bfe_i32 s17, s0, 0x40018
; GFX9-NEXT: s_bfe_i32 s14, s0, 0x40014		; GFX9-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v9, s15		; GFX9-NEXT: v_mov_b32_e32 v9, s15
; GFX9-NEXT: s_bfe_i32 s16, s0, 0x40018		; GFX9-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX9-NEXT: s_ashr_i32 s6, s6, 28
; GFX9-NEXT: v_mov_b32_e32 v10, s17
; GFX9-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-NEXT: s_ashr_i32 s0, s0, 28
		; GFX9-NEXT: v_mov_b32_e32 v10, s17
		; GFX9-NEXT: s_ashr_i32 s1, s1, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s6, v6, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s8, v7, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s8, v7, v2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX9-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s12, v8, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s12, v8, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s14, v9, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s14, v9, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s16, v10, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s16, v10, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s6		; GFX9-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc8:		; GFX9-DL-LABEL: idot8_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_movk_i32 s2, 0xff		; GFX9-DL-NEXT: s_movk_i32 s2, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s8
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s9
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_i32 s7, s6, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s7, s0, 0x40000
; GFX9-DL-NEXT: s_lshr_b32 s4, s6, 12		; GFX9-DL-NEXT: s_lshr_b32 s4, s1, 12
; GFX9-DL-NEXT: s_bfe_i32 s9, s6, 0x40004		; GFX9-DL-NEXT: s_lshr_b32 s5, s0, 12
; GFX9-DL-NEXT: s_bfe_i32 s11, s6, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s9, s0, 0x40004
; GFX9-DL-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-DL-NEXT: s_bfe_i32 s11, s0, 0x40008
; GFX9-DL-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s6, s1, 0x40000
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s7
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s4
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s5
; GFX9-DL-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX9-DL-NEXT: s_bfe_i32 s8, s1, 0x40004
; GFX9-DL-NEXT: s_bfe_i32 s10, s0, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s10, s1, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s11
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s9		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s9
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-DL-NEXT: v_mul_i32_i24_e32 v3, s10, v3		; GFX9-DL-NEXT: v_mul_i32_i24_e32 v3, s10, v3
; GFX9-DL-NEXT: s_bfe_i32 s13, s6, 0x40010		; GFX9-DL-NEXT: s_bfe_i32 s13, s0, 0x40010
; GFX9-DL-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-DL-NEXT: v_and_b32_e32 v4, s2, v4
; GFX9-DL-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-DL-NEXT: v_and_b32_e32 v5, s2, v5
; GFX9-DL-NEXT: s_bfe_i32 s15, s6, 0x40014		; GFX9-DL-NEXT: s_bfe_i32 s15, s0, 0x40014
; GFX9-DL-NEXT: s_bfe_i32 s12, s0, 0x40010		; GFX9-DL-NEXT: s_bfe_i32 s12, s1, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s13		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s13
; GFX9-DL-NEXT: s_bfe_i32 s17, s6, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s17, s0, 0x40018
; GFX9-DL-NEXT: s_bfe_i32 s14, s0, 0x40014		; GFX9-DL-NEXT: s_bfe_i32 s14, s1, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s15		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s15
; GFX9-DL-NEXT: s_bfe_i32 s16, s0, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s16, s1, 0x40018
; GFX9-DL-NEXT: s_ashr_i32 s6, s6, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v10, s17
; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28
		; GFX9-DL-NEXT: v_mov_b32_e32 v10, s17
		; GFX9-DL-NEXT: s_ashr_i32 s1, s1, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s6, v6, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s8, v7, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s8, v7, v2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s12, v8, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s12, v8, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s14, v9, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s14, v9, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s16, v10, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s16, v10, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc8:		; GFX10-DL-LABEL: idot8_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_movk_i32 s2, 0xff		; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 12		; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 12
; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 12		; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 12
; GFX10-DL-NEXT: s_bfe_i32 s6, s0, 0x40000		; GFX10-DL-NEXT: s_bfe_i32 s6, s0, 0x40000
; GFX10-DL-NEXT: s_bfe_i32 s7, s1, 0x40000		; GFX10-DL-NEXT: s_bfe_i32 s7, s1, 0x40000
; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40004
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s4		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s4
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s5		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s5
▲ Show 20 Lines • Show All 794 Lines • ▼ Show 20 Lines
; GFX7-NEXT: v_mad_i32_i24 v0, s9, v7, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s9, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s15		; GFX7-NEXT: v_mov_b32_e32 v1, s15
; GFX7-NEXT: v_mad_i32_i24 v0, s8, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s8, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc16_vecMul:		; GFX8-LABEL: idot8_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s8
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s9
; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s2		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_lshr_b32 s15, s2, 4		; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX8-NEXT: s_lshr_b32 s16, s2, 8		; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s0
		; GFX8-NEXT: s_lshr_b32 s15, s0, 4
		; GFX8-NEXT: s_lshr_b32 s16, s0, 8
; GFX8-NEXT: v_lshlrev_b16_e64 v12, 12, s16		; GFX8-NEXT: v_lshlrev_b16_e64 v12, 12, s16
; GFX8-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s8, s0, 4		; GFX8-NEXT: v_lshlrev_b16_e64 v3, 12, s1
; GFX8-NEXT: s_lshr_b32 s9, s0, 8		; GFX8-NEXT: s_lshr_b32 s8, s1, 4
		; GFX8-NEXT: s_lshr_b32 s9, s1, 8
; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s9		; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s9
; GFX8-NEXT: v_lshlrev_b16_e64 v6, 12, s8		; GFX8-NEXT: v_lshlrev_b16_e64 v6, 12, s8
; GFX8-NEXT: v_lshlrev_b16_e64 v13, 12, s15		; GFX8-NEXT: v_lshlrev_b16_e64 v13, 12, s15
; GFX8-NEXT: v_ashrrev_i16_e32 v3, 12, v3		; GFX8-NEXT: v_ashrrev_i16_e32 v3, 12, v3
; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX8-NEXT: s_lshr_b32 s7, s0, 12		; GFX8-NEXT: s_lshr_b32 s7, s1, 12
; GFX8-NEXT: s_lshr_b32 s14, s2, 12		; GFX8-NEXT: s_lshr_b32 s14, s0, 12
; GFX8-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX8-NEXT: v_ashrrev_i16_e32 v6, 12, v6
; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX8-NEXT: v_ashrrev_i16_e32 v12, 12, v12		; GFX8-NEXT: v_ashrrev_i16_e32 v12, 12, v12
; GFX8-NEXT: v_ashrrev_i16_e32 v13, 12, v13		; GFX8-NEXT: v_ashrrev_i16_e32 v13, 12, v13
; GFX8-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX8-NEXT: v_lshlrev_b16_e64 v7, 12, s7
; GFX8-NEXT: v_lshlrev_b16_e64 v14, 12, s14		; GFX8-NEXT: v_lshlrev_b16_e64 v14, 12, s14
; GFX8-NEXT: s_lshr_b32 s6, s0, 16		; GFX8-NEXT: s_lshr_b32 s6, s1, 16
; GFX8-NEXT: s_lshr_b32 s13, s2, 16		; GFX8-NEXT: s_lshr_b32 s13, s0, 16
; GFX8-NEXT: v_mul_u32_u24_e32 v5, v5, v12		; GFX8-NEXT: v_mul_u32_u24_e32 v5, v5, v12
; GFX8-NEXT: v_lshlrev_b16_e64 v8, 12, s6		; GFX8-NEXT: v_lshlrev_b16_e64 v8, 12, s6
; GFX8-NEXT: v_lshlrev_b16_e64 v15, 12, s13		; GFX8-NEXT: v_lshlrev_b16_e64 v15, 12, s13
; GFX8-NEXT: s_lshr_b32 s5, s0, 20		; GFX8-NEXT: s_lshr_b32 s5, s1, 20
; GFX8-NEXT: s_lshr_b32 s12, s2, 20		; GFX8-NEXT: s_lshr_b32 s12, s0, 20
; GFX8-NEXT: v_ashrrev_i16_e32 v7, 12, v7		; GFX8-NEXT: v_ashrrev_i16_e32 v7, 12, v7
; GFX8-NEXT: v_ashrrev_i16_e32 v14, 12, v14		; GFX8-NEXT: v_ashrrev_i16_e32 v14, 12, v14
; GFX8-NEXT: v_lshlrev_b16_e64 v9, 12, s5		; GFX8-NEXT: v_lshlrev_b16_e64 v9, 12, s5
; GFX8-NEXT: v_lshlrev_b16_e64 v16, 12, s12		; GFX8-NEXT: v_lshlrev_b16_e64 v16, 12, s12
; GFX8-NEXT: s_lshr_b32 s4, s0, 24		; GFX8-NEXT: s_lshr_b32 s4, s1, 24
; GFX8-NEXT: s_lshr_b32 s11, s2, 24		; GFX8-NEXT: s_lshr_b32 s11, s0, 24
; GFX8-NEXT: v_ashrrev_i16_e32 v8, 12, v8		; GFX8-NEXT: v_ashrrev_i16_e32 v8, 12, v8
; GFX8-NEXT: v_ashrrev_i16_e32 v15, 12, v15		; GFX8-NEXT: v_ashrrev_i16_e32 v15, 12, v15
; GFX8-NEXT: v_lshlrev_b16_e64 v10, 12, s4		; GFX8-NEXT: v_lshlrev_b16_e64 v10, 12, s4
; GFX8-NEXT: v_lshlrev_b16_e64 v17, 12, s11		; GFX8-NEXT: v_lshlrev_b16_e64 v17, 12, s11
; GFX8-NEXT: s_lshr_b32 s1, s0, 28		; GFX8-NEXT: s_lshr_b32 s2, s1, 28
; GFX8-NEXT: s_lshr_b32 s10, s2, 28		; GFX8-NEXT: s_lshr_b32 s10, s0, 28
; GFX8-NEXT: v_ashrrev_i16_e32 v9, 12, v9		; GFX8-NEXT: v_ashrrev_i16_e32 v9, 12, v9
; GFX8-NEXT: v_ashrrev_i16_e32 v16, 12, v16		; GFX8-NEXT: v_ashrrev_i16_e32 v16, 12, v16
; GFX8-NEXT: v_lshlrev_b16_e64 v11, 12, s1		; GFX8-NEXT: v_lshlrev_b16_e64 v11, 12, s2
; GFX8-NEXT: v_lshlrev_b16_e64 v18, 12, s10		; GFX8-NEXT: v_lshlrev_b16_e64 v18, 12, s10
; GFX8-NEXT: v_ashrrev_i16_e32 v10, 12, v10		; GFX8-NEXT: v_ashrrev_i16_e32 v10, 12, v10
; GFX8-NEXT: v_ashrrev_i16_e32 v17, 12, v17		; GFX8-NEXT: v_ashrrev_i16_e32 v17, 12, v17
; GFX8-NEXT: v_ashrrev_i16_e32 v11, 12, v11		; GFX8-NEXT: v_ashrrev_i16_e32 v11, 12, v11
; GFX8-NEXT: v_ashrrev_i16_e32 v18, 12, v18		; GFX8-NEXT: v_ashrrev_i16_e32 v18, 12, v18
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, v3, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, v6, v13, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v6, v13, v2
Show All 9 Lines
; GFX9-LABEL: idot8_acc16_vecMul:		; GFX9-LABEL: idot8_acc16_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX9-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX9-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s4, s2, 15		; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s5, s2, 0x40004		; GFX9-NEXT: s_lshr_b32 s5, s2, 28
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40008		; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-NEXT: s_bfe_u32 s9, s2, 0x4000c		; GFX9-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s10, s2, 0x40010		; GFX9-NEXT: s_bfe_u32 s10, s2, 0x40008
; GFX9-NEXT: s_bfe_u32 s11, s2, 0x40018		; GFX9-NEXT: s_bfe_u32 s11, s2, 0x4000c
; GFX9-NEXT: s_lshr_b32 s12, s2, 28		; GFX9-NEXT: s_and_b32 s12, s2, 15
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40014		; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40004
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s10, s2		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s12, s2
		; GFX9-NEXT: v_pk_lshlrev_b16 v0, 12, s2 op_sel_hi:[0,1]
		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s10, s11
		; GFX9-NEXT: v_pk_lshlrev_b16 v1, 12, s2 op_sel_hi:[0,1]
		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s8, s9
; GFX9-NEXT: v_pk_lshlrev_b16 v2, 12, s2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v2, 12, s2 op_sel_hi:[0,1]
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s11, s12		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s4, s5
; GFX9-NEXT: s_bfe_u32 s7, s6, 0x40018		; GFX9-NEXT: s_bfe_u32 s7, s6, 0x40018
; GFX9-NEXT: s_lshr_b32 s13, s6, 28		; GFX9-NEXT: s_lshr_b32 s13, s6, 28
; GFX9-NEXT: s_bfe_u32 s14, s6, 0x40010		; GFX9-NEXT: s_bfe_u32 s14, s6, 0x40010
; GFX9-NEXT: s_bfe_u32 s15, s6, 0x40014		; GFX9-NEXT: s_bfe_u32 s15, s6, 0x40014
; GFX9-NEXT: s_bfe_u32 s16, s6, 0x40008		; GFX9-NEXT: s_bfe_u32 s16, s6, 0x40008
; GFX9-NEXT: s_bfe_u32 s17, s6, 0x4000c		; GFX9-NEXT: s_bfe_u32 s17, s6, 0x4000c
; GFX9-NEXT: s_and_b32 s18, s6, 15		; GFX9-NEXT: s_and_b32 s18, s6, 15
; GFX9-NEXT: s_bfe_u32 s6, s6, 0x40004		; GFX9-NEXT: s_bfe_u32 s6, s6, 0x40004
; GFX9-NEXT: v_pk_lshlrev_b16 v3, 12, s2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v3, 12, s2 op_sel_hi:[0,1]
; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s5
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s18, s6		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s18, s6
; GFX9-NEXT: v_pk_lshlrev_b16 v0, 12, s4 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v4, 12, s2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v4, 12, s2 op_sel_hi:[0,1]
; GFX9-NEXT: s_pack_ll_b32_b16 s4, s8, s9
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s16, s17		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s16, s17
; GFX9-NEXT: v_pk_lshlrev_b16 v5, 12, s2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v5, 12, s2 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v1, 12, s4 op_sel_hi:[0,1]
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s14, s15		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s14, s15
; GFX9-NEXT: v_pk_ashrrev_i16 v0, 12, v0 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_ashrrev_i16 v0, 12, v0 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_ashrrev_i16 v1, 12, v1 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_ashrrev_i16 v1, 12, v1 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_ashrrev_i16 v5, 12, v5 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_ashrrev_i16 v5, 12, v5 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v6, 12, s2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v6, 12, s2 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_mul_lo_u16 v5, v1, v5		; GFX9-NEXT: v_pk_mul_lo_u16 v5, v1, v5
; GFX9-NEXT: v_pk_mul_lo_u16 v4, v0, v4		; GFX9-NEXT: v_pk_mul_lo_u16 v4, v0, v4
Show All 23 Lines
; GFX9-DL-LABEL: idot8_acc16_vecMul:		; GFX9-DL-LABEL: idot8_acc16_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX9-DL-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s4, s2, 15		; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x40004		; GFX9-DL-NEXT: s_lshr_b32 s5, s2, 28
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s9, s2, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s10, s2, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s10, s2, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x4000c
; GFX9-DL-NEXT: s_lshr_b32 s12, s2, 28		; GFX9-DL-NEXT: s_and_b32 s12, s2, 15
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40004
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s10, s2		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s12, s2
		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v0, 12, s2 op_sel_hi:[0,1]
		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s10, s11
		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v1, 12, s2 op_sel_hi:[0,1]
		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s8, s9
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v2, 12, s2 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v2, 12, s2 op_sel_hi:[0,1]
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s11, s12		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s4, s5
; GFX9-DL-NEXT: s_bfe_u32 s7, s6, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s7, s6, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s13, s6, 28		; GFX9-DL-NEXT: s_lshr_b32 s13, s6, 28
; GFX9-DL-NEXT: s_bfe_u32 s14, s6, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s14, s6, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s15, s6, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s15, s6, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s16, s6, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s16, s6, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s17, s6, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s17, s6, 0x4000c
; GFX9-DL-NEXT: s_and_b32 s18, s6, 15		; GFX9-DL-NEXT: s_and_b32 s18, s6, 15
; GFX9-DL-NEXT: s_bfe_u32 s6, s6, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s6, s6, 0x40004
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v3, 12, s2 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v3, 12, s2 op_sel_hi:[0,1]
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s4, s5
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s18, s6		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s18, s6
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v0, 12, s4 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v4, 12, s2 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v4, 12, s2 op_sel_hi:[0,1]
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s8, s9
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s16, s17		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s16, s17
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v5, 12, s2 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v5, 12, s2 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v1, 12, s4 op_sel_hi:[0,1]
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s14, s15		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s14, s15
; GFX9-DL-NEXT: v_pk_ashrrev_i16 v0, 12, v0 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_ashrrev_i16 v0, 12, v0 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_ashrrev_i16 v1, 12, v1 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_ashrrev_i16 v1, 12, v1 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v5 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v5 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s2 op_sel_hi:[0,1]		; GFX9-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s2 op_sel_hi:[0,1]
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v1, v5		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v1, v5
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v0, v4		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v0, v4
Show All 17 Lines
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc16_vecMul:		; GFX10-DL-LABEL: idot8_acc16_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s5, s0, 15		; GFX10-DL-NEXT: s_and_b32 s5, s0, 15
; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004
; GFX10-DL-NEXT: s_and_b32 s7, s1, 15		; GFX10-DL-NEXT: s_and_b32 s7, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018
; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 28		; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 28
; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s6		; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s6
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @idot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc8_vecMul:		; GFX7-LABEL: idot8_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
		; GFX7-NEXT: s_movk_i32 s2, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s2, s[8:9], 0x0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s8, s[10:11], 0x0		; GFX7-NEXT: s_mov_b32 s12, 0xffff
; GFX7-NEXT: s_mov_b32 s1, 0xffff		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s9, s2, 0x40000		; GFX7-NEXT: s_bfe_i32 s8, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s10, s2, 0x40004		; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s16, s8, 0x40000		; GFX7-NEXT: s_bfe_i32 s17, s1, 0x40004
; GFX7-NEXT: s_bfe_i32 s17, s8, 0x40004		; GFX7-NEXT: s_bfe_i32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_i32 s18, s8, 0x40008		; GFX7-NEXT: s_bfe_i32 s19, s1, 0x4000c
; GFX7-NEXT: s_bfe_i32 s19, s8, 0x4000c		; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40010
; GFX7-NEXT: s_bfe_i32 s20, s8, 0x40010		; GFX7-NEXT: s_bfe_i32 s21, s1, 0x40014
; GFX7-NEXT: s_bfe_i32 s21, s8, 0x40014		; GFX7-NEXT: s_bfe_i32 s22, s1, 0x40018
; GFX7-NEXT: s_bfe_i32 s22, s8, 0x40018		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: s_ashr_i32 s8, s8, 28
; GFX7-NEXT: v_mov_b32_e32 v7, s17
; GFX7-NEXT: v_mov_b32_e32 v8, s16		; GFX7-NEXT: v_mov_b32_e32 v8, s16
; GFX7-NEXT: s_bfe_i32 s11, s2, 0x40008		; GFX7-NEXT: s_bfe_i32 s9, s0, 0x40004
		; GFX7-NEXT: v_mov_b32_e32 v7, s17
		; GFX7-NEXT: s_bfe_i32 s10, s0, 0x40008
; GFX7-NEXT: v_mov_b32_e32 v6, s18		; GFX7-NEXT: v_mov_b32_e32 v6, s18
; GFX7-NEXT: s_bfe_i32 s12, s2, 0x4000c		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x4000c
; GFX7-NEXT: v_mov_b32_e32 v5, s19		; GFX7-NEXT: v_mov_b32_e32 v5, s19
; GFX7-NEXT: s_bfe_i32 s13, s2, 0x40010		; GFX7-NEXT: s_bfe_i32 s13, s0, 0x40010
; GFX7-NEXT: v_mov_b32_e32 v4, s20		; GFX7-NEXT: v_mov_b32_e32 v4, s20
; GFX7-NEXT: s_bfe_i32 s14, s2, 0x40014		; GFX7-NEXT: s_bfe_i32 s14, s0, 0x40014
; GFX7-NEXT: v_mov_b32_e32 v3, s21		; GFX7-NEXT: v_mov_b32_e32 v3, s21
; GFX7-NEXT: s_bfe_i32 s15, s2, 0x40018		; GFX7-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX7-NEXT: v_mov_b32_e32 v2, s22		; GFX7-NEXT: v_mov_b32_e32 v2, s22
; GFX7-NEXT: s_ashr_i32 s2, s2, 28		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
; GFX7-NEXT: v_mov_b32_e32 v1, s8		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mul_i32_i24_e32 v1, s2, v1		; GFX7-NEXT: v_mul_i32_i24_e32 v1, s0, v1
; GFX7-NEXT: v_mul_i32_i24_e32 v2, s15, v2		; GFX7-NEXT: v_mul_i32_i24_e32 v2, s15, v2
; GFX7-NEXT: v_mul_i32_i24_e32 v3, s14, v3		; GFX7-NEXT: v_mul_i32_i24_e32 v3, s14, v3
; GFX7-NEXT: v_mul_i32_i24_e32 v9, s13, v4		; GFX7-NEXT: v_mul_i32_i24_e32 v9, s13, v4
; GFX7-NEXT: v_mul_i32_i24_e32 v5, s12, v5		; GFX7-NEXT: v_mul_i32_i24_e32 v5, s11, v5
; GFX7-NEXT: v_mul_i32_i24_e32 v6, s11, v6		; GFX7-NEXT: v_mul_i32_i24_e32 v6, s10, v6
; GFX7-NEXT: v_mul_i32_i24_e32 v7, s10, v7		; GFX7-NEXT: v_mul_i32_i24_e32 v7, s9, v7
; GFX7-NEXT: v_mul_i32_i24_e32 v8, s9, v8		; GFX7-NEXT: v_mul_i32_i24_e32 v8, s8, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_and_b32_e32 v2, s0, v2		; GFX7-NEXT: v_and_b32_e32 v2, s2, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_and_b32_e32 v9, s0, v9		; GFX7-NEXT: v_and_b32_e32 v9, s2, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_and_b32_e32 v6, s0, v6		; GFX7-NEXT: v_and_b32_e32 v6, s2, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_and_b32_e32 v8, s0, v8		; GFX7-NEXT: v_and_b32_e32 v8, s2, v8
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_or_b32_e32 v2, v9, v3		; GFX7-NEXT: v_or_b32_e32 v2, v9, v3
; GFX7-NEXT: v_or_b32_e32 v3, v6, v5		; GFX7-NEXT: v_or_b32_e32 v3, v6, v5
; GFX7-NEXT: v_or_b32_e32 v5, v8, v7		; GFX7-NEXT: v_or_b32_e32 v5, v8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_and_b32_e32 v2, s1, v2		; GFX7-NEXT: v_and_b32_e32 v2, s12, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_and_b32_e32 v5, s1, v5		; GFX7-NEXT: v_and_b32_e32 v5, s12, v5
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_or_b32_e32 v2, v5, v3		; GFX7-NEXT: v_or_b32_e32 v2, v5, v3
; GFX7-NEXT: v_alignbit_b32 v3, v1, v2, 8		; GFX7-NEXT: v_alignbit_b32 v3, v1, v2, 8
; GFX7-NEXT: v_alignbit_b32 v5, v1, v2, 16		; GFX7-NEXT: v_alignbit_b32 v5, v1, v2, 16
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s13, v4, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s13, v4, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc8_vecMul:		; GFX8-LABEL: idot8_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_mov_b32 s2, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_mov_b32 s0, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s8, s1, 4		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX8-NEXT: s_lshr_b32 s9, s1, 12		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_lshr_b32 s10, s1, 8		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s15, s2, 4		; GFX8-NEXT: s_lshr_b32 s8, s0, 4
; GFX8-NEXT: s_lshr_b32 s16, s2, 12		; GFX8-NEXT: s_lshr_b32 s9, s0, 12
; GFX8-NEXT: s_lshr_b32 s17, s2, 8		; GFX8-NEXT: s_lshr_b32 s10, s0, 8
; GFX8-NEXT: v_lshlrev_b16_e64 v3, 12, s1		; GFX8-NEXT: s_lshr_b32 s15, s1, 4
; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s2		; GFX8-NEXT: s_lshr_b32 s16, s1, 12
		; GFX8-NEXT: s_lshr_b32 s17, s1, 8
		; GFX8-NEXT: v_lshlrev_b16_e64 v3, 12, s0
		; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s10		; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s10
; GFX8-NEXT: v_lshlrev_b16_e64 v6, 12, s9		; GFX8-NEXT: v_lshlrev_b16_e64 v6, 12, s9
; GFX8-NEXT: v_lshlrev_b16_e64 v7, 12, s8		; GFX8-NEXT: v_lshlrev_b16_e64 v7, 12, s8
; GFX8-NEXT: v_lshlrev_b16_e64 v12, 12, s17		; GFX8-NEXT: v_lshlrev_b16_e64 v12, 12, s17
; GFX8-NEXT: v_lshlrev_b16_e64 v13, 12, s16		; GFX8-NEXT: v_lshlrev_b16_e64 v13, 12, s16
; GFX8-NEXT: v_lshlrev_b16_e64 v14, 12, s15		; GFX8-NEXT: v_lshlrev_b16_e64 v14, 12, s15
; GFX8-NEXT: s_lshr_b32 s4, s1, 20		; GFX8-NEXT: s_lshr_b32 s4, s0, 20
; GFX8-NEXT: s_lshr_b32 s5, s1, 16		; GFX8-NEXT: s_lshr_b32 s5, s0, 16
; GFX8-NEXT: s_lshr_b32 s6, s1, 28		; GFX8-NEXT: s_lshr_b32 s6, s0, 28
; GFX8-NEXT: s_lshr_b32 s7, s1, 24		; GFX8-NEXT: s_lshr_b32 s7, s0, 24
; GFX8-NEXT: s_lshr_b32 s11, s2, 20		; GFX8-NEXT: s_lshr_b32 s11, s1, 20
; GFX8-NEXT: s_lshr_b32 s12, s2, 16		; GFX8-NEXT: s_lshr_b32 s12, s1, 16
; GFX8-NEXT: s_lshr_b32 s13, s2, 28		; GFX8-NEXT: s_lshr_b32 s13, s1, 28
; GFX8-NEXT: s_lshr_b32 s14, s2, 24		; GFX8-NEXT: s_lshr_b32 s14, s1, 24
; GFX8-NEXT: v_lshlrev_b16_e64 v8, 12, s7		; GFX8-NEXT: v_lshlrev_b16_e64 v8, 12, s7
; GFX8-NEXT: v_lshlrev_b16_e64 v9, 12, s6		; GFX8-NEXT: v_lshlrev_b16_e64 v9, 12, s6
; GFX8-NEXT: v_lshlrev_b16_e64 v10, 12, s5		; GFX8-NEXT: v_lshlrev_b16_e64 v10, 12, s5
; GFX8-NEXT: v_lshlrev_b16_e64 v11, 12, s4		; GFX8-NEXT: v_lshlrev_b16_e64 v11, 12, s4
; GFX8-NEXT: v_lshlrev_b16_e64 v15, 12, s14		; GFX8-NEXT: v_lshlrev_b16_e64 v15, 12, s14
; GFX8-NEXT: v_lshlrev_b16_e64 v16, 12, s13		; GFX8-NEXT: v_lshlrev_b16_e64 v16, 12, s13
; GFX8-NEXT: v_lshlrev_b16_e64 v17, 12, s12		; GFX8-NEXT: v_lshlrev_b16_e64 v17, 12, s12
; GFX8-NEXT: v_lshlrev_b16_e64 v18, 12, s11		; GFX8-NEXT: v_lshlrev_b16_e64 v18, 12, s11
Show All 17 Lines
; GFX8-NEXT: v_ashrrev_i16_e32 v16, 12, v16		; GFX8-NEXT: v_ashrrev_i16_e32 v16, 12, v16
; GFX8-NEXT: v_ashrrev_i16_e32 v17, 12, v17		; GFX8-NEXT: v_ashrrev_i16_e32 v17, 12, v17
; GFX8-NEXT: v_ashrrev_i16_e32 v18, 12, v18		; GFX8-NEXT: v_ashrrev_i16_e32 v18, 12, v18
; GFX8-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_sdwa v7, v8, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_mul_u32_u24_sdwa v7, v8, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_mul_u32_u24_sdwa v9, v10, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_mul_u32_u24_sdwa v9, v10, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_and_b32_e32 v3, s0, v3		; GFX8-NEXT: v_and_b32_e32 v3, s2, v3
; GFX8-NEXT: v_or_b32_sdwa v4, v4, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v4, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_or_b32_sdwa v9, v9, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v9, v9, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v5, s0, v9		; GFX8-NEXT: v_and_b32_e32 v5, s2, v9
; GFX8-NEXT: v_or_b32_e32 v4, v3, v4		; GFX8-NEXT: v_or_b32_e32 v4, v3, v4
; GFX8-NEXT: v_or_b32_e32 v6, v5, v7		; GFX8-NEXT: v_or_b32_e32 v6, v5, v7
; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v4		; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v4
; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6		; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v3		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc8_vecMul:		; GFX9-LABEL: idot8_acc8_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_mov_b32 s2, 0xffff		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s8, s0, 4		; GFX9-NEXT: s_lshr_b32 s8, s0, 4
; GFX9-NEXT: s_lshr_b32 s15, s1, 4		; GFX9-NEXT: s_lshr_b32 s15, s1, 4
; GFX9-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX9-NEXT: v_lshlrev_b16_e64 v3, 12, s0
; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-NEXT: v_lshlrev_b16_e64 v7, 12, s8		; GFX9-NEXT: v_lshlrev_b16_e64 v7, 12, s8
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc8_vecMul:		; GFX9-DL-LABEL: idot8_acc8_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff		; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_lshr_b32 s8, s0, 4		; GFX9-DL-NEXT: s_lshr_b32 s8, s0, 4
; GFX9-DL-NEXT: s_lshr_b32 s15, s1, 4		; GFX9-DL-NEXT: s_lshr_b32 s15, s1, 4
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc8_vecMul:		; GFX10-DL-LABEL: idot8_acc8_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff		; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_lshr_b32 s8, s0, 4		; GFX10-DL-NEXT: s_lshr_b32 s8, s0, 4
; GFX10-DL-NEXT: s_lshr_b32 s15, s1, 4		; GFX10-DL-NEXT: s_lshr_b32 s15, s1, 4
; GFX10-DL-NEXT: s_lshr_b32 s9, s0, 12		; GFX10-DL-NEXT: s_lshr_b32 s9, s0, 12
; GFX10-DL-NEXT: s_lshr_b32 s16, s1, 12		; GFX10-DL-NEXT: s_lshr_b32 s16, s1, 12
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8
; GFX10-DL-NEXT: v_lshlrev_b16_e64 v12, 12, s15		; GFX10-DL-NEXT: v_lshlrev_b16_e64 v12, 12, s15
▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
; GFX9-DL-LABEL: udot8_acc32:		; GFX9-DL-LABEL: udot8_acc32:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s6
		; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6
; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v2, v3
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc32:		; GFX10-DL-LABEL: udot8_acc32:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s4, s5, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<8 x i4> addrspace(1)* %src2,		<8 x i4> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1		%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2		%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the unnecessary instruction(that is zero-extending the		; TODO: Remove the unnecessary instruction(that is zero-extending the
; 2nd MAD) to have the pattern-recognizer to kick in.		; 2nd MAD) to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc16(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc16(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc16:		; GFX7-LABEL: udot8_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[8:11], 0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_and_b32 s1, s1, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004
; GFX7-NEXT: s_and_b32 s0, s0, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s20		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: v_mov_b32_e32 v6, s16		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[8:11], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc16:		; GFX8-LABEL: udot8_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX8-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_and_b32 s1, s1, 15
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX8-NEXT: s_and_b32 s0, s0, 15
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s16
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mov_b32_e32 v5, s15
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s4
; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX8-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s8
; GFX8-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s9
; GFX8-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX8-NEXT: s_lshr_b32 s2, s2, 28
; GFX8-NEXT: v_mov_b32_e32 v9, s11		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s10
		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc16:		; GFX9-LABEL: udot8_acc16:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NEXT: global_load_ushort v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX9-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX9-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-NEXT: s_and_b32 s1, s1, 15
		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX9-NEXT: s_and_b32 s0, s0, 15
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NEXT: v_mov_b32_e32 v4, s16
; GFX9-NEXT: s_and_b32 s1, s0, 15		; GFX9-NEXT: v_mov_b32_e32 v5, s15
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v6, s14
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX9-NEXT: v_mov_b32_e32 v7, s13
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: v_mov_b32_e32 v5, s4
; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v6, s7
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX9-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v7, s8
; GFX9-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s9
; GFX9-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-NEXT: s_lshr_b32 s2, s2, 28
; GFX9-NEXT: v_mov_b32_e32 v9, s11		; GFX9-NEXT: v_mov_b32_e32 v9, s11
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX9-NEXT: v_mov_b32_e32 v3, s10
		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc16:		; GFX9-DL-LABEL: udot8_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-DL-NEXT: s_and_b32 s1, s1, 15
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX9-DL-NEXT: s_and_b32 s0, s0, 15
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s16
; GFX9-DL-NEXT: s_and_b32 s1, s0, 15		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s15
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s14
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s13
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s4
; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s7
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s8
; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s9
; GFX9-DL-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc16:		; GFX10-DL-LABEL: udot8_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the unnecessary instruction(that is zero-extending the		; TODO: Remove the unnecessary instruction(that is zero-extending the
; 2nd MAD) to have the pattern-recognizer to kick in.		; 2nd MAD) to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc8(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc8(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc8:		; GFX7-LABEL: udot8_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[8:11], 0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_and_b32 s1, s1, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004
; GFX7-NEXT: s_and_b32 s0, s0, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s20		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: v_mov_b32_e32 v6, s16		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[8:11], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc8:		; GFX8-LABEL: udot8_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX8-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_and_b32 s1, s1, 15
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX8-NEXT: s_and_b32 s0, s0, 15
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s16
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mov_b32_e32 v5, s15
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s4
; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX8-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s8
; GFX8-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s9
; GFX8-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX8-NEXT: s_lshr_b32 s2, s2, 28
; GFX8-NEXT: v_mov_b32_e32 v9, s11		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s10
		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc8:		; GFX9-LABEL: udot8_acc8:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX9-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX9-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-NEXT: s_and_b32 s1, s1, 15
		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX9-NEXT: s_and_b32 s0, s0, 15
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NEXT: v_mov_b32_e32 v4, s16
; GFX9-NEXT: s_and_b32 s1, s0, 15		; GFX9-NEXT: v_mov_b32_e32 v5, s15
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v6, s14
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX9-NEXT: v_mov_b32_e32 v7, s13
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: v_mov_b32_e32 v5, s4
; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v6, s7
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX9-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v7, s8
; GFX9-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s9
; GFX9-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-NEXT: s_lshr_b32 s2, s2, 28
; GFX9-NEXT: v_mov_b32_e32 v9, s11		; GFX9-NEXT: v_mov_b32_e32 v9, s11
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX9-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX9-NEXT: v_mov_b32_e32 v3, s10
		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc8:		; GFX9-DL-LABEL: udot8_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-DL-NEXT: s_and_b32 s1, s1, 15
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX9-DL-NEXT: s_and_b32 s0, s0, 15
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s16
; GFX9-DL-NEXT: s_and_b32 s1, s0, 15		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s15
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s14
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s13
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s4
; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s7
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s8
; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s9
; GFX9-DL-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xff, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc8:		; GFX10-DL-LABEL: udot8_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008		; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the two unnecessary instructions(and+add after 2nd MAD)		; TODO: Remove the two unnecessary instructions(and+add after 2nd MAD)
; to have the pattern-recognizer to kick in.		; to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc4(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc4(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc4:		; GFX7-LABEL: udot8_acc4:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[8:11], 0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_and_b32 s1, s1, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004
; GFX7-NEXT: s_and_b32 s0, s0, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s20		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: v_mov_b32_e32 v6, s16		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[8:11], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc4:		; GFX8-LABEL: udot8_acc4:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_and_b32 s9, s0, 15
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_and_b32 s16, s1, 15
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v4, s16
		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v5, s15
		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_and_b32_e32 v3, 15, v3
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v6, s6
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX8-NEXT: v_and_b32_e32 v5, 15, v5
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s6
; GFX8-NEXT: s_lshr_b32 s11, s2, 28
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s8
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s2
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v5, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s11		; GFX8-NEXT: v_mov_b32_e32 v3, s10
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc4:		; GFX9-LABEL: udot8_acc4:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_and_b32 s9, s0, 15
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_and_b32 s16, s1, 15
		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-NEXT: v_mov_b32_e32 v6, s14
; GFX9-NEXT: s_and_b32 s1, s0, 15		; GFX9-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NEXT: v_mov_b32_e32 v7, s13
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NEXT: v_mov_b32_e32 v9, s11
; GFX9-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v6, s6
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v7, s6
; GFX9-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s8
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-NEXT: v_mov_b32_e32 v9, s2
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s11		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc4:		; GFX9-DL-LABEL: udot8_acc4:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_and_b32 s9, s0, 15
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_and_b32 s16, s1, 15
		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s14
; GFX9-DL-NEXT: s_and_b32 s1, s0, 15		; GFX9-DL-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-DL-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s13
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11
; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s6
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-DL-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s6
; GFX9-DL-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s8
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s2
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc4:		; GFX10-DL-LABEL: udot8_acc4:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008		; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Currently, permutation of udot8 is turned off due to a huge increase		; TODO: Currently, permutation of udot8 is turned off due to a huge increase
; in the compile time.		; in the compile time.
define amdgpu_kernel void @udot8_CommutationInsideMAD(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_CommutationInsideMAD(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_CommutationInsideMAD:		; GFX7-LABEL: udot8_CommutationInsideMAD:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[8:11], 0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_and_b32 s1, s1, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004
; GFX7-NEXT: s_and_b32 s0, s0, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s20		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: v_mov_b32_e32 v6, s16		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[8:11], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_CommutationInsideMAD:		; GFX8-LABEL: udot8_CommutationInsideMAD:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_and_b32 s9, s0, 15
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_and_b32 s16, s1, 15
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v4, s16
		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v5, s15
		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_and_b32_e32 v3, 15, v3
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v6, s6
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX8-NEXT: v_and_b32_e32 v5, 15, v5
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s6
; GFX8-NEXT: s_lshr_b32 s11, s2, 28
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s8
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s2
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s11		; GFX8-NEXT: v_mov_b32_e32 v3, s10
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_CommutationInsideMAD:		; GFX9-LABEL: udot8_CommutationInsideMAD:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_and_b32 s9, s0, 15
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_and_b32 s16, s1, 15
		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-NEXT: v_mov_b32_e32 v6, s14
; GFX9-NEXT: s_and_b32 s1, s0, 15		; GFX9-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NEXT: v_mov_b32_e32 v7, s13
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NEXT: v_mov_b32_e32 v9, s11
; GFX9-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v6, s6
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v7, s6
; GFX9-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s8
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-NEXT: v_mov_b32_e32 v9, s2
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: v_add_u32_e32 v2, v5, v2		; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s11		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_CommutationInsideMAD:		; GFX9-DL-LABEL: udot8_CommutationInsideMAD:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_and_b32 s9, s0, 15
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_and_b32 s16, s1, 15
		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s14
; GFX9-DL-NEXT: s_and_b32 s1, s0, 15		; GFX9-DL-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-DL-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s13
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11
; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s6
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-DL-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s6
; GFX9-DL-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s8
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s2
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v5, v2		; GFX9-DL-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_CommutationInsideMAD:		; GFX10-DL-LABEL: udot8_CommutationInsideMAD:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008		; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x4000c		; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x4000c
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
▲ Show 20 Lines • Show All 526 Lines • ▼ Show 20 Lines
; GFX9-DL-LABEL: udot8_acc32_vecMul:		; GFX9-DL-LABEL: udot8_acc32_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0		; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0
; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s6
		; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v2, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6
; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v2, v3
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc32_vecMul:		; GFX10-DL-LABEL: udot8_acc32_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s4, s5, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
<8 x i4> addrspace(1)* %src2,		<8 x i4> addrspace(1)* %src2,
i32 addrspace(1)* nocapture %dst) {		i32 addrspace(1)* nocapture %dst) {
entry:		entry:
%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1		%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2		%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

Show All 24 Lines	entry:
ret void		ret void
}		}

; TODO: Clean up the code(by default pk_mad_I16 should be generated), then		; TODO: Clean up the code(by default pk_mad_I16 should be generated), then
; support the pattern.		; support the pattern.
define amdgpu_kernel void @udot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc16_vecMul:		; GFX7-LABEL: udot8_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40004
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40004
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x4000c
; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_and_b32 s19, s1, 15		; GFX7-NEXT: s_and_b32 s19, s1, 15
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40008
		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x4000c
		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mul_u32_u24_e32 v2, s13, v2		; GFX7-NEXT: v_mul_u32_u24_e32 v2, s13, v2
; GFX7-NEXT: v_mul_u32_u24_e32 v4, s11, v4		; GFX7-NEXT: v_mul_u32_u24_e32 v4, s11, v4
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
; GFX7-NEXT: s_and_b32 s12, s0, 15		; GFX7-NEXT: s_and_b32 s12, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
Show All 20 Lines
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc16_vecMul:		; GFX8-LABEL: udot8_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40008
		; GFX8-NEXT: s_bfe_u32 s16, s1, 0x40004
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_and_b32 s1, s1, 15
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX8-NEXT: s_and_b32 s0, s0, 15
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s16
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mov_b32_e32 v5, s15
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s4
; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40008
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x4000c
; GFX8-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s8
; GFX8-NEXT: s_bfe_u32 s11, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s9
; GFX8-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX8-NEXT: s_lshr_b32 s2, s2, 28
; GFX8-NEXT: v_mov_b32_e32 v9, s11		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s12, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
		; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s10
		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc16_vecMul:		; GFX9-LABEL: udot8_acc16_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_bfe_u32 s7, s6, 0x40018
; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s4		; GFX9-NEXT: s_lshr_b32 s13, s6, 28
; GFX9-NEXT: s_bfe_u32 s11, s2, 0x40018		; GFX9-NEXT: s_lshr_b32 s5, s2, 28
; GFX9-NEXT: s_lshr_b32 s13, s2, 28		; GFX9-NEXT: s_pack_ll_b32_b16 s7, s7, s13
; GFX9-NEXT: s_and_b32 s4, s0, 15		; GFX9-NEXT: s_bfe_u32 s14, s6, 0x40010
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: s_bfe_u32 s15, s6, 0x40014
; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s5		; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s5
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v0, s7
; GFX9-NEXT: s_pack_ll_b32_b16 s11, s11, s13		; GFX9-NEXT: v_pk_mul_lo_u16 v2, s4, v0
; GFX9-NEXT: s_bfe_u32 s1, s0, 0x40008		; GFX9-NEXT: s_pack_ll_b32_b16 s4, s14, s15
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x4000c
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40008
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40010		; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40014		; GFX9-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s12, s0		; GFX9-NEXT: s_bfe_u32 s16, s6, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v4, s11		; GFX9-NEXT: s_bfe_u32 s17, s6, 0x4000c
; GFX9-NEXT: v_pk_mul_lo_u16 v4, s0, v4		; GFX9-NEXT: s_and_b32 s18, s6, 15
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s8, s2		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v5, s0		; GFX9-NEXT: s_pack_ll_b32_b16 s5, s8, s9
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s6, s7		; GFX9-NEXT: s_bfe_u32 s10, s2, 0x40008
; GFX9-NEXT: v_pk_mul_lo_u16 v3, s4, v3		; GFX9-NEXT: s_bfe_u32 s11, s2, 0x4000c
; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5		; GFX9-NEXT: s_bfe_u32 s6, s6, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v6, s0		; GFX9-NEXT: s_pack_ll_b32_b16 s4, s16, s17
; GFX9-NEXT: v_pk_mul_lo_u16 v6, s1, v6		; GFX9-NEXT: v_pk_mul_lo_u16 v3, s5, v0
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s9, s10		; GFX9-NEXT: s_and_b32 s12, s2, 15
; GFX9-NEXT: v_pk_mul_lo_u16 v5, s2, v5		; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-NEXT: s_pack_ll_b32_b16 s5, s10, s11
		; GFX9-NEXT: s_pack_ll_b32_b16 s4, s18, s6
		; GFX9-NEXT: v_pk_mul_lo_u16 v4, s5, v0
		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s12, s2
		; GFX9-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-NEXT: v_pk_mul_lo_u16 v5, s2, v0
		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: v_mov_b32_e32 v1, s1
		; GFX9-NEXT: global_load_ushort v6, v[0:1], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-NEXT: v_add_u32_e32 v6, v5, v6
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0		; GFX9-NEXT: v_add_u32_sdwa v5, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v4, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-NEXT: v_add_u32_e32 v4, v4, v3
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_e32 v2, v2, v4		; GFX9-NEXT: v_add_u32_e32 v3, v3, v2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc16_vecMul:		; GFX9-DL-LABEL: udot8_acc16_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s7, s6, 0x40018
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s1, s1, s4		; GFX9-DL-NEXT: s_lshr_b32 s13, s6, 28
; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x40018		; GFX9-DL-NEXT: s_lshr_b32 s5, s2, 28
; GFX9-DL-NEXT: s_lshr_b32 s13, s2, 28		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s7, s7, s13
; GFX9-DL-NEXT: s_and_b32 s4, s0, 15		; GFX9-DL-NEXT: s_bfe_u32 s14, s6, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s15, s6, 0x40014
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s4, s5		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s4, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s7
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s11, s11, s13		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, s4, v0
; GFX9-DL-NEXT: s_bfe_u32 s1, s0, 0x40008		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s14, s15
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s0, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s9, s2, 0x40014
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s0, s12, s0		; GFX9-DL-NEXT: s_bfe_u32 s16, s6, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s11		; GFX9-DL-NEXT: s_bfe_u32 s17, s6, 0x4000c
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, s0, v4		; GFX9-DL-NEXT: s_and_b32 s18, s6, 15
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s0, s8, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s0		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s5, s8, s9
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s0, s6, s7		; GFX9-DL-NEXT: s_bfe_u32 s10, s2, 0x40008
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v3, s4, v3		; GFX9-DL-NEXT: s_bfe_u32 s11, s2, 0x4000c
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s1, s1, s5		; GFX9-DL-NEXT: s_bfe_u32 s6, s6, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s0		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s16, s17
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v6, s1, v6		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v3, s5, v0
; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s9, s10		; GFX9-DL-NEXT: s_and_b32 s12, s2, 15
; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, s2, v5		; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s5, s10, s11
		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s4, s18, s6
		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, s5, v0
		; GFX9-DL-NEXT: s_pack_ll_b32_b16 s2, s12, s2
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
		; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, s2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
		; GFX9-DL-NEXT: global_load_ushort v6, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-DL-NEXT: v_add_u32_e32 v6, v5, v6
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0		; GFX9-DL-NEXT: v_add_u32_sdwa v5, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v4, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-DL-NEXT: v_add_u32_e32 v4, v4, v3
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4		; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc16_vecMul:		; GFX10-DL-LABEL: udot8_acc16_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x4000c		; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x4000c
; GFX10-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c		; GFX10-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s2, s6		; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s2, s6
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Cleanup the code to generate MAD; pattern should be recognized then.		; TODO: Cleanup the code to generate MAD; pattern should be recognized then.
define amdgpu_kernel void @udot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc8_vecMul:		; GFX7-LABEL: udot8_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s2, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s2, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40004
; GFX7-NEXT: s_bfe_u32 s14, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s18, s1, 28		; GFX7-NEXT: s_lshr_b32 s18, s1, 28
; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v8, s14		; GFX7-NEXT: v_mov_b32_e32 v8, s14
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40008
; GFX7-NEXT: s_and_b32 s17, s1, 15		; GFX7-NEXT: s_and_b32 s17, s1, 15
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40014
		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40004
		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: s_lshr_b32 s11, s0, 28		; GFX7-NEXT: s_lshr_b32 s11, s0, 28
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mul_u32_u24_e32 v4, s11, v4		; GFX7-NEXT: v_mul_u32_u24_e32 v4, s11, v4
; GFX7-NEXT: v_mul_u32_u24_e32 v6, s9, v6		; GFX7-NEXT: v_mul_u32_u24_e32 v6, s9, v6
; GFX7-NEXT: v_mul_u32_u24_e32 v8, s2, v8		; GFX7-NEXT: v_mul_u32_u24_e32 v8, s2, v8
; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40008
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
Show All 37 Lines
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc8_vecMul:		; GFX8-LABEL: udot8_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_mov_b32 s2, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s0, 0xffff		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_bfe_u32 s8, s1, 0x40004		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x4000c		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40004
; GFX8-NEXT: s_bfe_u32 s15, s2, 0x40004		; GFX8-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX8-NEXT: s_and_b32 s16, s2, 15		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
; GFX8-NEXT: s_bfe_u32 s17, s2, 0x4000c		; GFX8-NEXT: s_and_b32 s16, s1, 15
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX8-NEXT: s_lshr_b32 s6, s1, 28		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40014
; GFX8-NEXT: s_bfe_u32 s11, s2, 0x40014		; GFX8-NEXT: s_lshr_b32 s6, s0, 28
; GFX8-NEXT: s_bfe_u32 s12, s2, 0x40010		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_lshr_b32 s13, s2, 28		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX8-NEXT: s_bfe_u32 s14, s2, 0x40018		; GFX8-NEXT: s_lshr_b32 s13, s1, 28
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x40008		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX8-NEXT: s_and_b32 s9, s1, 15		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x40008
		; GFX8-NEXT: s_and_b32 s9, s0, 15
; GFX8-NEXT: v_mov_b32_e32 v4, s17		; GFX8-NEXT: v_mov_b32_e32 v4, s17
; GFX8-NEXT: v_mov_b32_e32 v5, s10		; GFX8-NEXT: v_mov_b32_e32 v5, s10
; GFX8-NEXT: v_mov_b32_e32 v6, s16		; GFX8-NEXT: v_mov_b32_e32 v6, s16
; GFX8-NEXT: v_mov_b32_e32 v7, s15		; GFX8-NEXT: v_mov_b32_e32 v7, s15
; GFX8-NEXT: v_mov_b32_e32 v8, s8		; GFX8-NEXT: v_mov_b32_e32 v8, s8
; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v5, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v5, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s9, v6		; GFX8-NEXT: v_mul_u32_u24_e32 v5, s9, v6
; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v8, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v8, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: s_bfe_u32 s5, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40010
; GFX8-NEXT: s_bfe_u32 s7, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s14		; GFX8-NEXT: v_mov_b32_e32 v9, s14
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x40008		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mov_b32_e32 v10, s13		; GFX8-NEXT: v_mov_b32_e32 v10, s13
; GFX8-NEXT: v_mov_b32_e32 v11, s6		; GFX8-NEXT: v_mov_b32_e32 v11, s6
; GFX8-NEXT: v_mov_b32_e32 v12, s12		; GFX8-NEXT: v_mov_b32_e32 v12, s12
; GFX8-NEXT: v_mov_b32_e32 v13, s11		; GFX8-NEXT: v_mov_b32_e32 v13, s11
; GFX8-NEXT: v_mov_b32_e32 v14, s4		; GFX8-NEXT: v_mov_b32_e32 v14, s4
; GFX8-NEXT: v_mul_u32_u24_e32 v3, s1, v3		; GFX8-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX8-NEXT: v_or_b32_e32 v5, v5, v6		; GFX8-NEXT: v_or_b32_e32 v5, v5, v6
; GFX8-NEXT: v_mul_u32_u24_e32 v7, s7, v9		; GFX8-NEXT: v_mul_u32_u24_e32 v7, s7, v9
; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v11, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v11, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_e32 v9, s5, v12		; GFX8-NEXT: v_mul_u32_u24_e32 v9, s5, v12
; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v14, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v14, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v5, s0, v5		; GFX8-NEXT: v_and_b32_e32 v5, s2, v5
; GFX8-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_or_b32_e32 v9, v9, v10		; GFX8-NEXT: v_or_b32_e32 v9, v9, v10
; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v4, s0, v9		; GFX8-NEXT: v_and_b32_e32 v4, s2, v9
; GFX8-NEXT: v_or_b32_e32 v3, v5, v3		; GFX8-NEXT: v_or_b32_e32 v3, v5, v3
; GFX8-NEXT: v_or_b32_e32 v6, v4, v7		; GFX8-NEXT: v_or_b32_e32 v6, v4, v7
; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3		; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3
; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6		; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v4		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v4
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc8_vecMul:		; GFX9-LABEL: udot8_acc8_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_mov_b32 s2, 0xffff		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40010		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40010
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40010
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40018
; GFX9-NEXT: s_lshr_b32 s14, s1, 28		; GFX9-NEXT: s_lshr_b32 s14, s1, 28
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc8_vecMul:		; GFX9-DL-LABEL: udot8_acc8_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff		; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s14, s1, 28		; GFX9-DL-NEXT: s_lshr_b32 s14, s1, 28
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc8_vecMul:		; GFX10-DL-LABEL: udot8_acc8_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff		; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x40004
; GFX10-DL-NEXT: s_and_b32 s6, s0, 15		; GFX10-DL-NEXT: s_and_b32 s6, s0, 15
; GFX10-DL-NEXT: s_and_b32 s8, s1, 15		; GFX10-DL-NEXT: s_and_b32 s8, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX10-DL-NEXT: s_bfe_u32 s7, s0, 0x4000c
; GFX10-DL-NEXT: s_bfe_u32 s9, s1, 0x4000c		; GFX10-DL-NEXT: s_bfe_u32 s9, s1, 0x4000c
; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, s4, s5		; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, s4, s5
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	entry:
store i8 %add8, i8 addrspace(1)* %dst, align 4		store i8 %add8, i8 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Once the adictional "and+add" are removed, the pattern will be recognized.		; TODO: Once the adictional "and+add" are removed, the pattern will be recognized.
define amdgpu_kernel void @udot8_acc4_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc4_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc4_vecMul:		; GFX7-LABEL: udot8_acc4_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[8:11], 0		; GFX7-NEXT: s_load_dword s0, s[8:9], 0x0
; GFX7-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[10:11], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s2, s0, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004		; GFX7-NEXT: s_bfe_u32 s20, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s14, s1, 28		; GFX7-NEXT: s_lshr_b32 s14, s1, 28
; GFX7-NEXT: s_and_b32 s1, s1, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40010
		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004		; GFX7-NEXT: s_bfe_u32 s13, s0, 0x40004
; GFX7-NEXT: s_and_b32 s0, s0, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s20		; GFX7-NEXT: v_mov_b32_e32 v2, s20
; GFX7-NEXT: v_mov_b32_e32 v3, s19		; GFX7-NEXT: v_mov_b32_e32 v3, s19
; GFX7-NEXT: v_mov_b32_e32 v4, s18		; GFX7-NEXT: v_mov_b32_e32 v4, s18
; GFX7-NEXT: v_mov_b32_e32 v5, s17		; GFX7-NEXT: v_mov_b32_e32 v5, s17
; GFX7-NEXT: v_mov_b32_e32 v6, s16		; GFX7-NEXT: v_mov_b32_e32 v6, s16
; GFX7-NEXT: v_mov_b32_e32 v7, s15		; GFX7-NEXT: v_mov_b32_e32 v7, s15
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[8:11], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc4_vecMul:		; GFX8-LABEL: udot8_acc4_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s1, s2, 15		; GFX8-NEXT: s_and_b32 s9, s0, 15
; GFX8-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX8-NEXT: s_and_b32 s16, s1, 15
		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v4, s16
		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX8-NEXT: s_lshr_b32 s10, s1, 28
		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX8-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX8-NEXT: v_mov_b32_e32 v5, s15
		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX8-NEXT: v_mov_b32_e32 v6, s14
; GFX8-NEXT: s_and_b32 s1, s0, 15		; GFX8-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX8-NEXT: v_and_b32_e32 v3, 15, v3
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v7, s13
; GFX8-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v9, s11
; GFX8-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX8-NEXT: v_mov_b32_e32 v6, s6
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX8-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX8-NEXT: v_and_b32_e32 v5, 15, v5
; GFX8-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v7, s6
; GFX8-NEXT: s_lshr_b32 s11, s2, 28
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX8-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v8, s8
; GFX8-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s2
; GFX8-NEXT: s_lshr_b32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v5, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s11		; GFX8-NEXT: v_mov_b32_e32 v3, s10
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc4_vecMul:		; GFX9-LABEL: udot8_acc4_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s1, s2, 15		; GFX9-NEXT: s_and_b32 s9, s0, 15
; GFX9-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-NEXT: s_and_b32 s16, s1, 15
		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-NEXT: v_mov_b32_e32 v6, s14
; GFX9-NEXT: s_and_b32 s1, s0, 15		; GFX9-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NEXT: v_mov_b32_e32 v7, s13
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NEXT: v_mov_b32_e32 v9, s11
; GFX9-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v6, s6
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v7, s6
; GFX9-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v8, s8
; GFX9-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-NEXT: v_mov_b32_e32 v9, s2
; GFX9-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s11		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc4_vecMul:		; GFX9-DL-LABEL: udot8_acc4_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s1, s2, 15		; GFX9-DL-NEXT: s_and_b32 s9, s0, 15
; GFX9-DL-NEXT: s_bfe_u32 s4, s2, 0x40004		; GFX9-DL-NEXT: s_and_b32 s16, s1, 15
		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s16
		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008
		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 28
		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x4000c
		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40004
		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s15
		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40014
		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x40010
		; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40008
		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40008		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s14
; GFX9-DL-NEXT: s_and_b32 s1, s0, 15		; GFX9-DL-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x4000c		; GFX9-DL-NEXT: v_and_b32_e32 v3, 15, v3
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s13
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s11
; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s6
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40008
; GFX9-DL-NEXT: v_mul_u32_u24_e32 v5, s8, v5
; GFX9-DL-NEXT: s_bfe_u32 s6, s2, 0x40010
; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v5
; GFX9-DL-NEXT: s_bfe_u32 s8, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s7, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s6
; GFX9-DL-NEXT: s_lshr_b32 s11, s2, 28
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s8
; GFX9-DL-NEXT: s_bfe_u32 s10, s0, 0x40018
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s2
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s8, v5, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v6, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v6, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v5		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v7, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v7, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s9, v8, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v8, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s10, v9, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_acc4_vecMul:		; GFX10-DL-LABEL: udot8_acc4_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_and_b32 s2, s0, 15		; GFX10-DL-NEXT: s_and_b32 s2, s0, 15
; GFX10-DL-NEXT: s_and_b32 s4, s1, 15		; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004		; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008		; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2		; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
▲ Show 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1		; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot8_variant1:		; GFX10-DL-LABEL: udot8_variant1:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0
; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0		; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s4, s3, v0		; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s0, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off		; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
i32 addrspace(1)* %v2addr,		i32 addrspace(1)* %v2addr,
i32 addrspace(1)* %dst) {		i32 addrspace(1)* %dst) {
entry:		entry:
%v1 = load i32, i32 addrspace(1)* %v1addr, align 4		%v1 = load i32, i32 addrspace(1)* %v1addr, align 4
%v2 = load i32, i32 addrspace(1)* %v2addr, align 4		%v2 = load i32, i32 addrspace(1)* %v2addr, align 4
%and = and i32 %v1, 15		%and = and i32 %v1, 15
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert-subvector-unused-scratch.ll

	Show All 11 Lines
	define amdgpu_kernel void @store_v3i32(<3 x i32> addrspace(3)* %out, <3 x i32> %a) nounwind {			define amdgpu_kernel void @store_v3i32(<3 x i32> addrspace(3)* %out, <3 x i32> %a) nounwind {
	%val = load <3 x i32>, <3 x i32> addrspace(3)* %out			%val = load <3 x i32>, <3 x i32> addrspace(3)* %out
	%val.1 = add <3 x i32> %a, %val			%val.1 = add <3 x i32> %a, %val
	store <3 x i32> %val.1, <3 x i32> addrspace(3)* %out, align 16			store <3 x i32> %val.1, <3 x i32> addrspace(3)* %out, align 16
	ret void			ret void
	}			}

	; GCN-LABEL: store_v5i32:			; GCN-LABEL: store_v5i32:
	; GCN: ds_read2_b64			; GCN-DAG ds_read2_b64
	; GCN: ds_read_b32			; GCN-DAG: ds_read_b32
	; GCN: ds_write_b32			; GCN: ds_write_b32
	; GCN: ds_write2_b64			; GCN: ds_write2_b64
	; GCN: ScratchSize: 0			; GCN: ScratchSize: 0
	define amdgpu_kernel void @store_v5i32(<5 x i32> addrspace(3)* %out, <5 x i32> %a) nounwind {			define amdgpu_kernel void @store_v5i32(<5 x i32> addrspace(3)* %out, <5 x i32> %a) nounwind {
	%val = load <5 x i32>, <5 x i32> addrspace(3)* %out			%val = load <5 x i32>, <5 x i32> addrspace(3)* %out
	%val.1 = add <5 x i32> %a, %val			%val.1 = add <5 x i32> %a, %val
	store <5 x i32> %val.1, <5 x i32> addrspace(3)* %out, align 16			store <5 x i32> %val.1, <5 x i32> addrspace(3)* %out, align 16
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

	Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}byte8_inselt:			; GCN-LABEL: {{^}}byte8_inselt:
	; GCN-NOT: v_movrel			; GCN-NOT: v_movrel
	; GCN-NOT: buffer_			; GCN-NOT: buffer_
	; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3			; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3
	; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]			; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]
	; GCN: s_mov_b32 [[K:s[0-9]+]], 0x1010101			; GCN: s_mov_b32 [[K:s[0-9]+]], 0x1010101
	; GCN: s_and_b32 s3, s1, [[K]]			; GCN: s_and_b32 s{{[0-9]+}}, s1, [[K]]
	; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[K]]			; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[K]]
	; GCN: s_andn2_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]			; GCN: s_andn2_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
	; GCN: s_or_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]			; GCN: s_or_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
	define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {			define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {
	entry:			entry:
	%v = insertelement <8 x i8> %vec, i8 1, i32 %sel			%v = insertelement <8 x i8> %vec, i8 1, i32 %sel
	store <8 x i8> %v, <8 x i8> addrspace(1)* %out			store <8 x i8> %v, <8 x i8> addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

Show First 20 Lines • Show All 1,611 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
%vecins = insertelement <4 x double> %a, double 8.0, i32 %b		%vecins = insertelement <4 x double> %a, double 8.0, i32 %b
store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {		define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {
; SI-LABEL: dynamic_insertelement_v8f64:		; SI-LABEL: dynamic_insertelement_v8f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[24:25], s[4:5], 0x0
; SI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x10		; SI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x10
; SI-NEXT: s_load_dword s4, s[4:5], 0x20		; SI-NEXT: s_load_dword s6, s[4:5], 0x20
; SI-NEXT: v_mov_b32_e32 v16, 64		; SI-NEXT: v_mov_b32_e32 v16, 64
; SI-NEXT: s_mov_b32 s27, 0x100f000
; SI-NEXT: s_mov_b32 s26, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: s_and_b32 s4, s4, 7
; SI-NEXT: s_lshl_b32 s4, s4, 3
; SI-NEXT: v_mov_b32_e32 v1, s9
; SI-NEXT: v_mov_b32_e32 v2, s10		; SI-NEXT: v_mov_b32_e32 v2, s10
		; SI-NEXT: s_and_b32 s6, s6, 7
; SI-NEXT: v_mov_b32_e32 v3, s11		; SI-NEXT: v_mov_b32_e32 v3, s11
		; SI-NEXT: s_lshl_b32 s6, s6, 3
		; SI-NEXT: v_mov_b32_e32 v0, s8
		; SI-NEXT: v_mov_b32_e32 v1, s9
; SI-NEXT: v_mov_b32_e32 v4, s12		; SI-NEXT: v_mov_b32_e32 v4, s12
; SI-NEXT: v_mov_b32_e32 v5, s13		; SI-NEXT: v_mov_b32_e32 v5, s13
; SI-NEXT: v_mov_b32_e32 v6, s14		; SI-NEXT: v_mov_b32_e32 v6, s14
; SI-NEXT: v_mov_b32_e32 v7, s15		; SI-NEXT: v_mov_b32_e32 v7, s15
; SI-NEXT: v_mov_b32_e32 v8, s16		; SI-NEXT: v_mov_b32_e32 v8, s16
; SI-NEXT: v_mov_b32_e32 v9, s17		; SI-NEXT: v_mov_b32_e32 v9, s17
; SI-NEXT: v_mov_b32_e32 v10, s18		; SI-NEXT: v_mov_b32_e32 v10, s18
; SI-NEXT: v_mov_b32_e32 v11, s19		; SI-NEXT: v_mov_b32_e32 v11, s19
; SI-NEXT: v_mov_b32_e32 v12, s20		; SI-NEXT: v_mov_b32_e32 v12, s20
; SI-NEXT: v_mov_b32_e32 v13, s21		; SI-NEXT: v_mov_b32_e32 v13, s21
; SI-NEXT: v_mov_b32_e32 v14, s22		; SI-NEXT: v_mov_b32_e32 v14, s22
; SI-NEXT: v_mov_b32_e32 v15, s23		; SI-NEXT: v_mov_b32_e32 v15, s23
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], s7 offset:112		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], s7 offset:112
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], s7 offset:64		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], s7 offset:80		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], s7 offset:80
; SI-NEXT: v_or_b32_e32 v16, s4, v16		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], s7 offset:64
		; SI-NEXT: v_or_b32_e32 v16, s6, v16
; SI-NEXT: v_mov_b32_e32 v0, 0		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: v_mov_b32_e32 v1, 0x40200000		; SI-NEXT: v_mov_b32_e32 v1, 0x40200000
; SI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], s7 offen		; SI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], s7 offen
; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], s7 offset:64		; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], s7 offset:64
; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], s7 offset:80		; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], s7 offset:80
; SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], s7 offset:96		; SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], s7 offset:112		; SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], s7 offset:112
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[24:27], 0 offset:48		; SI-NEXT: s_mov_b32 s11, 0x100f000
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[24:27], 0 offset:32		; SI-NEXT: s_mov_b32 s10, -1
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[24:27], 0 offset:16		; SI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[24:27], 0		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[8:11], 0 offset:48
		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[8:11], 0 offset:32
		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16
		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v8f64:		; VI-LABEL: dynamic_insertelement_v8f64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[24:25], s[4:5], 0x0		; VI-NEXT: s_load_dword s6, s[4:5], 0x80
; VI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x40		; VI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x40
; VI-NEXT: s_load_dword s4, s[4:5], 0x80
; VI-NEXT: v_mov_b32_e32 v16, 64		; VI-NEXT: v_mov_b32_e32 v16, 64
; VI-NEXT: s_mov_b32 s27, 0x1100f000
; VI-NEXT: s_mov_b32 s26, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s8		; VI-NEXT: s_and_b32 s6, s6, 7
; VI-NEXT: s_and_b32 s4, s4, 7
; VI-NEXT: s_lshl_b32 s4, s4, 3
; VI-NEXT: v_mov_b32_e32 v1, s9
; VI-NEXT: v_mov_b32_e32 v2, s10		; VI-NEXT: v_mov_b32_e32 v2, s10
; VI-NEXT: v_mov_b32_e32 v3, s11		; VI-NEXT: v_mov_b32_e32 v3, s11
		; VI-NEXT: s_lshl_b32 s6, s6, 3
		; VI-NEXT: v_mov_b32_e32 v0, s8
		; VI-NEXT: v_mov_b32_e32 v1, s9
; VI-NEXT: v_mov_b32_e32 v4, s12		; VI-NEXT: v_mov_b32_e32 v4, s12
; VI-NEXT: v_mov_b32_e32 v5, s13		; VI-NEXT: v_mov_b32_e32 v5, s13
; VI-NEXT: v_mov_b32_e32 v6, s14		; VI-NEXT: v_mov_b32_e32 v6, s14
; VI-NEXT: v_mov_b32_e32 v7, s15		; VI-NEXT: v_mov_b32_e32 v7, s15
; VI-NEXT: v_mov_b32_e32 v8, s16		; VI-NEXT: v_mov_b32_e32 v8, s16
; VI-NEXT: v_mov_b32_e32 v9, s17		; VI-NEXT: v_mov_b32_e32 v9, s17
; VI-NEXT: v_mov_b32_e32 v10, s18		; VI-NEXT: v_mov_b32_e32 v10, s18
; VI-NEXT: v_mov_b32_e32 v11, s19		; VI-NEXT: v_mov_b32_e32 v11, s19
; VI-NEXT: v_mov_b32_e32 v12, s20		; VI-NEXT: v_mov_b32_e32 v12, s20
; VI-NEXT: v_mov_b32_e32 v13, s21		; VI-NEXT: v_mov_b32_e32 v13, s21
; VI-NEXT: v_mov_b32_e32 v14, s22		; VI-NEXT: v_mov_b32_e32 v14, s22
; VI-NEXT: v_mov_b32_e32 v15, s23		; VI-NEXT: v_mov_b32_e32 v15, s23
; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], s7 offset:112		; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], s7 offset:112
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], s7 offset:64		; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], s7 offset:80		; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], s7 offset:80
; VI-NEXT: v_or_b32_e32 v16, s4, v16		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], s7 offset:64
		; VI-NEXT: v_or_b32_e32 v16, s6, v16
; VI-NEXT: v_mov_b32_e32 v0, 0		; VI-NEXT: v_mov_b32_e32 v0, 0
; VI-NEXT: v_mov_b32_e32 v1, 0x40200000		; VI-NEXT: v_mov_b32_e32 v1, 0x40200000
; VI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], s7 offen		; VI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], s7 offen
; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], s7 offset:64		; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], s7 offset:64
; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], s7 offset:80		; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], s7 offset:80
; VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], s7 offset:96		; VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], s7 offset:96
; VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], s7 offset:112		; VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], s7 offset:112
; VI-NEXT: s_waitcnt vmcnt(0)		; VI-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0
; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[24:27], 0 offset:48		; VI-NEXT: s_mov_b32 s11, 0x1100f000
; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[24:27], 0 offset:32		; VI-NEXT: s_mov_b32 s10, -1
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[24:27], 0 offset:16		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[24:27], 0		; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[8:11], 0 offset:48
		; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[8:11], 0 offset:32
		; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16
		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <8 x double> %a, double 8.0, i32 %b		%vecins = insertelement <8 x double> %a, double 8.0, i32 %b
store <8 x double> %vecins, <8 x double> addrspace(1)* %out, align 16		store <8 x double> %vecins, <8 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

declare <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1		declare <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show All 37 Lines


define amdgpu_kernel void @s_insertelement_v2i16_0_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
; GFX9-LABEL: s_insertelement_v2i16_0_reg:		; GFX9-LABEL: s_insertelement_v2i16_0_reg:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_pack_lh_b32_b16 s0, s4, s2		; GFX9-NEXT: s_pack_lh_b32_b16 s0, s4, s0
; GFX9-NEXT: v_mov_b32_e32 v2, s0		; GFX9-NEXT: v_mov_b32_e32 v2, s0
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_0_reg:		; VI-LABEL: s_insertelement_v2i16_0_reg:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_and_b32 s0, s4, 0xffff		; VI-NEXT: s_and_b32 s1, s4, 0xffff
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s1, s2, 0xffff0000		; VI-NEXT: s_and_b32 s0, s0, 0xffff0000
; VI-NEXT: s_or_b32 s0, s0, s1		; VI-NEXT: s_or_b32 s0, s1, s0
; VI-NEXT: v_mov_b32_e32 v2, s0		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_reg:		; CI-LABEL: s_insertelement_v2i16_0_reg:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0xc		; CI-NEXT: s_load_dword s4, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
		; CI-NEXT: s_load_dword s0, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_and_b32 s1, s4, 0xffff		; CI-NEXT: s_and_b32 s1, s4, 0xffff
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_and_b32 s0, s2, 0xffff0000		; CI-NEXT: s_and_b32 s0, s0, 0xffff0000
; CI-NEXT: s_or_b32 s0, s1, s0		; CI-NEXT: s_or_b32 s0, s1, s0
; CI-NEXT: v_mov_b32_e32 v2, s0		; CI-NEXT: v_mov_b32_e32 v2, s0
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_insertelement_v2i16_0_multi_use_hi_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_multi_use_hi_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
; GFX9-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:		; GFX9-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s0, s2, 16		; GFX9-NEXT: s_lshr_b32 s0, s0, 16
; GFX9-NEXT: s_pack_ll_b32_b16 s1, s4, s0		; GFX9-NEXT: s_pack_ll_b32_b16 s1, s4, s0
; GFX9-NEXT: v_mov_b32_e32 v2, s1		; GFX9-NEXT: v_mov_b32_e32 v2, s1
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use s0		; GFX9-NEXT: ; use s0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:		; VI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_and_b32 s0, s4, 0xffff		; VI-NEXT: s_and_b32 s1, s4, 0xffff
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_lshr_b32 s1, s2, 16		; VI-NEXT: s_lshr_b32 s2, s0, 16
; VI-NEXT: s_and_b32 s2, s2, 0xffff0000		; VI-NEXT: s_and_b32 s0, s0, 0xffff0000
; VI-NEXT: s_or_b32 s0, s0, s2		; VI-NEXT: s_or_b32 s0, s1, s0
; VI-NEXT: v_mov_b32_e32 v2, s0		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: ;;#ASMSTART		; VI-NEXT: ;;#ASMSTART
; VI-NEXT: ; use s1		; VI-NEXT: ; use s2
; VI-NEXT: ;;#ASMEND		; VI-NEXT: ;;#ASMEND
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:		; CI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0		; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
; CI-NEXT: s_and_b32 s0, s4, 0xffff		; CI-NEXT: s_load_dword s0, s[4:5], 0xc
		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshr_b32 s1, s2, 16		; CI-NEXT: s_lshr_b32 s1, s2, 16
; CI-NEXT: s_lshl_b32 s2, s1, 16		; CI-NEXT: s_lshl_b32 s2, s1, 16
		; CI-NEXT: s_and_b32 s0, s0, 0xffff
; CI-NEXT: s_or_b32 s0, s0, s2		; CI-NEXT: s_or_b32 s0, s0, s2
; CI-NEXT: v_mov_b32_e32 v2, s0		; CI-NEXT: v_mov_b32_e32 v2, s0
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: ;;#ASMSTART		; CI-NEXT: ;;#ASMSTART
; CI-NEXT: ; use s1		; CI-NEXT: ; use s1
; CI-NEXT: ;;#ASMEND		; CI-NEXT: ;;#ASMEND
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt1 = extractelement <2 x i16> %vec, i32 1		%elt1 = extractelement <2 x i16> %vec, i32 1
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
%use1 = zext i16 %elt1 to i32		%use1 = zext i16 %elt1 to i32
call void asm sideeffect "; use $0", "s"(i32 %use1) #0		call void asm sideeffect "; use $0", "s"(i32 %use1) #0
ret void		ret void
}		}

define amdgpu_kernel void @s_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i32 %elt.arg) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reghi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i32 %elt.arg) #0 {
; GFX9-LABEL: s_insertelement_v2i16_0_reghi:		; GFX9-LABEL: s_insertelement_v2i16_0_reghi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_pack_hh_b32_b16 s0, s4, s2		; GFX9-NEXT: s_pack_hh_b32_b16 s0, s4, s0
; GFX9-NEXT: v_mov_b32_e32 v2, s0		; GFX9-NEXT: v_mov_b32_e32 v2, s0
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_0_reghi:		; VI-LABEL: s_insertelement_v2i16_0_reghi:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_lshr_b32 s0, s4, 16		; VI-NEXT: s_lshr_b32 s1, s4, 16
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s1, s2, 0xffff0000		; VI-NEXT: s_and_b32 s0, s0, 0xffff0000
; VI-NEXT: s_or_b32 s0, s0, s1		; VI-NEXT: s_or_b32 s0, s1, s0
; VI-NEXT: v_mov_b32_e32 v2, s0		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_reghi:		; CI-LABEL: s_insertelement_v2i16_0_reghi:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0xc		; CI-NEXT: s_load_dword s4, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
		; CI-NEXT: s_load_dword s0, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_lshr_b32 s1, s4, 16		; CI-NEXT: s_lshr_b32 s1, s4, 16
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_and_b32 s0, s2, 0xffff0000		; CI-NEXT: s_and_b32 s0, s0, 0xffff0000
; CI-NEXT: s_or_b32 s0, s1, s0		; CI-NEXT: s_or_b32 s0, s1, s0
; CI-NEXT: v_mov_b32_e32 v2, s0		; CI-NEXT: v_mov_b32_e32 v2, s0
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt.hi = lshr i32 %elt.arg, 16		%elt.hi = lshr i32 %elt.arg, 16
%elt = trunc i32 %elt.hi to i16		%elt = trunc i32 %elt.hi to i16
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {
; GFX9-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:		; GFX9-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
; GFX9-NEXT: s_lshr_b32 s0, s4, 16		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
		; GFX9-NEXT: s_lshr_b32 s1, s4, 16
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_pack_lh_b32_b16 s1, s0, s2		; GFX9-NEXT: s_pack_lh_b32_b16 s0, s1, s0
; GFX9-NEXT: v_mov_b32_e32 v2, s1		; GFX9-NEXT: v_mov_b32_e32 v2, s0
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use s0		; GFX9-NEXT: ; use s1
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:		; VI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_lshr_b32 s0, s4, 16		; VI-NEXT: s_lshr_b32 s1, s4, 16
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s1, s2, 0xffff0000		; VI-NEXT: s_and_b32 s0, s0, 0xffff0000
; VI-NEXT: s_or_b32 s1, s0, s1		; VI-NEXT: s_or_b32 s0, s1, s0
; VI-NEXT: v_mov_b32_e32 v2, s1		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: ;;#ASMSTART		; VI-NEXT: ;;#ASMSTART
; VI-NEXT: ; use s0		; VI-NEXT: ; use s1
; VI-NEXT: ;;#ASMEND		; VI-NEXT: ;;#ASMEND
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:		; CI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0x4		; CI-NEXT: s_load_dword s4, s[4:5], 0x4
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
		; CI-NEXT: s_load_dword s0, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_lshr_b32 s0, s4, 16		; CI-NEXT: s_lshr_b32 s1, s4, 16
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_and_b32 s1, s2, 0xffff0000		; CI-NEXT: s_and_b32 s0, s0, 0xffff0000
; CI-NEXT: s_or_b32 s1, s0, s1		; CI-NEXT: s_or_b32 s0, s1, s0
; CI-NEXT: v_mov_b32_e32 v2, s1		; CI-NEXT: v_mov_b32_e32 v2, s0
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: ;;#ASMSTART		; CI-NEXT: ;;#ASMSTART
; CI-NEXT: ; use s0		; CI-NEXT: ; use s1
; CI-NEXT: ;;#ASMEND		; CI-NEXT: ;;#ASMEND
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%elt.hi = lshr i32 %elt.arg, 16		%elt.hi = lshr i32 %elt.arg, 16
%elt = trunc i32 %elt.hi to i16		%elt = trunc i32 %elt.hi to i16
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
%use1 = zext i16 %elt to i32		%use1 = zext i16 %elt to i32
call void asm sideeffect "; use $0", "s"(i32 %use1) #0		call void asm sideeffect "; use $0", "s"(i32 %use1) #0
ret void		ret void
}		}

define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_both_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_0_reghi_both_multi_use_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 %elt.arg) #0 {
; GFX9-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:		; GFX9-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: s_lshr_b32 s0, s4, 16		; GFX9-NEXT: s_lshr_b32 s1, s4, 16
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s2, 16		; GFX9-NEXT: s_lshr_b32 s0, s0, 16
; GFX9-NEXT: s_pack_ll_b32_b16 s2, s0, s1		; GFX9-NEXT: s_pack_ll_b32_b16 s2, s1, s0
; GFX9-NEXT: v_mov_b32_e32 v2, s2		; GFX9-NEXT: v_mov_b32_e32 v2, s2
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use s0		; GFX9-NEXT: ; use s1
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: ;;#ASMSTART		; GFX9-NEXT: ;;#ASMSTART
; GFX9-NEXT: ; use s1		; GFX9-NEXT: ; use s0
; GFX9-NEXT: ;;#ASMEND		; GFX9-NEXT: ;;#ASMEND
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:		; VI-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x10		; VI-NEXT: s_load_dword s4, s[4:5], 0x10
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_lshr_b32 s0, s4, 16		; VI-NEXT: s_lshr_b32 s1, s4, 16
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_lshr_b32 s1, s2, 16		; VI-NEXT: s_lshr_b32 s2, s0, 16
; VI-NEXT: s_and_b32 s2, s2, 0xffff0000		; VI-NEXT: s_and_b32 s0, s0, 0xffff0000
; VI-NEXT: s_or_b32 s2, s0, s2		; VI-NEXT: s_or_b32 s0, s1, s0
; VI-NEXT: v_mov_b32_e32 v2, s2		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: ;;#ASMSTART		; VI-NEXT: ;;#ASMSTART
; VI-NEXT: ; use s0		; VI-NEXT: ; use s1
; VI-NEXT: ;;#ASMEND		; VI-NEXT: ;;#ASMEND
; VI-NEXT: ;;#ASMSTART		; VI-NEXT: ;;#ASMSTART
; VI-NEXT: ; use s1		; VI-NEXT: ; use s2
; VI-NEXT: ;;#ASMEND		; VI-NEXT: ;;#ASMEND
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:		; CI-LABEL: s_insertelement_v2i16_0_reghi_both_multi_use_1:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0x4
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0		; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
; CI-NEXT: s_lshr_b32 s0, s4, 16		; CI-NEXT: s_load_dword s0, s[4:5], 0x4
		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshr_b32 s1, s2, 16		; CI-NEXT: s_lshr_b32 s1, s2, 16
; CI-NEXT: s_lshl_b32 s2, s1, 16		; CI-NEXT: s_lshl_b32 s2, s1, 16
		; CI-NEXT: s_lshr_b32 s0, s0, 16
; CI-NEXT: s_or_b32 s2, s0, s2		; CI-NEXT: s_or_b32 s2, s0, s2
; CI-NEXT: v_mov_b32_e32 v2, s2		; CI-NEXT: v_mov_b32_e32 v2, s2
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: ;;#ASMSTART		; CI-NEXT: ;;#ASMSTART
; CI-NEXT: ; use s0		; CI-NEXT: ; use s0
; CI-NEXT: ;;#ASMEND		; CI-NEXT: ;;#ASMEND
; CI-NEXT: ;;#ASMSTART		; CI-NEXT: ;;#ASMSTART
; CI-NEXT: ; use s1		; CI-NEXT: ; use s1
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @s_insertelement_v2i16_1_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_1_reg(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, [8 x i32], i16 %elt) #0 {
; GFX9-LABEL: s_insertelement_v2i16_1_reg:		; GFX9-LABEL: s_insertelement_v2i16_1_reg:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30		; GFX9-NEXT: s_load_dword s4, s[4:5], 0x30
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s0
		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s2, s4		; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s4
; GFX9-NEXT: v_mov_b32_e32 v2, s0		; GFX9-NEXT: v_mov_b32_e32 v2, s0
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_1_reg:		; VI-LABEL: s_insertelement_v2i16_1_reg:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dword s4, s[4:5], 0x30		; VI-NEXT: s_load_dword s4, s[4:5], 0x30
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_load_dword s2, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
		; VI-NEXT: s_load_dword s0, s[2:3], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_lshl_b32 s0, s4, 16		; VI-NEXT: s_lshl_b32 s1, s4, 16
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s1, s2, 0xffff		; VI-NEXT: s_and_b32 s0, s0, 0xffff
; VI-NEXT: s_or_b32 s0, s1, s0		; VI-NEXT: s_or_b32 s0, s0, s1
; VI-NEXT: v_mov_b32_e32 v2, s0		; VI-NEXT: v_mov_b32_e32 v2, s0
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_1_reg:		; CI-LABEL: s_insertelement_v2i16_1_reg:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0xc		; CI-NEXT: s_load_dword s4, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_load_dword s2, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
		; CI-NEXT: s_load_dword s0, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_lshl_b32 s1, s4, 16		; CI-NEXT: s_lshl_b32 s1, s4, 16
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_and_b32 s0, s2, 0xffff		; CI-NEXT: s_and_b32 s0, s0, 0xffff
; CI-NEXT: s_or_b32 s0, s0, s1		; CI-NEXT: s_or_b32 s0, s0, s1
; CI-NEXT: v_mov_b32_e32 v2, s0		; CI-NEXT: v_mov_b32_e32 v2, s0
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr		%vec = load <2 x i16>, <2 x i16> addrspace(4)* %vec.ptr
%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 1		%vecins = insertelement <2 x i16> %vec, i16 %elt, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 654 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; FIXME: Enable for others when argument load not split		; FIXME: Enable for others when argument load not split
define amdgpu_kernel void @s_insertelement_v2i16_dynamic(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(4)* %idx.ptr) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_dynamic(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(4)* %idx.ptr) #0 {
; GFX9-LABEL: s_insertelement_v2i16_dynamic:		; GFX9-LABEL: s_insertelement_v2i16_dynamic:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX9-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; GFX9-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshl_b32 s0, s0, 4		; GFX9-NEXT: s_lshl_b32 s0, s0, 4
; GFX9-NEXT: s_lshl_b32 s0, 0xffff, s0		; GFX9-NEXT: s_lshl_b32 s0, 0xffff, s0
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_bfi_b32 v2, s0, v2, v3		; GFX9-NEXT: v_bfi_b32 v2, s0, v2, v3
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_dynamic:		; VI-LABEL: s_insertelement_v2i16_dynamic:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; VI-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; VI-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: s_load_dword s0, s[0:1], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: s_load_dword s1, s[6:7], 0x0
; VI-NEXT: s_load_dword s0, s[4:5], 0x0		; VI-NEXT: v_mov_b32_e32 v0, s4
; VI-NEXT: s_load_dword s1, s[2:3], 0x0		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_lshl_b32 s0, s0, 4		; VI-NEXT: s_lshl_b32 s0, s0, 4
; VI-NEXT: s_lshl_b32 s0, 0xffff, s0		; VI-NEXT: s_lshl_b32 s0, 0xffff, s0
; VI-NEXT: v_mov_b32_e32 v3, s1		; VI-NEXT: v_mov_b32_e32 v3, s1
; VI-NEXT: v_bfi_b32 v2, s0, v2, v3		; VI-NEXT: v_bfi_b32 v2, s0, v2, v3
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_dynamic:		; CI-LABEL: s_insertelement_v2i16_dynamic:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x4		; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; CI-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; CI-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: s_load_dword s0, s[0:1], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: s_load_dword s1, s[6:7], 0x0
; CI-NEXT: s_load_dword s0, s[4:5], 0x0		; CI-NEXT: v_mov_b32_e32 v0, s4
; CI-NEXT: s_load_dword s1, s[2:3], 0x0		; CI-NEXT: v_mov_b32_e32 v1, s5
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshl_b32 s0, s0, 4		; CI-NEXT: s_lshl_b32 s0, s0, 4
; CI-NEXT: s_lshl_b32 s0, 0xffff, s0		; CI-NEXT: s_lshl_b32 s0, 0xffff, s0
; CI-NEXT: v_mov_b32_e32 v3, s1		; CI-NEXT: v_mov_b32_e32 v3, s1
; CI-NEXT: v_bfi_b32 v2, s0, v2, v3		; CI-NEXT: v_bfi_b32 v2, s0, v2, v3
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%idx = load volatile i32, i32 addrspace(4)* %idx.ptr		%idx = load volatile i32, i32 addrspace(4)* %idx.ptr
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @v_insertelement_v2f16_dynamic_vgpr(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_dynamic_vgpr(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {
; GFX9-LABEL: v_insertelement_v2f16_dynamic_vgpr:		; GFX9-LABEL: v_insertelement_v2f16_dynamic_vgpr:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s6, 0xffff		; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_mov_b32 s7, 0x12341234		; GFX9-NEXT: s_mov_b32 s3, 0x12341234
; GFX9-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: v_mov_b32_e32 v1, s5		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s4, v2
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v2		; GFX9-NEXT: v_mov_b32_e32 v3, s7
		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s6, v2
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v3, v[0:1], off		; GFX9-NEXT: global_load_dword v3, v[0:1], off
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v2		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s4, v2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 4, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 4, v4
; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s6		; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s2
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v2, v2, s7, v3		; GFX9-NEXT: v_bfi_b32 v2, v2, s3, v3
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v2f16_dynamic_vgpr:		; VI-LABEL: v_insertelement_v2f16_dynamic_vgpr:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_mov_b32 s6, 0xffff		; VI-NEXT: s_mov_b32 s2, 0xffff
; VI-NEXT: s_mov_b32 s7, 0x12341234		; VI-NEXT: s_mov_b32 s3, 0x12341234
; VI-NEXT: v_mov_b32_e32 v3, s3		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: v_mov_b32_e32 v1, s5		; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2
; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v4, v[0:1]		; VI-NEXT: flat_load_dword v4, v[0:1]
; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2		; VI-NEXT: v_mov_b32_e32 v3, s7
		; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v2
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
; VI-NEXT: flat_load_dword v3, v[0:1]		; VI-NEXT: flat_load_dword v3, v[0:1]
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v2		; VI-NEXT: v_add_u32_e32 v0, vcc, s4, v2
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)		; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
; VI-NEXT: v_lshlrev_b32_e32 v2, 4, v4		; VI-NEXT: v_lshlrev_b32_e32 v2, 4, v4
; VI-NEXT: v_lshlrev_b32_e64 v2, v2, s6		; VI-NEXT: v_lshlrev_b32_e64 v2, v2, s2
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: v_bfi_b32 v2, v2, s7, v3		; VI-NEXT: v_bfi_b32 v2, v2, s3, v3
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: v_insertelement_v2f16_dynamic_vgpr:		; CI-LABEL: v_insertelement_v2f16_dynamic_vgpr:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x4		; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_mov_b32 s6, 0x12341234		; CI-NEXT: s_mov_b32 s2, 0x12341234
; CI-NEXT: v_mov_b32_e32 v3, s3		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: v_mov_b32_e32 v1, s5		; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2
; CI-NEXT: v_add_i32_e32 v0, vcc, s4, v2
; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; CI-NEXT: flat_load_dword v4, v[0:1]		; CI-NEXT: flat_load_dword v4, v[0:1]
; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2		; CI-NEXT: v_mov_b32_e32 v3, s7
		; CI-NEXT: v_add_i32_e32 v0, vcc, s6, v2
; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc		; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
; CI-NEXT: flat_load_dword v3, v[0:1]		; CI-NEXT: flat_load_dword v3, v[0:1]
; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2		; CI-NEXT: v_add_i32_e32 v0, vcc, s4, v2
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s5
; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; CI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)		; CI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
; CI-NEXT: v_lshlrev_b32_e32 v2, 4, v4		; CI-NEXT: v_lshlrev_b32_e32 v2, 4, v4
; CI-NEXT: v_lshl_b32_e32 v2, 0xffff, v2		; CI-NEXT: v_lshl_b32_e32 v2, 0xffff, v2
; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; CI-NEXT: v_bfi_b32 v2, v2, s6, v3		; CI-NEXT: v_bfi_b32 v2, v2, s2, v3
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext		%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%idx = load i32, i32 addrspace(1)* %idx.gep		%idx = load i32, i32 addrspace(1)* %idx.gep
▲ Show 20 Lines • Show All 358 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
ret void		ret void
}		}

; FIXME: Better code on CI?		; FIXME: Better code on CI?
define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4i16_dynamic_vgpr:		; GFX9-LABEL: v_insertelement_v4i16_dynamic_vgpr:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v2, v[0:1], off
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 3, v0
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: s_mov_b32 s5, 0		; GFX9-NEXT: s_mov_b32 s5, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v2		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, 0xffff		; GFX9-NEXT: s_mov_b32 s4, 0xffff
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v5, s1
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2		; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, s0, v4
; GFX9-NEXT: s_pack_ll_b32_b16 s1, s6, s6		; GFX9-NEXT: s_pack_ll_b32_b16 s1, s6, s6
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 4, v2
; GFX9-NEXT: v_lshlrev_b64 v[4:5], v4, s[4:5]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], v2, s[4:5]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v5, s1, v1		; GFX9-NEXT: v_bfi_b32 v1, v3, s1, v1
; GFX9-NEXT: v_bfi_b32 v0, v4, s1, v0		; GFX9-NEXT: v_bfi_b32 v0, v2, s1, v0
; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off		; GFX9-NEXT: global_store_dwordx2 v[4:5], v[0:1], off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4i16_dynamic_vgpr:		; VI-LABEL: v_insertelement_v4i16_dynamic_vgpr:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: flat_load_dword v4, v[0:1]		; VI-NEXT: flat_load_dword v4, v[0:1]
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
Show All 31 Lines
; CI-NEXT: v_mov_b32_e32 v1, s3		; CI-NEXT: v_mov_b32_e32 v1, s3
; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2		; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
; CI-NEXT: s_mov_b32 s5, 0		; CI-NEXT: s_mov_b32 s5, 0
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshl_b32 s2, s6, 16		; CI-NEXT: s_lshl_b32 s2, s6, 16
; CI-NEXT: s_and_b32 s3, s6, s4		; CI-NEXT: s_and_b32 s3, s6, s4
; CI-NEXT: v_mov_b32_e32 v3, s1
; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2		; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
; CI-NEXT: s_or_b32 s1, s3, s2		; CI-NEXT: v_mov_b32_e32 v3, s1
		; CI-NEXT: s_or_b32 s0, s3, s2
; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc		; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; CI-NEXT: s_waitcnt vmcnt(1)		; CI-NEXT: s_waitcnt vmcnt(1)
; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v4		; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v4
; CI-NEXT: v_lshl_b64 v[4:5], s[4:5], v4		; CI-NEXT: v_lshl_b64 v[4:5], s[4:5], v4
; CI-NEXT: s_waitcnt vmcnt(0)		; CI-NEXT: s_waitcnt vmcnt(0)
; CI-NEXT: v_bfi_b32 v1, v5, s1, v1		; CI-NEXT: v_bfi_b32 v1, v5, s0, v1
; CI-NEXT: v_bfi_b32 v0, v4, s1, v0		; CI-NEXT: v_bfi_b32 v0, v4, s0, v0
; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext
%idx.val = load volatile i32, i32 addrspace(1)* undef		%idx.val = load volatile i32, i32 addrspace(1)* undef
%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep		%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep
▲ Show 20 Lines • Show All 105 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX8,VARIANT0 %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX8,VARIANT0 %s
	; RUN: llc -march=amdgcn -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX8,VARIANT1 %s			; RUN: llc -march=amdgcn -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX8,VARIANT1 %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,VARIANT2 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,VARIANT2 %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,VARIANT3 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+auto-waitcnt-before-barrier -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,VARIANT3 %s

	define amdgpu_kernel void @test_barrier(i32 addrspace(1)* %out, i32 %size) #0 {			define amdgpu_kernel void @test_barrier(i32 addrspace(1)* %out, i32 %size) #0 {
	; VARIANT0-LABEL: test_barrier:			; VARIANT0-LABEL: test_barrier:
	; VARIANT0: ; %bb.0: ; %entry			; VARIANT0: ; %bb.0: ; %entry
	; VARIANT0-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; VARIANT0-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; VARIANT0-NEXT: s_load_dword s2, s[0:1], 0xb			; VARIANT0-NEXT: s_load_dword s2, s[0:1], 0xb
	; VARIANT0-NEXT: v_not_b32_e32 v3, v0
	; VARIANT0-NEXT: s_mov_b32 s7, 0xf000			; VARIANT0-NEXT: s_mov_b32 s7, 0xf000
	; VARIANT0-NEXT: s_mov_b32 s6, 0			; VARIANT0-NEXT: s_mov_b32 s6, 0
	; VARIANT0-NEXT: v_lshlrev_b32_e32 v1, 2, v0			; VARIANT0-NEXT: v_lshlrev_b32_e32 v1, 2, v0
	; VARIANT0-NEXT: v_mov_b32_e32 v2, 0			; VARIANT0-NEXT: v_mov_b32_e32 v2, 0
				; VARIANT0-NEXT: v_not_b32_e32 v3, v0
	; VARIANT0-NEXT: s_waitcnt lgkmcnt(0)			; VARIANT0-NEXT: s_waitcnt lgkmcnt(0)
	; VARIANT0-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64			; VARIANT0-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64
	; VARIANT0-NEXT: s_waitcnt vmcnt(0) expcnt(0)			; VARIANT0-NEXT: s_waitcnt vmcnt(0) expcnt(0)
	; VARIANT0-NEXT: s_barrier			; VARIANT0-NEXT: s_barrier
	; VARIANT0-NEXT: v_add_i32_e32 v3, vcc, s2, v3			; VARIANT0-NEXT: v_add_i32_e32 v3, vcc, s2, v3
	; VARIANT0-NEXT: v_ashrrev_i32_e32 v4, 31, v3			; VARIANT0-NEXT: v_ashrrev_i32_e32 v4, 31, v3
	; VARIANT0-NEXT: v_lshl_b64 v[3:4], v[3:4], 2			; VARIANT0-NEXT: v_lshl_b64 v[3:4], v[3:4], 2
	; VARIANT0-NEXT: buffer_load_dword v0, v[3:4], s[4:7], 0 addr64			; VARIANT0-NEXT: buffer_load_dword v0, v[3:4], s[4:7], 0 addr64
	; VARIANT0-NEXT: s_waitcnt vmcnt(0)			; VARIANT0-NEXT: s_waitcnt vmcnt(0)
	; VARIANT0-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64			; VARIANT0-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64
	; VARIANT0-NEXT: s_endpgm			; VARIANT0-NEXT: s_endpgm
	;			;
	; VARIANT1-LABEL: test_barrier:			; VARIANT1-LABEL: test_barrier:
	; VARIANT1: ; %bb.0: ; %entry			; VARIANT1: ; %bb.0: ; %entry
	; VARIANT1-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; VARIANT1-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; VARIANT1-NEXT: s_load_dword s2, s[0:1], 0xb			; VARIANT1-NEXT: s_load_dword s2, s[0:1], 0xb
	; VARIANT1-NEXT: v_not_b32_e32 v3, v0
	; VARIANT1-NEXT: s_mov_b32 s7, 0xf000			; VARIANT1-NEXT: s_mov_b32 s7, 0xf000
	; VARIANT1-NEXT: s_mov_b32 s6, 0			; VARIANT1-NEXT: s_mov_b32 s6, 0
	; VARIANT1-NEXT: v_lshlrev_b32_e32 v1, 2, v0			; VARIANT1-NEXT: v_lshlrev_b32_e32 v1, 2, v0
	; VARIANT1-NEXT: v_mov_b32_e32 v2, 0			; VARIANT1-NEXT: v_mov_b32_e32 v2, 0
				; VARIANT1-NEXT: v_not_b32_e32 v3, v0
	; VARIANT1-NEXT: s_waitcnt lgkmcnt(0)			; VARIANT1-NEXT: s_waitcnt lgkmcnt(0)
	; VARIANT1-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64			; VARIANT1-NEXT: buffer_store_dword v0, v[1:2], s[4:7], 0 addr64
	; VARIANT1-NEXT: s_barrier			; VARIANT1-NEXT: s_barrier
	; VARIANT1-NEXT: v_add_i32_e32 v3, vcc, s2, v3			; VARIANT1-NEXT: v_add_i32_e32 v3, vcc, s2, v3
	; VARIANT1-NEXT: v_ashrrev_i32_e32 v4, 31, v3			; VARIANT1-NEXT: v_ashrrev_i32_e32 v4, 31, v3
	; VARIANT1-NEXT: v_lshl_b64 v[3:4], v[3:4], 2			; VARIANT1-NEXT: v_lshl_b64 v[3:4], v[3:4], 2
	; VARIANT1-NEXT: s_waitcnt expcnt(0)			; VARIANT1-NEXT: s_waitcnt expcnt(0)
	; VARIANT1-NEXT: buffer_load_dword v0, v[3:4], s[4:7], 0 addr64			; VARIANT1-NEXT: buffer_load_dword v0, v[3:4], s[4:7], 0 addr64
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.ubfe.ll

	Show First 20 Lines • Show All 1,531 Lines • ▼ Show 20 Lines

	; Make sure that SimplifyDemandedBits doesn't cause the and to be			; Make sure that SimplifyDemandedBits doesn't cause the and to be
	; reduced to the bits demanded by the bfe.			; reduced to the bits demanded by the bfe.

	; XXX: The operand to v_bfe_u32 could also just directly be the load register.			; XXX: The operand to v_bfe_u32 could also just directly be the load register.
	define amdgpu_kernel void @simplify_bfe_u32_multi_use_arg(i32 addrspace(1)* %out0,			define amdgpu_kernel void @simplify_bfe_u32_multi_use_arg(i32 addrspace(1)* %out0,
	; SI-LABEL: simplify_bfe_u32_multi_use_arg:			; SI-LABEL: simplify_bfe_u32_multi_use_arg:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
				; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9			; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s6, s2			; SI-NEXT: s_mov_b32 s6, s2
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_load_dword v0, off, s[4:7], 0
	; SI-NEXT: s_mov_b32 s0, s10			; SI-NEXT: s_mov_b32 s0, s10
	; SI-NEXT: s_mov_b32 s1, s11			; SI-NEXT: s_mov_b32 s1, s11
	▲ Show 20 Lines • Show All 193 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

Show First 20 Lines • Show All 149 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%result = call double @llvm.round.f64(double %x) #1		%result = call double @llvm.round.f64(double %x) #1
store double %result, double addrspace(1)* %out.gep		store double %result, double addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {		define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {
; SI-LABEL: round_v2f64:		; SI-LABEL: round_v2f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_movk_i32 s18, 0xfc01		; SI-NEXT: s_movk_i32 s18, 0xfc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014
; SI-NEXT: s_add_i32 s19, s0, s18		; SI-NEXT: s_add_i32 s19, s0, s18
		; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s19		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s19
; SI-NEXT: s_and_b64 s[12:13], s[10:11], s[0:1]		; SI-NEXT: s_and_b64 s[12:13], s[10:11], s[0:1]
; SI-NEXT: s_mov_b32 s15, 0x80000		; SI-NEXT: s_mov_b32 s15, 0x80000
; SI-NEXT: s_mov_b32 s14, 0		; SI-NEXT: s_mov_b32 s14, 0
; SI-NEXT: s_lshr_b64 s[16:17], s[14:15], s19		; SI-NEXT: s_lshr_b64 s[16:17], s[14:15], s19
; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[12:13], 0		; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[12:13], 0
; SI-NEXT: v_mov_b32_e32 v1, s16		; SI-NEXT: v_mov_b32_e32 v1, s16
; SI-NEXT: v_mov_b32_e32 v0, s17		; SI-NEXT: v_mov_b32_e32 v0, s17
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%result = call <2 x double> @llvm.round.v2f64(<2 x double> %in) #1		%result = call <2 x double> @llvm.round.v2f64(<2 x double> %in) #1
store <2 x double> %result, <2 x double> addrspace(1)* %out		store <2 x double> %result, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {		define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {
; SI-LABEL: round_v4f64:		; SI-LABEL: round_v4f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0x11		; SI-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0x11
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_movk_i32 s22, 0xfc01		; SI-NEXT: s_movk_i32 s22, 0xfc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014
; SI-NEXT: s_add_i32 s23, s0, s22		; SI-NEXT: s_add_i32 s23, s0, s22
		; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s23		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s23
; SI-NEXT: s_and_b64 s[16:17], s[10:11], s[0:1]		; SI-NEXT: s_and_b64 s[16:17], s[10:11], s[0:1]
; SI-NEXT: s_mov_b32 s19, 0x80000		; SI-NEXT: s_mov_b32 s19, 0x80000
; SI-NEXT: s_mov_b32 s18, 0		; SI-NEXT: s_mov_b32 s18, 0
; SI-NEXT: s_lshr_b64 s[20:21], s[18:19], s23		; SI-NEXT: s_lshr_b64 s[20:21], s[18:19], s23
; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[16:17], 0		; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[16:17], 0
; SI-NEXT: v_mov_b32_e32 v1, s20		; SI-NEXT: v_mov_b32_e32 v1, s20
; SI-NEXT: v_mov_b32_e32 v0, s21		; SI-NEXT: v_mov_b32_e32 v0, s21
▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]		; SI-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v4f64:		; CI-LABEL: round_v4f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9		; CI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11
; CI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x11
; CI-NEXT: s_brev_b32 s12, -2		; CI-NEXT: s_brev_b32 s12, -2
; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000
; CI-NEXT: s_mov_b32 s11, 0xf000		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; CI-NEXT: s_mov_b32 s10, -1		; CI-NEXT: s_mov_b32 s3, 0xf000
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_trunc_f64_e32 v[0:1], s[2:3]		; CI-NEXT: v_trunc_f64_e32 v[0:1], s[6:7]
; CI-NEXT: v_mov_b32_e32 v4, s3		; CI-NEXT: v_mov_b32_e32 v4, s7
; CI-NEXT: v_add_f64 v[2:3], s[2:3], -v[0:1]		; CI-NEXT: v_add_f64 v[2:3], s[6:7], -v[0:1]
; CI-NEXT: v_bfi_b32 v4, s12, v12, v4		; CI-NEXT: v_bfi_b32 v4, s12, v12, v4
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5
; CI-NEXT: v_trunc_f64_e32 v[8:9], s[0:1]		; CI-NEXT: v_trunc_f64_e32 v[8:9], s[4:5]
; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
; CI-NEXT: v_mov_b32_e32 v2, 0		; CI-NEXT: v_mov_b32_e32 v2, 0
; CI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]		; CI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]
; CI-NEXT: v_add_f64 v[0:1], s[0:1], -v[8:9]		; CI-NEXT: v_add_f64 v[0:1], s[4:5], -v[8:9]
; CI-NEXT: v_mov_b32_e32 v4, s1		; CI-NEXT: v_mov_b32_e32 v4, s5
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; CI-NEXT: v_bfi_b32 v4, s12, v12, v4		; CI-NEXT: v_bfi_b32 v4, s12, v12, v4
; CI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
; CI-NEXT: v_trunc_f64_e32 v[4:5], s[6:7]		; CI-NEXT: v_trunc_f64_e32 v[4:5], s[10:11]
; CI-NEXT: v_mov_b32_e32 v10, s7		; CI-NEXT: v_mov_b32_e32 v10, s11
; CI-NEXT: v_add_f64 v[6:7], s[6:7], -v[4:5]		; CI-NEXT: v_add_f64 v[6:7], s[10:11], -v[4:5]
; CI-NEXT: v_bfi_b32 v10, s12, v12, v10		; CI-NEXT: v_bfi_b32 v10, s12, v12, v10
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v6, 0		; CI-NEXT: v_mov_b32_e32 v6, 0
; CI-NEXT: v_cndmask_b32_e32 v7, 0, v10, vcc		; CI-NEXT: v_cndmask_b32_e32 v7, 0, v10, vcc
; CI-NEXT: v_trunc_f64_e32 v[10:11], s[4:5]		; CI-NEXT: v_trunc_f64_e32 v[10:11], s[8:9]
; CI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]		; CI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]
; CI-NEXT: v_add_f64 v[4:5], s[4:5], -v[10:11]		; CI-NEXT: v_add_f64 v[4:5], s[8:9], -v[10:11]
; CI-NEXT: v_mov_b32_e32 v13, s5		; CI-NEXT: v_mov_b32_e32 v13, s9
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; CI-NEXT: v_bfi_b32 v12, s12, v12, v13		; CI-NEXT: v_bfi_b32 v12, s12, v12, v13
; CI-NEXT: v_mov_b32_e32 v0, 0		; CI-NEXT: v_mov_b32_e32 v0, 0
; CI-NEXT: v_cndmask_b32_e32 v5, 0, v12, vcc		; CI-NEXT: v_cndmask_b32_e32 v5, 0, v12, vcc
; CI-NEXT: v_mov_b32_e32 v4, 0		; CI-NEXT: v_mov_b32_e32 v4, 0
; CI-NEXT: v_add_f64 v[4:5], v[10:11], v[4:5]		; CI-NEXT: v_add_f64 v[4:5], v[10:11], v[4:5]
; CI-NEXT: v_add_f64 v[0:1], v[8:9], v[0:1]		; CI-NEXT: v_add_f64 v[0:1], v[8:9], v[0:1]
; CI-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; CI-NEXT: s_mov_b32 s2, -1
; CI-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; CI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
		; CI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%result = call <4 x double> @llvm.round.v4f64(<4 x double> %in) #1		%result = call <4 x double> @llvm.round.v4f64(<4 x double> %in) #1
store <4 x double> %result, <4 x double> addrspace(1)* %out		store <4 x double> %result, <4 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {		define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {
; SI-LABEL: round_v8f64:		; SI-LABEL: round_v8f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19		; SI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_movk_i32 s30, 0xfc01		; SI-NEXT: s_movk_i32 s30, 0xfc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014
; SI-NEXT: s_add_i32 s31, s0, s30		; SI-NEXT: s_add_i32 s31, s0, s30
		; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s31		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s31
; SI-NEXT: s_and_b64 s[26:27], s[10:11], s[0:1]		; SI-NEXT: s_and_b64 s[26:27], s[10:11], s[0:1]
; SI-NEXT: s_mov_b32 s25, 0x80000		; SI-NEXT: s_mov_b32 s25, 0x80000
; SI-NEXT: s_mov_b32 s24, 0		; SI-NEXT: s_mov_b32 s24, 0
; SI-NEXT: s_lshr_b64 s[28:29], s[24:25], s31		; SI-NEXT: s_lshr_b64 s[28:29], s[24:25], s31
; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[26:27], 0		; SI-NEXT: v_cmp_ne_u64_e64 vcc, s[26:27], 0
; SI-NEXT: v_mov_b32_e32 v1, s28		; SI-NEXT: v_mov_b32_e32 v1, s28
; SI-NEXT: v_mov_b32_e32 v0, s29		; SI-NEXT: v_mov_b32_e32 v0, s29
▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:48		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:48
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:32		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:32
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v8f64:		; CI-LABEL: round_v8f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; CI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19		; CI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19
; CI-NEXT: s_brev_b32 s2, -2		; CI-NEXT: s_brev_b32 s2, -2
; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000
		; CI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; CI-NEXT: s_mov_b32 s7, 0xf000		; CI-NEXT: s_mov_b32 s7, 0xf000
; CI-NEXT: s_mov_b32 s6, -1
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_trunc_f64_e32 v[0:1], s[10:11]		; CI-NEXT: v_trunc_f64_e32 v[0:1], s[10:11]
; CI-NEXT: v_mov_b32_e32 v4, s11		; CI-NEXT: v_mov_b32_e32 v4, s11
; CI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]		; CI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]
; CI-NEXT: v_bfi_b32 v4, s2, v16, v4		; CI-NEXT: v_bfi_b32 v4, s2, v16, v4
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v2, 0		; CI-NEXT: v_mov_b32_e32 v2, 0
; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
; CI-NEXT: v_mov_b32_e32 v14, 0		; CI-NEXT: v_mov_b32_e32 v14, 0
; CI-NEXT: v_mov_b32_e32 v17, s17		; CI-NEXT: v_mov_b32_e32 v17, s17
; CI-NEXT: v_add_f64 v[8:9], v[8:9], v[14:15]		; CI-NEXT: v_add_f64 v[8:9], v[8:9], v[14:15]
; CI-NEXT: v_add_f64 v[14:15], s[16:17], -v[12:13]		; CI-NEXT: v_add_f64 v[14:15], s[16:17], -v[12:13]
; CI-NEXT: v_bfi_b32 v19, s2, v16, v17		; CI-NEXT: v_bfi_b32 v19, s2, v16, v17
; CI-NEXT: v_trunc_f64_e32 v[16:17], s[18:19]		; CI-NEXT: v_trunc_f64_e32 v[16:17], s[18:19]
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[14:15]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[14:15]\|, 0.5
; CI-NEXT: v_add_f64 v[14:15], s[18:19], -v[16:17]		; CI-NEXT: v_add_f64 v[14:15], s[18:19], -v[16:17]
		; CI-NEXT: s_mov_b32 s6, -1
; CI-NEXT: v_cmp_ge_f64_e64 s[0:1], \|v[14:15]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 s[0:1], \|v[14:15]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v14, 0		; CI-NEXT: v_mov_b32_e32 v14, 0
; CI-NEXT: v_cndmask_b32_e64 v15, 0, v18, s[0:1]		; CI-NEXT: v_cndmask_b32_e64 v15, 0, v18, s[0:1]
; CI-NEXT: v_add_f64 v[14:15], v[16:17], v[14:15]		; CI-NEXT: v_add_f64 v[14:15], v[16:17], v[14:15]
; CI-NEXT: v_cndmask_b32_e32 v17, 0, v19, vcc		; CI-NEXT: v_cndmask_b32_e32 v17, 0, v19, vcc
; CI-NEXT: v_mov_b32_e32 v16, 0		; CI-NEXT: v_mov_b32_e32 v16, 0
; CI-NEXT: v_add_f64 v[12:13], v[12:13], v[16:17]		; CI-NEXT: v_add_f64 v[12:13], v[12:13], v[16:17]
; CI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48		; CI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48
Show All 18 Lines

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

	Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshrrev_b16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshrrev_b16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_v_s_v2i16:			; CI-LABEL: lshr_v_s_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; CI-NEXT: s_load_dword s8, s[0:1], 0xd			; CI-NEXT: s_mov_b32 s11, 0xf000
	; CI-NEXT: s_mov_b32 s3, 0xf000			; CI-NEXT: s_mov_b32 s10, 0
	; CI-NEXT: s_mov_b32 s2, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[0:1], s[6:7]
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_lshr_b32 s9, s8, 16			; CI-NEXT: s_mov_b64 s[8:9], s[6:7]
	; CI-NEXT: s_mov_b32 s10, 0xffff			; CI-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; CI-NEXT: s_and_b32 s8, s8, s10			; CI-NEXT: s_load_dword s0, s[0:1], 0xd
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b32 s1, 0xffff
				; CI-NEXT: s_mov_b64 s[6:7], s[10:11]
				; CI-NEXT: s_waitcnt lgkmcnt(0)
				; CI-NEXT: s_lshr_b32 s2, s0, 16
				; CI-NEXT: s_and_b32 s0, s0, s1
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; CI-NEXT: v_and_b32_e32 v2, s10, v2			; CI-NEXT: v_and_b32_e32 v2, s1, v2
	; CI-NEXT: v_lshrrev_b32_e32 v3, s9, v3			; CI-NEXT: v_lshrrev_b32_e32 v3, s2, v3
	; CI-NEXT: v_bfe_u32 v2, v2, s8, 16			; CI-NEXT: v_bfe_u32 v2, v2, s0, 16
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_or_b32_e32 v2, v2, v3			; CI-NEXT: v_or_b32_e32 v2, v2, v3
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshrrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshrrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: lshr_s_v_v2i16:			; CI-LABEL: lshr_s_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; CI-NEXT: s_load_dword s8, s[0:1], 0xd			; CI-NEXT: s_mov_b32 s11, 0xf000
	; CI-NEXT: s_mov_b32 s3, 0xf000			; CI-NEXT: s_mov_b32 s10, 0
	; CI-NEXT: s_mov_b32 s2, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[0:1], s[6:7]
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_lshr_b32 s9, s8, 16			; CI-NEXT: s_mov_b64 s[8:9], s[6:7]
	; CI-NEXT: s_mov_b32 s10, 0xffff			; CI-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; CI-NEXT: s_and_b32 s8, s8, s10			; CI-NEXT: s_load_dword s0, s[0:1], 0xd
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b32 s1, 0xffff
				; CI-NEXT: s_mov_b64 s[6:7], s[10:11]
				; CI-NEXT: s_waitcnt lgkmcnt(0)
				; CI-NEXT: s_lshr_b32 s2, s0, 16
				; CI-NEXT: s_and_b32 s0, s0, s1
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; CI-NEXT: v_and_b32_e32 v2, s10, v2			; CI-NEXT: v_and_b32_e32 v2, s1, v2
	; CI-NEXT: v_lshr_b32_e32 v3, s9, v3			; CI-NEXT: v_lshr_b32_e32 v3, s2, v3
	; CI-NEXT: v_bfe_u32 v2, s8, v2, 16			; CI-NEXT: v_bfe_u32 v2, s0, v2, 16
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_or_b32_e32 v2, v2, v3			; CI-NEXT: v_or_b32_e32 v2, v2, v3
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 301 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/madak.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6,GFX6_8_9,MAD %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6,GFX6_8_9,MAD %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,GFX10-MAD %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,GFX10-MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -fp-contract=fast -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,FMA %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -fp-contract=fast -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,FMA %s

	declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	declare float @llvm.fabs.f32(float) nounwind readnone			declare float @llvm.fabs.f32(float) nounwind readnone

	; GCN-LABEL: {{^}}madak_f32:			; GCN-LABEL: {{^}}madak_f32:
	; GFX6: buffer_load_dword [[VA:v[0-9]+]]			; GFX6: buffer_load_dword [[VA:v[0-9]+]]
	; GFX6: buffer_load_dword [[VB:v[0-9]+]]			; GFX6: buffer_load_dword [[VB:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
				; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	; GFX10-MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; GFX10-MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	; FMA: v_fmaak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; FMA: v_fmaak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	define amdgpu_kernel void @madak_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {			define amdgpu_kernel void @madak_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid			%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
	%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid			%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
	%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid			%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}madak_inline_imm_f32:			; GCN-LABEL: {{^}}madak_inline_imm_f32:
	; GFX6: buffer_load_dword [[VA:v[0-9]+]]			; GFX6: buffer_load_dword [[VA:v[0-9]+]]
	; GFX6: buffer_load_dword [[VB:v[0-9]+]]			; GFX6: buffer_load_dword [[VB:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
				; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	; GFX10-MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; GFX10-MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	; FMA: v_fma_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; FMA: v_fma_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	define amdgpu_kernel void @madak_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {			define amdgpu_kernel void @madak_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid			%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
	%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid			%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
	%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid			%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory_clause.ll

Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
; GCN-NEXT: s_load_dwordx4 s[0:3], s[16:17], 0x0		; GCN-NEXT: s_load_dwordx4 s[0:3], s[16:17], 0x0
; GCN-NEXT: s_load_dwordx4 s[4:7], s[16:17], 0x10		; GCN-NEXT: s_load_dwordx4 s[4:7], s[16:17], 0x10
; GCN-NEXT: s_load_dwordx4 s[8:11], s[16:17], 0x20		; GCN-NEXT: s_load_dwordx4 s[8:11], s[16:17], 0x20
; GCN-NEXT: s_load_dwordx4 s[12:15], s[16:17], 0x30		; GCN-NEXT: s_load_dwordx4 s[12:15], s[16:17], 0x30
; GCN-NEXT: v_mov_b32_e32 v12, s18		; GCN-NEXT: v_mov_b32_e32 v12, s18
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v0, s0		; GCN-NEXT: v_mov_b32_e32 v0, s0
; GCN-NEXT: v_mov_b32_e32 v4, s4		; GCN-NEXT: v_mov_b32_e32 v4, s4
		; GCN-NEXT: v_mov_b32_e32 v8, s8
; GCN-NEXT: v_mov_b32_e32 v13, s19		; GCN-NEXT: v_mov_b32_e32 v13, s19
; GCN-NEXT: v_mov_b32_e32 v1, s1		; GCN-NEXT: v_mov_b32_e32 v1, s1
; GCN-NEXT: v_mov_b32_e32 v2, s2		; GCN-NEXT: v_mov_b32_e32 v2, s2
; GCN-NEXT: v_mov_b32_e32 v3, s3		; GCN-NEXT: v_mov_b32_e32 v3, s3
; GCN-NEXT: v_mov_b32_e32 v5, s5		; GCN-NEXT: v_mov_b32_e32 v5, s5
; GCN-NEXT: v_mov_b32_e32 v6, s6		; GCN-NEXT: v_mov_b32_e32 v6, s6
; GCN-NEXT: v_mov_b32_e32 v7, s7		; GCN-NEXT: v_mov_b32_e32 v7, s7
; GCN-NEXT: v_mov_b32_e32 v8, s8
; GCN-NEXT: v_mov_b32_e32 v9, s9		; GCN-NEXT: v_mov_b32_e32 v9, s9
; GCN-NEXT: v_mov_b32_e32 v10, s10		; GCN-NEXT: v_mov_b32_e32 v10, s10
; GCN-NEXT: v_mov_b32_e32 v11, s11		; GCN-NEXT: v_mov_b32_e32 v11, s11
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off		; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off
; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16		; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16
		; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
; GCN-NEXT: v_mov_b32_e32 v0, s12		; GCN-NEXT: v_mov_b32_e32 v0, s12
; GCN-NEXT: v_mov_b32_e32 v1, s13		; GCN-NEXT: v_mov_b32_e32 v1, s13
; GCN-NEXT: v_mov_b32_e32 v2, s14		; GCN-NEXT: v_mov_b32_e32 v2, s14
; GCN-NEXT: v_mov_b32_e32 v3, s15		; GCN-NEXT: v_mov_b32_e32 v3, s15
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48		; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
bb:		bb:
%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16		%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16
%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1		%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1
%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16		%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16
%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1		%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1
%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2		%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2
▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines	bb:
store <4 x i32> %tmp15, <4 x i32> addrspace(5)* %tmp16, align 16		store <4 x i32> %tmp15, <4 x i32> addrspace(5)* %tmp16, align 16
ret void		ret void
}		}

define amdgpu_kernel void @vector_clause_indirect(i64 addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture readnone %arg1, <4 x i32> addrspace(1)* noalias nocapture %arg2) {		define amdgpu_kernel void @vector_clause_indirect(i64 addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture readnone %arg1, <4 x i32> addrspace(1)* noalias nocapture %arg2) {
; GCN-LABEL: vector_clause_indirect:		; GCN-LABEL: vector_clause_indirect:
; GCN: ; %bb.0: ; %bb		; GCN: ; %bb.0: ; %bb
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34		; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: global_load_dwordx2 v[8:9], v[0:1], s[2:3]		; GCN-NEXT: global_load_dwordx2 v[8:9], v[0:1], s[2:3]
		; GCN-NEXT: v_mov_b32_e32 v11, s5
		; GCN-NEXT: v_mov_b32_e32 v10, s4
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off
; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16		; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16
; GCN-NEXT: v_mov_b32_e32 v9, s5		; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off
; GCN-NEXT: v_mov_b32_e32 v8, s4
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_store_dwordx4 v[8:9], v[0:3], off		; GCN-NEXT: global_store_dwordx4 v[10:11], v[0:3], off
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: global_store_dwordx4 v[10:11], v[4:7], off offset:16
; GCN-NEXT: global_store_dwordx4 v[8:9], v[4:7], off offset:16
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
bb:		bb:
%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()		%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
%tmp3 = zext i32 %tmp to i64		%tmp3 = zext i32 %tmp to i64
%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 %tmp3		%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 %tmp3
%tmp5 = bitcast i64 addrspace(1)* %tmp4 to <4 x i32> addrspace(1)* addrspace(1)*		%tmp5 = bitcast i64 addrspace(1)* %tmp4 to <4 x i32> addrspace(1)* addrspace(1)*
%tmp6 = load <4 x i32> addrspace(1), <4 x i32> addrspace(1) addrspace(1)* %tmp5, align 8		%tmp6 = load <4 x i32> addrspace(1), <4 x i32> addrspace(1) addrspace(1)* %tmp5, align 8
%tmp7 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp6, align 16		%tmp7 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp6, align 16
▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

	Show All 9 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 17			%a0 = shl i64 %call, 17
	%idx.ext11 = and i64 %a0, 4261412864			%idx.ext11 = and i64 %a0, 4261412864
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*			%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*
	%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv			%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%id = shl i64 %call, 7			%id = shl i64 %call, 7
	%idx.ext11 = and i64 %id, 4294934528			%idx.ext11 = and i64 %id, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*			%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*

	▲ Show 20 Lines • Show All 198 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	▲ Show 20 Lines • Show All 76 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/scratch-simple.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=verde -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,SI,SIVI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=verde -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,SI,SIVI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx803 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,VI,SIVI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx803 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,VI,SIVI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,GFX9_10 %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX9,GFX9_10 %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -filetype=obj < %s \| llvm-readobj -r \| FileCheck --check-prefix=RELS %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -filetype=obj < %s \| llvm-readobj -r \| FileCheck --check-prefix=RELS %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx1010 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX10_W32,GFX9_10 %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx1010 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX10_W32,GFX9_10 %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx1010 -mattr=-flat-for-global,+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX10_W64,GFX9_10 %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx1010 -mattr=-flat-for-global,+wavefrontsize64 -verify-machineinstrs < %s \| FileCheck --check-prefixes=GCN,GFX10_W64,GFX9_10 %s

	; RELS: R_AMDGPU_ABS32_LO SCRATCH_RSRC_DWORD0 0x0			; RELS: R_AMDGPU_ABS32_LO SCRATCH_RSRC_DWORD0 0x0
	; RELS: R_AMDGPU_ABS32_LO SCRATCH_RSRC_DWORD1 0x0			; RELS: R_AMDGPU_ABS32_LO SCRATCH_RSRC_DWORD1 0x0

	; This used to fail due to a v_add_i32 instruction with an illegal immediate			; This used to fail due to a v_add_i32 instruction with an illegal immediate
	; operand that was created during Local Stack Slot Allocation. Test case derived			; operand that was created during Local Stack Slot Allocation. Test case derived
	; from https://bugs.freedesktop.org/show_bug.cgi?id=96602			; from https://bugs.freedesktop.org/show_bug.cgi?id=96602
	;			;
	; GCN-LABEL: {{^}}ps_main:			; GCN-LABEL: {{^}}ps_main:

				; GFX10_W64-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
	; GCN-DAG: s_mov_b32 s4, SCRATCH_RSRC_DWORD0			; GCN-DAG: s_mov_b32 s4, SCRATCH_RSRC_DWORD0
	; GCN-DAG: s_mov_b32 s5, SCRATCH_RSRC_DWORD1			; GCN-DAG: s_mov_b32 s5, SCRATCH_RSRC_DWORD1
	; GCN-DAG: s_mov_b32 s6, -1			; GCN-DAG: s_mov_b32 s6, -1
	; SI-DAG: s_mov_b32 s7, 0xe8f000			; SI-DAG: s_mov_b32 s7, 0xe8f000
	; VI-DAG: s_mov_b32 s7, 0xe80000			; VI-DAG: s_mov_b32 s7, 0xe80000
	; GFX9-DAG: s_mov_b32 s7, 0xe00000			; GFX9-DAG: s_mov_b32 s7, 0xe00000
	; GFX10_W32-DAG: s_mov_b32 s7, 0x31c16000			; GFX10_W32-DAG: s_mov_b32 s7, 0x31c16000
	; GFX10_W64-DAG: s_mov_b32 s7, 0x31e16000			; GFX10_W64-DAG: s_mov_b32 s7, 0x31e16000
	; GCN-NOT: s_mov_b32 s0			; GCN-NOT: s_mov_b32 s0
	; GCN-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0			; SIVI-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
				; GFX9-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
				; GFX10_W32-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
	; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]			; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]

	; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], 0x200, [[CLAMP_IDX]]			; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], 0x200, [[CLAMP_IDX]]
	; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], 0x400, [[CLAMP_IDX]]			; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], 0x400, [[CLAMP_IDX]]

	; GCN: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, s0 offen			; GCN-DAG: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, s0 offen
	; GCN: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, s0 offen			; GCN-DAG: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, s0 offen
	define amdgpu_ps float @ps_main(i32 %idx) {			define amdgpu_ps float @ps_main(i32 %idx) {
	%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx			%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx
	%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx			%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx
	%r = fadd float %v1, %v2			%r = fadd float %v1, %v2
	ret float %r			ret float %r
	}			}

	; GCN-LABEL: {{^}}vs_main:			; GCN-LABEL: {{^}}vs_main:
	▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/setcc-limit-load-shrink.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: {{^}}const_load_no_shrink_dword_to_unaligned_byte:			; GCN-LABEL: {{^}}const_load_no_shrink_dword_to_unaligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013
	define amdgpu_kernel void @const_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {			define amdgpu_kernel void @const_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x
	%load = load i32, i32 addrspace(4)* %ptr, align 4			%load = load i32, i32 addrspace(4)* %ptr, align 4
	%and = and i32 %load, 524288			%and = and i32 %load, 524288
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: const_load_no_shrink_dword_to_aligned_byte:			; GCN-LABEL: const_load_no_shrink_dword_to_aligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003
	define amdgpu_kernel void @const_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {			define amdgpu_kernel void @const_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x
	%load = load i32, i32 addrspace(4)* %ptr, align 4			%load = load i32, i32 addrspace(4)* %ptr, align 4
	%and = and i32 %load, 8			%and = and i32 %load, 8
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: global_load_no_shrink_dword_to_unaligned_byte:			; GCN-LABEL: global_load_no_shrink_dword_to_unaligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013
	define amdgpu_kernel void @global_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i32 %x) {			define amdgpu_kernel void @global_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x
	%load = load i32, i32 addrspace(1)* %ptr, align 4			%load = load i32, i32 addrspace(1)* %ptr, align 4
	%and = and i32 %load, 524288			%and = and i32 %load, 524288
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: global_load_no_shrink_dword_to_aligned_byte:			; GCN-LABEL: global_load_no_shrink_dword_to_aligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003
	define amdgpu_kernel void @global_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %x) {			define amdgpu_kernel void @global_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x
	%load = load i32, i32 addrspace(1)* %ptr, align 4			%load = load i32, i32 addrspace(1)* %ptr, align 4
	%and = and i32 %load, 8			%and = and i32 %load, 8
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/shift-i128.ll

	Show First 20 Lines • Show All 503 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v6, s8			; GCN-NEXT: v_mov_b32_e32 v6, s8
	; GCN-NEXT: v_mov_b32_e32 v10, s2			; GCN-NEXT: v_mov_b32_e32 v10, s2
	; GCN-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc			; GCN-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc
	; GCN-NEXT: v_mov_b32_e32 v10, s14			; GCN-NEXT: v_mov_b32_e32 v10, s14
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v10, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v10, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v10, 16
	; GCN-NEXT: v_cndmask_b32_e32 v4, 0, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, 0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v11, 0
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
				; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = shl <2 x i128> %lhs, %rhs			%shift = shl <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_lshr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {			define amdgpu_kernel void @s_lshr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {
	; GCN-LABEL: s_lshr_v2i128_ss:			; GCN-LABEL: s_lshr_v2i128_ss:
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v4, s8			; GCN-NEXT: v_mov_b32_e32 v4, s8
	; GCN-NEXT: v_mov_b32_e32 v10, s2			; GCN-NEXT: v_mov_b32_e32 v10, s2
	; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v10, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v10, vcc
	; GCN-NEXT: v_mov_b32_e32 v10, s12			; GCN-NEXT: v_mov_b32_e32 v10, s12
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v10, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v10, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v10, 16
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v11, 0
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
				; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = lshr <2 x i128> %lhs, %rhs			%shift = lshr <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_kernel void @s_ashr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {			define amdgpu_kernel void @s_ashr_v2i128_ss(<2 x i128> %lhs, <2 x i128> %rhs) {
	; GCN-LABEL: s_ashr_v2i128_ss:			; GCN-LABEL: s_ashr_v2i128_ss:
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, v4, v5, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v4, s8			; GCN-NEXT: v_mov_b32_e32 v4, s8
	; GCN-NEXT: v_mov_b32_e32 v10, s2			; GCN-NEXT: v_mov_b32_e32 v10, s2
	; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v10, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v10, vcc
	; GCN-NEXT: v_mov_b32_e32 v10, s12			; GCN-NEXT: v_mov_b32_e32 v10, s12
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v10, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v10, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v10, 16			; GCN-NEXT: v_mov_b32_e32 v10, 16
	; GCN-NEXT: v_mov_b32_e32 v11, 0			; GCN-NEXT: v_mov_b32_e32 v11, 0
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
				; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shift = ashr <2 x i128> %lhs, %rhs			%shift = ashr <2 x i128> %lhs, %rhs
	store <2 x i128> %shift, <2 x i128> addrspace(1)* null			store <2 x i128> %shift, <2 x i128> addrspace(1)* null
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

	Show First 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_v_s_v2i16:			; CI-LABEL: shl_v_s_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; CI-NEXT: s_load_dword s8, s[0:1], 0xd			; CI-NEXT: s_mov_b32 s11, 0xf000
	; CI-NEXT: s_mov_b32 s3, 0xf000			; CI-NEXT: s_mov_b32 s10, 0
	; CI-NEXT: s_mov_b32 s2, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[0:1], s[6:7]
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b32 s9, 0xffff			; CI-NEXT: s_mov_b64 s[8:9], s[6:7]
	; CI-NEXT: s_lshr_b32 s10, s8, 16			; CI-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; CI-NEXT: s_and_b32 s8, s8, s9			; CI-NEXT: s_load_dword s0, s[0:1], 0xd
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_mov_b32 s1, 0xffff
				; CI-NEXT: s_mov_b64 s[6:7], s[10:11]
				; CI-NEXT: s_waitcnt lgkmcnt(0)
				; CI-NEXT: s_lshr_b32 s2, s0, 16
				; CI-NEXT: s_and_b32 s0, s0, s1
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; CI-NEXT: v_lshlrev_b32_e32 v2, s8, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, s0, v2
	; CI-NEXT: v_lshlrev_b32_e32 v3, s10, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, s2, v3
	; CI-NEXT: v_and_b32_e32 v2, s9, v2			; CI-NEXT: v_and_b32_e32 v2, s1, v2
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_or_b32_e32 v2, v2, v3			; CI-NEXT: v_or_b32_e32 v2, v2, v3
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_lshlrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-NEXT: v_lshlrev_b16_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_s_v_v2i16:			; CI-LABEL: shl_s_v_v2i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; CI-NEXT: s_load_dword s8, s[0:1], 0xd			; CI-NEXT: s_mov_b32 s11, 0xf000
	; CI-NEXT: s_mov_b32 s3, 0xf000			; CI-NEXT: s_mov_b32 s10, 0
	; CI-NEXT: s_mov_b32 s2, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[0:1], s[6:7]
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: buffer_load_dword v2, v[0:1], s[0:3], 0 addr64			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b32 s0, 0xffff			; CI-NEXT: s_mov_b64 s[8:9], s[6:7]
	; CI-NEXT: s_lshr_b32 s1, s8, 16			; CI-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; CI-NEXT: s_mov_b64 s[6:7], s[2:3]			; CI-NEXT: s_load_dword s0, s[0:1], 0xd
				; CI-NEXT: s_mov_b32 s1, 0xffff
				; CI-NEXT: s_mov_b64 s[6:7], s[10:11]
				; CI-NEXT: s_waitcnt lgkmcnt(0)
				; CI-NEXT: s_lshr_b32 s2, s0, 16
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v3, s0, v2			; CI-NEXT: v_and_b32_e32 v3, s1, v2
	; CI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; CI-NEXT: v_lshl_b32_e32 v2, s1, v2			; CI-NEXT: v_lshl_b32_e32 v2, s2, v2
	; CI-NEXT: v_lshl_b32_e32 v3, s8, v3			; CI-NEXT: v_lshl_b32_e32 v3, s0, v3
	; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; CI-NEXT: v_and_b32_e32 v3, s0, v3			; CI-NEXT: v_and_b32_e32 v3, s1, v3
	; CI-NEXT: v_or_b32_e32 v2, v3, v2			; CI-NEXT: v_or_b32_e32 v2, v3, v2
	; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_store_dword v2, v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%vgpr = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep			%vgpr = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
	▲ Show 20 Lines • Show All 310 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sign_extend.ll

	Show First 20 Lines • Show All 288 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {			define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
	; SI-LABEL: v_sext_i1_to_i16_with_and:			; SI-LABEL: v_sext_i1_to_i16_with_and:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb			; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v1, s2
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0			; SI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0
	; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v1			; SI-NEXT: v_mov_b32_e32 v0, s2
				; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0
	; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]			; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
	; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
	; SI-NEXT: buffer_store_short v0, off, s[4:7], 0			; SI-NEXT: buffer_store_short v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_sext_i1_to_i16_with_and:			; VI-LABEL: v_sext_i1_to_i16_with_and:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s2
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0			; VI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0
	; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v1			; VI-NEXT: v_mov_b32_e32 v0, s2
				; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0
	; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]			; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
	; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
	; VI-NEXT: buffer_store_short v0, off, s[4:7], 0			; VI-NEXT: buffer_store_short v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1			%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1
	%cmp0 = icmp eq i32 %a, %tid			%cmp0 = icmp eq i32 %a, %tid
	%cmp1 = icmp eq i32 %b, %c			%cmp1 = icmp eq i32 %b, %c
	%cmp = and i1 %cmp0, %cmp1			%cmp = and i1 %cmp0, %cmp1
	▲ Show 20 Lines • Show All 262 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/smrd-vccz-bug.ll

	; RUN: llc -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VCCZ-BUG %s			; RUN: llc -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VCCZ-BUG %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VCCZ-BUG %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VCCZ-BUG %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; GCN-FUNC: {{^}}vccz_workaround:			; GCN-FUNC: {{^}}vccz_workaround:
	; GCN: s_load_dword s{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0x0			; GCN-DAG: s_load_dword s{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], 0x0
	; GCN: v_cmp_neq_f32_e64 {{[^,]*}}, s{{[0-9]+}}, 0{{$}}			; GCN-DAG: v_cmp_neq_f32_e64 {{[^,]*}}, s{{[0-9]+}}, 0{{$}}
	; VCCZ-BUG: s_waitcnt lgkmcnt(0)			; VCCZ-BUG: s_waitcnt lgkmcnt(0)
	; VCCZ-BUG: s_mov_b64 vcc, vcc			; VCCZ-BUG: s_mov_b64 vcc, vcc
	; GCN-NOT: s_mov_b64 vcc, vcc			; GCN-NOT: s_mov_b64 vcc, vcc
	; GCN: s_cbranch_vccnz [[EXIT:[0-9A-Za-z_]+]]			; GCN: s_cbranch_vccnz [[EXIT:[0-9A-Za-z_]+]]
	; GCN: buffer_store_dword			; GCN: buffer_store_dword
	; GCN: [[EXIT]]:			; GCN: [[EXIT]]:
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @vccz_workaround(i32 addrspace(4)* %in, i32 addrspace(1)* %out, float %cond) {			define amdgpu_kernel void @vccz_workaround(i32 addrspace(4)* %in, i32 addrspace(1)* %out, float %cond) {
	Show All 34 Lines

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

	Show First 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; HAWAII-LABEL: local_store_i65:			; HAWAII-LABEL: local_store_i65:
	; HAWAII: ; %bb.0:			; HAWAII: ; %bb.0:
	; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x0			; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x0
	; HAWAII-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2			; HAWAII-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2
	; HAWAII-NEXT: s_load_dword s3, s[4:5], 0x4			; HAWAII-NEXT: s_load_dword s3, s[4:5], 0x4
	; HAWAII-NEXT: s_mov_b32 m0, -1			; HAWAII-NEXT: s_mov_b32 m0, -1
	; HAWAII-NEXT: s_waitcnt lgkmcnt(0)			; HAWAII-NEXT: s_waitcnt lgkmcnt(0)
	; HAWAII-NEXT: v_mov_b32_e32 v2, s2			; HAWAII-NEXT: v_mov_b32_e32 v2, s2
				; HAWAII-NEXT: s_and_b32 s3, s3, 1
				; HAWAII-NEXT: v_mov_b32_e32 v0, s3
				; HAWAII-NEXT: ds_write_b8 v2, v0 offset:8
	; HAWAII-NEXT: v_mov_b32_e32 v0, s0			; HAWAII-NEXT: v_mov_b32_e32 v0, s0
	; HAWAII-NEXT: v_mov_b32_e32 v1, s1			; HAWAII-NEXT: v_mov_b32_e32 v1, s1
	; HAWAII-NEXT: s_and_b32 s0, s3, 1
	; HAWAII-NEXT: v_mov_b32_e32 v3, s0
	; HAWAII-NEXT: ds_write_b8 v2, v3 offset:8
	; HAWAII-NEXT: ds_write_b64 v2, v[0:1]			; HAWAII-NEXT: ds_write_b64 v2, v[0:1]
	; HAWAII-NEXT: s_endpgm			; HAWAII-NEXT: s_endpgm
	;			;
	; FIJI-LABEL: local_store_i65:			; FIJI-LABEL: local_store_i65:
	; FIJI: ; %bb.0:			; FIJI: ; %bb.0:
	; FIJI-NEXT: s_load_dword s2, s[4:5], 0x0			; FIJI-NEXT: s_load_dword s2, s[4:5], 0x0
	; FIJI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; FIJI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; FIJI-NEXT: s_load_dword s3, s[4:5], 0x10			; FIJI-NEXT: s_load_dword s3, s[4:5], 0x10
	; FIJI-NEXT: s_mov_b32 m0, -1			; FIJI-NEXT: s_mov_b32 m0, -1
	; FIJI-NEXT: s_waitcnt lgkmcnt(0)			; FIJI-NEXT: s_waitcnt lgkmcnt(0)
	; FIJI-NEXT: v_mov_b32_e32 v2, s2			; FIJI-NEXT: v_mov_b32_e32 v2, s2
				; FIJI-NEXT: s_and_b32 s3, s3, 1
				; FIJI-NEXT: v_mov_b32_e32 v0, s3
				; FIJI-NEXT: ds_write_b8 v2, v0 offset:8
	; FIJI-NEXT: v_mov_b32_e32 v0, s0			; FIJI-NEXT: v_mov_b32_e32 v0, s0
	; FIJI-NEXT: v_mov_b32_e32 v1, s1			; FIJI-NEXT: v_mov_b32_e32 v1, s1
	; FIJI-NEXT: s_and_b32 s0, s3, 1
	; FIJI-NEXT: v_mov_b32_e32 v3, s0
	; FIJI-NEXT: ds_write_b8 v2, v3 offset:8
	; FIJI-NEXT: ds_write_b64 v2, v[0:1]			; FIJI-NEXT: ds_write_b64 v2, v[0:1]
	; FIJI-NEXT: s_endpgm			; FIJI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: local_store_i65:			; GFX9-LABEL: local_store_i65:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; GFX9-NEXT: s_load_dword s3, s[4:5], 0x10			; GFX9-NEXT: s_load_dword s3, s[4:5], 0x10
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: s_and_b32 s3, s3, 1
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: s_and_b32 s0, s3, 1			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: ds_write_b8 v2, v3 offset:8			; GFX9-NEXT: ds_write_b8 v2, v3 offset:8
	; GFX9-NEXT: ds_write_b64 v2, v[0:1]			; GFX9-NEXT: ds_write_b64 v2, v[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	store i65 %arg, i65 addrspace(3)* %ptr, align 8			store i65 %arg, i65 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define void @local_store_i13(i13 addrspace(3)* %ptr, i13 %arg) #0 {			define void @local_store_i13(i13 addrspace(3)* %ptr, i13 %arg) #0 {
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
%add = sub <2 x i16> %a, %b		%add = sub <2 x i16> %a, %b
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %in0, <2 x i16> addrspace(4)* %in1) #1 {		define amdgpu_kernel void @s_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %in0, <2 x i16> addrspace(4)* %in1) #1 {
; GFX9-LABEL: s_test_sub_v2i16:		; GFX9-LABEL: s_test_sub_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34		; GFX9-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NEXT: s_mov_b32 s3, 0xf000		; GFX9-NEXT: s_mov_b32 s3, 0xf000
; GFX9-NEXT: s_mov_b32 s2, -1		; GFX9-NEXT: s_mov_b32 s2, -1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s0, s4		; GFX9-NEXT: s_mov_b32 s0, s4
; GFX9-NEXT: s_mov_b32 s1, s5		; GFX9-NEXT: s_mov_b32 s1, s5
; GFX9-NEXT: s_load_dword s4, s[6:7], 0x0		; GFX9-NEXT: s_load_dword s4, s[6:7], 0x0
; GFX9-NEXT: s_load_dword s5, s[8:9], 0x0		; GFX9-NEXT: s_load_dword s5, s[8:9], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 402 Lines • ▼ Show 20 Lines
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s7		; GFX9-NEXT: v_mov_b32_e32 v1, s7
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s6, v2		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s6, v2
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: global_load_dword v1, v[2:3], off		; GFX9-NEXT: global_load_dword v2, v[2:3], off
; GFX9-NEXT: s_mov_b32 s0, s4		; GFX9-NEXT: s_mov_b32 s0, s4
; GFX9-NEXT: v_mov_b32_e32 v3, 0
; GFX9-NEXT: s_mov_b32 s1, s5		; GFX9-NEXT: s_mov_b32 s1, s5
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: v_mov_b32_e32 v3, 0
; GFX9-NEXT: v_pk_sub_i16 v1, v0, v1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_pk_sub_i16 v2, v0, v2
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
		; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2
; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:		; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
▲ Show 20 Lines • Show All 169 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vgpr-descriptor-waterfall-loop-idom-update.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=gfx1010 \| FileCheck %s --check-prefix=GCN			; RUN: llc < %s -march=amdgcn -mcpu=gfx1010 \| FileCheck %s --check-prefix=GCN

	define void @vgpr_descriptor_waterfall_loop_idom_update(<4 x i32>* %arg) {			define void @vgpr_descriptor_waterfall_loop_idom_update(<4 x i32>* %arg) {
	; GCN-LABEL: vgpr_descriptor_waterfall_loop_idom_update:			; GCN-LABEL: vgpr_descriptor_waterfall_loop_idom_update:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: s_waitcnt_vscnt null, 0x0			; GCN-NEXT: s_waitcnt_vscnt null, 0x0
	; GCN-NEXT: ; implicit-def: $vcc_hi			; GCN-NEXT: ; implicit-def: $vcc_hi
	; GCN-NEXT: BB0_1: ; %bb0			; GCN-NEXT: BB0_1: ; %bb0
	; GCN-NEXT: ; =>This Loop Header: Depth=1			; GCN-NEXT: ; =>This Loop Header: Depth=1
	; GCN-NEXT: ; Child Loop BB0_2 Depth 2			; GCN-NEXT: ; Child Loop BB0_2 Depth 2
	; GCN-NEXT: v_add_co_u32_e64 v4, vcc_lo, v0, 8			; GCN-NEXT: v_add_co_u32_e64 v2, vcc_lo, v0, 8
	; GCN-NEXT: s_mov_b32 s5, exec_lo			; GCN-NEXT: s_mov_b32 s5, exec_lo
	; GCN-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v1, vcc_lo			; GCN-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v1, vcc_lo
	; GCN-NEXT: flat_load_dwordx2 v[2:3], v[0:1]			; GCN-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GCN-NEXT: flat_load_dwordx2 v[4:5], v[4:5]			; GCN-NEXT: flat_load_dwordx2 v[4:5], v[0:1]
	; GCN-NEXT: BB0_2: ; Parent Loop BB0_1 Depth=1			; GCN-NEXT: BB0_2: ; Parent Loop BB0_1 Depth=1
	; GCN-NEXT: ; => This Inner Loop Header: Depth=2			; GCN-NEXT: ; => This Inner Loop Header: Depth=2
	; GCN-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; GCN-NEXT: v_readfirstlane_b32 s8, v2
	; GCN-NEXT: v_readfirstlane_b32 s9, v3
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_readfirstlane_b32 s10, v4			; GCN-NEXT: v_readfirstlane_b32 s8, v4
	; GCN-NEXT: v_readfirstlane_b32 s11, v5			; GCN-NEXT: v_readfirstlane_b32 s9, v5
	; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[8:9], v[2:3]			; GCN-NEXT: v_readfirstlane_b32 s10, v2
	; GCN-NEXT: v_cmp_eq_u64_e64 s4, s[10:11], v[4:5]			; GCN-NEXT: v_readfirstlane_b32 s11, v3
				; GCN-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[8:9], v[4:5]
				; GCN-NEXT: v_cmp_eq_u64_e64 s4, s[10:11], v[2:3]
	; GCN-NEXT: s_and_b32 s4, vcc_lo, s4			; GCN-NEXT: s_and_b32 s4, vcc_lo, s4
	; GCN-NEXT: s_and_saveexec_b32 s4, s4			; GCN-NEXT: s_and_saveexec_b32 s4, s4
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: buffer_store_dword v0, v0, s[8:11], 0 offen			; GCN-NEXT: buffer_store_dword v0, v0, s[8:11], 0 offen
	; GCN-NEXT: v_nop			; GCN-NEXT: v_nop
	; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s4			; GCN-NEXT: s_xor_b32 exec_lo, exec_lo, s4
	; GCN-NEXT: s_cbranch_execnz BB0_2			; GCN-NEXT: s_cbranch_execnz BB0_2
	; GCN-NEXT: ; %bb.3: ; in Loop: Header=BB0_1 Depth=1			; GCN-NEXT: ; %bb.3: ; in Loop: Header=BB0_1 Depth=1
	Show All 13 Lines

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

Show First 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	; GFX9-O0: buffer_load_dword v7
%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)		%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)
%tmp138 = bitcast i64 %tmp137 to <2 x i32>		%tmp138 = bitcast i64 %tmp137 to <2 x i32>
call void @llvm.amdgcn.raw.buffer.store.v2i32(<2 x i32> %tmp138, <4 x i32> %tmp14, i32 4, i32 0, i32 0)		call void @llvm.amdgcn.raw.buffer.store.v2i32(<2 x i32> %tmp138, <4 x i32> %tmp14, i32 4, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @_amdgpu_cs_main(<4 x i32> inreg %desc, i32 %index) {		define amdgpu_cs void @_amdgpu_cs_main(<4 x i32> inreg %desc, i32 %index) {
%tmp17 = shl i32 %index, 5		%tmp17 = shl i32 %index, 5
; GFX9: buffer_load_dwordx4		; GFX9-DAG: buffer_load_dwordx4
%tmp18 = tail call <4 x i32> @llvm.amdgcn.s.buffer.load.v4i32(<4 x i32> %desc, i32 %tmp17, i32 0)		%tmp18 = tail call <4 x i32> @llvm.amdgcn.s.buffer.load.v4i32(<4 x i32> %desc, i32 %tmp17, i32 0)
%.i0.upto1.bc = bitcast <4 x i32> %tmp18 to <2 x i64>		%.i0.upto1.bc = bitcast <4 x i32> %tmp18 to <2 x i64>
%tmp19 = or i32 %tmp17, 16		%tmp19 = or i32 %tmp17, 16
; GFX9: buffer_load_dwordx2		; GFX9-DAG: buffer_load_dwordx2
%tmp20 = tail call <2 x i32> @llvm.amdgcn.s.buffer.load.v2i32(<4 x i32> %desc, i32 %tmp19, i32 0)		%tmp20 = tail call <2 x i32> @llvm.amdgcn.s.buffer.load.v2i32(<4 x i32> %desc, i32 %tmp19, i32 0)
%.i0.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 0		%.i0.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 0
%tmp22 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i0.upto1.extract, i64 9223372036854775807)		%tmp22 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i0.upto1.extract, i64 9223372036854775807)
%tmp97 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp22)		%tmp97 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp22)
%.i1.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 1		%.i1.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 1
%tmp99 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i1.upto1.extract, i64 9223372036854775807)		%tmp99 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i1.upto1.extract, i64 9223372036854775807)
%tmp174 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp99)		%tmp174 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp99)
%.i25 = bitcast <2 x i32> %tmp20 to i64		%.i25 = bitcast <2 x i32> %tmp20 to i64
Show All 26 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix cluster size threshold calculationAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 236559

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/test/CodeGen/AMDGPU/bitreverse.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

llvm/test/CodeGen/AMDGPU/ctlz.ll

llvm/test/CodeGen/AMDGPU/ctpop64.ll

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/insert-subvector-unused-scratch.ll

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.barrier.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.ubfe.ll

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

llvm/test/CodeGen/AMDGPU/madak.ll

llvm/test/CodeGen/AMDGPU/memory_clause.ll

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

llvm/test/CodeGen/AMDGPU/scratch-simple.ll

llvm/test/CodeGen/AMDGPU/setcc-limit-load-shrink.ll

llvm/test/CodeGen/AMDGPU/shift-i128.ll

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

llvm/test/CodeGen/AMDGPU/sign_extend.ll

llvm/test/CodeGen/AMDGPU/smrd-vccz-bug.ll

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

llvm/test/CodeGen/AMDGPU/vgpr-descriptor-waterfall-loop-idom-update.ll

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

[AMDGPU] Fix cluster size threshold calculation
AbandonedPublic