This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
1
SIInstrInfo.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
llvm.amdgcn.ubfe.ll
-
amdgpu-codegenprepare-idiv.ll
-
bitreverse.ll
-
call-argument-types.ll
-
copy-illegal-type.ll
-
ctpop64.ll
-
cvt_f32_ubyte.ll
-
fneg-combines.ll
-
fshr.ll
-
idot2.ll
-
idot4s.ll
-
idot4u.ll
-
idot8s.ll
-
idot8u.ll
-
insert_vector_dynelt.ll
-
insert_vector_elt.ll
-
insert_vector_elt.v2i16.ll
-
llvm.maxnum.f16.ll
-
llvm.minnum.f16.ll
-
llvm.round.f64.ll
-
madak.ll
-
memory_clause.ll
-
merge-stores.ll
-
promote-constOffset-to-imm.ll
-
sdiv.ll
-
sdiv64.ll
-
setcc-limit-load-shrink.ll
-
sgpr-control-flow.ll
-
srem64.ll
-
trunc-combine.ll
-
udiv64.ll
-
urem64.ll
-
wwm-reserved.ll

Differential D72325

[AMDGPU] Fix cluster size threshold calculation
AbandonedPublic

Authored by foad on Jan 7 2020, 5:17 AM.

Download Raw Diff

Details

Reviewers

tstellar
arsenm
nhaehnle

Summary

The intention was to limit the size of a cluster to 16 bytes, but it was
testing NumLoads which is the number of loads/stores in the cluster
*before* adding the current one. So in fact it would have happily
clustered two dwordx4 loads, making a total cluster size of 32 bytes.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Jan 7 2020, 5:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 7 2020, 5:17 AM

Herald added subscribers: hiraditya, t-tye, tpr and 5 others. · View Herald Transcript

Unit tests: pass. 61291 tests passed, 0 failed and 736 were skipped.

clang-tidy: fail. Please fix clang-tidy findings.

clang-format: pass.

Build artifacts: diff.json, clang-tidy.txt, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Harbormaster failed remote builds in B43419: Diff 236559!Jan 7 2020, 5:50 AM

Don't we *want* clusters that large, and even larger?

Consider some code that loads an array-of-structures (AoS). We really want to cluster that as aggressively as possible, to increase the chance of lowest-level cache hits on successive instructions? I would say the method is *very* inexact :)

The comment talks about not wanting to drive register pressure up too much. That's a legitimate concern, but this approach here seems to be quite wrong to me. The scheduler ought to track register pressure properly, and that's where the knowledge about whether to break clusters based on register pressure should be.

In D72325#1811961, @nhaehnle wrote:

Don't we *want* clusters that large, and even larger?

Maybe :-)

Consider some code that loads an array-of-structures (AoS). We really want to cluster that as aggressively as possible, to increase the chance of lowest-level cache hits on successive instructions? I would say the method is *very* inexact :)

The comment talks about not wanting to drive register pressure up too much. That's a legitimate concern, but this approach here seems to be quite wrong to me. The scheduler ought to track register pressure properly, and that's where the knowledge about whether to break clusters based on register pressure should be.

shouldClusterMemOps runs as part of a DAG mutation to insert "cluster" edges in the DAG, before we try to schedule the DAG. So yes you could argue that shouldClusterMemOps should aspire to cluster as much as possible, and it should be up to the the scheduler proper to worry about register pressure, and decide whether or not to schedule those mem ops contiguously. The scheduler does already track register pressure, so it should be able to make this kind of decision, but I don't know how well it works in practice.

foad mentioned this in D73292: [AMDGPU] Correct NumLoads in clustering.Jan 23 2020, 2:20 PM

Is this needed anymore?

Herald added a subscriber: kerbowa. · View Herald TranscriptMar 23 2020, 11:11 AM

In D72325#1937424, @arsenm wrote:

Is this needed anymore?

Since D73292 landed this is equivalent to fixing the FIXME at the end of SIInstrInfo::shouldClusterMemOps. I'll rebase it accordingly. As for whether it's actually needed, I think only benchmarks can tell, and I don't have any up-to-date numbers at the moment.

Rebase.

LGTM

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
481	Extra parens around LHS

This revision is now accepted and ready to land.Mar 24 2020, 8:47 AM

Abandoning as there have been other changes to SIInstrInfo::shouldClusterMemOps since I wrote this patch.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIInstrInfo.cpp

6 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

llvm.amdgcn.ubfe.ll

12 lines

amdgpu-codegenprepare-idiv.ll

723 lines

bitreverse.ll

91 lines

call-argument-types.ll

64 lines

37 lines

8 lines

51 lines

10 lines

96 lines

116 lines

275 lines

872 lines

442 lines

715 lines

insert_vector_dynelt.ll

2 lines

insert_vector_elt.ll

116 lines

insert_vector_elt.v2i16.ll

79 lines

12 lines

12 lines

58 lines

16 lines

38 lines

4 lines

promote-constOffset-to-imm.ll

26 lines

sdiv.ll

18 lines

sdiv64.ll

170 lines

setcc-limit-load-shrink.ll

8 lines

2 lines

204 lines

2 lines

102 lines

280 lines

4 lines

Diff 252257

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 472 Lines • ▼ Show 20 Lines	const MachineRegisterInfo &MRI =
FirstLdSt.getParent()->getParent()->getRegInfo();		FirstLdSt.getParent()->getParent()->getRegInfo();

const Register Reg = FirstDst->getReg();		const Register Reg = FirstDst->getReg();

const TargetRegisterClass *DstRC = Register::isVirtualRegister(Reg)		const TargetRegisterClass *DstRC = Register::isVirtualRegister(Reg)
? MRI.getRegClass(Reg)		? MRI.getRegClass(Reg)
: RI.getPhysRegClass(Reg);		: RI.getPhysRegClass(Reg);

// FIXME: NumLoads should not be subtracted 1. This is to match behavior		return (NumLoads * (RI.getRegSizeInBits(*DstRC) / 8)) <= LoadClusterThreshold;
		arsenmUnsubmitted Not Done Reply Inline Actions Extra parens around LHS arsenm: Extra parens around LHS
// of clusterNeighboringMemOps which was previosly passing cluster length
// less 1. LoadClusterThreshold should be tuned instead.
return ((NumLoads - 1) * (RI.getRegSizeInBits(*DstRC) / 8)) <=
LoadClusterThreshold;
}		}

// FIXME: This behaves strangely. If, for example, you have 32 load + stores,		// FIXME: This behaves strangely. If, for example, you have 32 load + stores,
// the first 16 loads will be interleaved with the stores, and the next 16 will		// the first 16 loads will be interleaved with the stores, and the next 16 will
// be clustered as expected. It should really split into 2 16 store batches.		// be clustered as expected. It should really split into 2 16 store batches.
//		//
// Loads are clustered until this returns false, rather than trying to schedule		// Loads are clustered until this returns false, rather than trying to schedule
// groups of stores. This also means we have to deal with saying different		// groups of stores. This also means we have to deal with saying different
▲ Show 20 Lines • Show All 6,254 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.ubfe.ll

Show First 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	; GFX6-NEXT: s_endpgm
%bfe_u32 = call i32 @llvm.amdgcn.ubfe.i32(i32 %src0, i32 8, i32 0)		%bfe_u32 = call i32 @llvm.amdgcn.ubfe.i32(i32 %src0, i32 8, i32 0)
store i32 %bfe_u32, i32 addrspace(1)* %out, align 4		store i32 %bfe_u32, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @bfe_u32_zextload_i8(i32 addrspace(1)* %out, i8 addrspace(1)* %in) #0 {		define amdgpu_kernel void @bfe_u32_zextload_i8(i32 addrspace(1)* %out, i8 addrspace(1)* %in) #0 {
; GFX6-LABEL: bfe_u32_zextload_i8:		; GFX6-LABEL: bfe_u32_zextload_i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; GFX6-NEXT: s_mov_b32 s6, -1
; GFX6-NEXT: s_mov_b32 s2, -1		; GFX6-NEXT: s_mov_b32 s7, 0xf000
; GFX6-NEXT: s_mov_b32 s3, 0xf000
; GFX6-NEXT: s_mov_b64 s[6:7], s[2:3]
; GFX6-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX6-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
		; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; GFX6-NEXT: s_waitcnt vmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0)
; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 8		; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 8
		; GFX6-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX6-NEXT: s_endpgm		; GFX6-NEXT: s_endpgm
%load = load i8, i8 addrspace(1)* %in		%load = load i8, i8 addrspace(1)* %in
%ext = zext i8 %load to i32		%ext = zext i8 %load to i32
%bfe = call i32 @llvm.amdgcn.ubfe.i32(i32 %ext, i32 0, i32 8)		%bfe = call i32 @llvm.amdgcn.ubfe.i32(i32 %ext, i32 0, i32 8)
store i32 %bfe, i32 addrspace(1)* %out, align 4		store i32 %bfe, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 898 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP44:%.*]] = select i1 [[TMP39]], i32 [[TMP43]], i32 [[TMP42]]			; CHECK-NEXT: [[TMP44:%.*]] = select i1 [[TMP39]], i32 [[TMP43]], i32 [[TMP42]]
	; CHECK-NEXT: [[TMP45:%.*]] = xor i32 [[TMP44]], [[TMP3]]			; CHECK-NEXT: [[TMP45:%.*]] = xor i32 [[TMP44]], [[TMP3]]
	; CHECK-NEXT: [[TMP46:%.*]] = sub i32 [[TMP45]], [[TMP3]]			; CHECK-NEXT: [[TMP46:%.*]] = sub i32 [[TMP45]], [[TMP3]]
	; CHECK-NEXT: store i32 [[TMP46]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[TMP46]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i32:			; GCN-LABEL: sdiv_i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s8, s3, 31			; GCN-NEXT: s_ashr_i32 s8, s5, 31
	; GCN-NEXT: s_add_i32 s3, s3, s8			; GCN-NEXT: s_add_i32 s2, s5, s8
	; GCN-NEXT: s_xor_b32 s9, s3, s8			; GCN-NEXT: s_xor_b32 s11, s2, s8
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s9			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s11
	; GCN-NEXT: s_ashr_i32 s3, s2, 31			; GCN-NEXT: s_ashr_i32 s9, s4, 31
	; GCN-NEXT: s_add_i32 s2, s2, s3			; GCN-NEXT: s_add_i32 s4, s4, s9
	; GCN-NEXT: s_xor_b32 s2, s2, s3			; GCN-NEXT: s_xor_b32 s10, s4, s9
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_xor_b32 s3, s3, s8			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_f32_e32 v0, 0x4f800000, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x4f800000, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s9			; GCN-NEXT: v_mul_lo_u32 v1, v0, s11
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s9			; GCN-NEXT: v_mul_hi_u32 v2, v0, s11
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, v0			; GCN-NEXT: v_mul_hi_u32 v1, v1, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, v1, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s2			; GCN-NEXT: v_mul_hi_u32 v0, v0, s10
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s9			; GCN-NEXT: s_xor_b32 s2, s9, s8
				; GCN-NEXT: v_mul_lo_u32 v1, v0, s11
	; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s2, v1			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s10, v1
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, s2, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, s10, v1
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GCN-NEXT: s_and_b64 s[0:1], s[0:1], vcc			; GCN-NEXT: s_and_b64 s[0:1], s[0:1], vcc
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, s3, v0			; GCN-NEXT: v_xor_b32_e32 v0, s2, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s3, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s2, v0
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv i32 %x, %y			%r = sdiv i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {			define amdgpu_kernel void @srem_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {
	▲ Show 20 Lines • Show All 213 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 16			; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 16
	; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 16			; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 16
	; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i16			; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i16
	; CHECK-NEXT: store i16 [[TMP21]], i16 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i16 [[TMP21]], i16 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i16:			; GCN-LABEL: sdiv_i16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s1, s0, 16			; GCN-NEXT: s_ashr_i32 s5, s4, 16
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s1			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GCN-NEXT: s_sext_i32_i16 s0, s0			; GCN-NEXT: s_sext_i32_i16 s4, s4
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: s_xor_b32 s0, s0, s1			; GCN-NEXT: s_xor_b32 s4, s4, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: buffer_store_short v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv i16 %x, %y			%r = sdiv i16 %x, %y
	store i16 %r, i16 addrspace(1)* %out			store i16 %r, i16 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i16(i16 addrspace(1)* %out, i16 %x, i16 %y) {			define amdgpu_kernel void @srem_i16(i16 addrspace(1)* %out, i16 %x, i16 %y) {
	; CHECK-LABEL: @srem_i16(			; CHECK-LABEL: @srem_i16(
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 24			; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 24
	; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 24			; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 24
	; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i8			; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i8
	; CHECK-NEXT: store i8 [[TMP21]], i8 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i8 [[TMP21]], i8 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i8:			; GCN-LABEL: sdiv_i8:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_bfe_i32 s1, s0, 0x80008			; GCN-NEXT: s_bfe_i32 s5, s4, 0x80008
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s1			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GCN-NEXT: s_sext_i32_i8 s0, s0			; GCN-NEXT: s_sext_i32_i8 s4, s4
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: s_xor_b32 s0, s0, s1			; GCN-NEXT: s_xor_b32 s4, s4, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: buffer_store_byte v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv i8 %x, %y			%r = sdiv i8 %x, %y
	store i8 %r, i8 addrspace(1)* %out			store i8 %r, i8 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i8(i8 addrspace(1)* %out, i8 %x, i8 %y) {			define amdgpu_kernel void @srem_i8(i8 addrspace(1)* %out, i8 %x, i8 %y) {
	; CHECK-LABEL: @srem_i8(			; CHECK-LABEL: @srem_i8(
	▲ Show 20 Lines • Show All 508 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GCN-NEXT: v_mul_f32_e32 v0, s6, v0			; GCN-NEXT: v_mul_f32_e32 v0, s6, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s6, v1			; GCN-NEXT: v_mul_f32_e32 v1, s6, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s12			; GCN-NEXT: v_mul_lo_u32 v2, v0, s12
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s12			; GCN-NEXT: v_mul_hi_u32 v3, v0, s12
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v3
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v0			; GCN-NEXT: v_mul_hi_u32 v2, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s13			; GCN-NEXT: v_mul_lo_u32 v3, v1, s13
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_hi_u32 v2, v1, s13			; GCN-NEXT: v_mul_hi_u32 v2, v1, s13
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[2:3]
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s8			; GCN-NEXT: v_mul_hi_u32 v0, v0, s8
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v1			; GCN-NEXT: v_mul_hi_u32 v2, v2, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s12			; GCN-NEXT: v_mul_lo_u32 v0, v0, s12
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v5, vcc, v2, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1
	▲ Show 20 Lines • Show All 607 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP191:%.*]] = sub i32 [[TMP190]], [[TMP147]]			; CHECK-NEXT: [[TMP191:%.*]] = sub i32 [[TMP190]], [[TMP147]]
	; CHECK-NEXT: [[TMP192:%.*]] = insertelement <4 x i32> [[TMP144]], i32 [[TMP191]], i64 3			; CHECK-NEXT: [[TMP192:%.*]] = insertelement <4 x i32> [[TMP144]], i32 [[TMP191]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP192]], <4 x i32> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <4 x i32> [[TMP192]], <4 x i32> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: srem_v4i32:			; GCN-LABEL: srem_v4i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[12:19], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx8 s[12:19], s[0:1], 0xd
				; GCN-NEXT: s_mov_b32 s20, 0x4f800000
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s11, 0xf000			; GCN-NEXT: s_mov_b32 s11, 0xf000
	; GCN-NEXT: s_mov_b32 s10, -1			; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s2, s16, 31			; GCN-NEXT: s_ashr_i32 s2, s16, 31
	; GCN-NEXT: s_add_i32 s3, s16, s2			; GCN-NEXT: s_add_i32 s3, s16, s2
	; GCN-NEXT: s_xor_b32 s5, s3, s2			; GCN-NEXT: s_xor_b32 s16, s3, s2
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s5			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s16
	; GCN-NEXT: s_mov_b32 s16, 0x4f800000
	; GCN-NEXT: s_ashr_i32 s6, s12, 31			; GCN-NEXT: s_ashr_i32 s6, s12, 31
	; GCN-NEXT: s_ashr_i32 s2, s17, 31			; GCN-NEXT: s_ashr_i32 s4, s17, 31
				; GCN-NEXT: s_add_i32 s2, s12, s6
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_add_i32 s0, s12, s6			; GCN-NEXT: s_add_i32 s5, s17, s4
	; GCN-NEXT: s_add_i32 s3, s17, s2			; GCN-NEXT: s_xor_b32 s7, s2, s6
	; GCN-NEXT: s_xor_b32 s4, s0, s6			; GCN-NEXT: s_xor_b32 s17, s5, s4
	; GCN-NEXT: v_mul_f32_e32 v0, s16, v0			; GCN-NEXT: v_mul_f32_e32 v0, s20, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: s_xor_b32 s17, s3, s2			; GCN-NEXT: v_mul_lo_u32 v1, v0, s16
	; GCN-NEXT: s_ashr_i32 s7, s13, 31			; GCN-NEXT: v_mul_hi_u32 v2, v0, s16
	; GCN-NEXT: s_add_i32 s12, s13, s7
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s5
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s5
	; GCN-NEXT: s_xor_b32 s12, s12, s7
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, v0			; GCN-NEXT: v_mul_hi_u32 v1, v1, v0
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, s17			; GCN-NEXT: v_cvt_f32_u32_e32 v2, s17
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v2			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v2
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s4			; GCN-NEXT: v_mul_hi_u32 v0, v0, s7
	; GCN-NEXT: v_mul_f32_e32 v1, s16, v1			; GCN-NEXT: v_mul_f32_e32 v1, s20, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s5			; GCN-NEXT: v_mul_lo_u32 v0, v0, s16
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s17			; GCN-NEXT: v_mul_lo_u32 v4, v1, s17
	; GCN-NEXT: v_mul_hi_u32 v5, v1, s17			; GCN-NEXT: v_mul_hi_u32 v5, v1, s17
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s4, v0			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s4, v0			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s7, v0
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s5, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, s5, v2
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s5, v2
	; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4			; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4
	; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v5			; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v5
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v4, v4, v1			; GCN-NEXT: v_mul_hi_u32 v4, v4, v1
				; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s16, v2
				; GCN-NEXT: v_add_i32_e32 v3, vcc, s16, v2
				; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s16, v2
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v4, v1			; GCN-NEXT: v_add_i32_e32 v5, vcc, v4, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: s_ashr_i32 s0, s18, 31			; GCN-NEXT: s_ashr_i32 s0, s18, 31
				; GCN-NEXT: s_ashr_i32 s7, s13, 31
	; GCN-NEXT: s_add_i32 s1, s18, s0			; GCN-NEXT: s_add_i32 s1, s18, s0
				; GCN-NEXT: s_add_i32 s12, s13, s7
	; GCN-NEXT: s_xor_b32 s13, s1, s0			; GCN-NEXT: s_xor_b32 s13, s1, s0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, s13			; GCN-NEXT: v_cvt_f32_u32_e32 v2, s13
				; GCN-NEXT: s_xor_b32 s12, s12, s7
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, s12			; GCN-NEXT: v_mul_hi_u32 v1, v1, s12
	; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[2:3]
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v2
				; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[2:3]
	; GCN-NEXT: v_xor_b32_e32 v0, s6, v0			; GCN-NEXT: v_xor_b32_e32 v0, s6, v0
	; GCN-NEXT: v_mul_lo_u32 v1, v1, s17			; GCN-NEXT: v_mul_lo_u32 v1, v1, s17
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0			; GCN-NEXT: v_mul_f32_e32 v2, s20, v2
	; GCN-NEXT: v_mul_f32_e32 v2, s16, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
				; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s6, v0
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s12, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s12, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v1
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s17, v3
	; GCN-NEXT: v_mul_lo_u32 v5, v2, s13			; GCN-NEXT: v_mul_lo_u32 v5, v2, s13
	; GCN-NEXT: v_mul_hi_u32 v6, v2, s13			; GCN-NEXT: v_mul_hi_u32 v6, v2, s13
				; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s17, v3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, s17, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, s17, v3
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s17, v3
	; GCN-NEXT: v_sub_i32_e32 v7, vcc, 0, v5			; GCN-NEXT: v_sub_i32_e32 v7, vcc, 0, v5
	; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v6			; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v6
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v7, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v7, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v5, v5, v2			; GCN-NEXT: v_mul_hi_u32 v5, v5, v2
				; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s17, v3
	; GCN-NEXT: s_ashr_i32 s6, s14, 31			; GCN-NEXT: s_ashr_i32 s6, s14, 31
	; GCN-NEXT: s_add_i32 s12, s14, s6			; GCN-NEXT: s_add_i32 s12, s14, s6
	; GCN-NEXT: s_xor_b32 s12, s12, s6
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v6, vcc, v5, v2
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: s_ashr_i32 s0, s19, 31			; GCN-NEXT: s_ashr_i32 s0, s19, 31
	; GCN-NEXT: s_add_i32 s1, s19, s0			; GCN-NEXT: s_add_i32 s1, s19, s0
	; GCN-NEXT: s_xor_b32 s14, s1, s0			; GCN-NEXT: s_xor_b32 s14, s1, s0
	; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GCN-NEXT: v_cvt_f32_u32_e32 v3, s14			; GCN-NEXT: v_cvt_f32_u32_e32 v3, s14
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[4:5]
				; GCN-NEXT: s_xor_b32 s12, s12, s6
	; GCN-NEXT: v_mul_hi_u32 v2, v2, s12			; GCN-NEXT: v_mul_hi_u32 v2, v2, s12
	; GCN-NEXT: v_cndmask_b32_e64 v1, v4, v1, s[2:3]
	; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3
				; GCN-NEXT: v_cndmask_b32_e64 v1, v4, v1, s[2:3]
	; GCN-NEXT: v_xor_b32_e32 v1, s7, v1			; GCN-NEXT: v_xor_b32_e32 v1, s7, v1
	; GCN-NEXT: v_mul_lo_u32 v2, v2, s13			; GCN-NEXT: v_mul_lo_u32 v2, v2, s13
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s7, v1			; GCN-NEXT: v_mul_f32_e32 v3, s20, v3
	; GCN-NEXT: v_mul_f32_e32 v3, s16, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
				; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s7, v1
	; GCN-NEXT: s_ashr_i32 s7, s15, 31			; GCN-NEXT: s_ashr_i32 s7, s15, 31
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s12, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s12, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v2
	; GCN-NEXT: v_mul_lo_u32 v6, v3, s14			; GCN-NEXT: v_mul_lo_u32 v6, v3, s14
	; GCN-NEXT: v_mul_hi_u32 v7, v3, s14			; GCN-NEXT: v_mul_hi_u32 v7, v3, s14
				; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v2
	; GCN-NEXT: s_add_i32 s12, s15, s7			; GCN-NEXT: s_add_i32 s12, s15, s7
	; GCN-NEXT: s_xor_b32 s12, s12, s7
	; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v6			; GCN-NEXT: v_sub_i32_e32 v8, vcc, 0, v6
	; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7			; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v8, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v8, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v6, v6, v3			; GCN-NEXT: v_mul_hi_u32 v6, v6, v3
				; GCN-NEXT: s_xor_b32 s12, s12, s7
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, s13, v4			; GCN-NEXT: v_add_i32_e32 v5, vcc, s13, v4
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, s13, v4
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v7, vcc, v6, v3
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v3, v3, s12			; GCN-NEXT: v_mul_hi_u32 v3, v3, s12
				; GCN-NEXT: v_subrev_i32_e32 v2, vcc, s13, v4
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[2:3]
	; GCN-NEXT: v_mul_lo_u32 v3, v3, s14			; GCN-NEXT: v_mul_lo_u32 v3, v3, s14
				; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[2:3]
	; GCN-NEXT: v_xor_b32_e32 v2, s6, v2			; GCN-NEXT: v_xor_b32_e32 v2, s6, v2
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, s6, v2			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, s6, v2
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s12, v3			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s12, v3
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v3
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s14, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s14, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, s14, v4			; GCN-NEXT: v_add_i32_e32 v5, vcc, s14, v4
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, s14, v4			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, s14, v4
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	▲ Show 20 Lines • Show All 836 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 29			; CHECK-NEXT: [[TMP19:%.*]] = shl i32 [[TMP18]], 29
	; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 29			; CHECK-NEXT: [[TMP20:%.*]] = ashr i32 [[TMP19]], 29
	; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i3			; CHECK-NEXT: [[TMP21:%.*]] = trunc i32 [[TMP20]] to i3
	; CHECK-NEXT: store i3 [[TMP21]], i3 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i3 [[TMP21]], i3 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i3:			; GCN-LABEL: sdiv_i3:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_bfe_i32 s1, s0, 0x30008			; GCN-NEXT: s_bfe_i32 s5, s4, 0x30008
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s1			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s5
	; GCN-NEXT: s_bfe_i32 s0, s0, 0x30000			; GCN-NEXT: s_bfe_i32 s4, s4, 0x30000
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
	; GCN-NEXT: s_xor_b32 s0, s0, s1			; GCN-NEXT: s_xor_b32 s4, s4, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_and_b32_e32 v0, 7, v0			; GCN-NEXT: v_and_b32_e32 v0, 7, v0
	; GCN-NEXT: buffer_store_byte v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv i3 %x, %y			%r = sdiv i3 %x, %y
	store i3 %r, i3 addrspace(1)* %out			store i3 %r, i3 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i3(i3 addrspace(1)* %out, i3 %x, i3 %y) {			define amdgpu_kernel void @srem_i3(i3 addrspace(1)* %out, i3 %x, i3 %y) {
	; CHECK-LABEL: @srem_i3(			; CHECK-LABEL: @srem_i3(
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP58:%.*]] = and i32 [[TMP57]], 65535			; CHECK-NEXT: [[TMP58:%.*]] = and i32 [[TMP57]], 65535
	; CHECK-NEXT: [[TMP59:%.*]] = trunc i32 [[TMP58]] to i16			; CHECK-NEXT: [[TMP59:%.*]] = trunc i32 [[TMP58]] to i16
	; CHECK-NEXT: [[TMP60:%.*]] = insertelement <3 x i16> [[TMP40]], i16 [[TMP59]], i64 2			; CHECK-NEXT: [[TMP60:%.*]] = insertelement <3 x i16> [[TMP40]], i16 [[TMP59]], i64 2
	; CHECK-NEXT: store <3 x i16> [[TMP60]], <3 x i16> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <3 x i16> [[TMP60]], <3 x i16> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_v3i16:			; GCN-LABEL: udiv_v3i16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0xd
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
	; GCN-NEXT: s_mov_b32 s8, 0xffff			; GCN-NEXT: s_mov_b32 s8, 0xffff
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
				; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_and_b32 s6, s0, s8			; GCN-NEXT: s_and_b32 s9, s4, s8
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s6			; GCN-NEXT: s_and_b32 s2, s6, s8
	; GCN-NEXT: s_and_b32 s6, s2, s8			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GCN-NEXT: s_lshr_b32 s0, s0, 16			; GCN-NEXT: s_lshr_b32 s6, s6, 16
	; GCN-NEXT: v_cvt_f32_u32_e32 v3, s0			; GCN-NEXT: v_cvt_f32_u32_e32 v3, s6
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, s6			; GCN-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_lshr_b32 s0, s2, 16			; GCN-NEXT: s_lshr_b32 s4, s4, 16
	; GCN-NEXT: v_cvt_f32_u32_e32 v4, s0			; GCN-NEXT: v_cvt_f32_u32_e32 v4, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v3			; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v3
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-NEXT: v_mul_f32_e32 v1, v4, v5			; GCN-NEXT: v_mul_f32_e32 v1, v4, v5
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: s_and_b32 s0, s1, s8			; GCN-NEXT: s_and_b32 s4, s7, s8
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-NEXT: v_mad_f32 v2, -v1, v3, v4			; GCN-NEXT: v_mad_f32 v2, -v1, v3, v4
	; GCN-NEXT: v_cvt_f32_u32_e32 v4, s0			; GCN-NEXT: v_cvt_f32_u32_e32 v4, s4
	; GCN-NEXT: s_and_b32 s0, s3, s8			; GCN-NEXT: s_and_b32 s4, s5, s8
	; GCN-NEXT: v_cvt_f32_u32_e32 v5, s0			; GCN-NEXT: v_cvt_f32_u32_e32 v5, s4
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_f32_e32 v2, v5, v6			; GCN-NEXT: v_mul_f32_e32 v2, v5, v6
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-NEXT: v_mad_f32 v2, -v2, v4, v5			; GCN-NEXT: v_mad_f32 v2, -v2, v4, v5
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GCN-NEXT: v_and_b32_e32 v0, s8, v0			; GCN-NEXT: v_and_b32_e32 v0, s8, v0
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: buffer_store_short v2, off, s[4:7], 0 offset:4			; GCN-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = udiv <3 x i16> %x, %y			%r = udiv <3 x i16> %x, %y
	store <3 x i16> %r, <3 x i16> addrspace(1)* %out			store <3 x i16> %r, <3 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %x, <3 x i16> %y) {			define amdgpu_kernel void @urem_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %x, <3 x i16> %y) {
	; CHECK-LABEL: @urem_v3i16(			; CHECK-LABEL: @urem_v3i16(
	▲ Show 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP70:%.*]] = ashr i32 [[TMP69]], 16			; CHECK-NEXT: [[TMP70:%.*]] = ashr i32 [[TMP69]], 16
	; CHECK-NEXT: [[TMP71:%.*]] = trunc i32 [[TMP70]] to i16			; CHECK-NEXT: [[TMP71:%.*]] = trunc i32 [[TMP70]] to i16
	; CHECK-NEXT: [[TMP72:%.*]] = insertelement <3 x i16> [[TMP48]], i16 [[TMP71]], i64 2			; CHECK-NEXT: [[TMP72:%.*]] = insertelement <3 x i16> [[TMP48]], i16 [[TMP71]], i64 2
	; CHECK-NEXT: store <3 x i16> [[TMP72]], <3 x i16> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <3 x i16> [[TMP72]], <3 x i16> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_v3i16:			; GCN-LABEL: sdiv_v3i16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0xd
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_sext_i32_i16 s9, s2			; GCN-NEXT: s_sext_i32_i16 s9, s4
	; GCN-NEXT: s_sext_i32_i16 s8, s0			; GCN-NEXT: s_sext_i32_i16 s8, s6
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s9			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GCN-NEXT: s_xor_b32 s8, s9, s8			; GCN-NEXT: s_xor_b32 s8, s9, s8
	; GCN-NEXT: s_ashr_i32 s0, s0, 16			; GCN-NEXT: s_ashr_i32 s6, s6, 16
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_ashr_i32 s8, s8, 30			; GCN-NEXT: s_ashr_i32 s8, s8, 30
	; GCN-NEXT: s_or_b32 s8, s8, 1			; GCN-NEXT: s_or_b32 s8, s8, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s8			; GCN-NEXT: v_mov_b32_e32 v3, s8
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: s_ashr_i32 s2, s2, 16			; GCN-NEXT: s_ashr_i32 s4, s4, 16
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_cvt_f32_i32_e32 v2, s2			; GCN-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v1
	; GCN-NEXT: s_xor_b32 s0, s2, s0			; GCN-NEXT: s_xor_b32 s4, s4, s6
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v3, v2, v3			; GCN-NEXT: v_mul_f32_e32 v3, v2, v3
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mad_f32 v2, -v3, v1, v2			; GCN-NEXT: v_mad_f32 v2, -v3, v1, v2
	; GCN-NEXT: v_mov_b32_e32 v4, s0			; GCN-NEXT: v_mov_b32_e32 v4, s4
	; GCN-NEXT: s_sext_i32_i16 s0, s1			; GCN-NEXT: s_sext_i32_i16 s4, s7
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|
	; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GCN-NEXT: v_cvt_f32_i32_e32 v2, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
	; GCN-NEXT: s_sext_i32_i16 s1, s3			; GCN-NEXT: s_sext_i32_i16 s5, s5
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_cvt_f32_i32_e32 v3, s1			; GCN-NEXT: v_cvt_f32_i32_e32 v3, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GCN-NEXT: s_xor_b32 s0, s1, s0			; GCN-NEXT: s_xor_b32 s4, s5, s4
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v4, v3, v4			; GCN-NEXT: v_mul_f32_e32 v4, v3, v4
	; GCN-NEXT: v_trunc_f32_e32 v4, v4			; GCN-NEXT: v_trunc_f32_e32 v4, v4
	; GCN-NEXT: v_mad_f32 v3, -v4, v2, v3			; GCN-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4			; GCN-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GCN-NEXT: v_mov_b32_e32 v5, s0			; GCN-NEXT: v_mov_b32_e32 v5, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: buffer_store_short v2, off, s[4:7], 0 offset:4			; GCN-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv <3 x i16> %x, %y			%r = sdiv <3 x i16> %x, %y
	store <3 x i16> %r, <3 x i16> addrspace(1)* %out			store <3 x i16> %r, <3 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %x, <3 x i16> %y) {			define amdgpu_kernel void @srem_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> %x, <3 x i16> %y) {
	; CHECK-LABEL: @srem_v3i16(			; CHECK-LABEL: @srem_v3i16(
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP76:%.*]] = ashr i32 [[TMP75]], 16			; CHECK-NEXT: [[TMP76:%.*]] = ashr i32 [[TMP75]], 16
	; CHECK-NEXT: [[TMP77:%.*]] = trunc i32 [[TMP76]] to i16			; CHECK-NEXT: [[TMP77:%.*]] = trunc i32 [[TMP76]] to i16
	; CHECK-NEXT: [[TMP78:%.*]] = insertelement <3 x i16> [[TMP52]], i16 [[TMP77]], i64 2			; CHECK-NEXT: [[TMP78:%.*]] = insertelement <3 x i16> [[TMP52]], i16 [[TMP77]], i64 2
	; CHECK-NEXT: store <3 x i16> [[TMP78]], <3 x i16> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <3 x i16> [[TMP78]], <3 x i16> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: srem_v3i16:			; GCN-LABEL: srem_v3i16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0xd
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_sext_i32_i16 s8, s2			; GCN-NEXT: s_sext_i32_i16 s9, s4
	; GCN-NEXT: s_sext_i32_i16 s6, s0			; GCN-NEXT: s_sext_i32_i16 s8, s6
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s6			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, s8			; GCN-NEXT: v_cvt_f32_i32_e32 v1, s9
	; GCN-NEXT: s_xor_b32 s6, s8, s6			; GCN-NEXT: s_xor_b32 s8, s9, s8
	; GCN-NEXT: s_ashr_i32 s6, s6, 30			; GCN-NEXT: s_ashr_i32 s8, s8, 30
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
	; GCN-NEXT: s_or_b32 s6, s6, 1			; GCN-NEXT: s_or_b32 s8, s8, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s6			; GCN-NEXT: v_mov_b32_e32 v3, s8
	; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_mov_b32_e32 v1, s2			; GCN-NEXT: v_mov_b32_e32 v1, s4
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_alignbit_b32 v2, s1, v2, 16			; GCN-NEXT: v_alignbit_b32 v2, s7, v2, 16
	; GCN-NEXT: v_bfe_i32 v3, v2, 0, 16			; GCN-NEXT: v_bfe_i32 v3, v2, 0, 16
	; GCN-NEXT: v_cvt_f32_i32_e32 v4, v3			; GCN-NEXT: v_cvt_f32_i32_e32 v4, v3
	; GCN-NEXT: v_alignbit_b32 v1, s3, v1, 16			; GCN-NEXT: v_alignbit_b32 v1, s5, v1, 16
	; GCN-NEXT: v_bfe_i32 v5, v1, 0, 16			; GCN-NEXT: v_bfe_i32 v5, v1, 0, 16
	; GCN-NEXT: v_cvt_f32_i32_e32 v6, v5			; GCN-NEXT: v_cvt_f32_i32_e32 v6, v5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v7, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v7, v4
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s0			; GCN-NEXT: v_mul_lo_u32 v0, v0, s6
	; GCN-NEXT: v_xor_b32_e32 v3, v5, v3			; GCN-NEXT: v_xor_b32_e32 v3, v5, v3
	; GCN-NEXT: s_sext_i32_i16 s0, s1			; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v3
	; GCN-NEXT: v_mul_f32_e32 v5, v6, v7			; GCN-NEXT: v_mul_f32_e32 v5, v6, v7
	; GCN-NEXT: v_trunc_f32_e32 v5, v5			; GCN-NEXT: v_trunc_f32_e32 v5, v5
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GCN-NEXT: v_mad_f32 v6, -v5, v4, v6			; GCN-NEXT: v_mad_f32 v6, -v5, v4, v6
	; GCN-NEXT: v_cvt_i32_f32_e32 v5, v5			; GCN-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v3			; GCN-NEXT: s_sext_i32_i16 s4, s7
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v4\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v4\|
	; GCN-NEXT: v_cvt_f32_i32_e32 v4, s0			; GCN-NEXT: v_cvt_f32_i32_e32 v4, s4
	; GCN-NEXT: v_or_b32_e32 v3, 1, v3			; GCN-NEXT: v_or_b32_e32 v3, 1, v3
	; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: s_sext_i32_i16 s2, s3			; GCN-NEXT: s_sext_i32_i16 s6, s5
	; GCN-NEXT: v_mul_lo_u32 v2, v3, v2			; GCN-NEXT: v_mul_lo_u32 v2, v3, v2
	; GCN-NEXT: v_cvt_f32_i32_e32 v3, s2			; GCN-NEXT: v_cvt_f32_i32_e32 v3, s6
	; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v4
	; GCN-NEXT: s_xor_b32 s0, s2, s0			; GCN-NEXT: s_xor_b32 s4, s6, s4
	; GCN-NEXT: s_ashr_i32 s0, s0, 30			; GCN-NEXT: s_ashr_i32 s4, s4, 30
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v5, v3, v5			; GCN-NEXT: v_mul_f32_e32 v5, v3, v5
	; GCN-NEXT: v_trunc_f32_e32 v5, v5			; GCN-NEXT: v_trunc_f32_e32 v5, v5
	; GCN-NEXT: v_mad_f32 v3, -v5, v4, v3			; GCN-NEXT: v_mad_f32 v3, -v5, v4, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v5, v5			; GCN-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GCN-NEXT: v_mov_b32_e32 v6, s0			; GCN-NEXT: v_mov_b32_e32 v6, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v4\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v4\|
	; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_mul_lo_u32 v3, v3, s1			; GCN-NEXT: v_mul_lo_u32 v3, v3, s7
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s3, v3			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s5, v3
	; GCN-NEXT: v_or_b32_e32 v0, v0, v1			; GCN-NEXT: v_or_b32_e32 v0, v0, v1
	; GCN-NEXT: buffer_store_short v2, off, s[4:7], 0 offset:4			; GCN-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = srem <3 x i16> %x, %y			%r = srem <3 x i16> %x, %y
	store <3 x i16> %r, <3 x i16> addrspace(1)* %out			store <3 x i16> %r, <3 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {			define amdgpu_kernel void @udiv_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {
	; CHECK-LABEL: @udiv_v3i15(			; CHECK-LABEL: @udiv_v3i15(
	▲ Show 20 Lines • Show All 588 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @udiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @udiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @udiv_i32_oddk_denom(			; CHECK-LABEL: @udiv_i32_oddk_denom(
	; CHECK-NEXT: [[R:%.]] = udiv i32 [[X:%.]], 1235195			; CHECK-NEXT: [[R:%.]] = udiv i32 [[X:%.]], 1235195
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_i32_oddk_denom:			; GCN-LABEL: udiv_i32_oddk_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb
	; GCN-NEXT: v_mov_b32_e32 v0, 0xb2a50881			; GCN-NEXT: v_mov_b32_e32 v0, 0xb2a50881
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v0, s0, v0			; GCN-NEXT: v_mul_hi_u32 v0, s4, v0
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, s0, v0			; GCN-NEXT: v_sub_i32_e32 v1, vcc, s4, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1			; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 20, v0			; GCN-NEXT: v_lshrrev_b32_e32 v0, 20, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = udiv i32 %x, 1235195			%r = udiv i32 %x, 1235195
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @udiv_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @udiv_i32_pow2k_denom(			; CHECK-LABEL: @udiv_i32_pow2k_denom(
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP4:%.*]] = extractelement <2 x i32> [[X]], i64 1			; CHECK-NEXT: [[TMP4:%.*]] = extractelement <2 x i32> [[X]], i64 1
	; CHECK-NEXT: [[TMP5:%.*]] = udiv i32 [[TMP4]], 4095			; CHECK-NEXT: [[TMP5:%.*]] = udiv i32 [[TMP4]], 4095
	; CHECK-NEXT: [[TMP6:%.*]] = insertelement <2 x i32> [[TMP3]], i32 [[TMP5]], i64 1			; CHECK-NEXT: [[TMP6:%.*]] = insertelement <2 x i32> [[TMP3]], i32 [[TMP5]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP6]], <2 x i32> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <2 x i32> [[TMP6]], <2 x i32> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_v2i32_mixed_pow2k_denom:			; GCN-LABEL: udiv_v2i32_mixed_pow2k_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; GCN-NEXT: v_mov_b32_e32 v0, 0x100101			; GCN-NEXT: v_mov_b32_e32 v0, 0x100101
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v0, s1, v0			; GCN-NEXT: v_mul_hi_u32 v0, s5, v0
	; GCN-NEXT: s_lshr_b32 s0, s0, 12			; GCN-NEXT: s_lshr_b32 s4, s4, 12
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, s1, v0			; GCN-NEXT: v_sub_i32_e32 v1, vcc, s5, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1			; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 11, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 11, v0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = udiv <2 x i32> %x, <i32 4096, i32 4095>			%r = udiv <2 x i32> %x, <i32 4096, i32 4095>
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_v2i32_pow2_shl_denom(<2 x i32> addrspace(1)* %out, <2 x i32> %x, <2 x i32> %y) {			define amdgpu_kernel void @udiv_v2i32_pow2_shl_denom(<2 x i32> addrspace(1)* %out, <2 x i32> %x, <2 x i32> %y) {
	; CHECK-LABEL: @udiv_v2i32_pow2_shl_denom(			; CHECK-LABEL: @udiv_v2i32_pow2_shl_denom(
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP80:%.*]] = insertelement <2 x i32> [[TMP40]], i32 [[TMP79]], i64 1			; CHECK-NEXT: [[TMP80:%.*]] = insertelement <2 x i32> [[TMP40]], i32 [[TMP79]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP80]], <2 x i32> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <2 x i32> [[TMP80]], <2 x i32> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_v2i32_pow2_shl_denom:			; GCN-LABEL: udiv_v2i32_pow2_shl_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
	; GCN-NEXT: s_movk_i32 s4, 0x1000			; GCN-NEXT: s_movk_i32 s4, 0x1000
				; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshl_b32 s2, s4, s2			; GCN-NEXT: s_lshl_b32 s10, s4, s2
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s10
	; GCN-NEXT: s_lshl_b32 s10, s4, s3			; GCN-NEXT: s_mov_b32 s2, 0x4f800000
	; GCN-NEXT: s_mov_b32 s3, 0x4f800000			; GCN-NEXT: s_lshl_b32 s11, s4, s3
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, s10			; GCN-NEXT: v_cvt_f32_u32_e32 v1, s11
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GCN-NEXT: v_mul_f32_e32 v0, s3, v0			; GCN-NEXT: v_mul_f32_e32 v0, s2, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s3, v1			; GCN-NEXT: v_mul_f32_e32 v1, s2, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s2			; GCN-NEXT: v_mul_lo_u32 v2, v0, s10
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s2			; GCN-NEXT: v_mul_hi_u32 v3, v0, s10
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v3
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v0			; GCN-NEXT: v_mul_hi_u32 v2, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s10			; GCN-NEXT: v_mul_lo_u32 v3, v1, s11
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_hi_u32 v2, v1, s10			; GCN-NEXT: v_mul_hi_u32 v2, v1, s11
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[2:3]
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3
	; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s8			; GCN-NEXT: v_mul_hi_u32 v0, v0, s8
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v1			; GCN-NEXT: v_mul_hi_u32 v2, v2, v1
	; GCN-NEXT: v_mul_lo_u32 v5, v0, s2			; GCN-NEXT: v_mul_lo_u32 v5, v0, s10
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, s9			; GCN-NEXT: v_mul_hi_u32 v1, v1, s9
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v5			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v5
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s2, v3			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s10, v3
	; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s10			; GCN-NEXT: v_mul_lo_u32 v4, v1, s11
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], s8, v5			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], s8, v5
	; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GCN-NEXT: s_and_b64 vcc, s[2:3], s[0:1]			; GCN-NEXT: s_and_b64 vcc, s[2:3], s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s9, v4			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s9, v4
	; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v2			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v2
	; GCN-NEXT: v_add_i32_e32 v2, vcc, -1, v1			; GCN-NEXT: v_add_i32_e32 v2, vcc, -1, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s9, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s9, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GCN-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[2:3]
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = udiv <2 x i32> %x, %shl.y			%r = udiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @urem_i32_oddk_denom(			; CHECK-LABEL: @urem_i32_oddk_denom(
	; CHECK-NEXT: [[R:%.]] = urem i32 [[X:%.]], 1235195			; CHECK-NEXT: [[R:%.]] = urem i32 [[X:%.]], 1235195
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: urem_i32_oddk_denom:			; GCN-LABEL: urem_i32_oddk_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb
	; GCN-NEXT: v_mov_b32_e32 v0, 0xb2a50881			; GCN-NEXT: v_mov_b32_e32 v0, 0xb2a50881
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v0, s0, v0			; GCN-NEXT: v_mul_hi_u32 v0, s4, v0
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, s0, v0			; GCN-NEXT: v_sub_i32_e32 v1, vcc, s4, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1			; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 20, v0			; GCN-NEXT: v_lshrrev_b32_e32 v0, 20, v0
	; GCN-NEXT: v_mul_u32_u24_e32 v0, 0x12d8fb, v0			; GCN-NEXT: v_mul_u32_u24_e32 v0, 0x12d8fb, v0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s0, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = urem i32 %x, 1235195			%r = urem i32 %x, 1235195
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @urem_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @urem_i32_pow2k_denom(			; CHECK-LABEL: @urem_i32_pow2k_denom(
	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP80:%.*]] = insertelement <2 x i32> [[TMP40]], i32 [[TMP79]], i64 1			; CHECK-NEXT: [[TMP80:%.*]] = insertelement <2 x i32> [[TMP40]], i32 [[TMP79]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP80]], <2 x i32> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <2 x i32> [[TMP80]], <2 x i32> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: urem_v2i32_pow2_shl_denom:			; GCN-LABEL: urem_v2i32_pow2_shl_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
	; GCN-NEXT: s_movk_i32 s4, 0x1000			; GCN-NEXT: s_movk_i32 s4, 0x1000
				; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshl_b32 s10, s4, s2			; GCN-NEXT: s_lshl_b32 s10, s4, s2
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s10			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s10
	; GCN-NEXT: s_mov_b32 s2, 0x4f800000			; GCN-NEXT: s_mov_b32 s2, 0x4f800000
	; GCN-NEXT: s_lshl_b32 s11, s4, s3			; GCN-NEXT: s_lshl_b32 s11, s4, s3
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, s11			; GCN-NEXT: v_cvt_f32_u32_e32 v1, s11
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0xb
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GCN-NEXT: v_mul_f32_e32 v0, s2, v0			; GCN-NEXT: v_mul_f32_e32 v0, s2, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s2, v1			; GCN-NEXT: v_mul_f32_e32 v1, s2, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s10			; GCN-NEXT: v_mul_lo_u32 v2, v0, s10
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s10			; GCN-NEXT: v_mul_hi_u32 v3, v0, s10
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v3
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v0			; GCN-NEXT: v_mul_hi_u32 v2, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s11			; GCN-NEXT: v_mul_lo_u32 v3, v1, s11
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v4, vcc, v2, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_hi_u32 v2, v1, s11			; GCN-NEXT: v_mul_hi_u32 v2, v1, s11
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[2:3]
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v3
	; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s8			; GCN-NEXT: v_mul_hi_u32 v0, v0, s8
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]
	; GCN-NEXT: v_mul_hi_u32 v2, v2, v1			; GCN-NEXT: v_mul_hi_u32 v2, v2, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s10			; GCN-NEXT: v_mul_lo_u32 v0, v0, s10
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v5, vcc, v2, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[0:1]
	Show All 10 Lines
	; GCN-NEXT: v_cndmask_b32_e64 v0, v4, v0, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v4, v0, s[0:1]
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s9, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s9, v1
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v2			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, s11, v2			; GCN-NEXT: v_add_i32_e32 v3, vcc, s11, v2
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s11, v2			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s11, v2
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[2:3]
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = urem <2 x i32> %x, %shl.y			%r = urem <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @sdiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @sdiv_i32_oddk_denom(			; CHECK-LABEL: @sdiv_i32_oddk_denom(
	; CHECK-NEXT: [[R:%.]] = sdiv i32 [[X:%.]], 1235195			; CHECK-NEXT: [[R:%.]] = sdiv i32 [[X:%.]], 1235195
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i32_oddk_denom:			; GCN-LABEL: sdiv_i32_oddk_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb
	; GCN-NEXT: v_mov_b32_e32 v0, 0xd9528441			; GCN-NEXT: v_mov_b32_e32 v0, 0xd9528441
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_i32 v0, s0, v0			; GCN-NEXT: v_mul_hi_i32 v0, s4, v0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, s0, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 20, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 20, v0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv i32 %x, 1235195			%r = sdiv i32 %x, 1235195
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @sdiv_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @sdiv_i32_pow2k_denom(			; CHECK-LABEL: @sdiv_i32_pow2k_denom(
	Show All 24 Lines
	; CHECK-LABEL: @sdiv_i32_pow2_shl_denom(			; CHECK-LABEL: @sdiv_i32_pow2_shl_denom(
	; CHECK-NEXT: [[SHL_Y:%.]] = shl i32 4096, [[Y:%.]]			; CHECK-NEXT: [[SHL_Y:%.]] = shl i32 4096, [[Y:%.]]
	; CHECK-NEXT: [[R:%.]] = sdiv i32 [[X:%.]], [[SHL_Y]]			; CHECK-NEXT: [[R:%.]] = sdiv i32 [[X:%.]], [[SHL_Y]]
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_i32_pow2_shl_denom:			; GCN-LABEL: sdiv_i32_pow2_shl_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshl_b32 s3, 0x1000, s3			; GCN-NEXT: s_lshl_b32 s2, 0x1000, s5
	; GCN-NEXT: s_ashr_i32 s8, s3, 31			; GCN-NEXT: s_ashr_i32 s8, s2, 31
	; GCN-NEXT: s_add_i32 s3, s3, s8			; GCN-NEXT: s_add_i32 s2, s2, s8
	; GCN-NEXT: s_xor_b32 s9, s3, s8			; GCN-NEXT: s_xor_b32 s11, s2, s8
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s9			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s11
	; GCN-NEXT: s_ashr_i32 s3, s2, 31			; GCN-NEXT: s_ashr_i32 s9, s4, 31
	; GCN-NEXT: s_add_i32 s2, s2, s3			; GCN-NEXT: s_add_i32 s4, s4, s9
	; GCN-NEXT: s_xor_b32 s2, s2, s3			; GCN-NEXT: s_xor_b32 s10, s4, s9
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_xor_b32 s3, s3, s8			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_f32_e32 v0, 0x4f800000, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x4f800000, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s9			; GCN-NEXT: v_mul_lo_u32 v1, v0, s11
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s9			; GCN-NEXT: v_mul_hi_u32 v2, v0, s11
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, v0			; GCN-NEXT: v_mul_hi_u32 v1, v1, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, v1, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s2			; GCN-NEXT: v_mul_hi_u32 v0, v0, s10
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s9			; GCN-NEXT: s_xor_b32 s2, s9, s8
				; GCN-NEXT: v_mul_lo_u32 v1, v0, s11
	; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], s2, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], s10, v1
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; GCN-NEXT: v_sub_i32_e32 v1, vcc, s10, v1
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s11, v1
	; GCN-NEXT: s_and_b64 vcc, vcc, s[0:1]			; GCN-NEXT: s_and_b64 vcc, vcc, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[0:1]
	; GCN-NEXT: v_xor_b32_e32 v0, s3, v0			; GCN-NEXT: v_xor_b32_e32 v0, s2, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s3, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s2, v0
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shl.y = shl i32 4096, %y			%shl.y = shl i32 4096, %y
	%r = sdiv i32 %x, %shl.y			%r = sdiv i32 %x, %shl.y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP98:%.*]] = insertelement <2 x i32> [[TMP49]], i32 [[TMP97]], i64 1			; CHECK-NEXT: [[TMP98:%.*]] = insertelement <2 x i32> [[TMP49]], i32 [[TMP97]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP98]], <2 x i32> addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store <2 x i32> [[TMP98]], <2 x i32> addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: sdiv_v2i32_pow2_shl_denom:			; GCN-LABEL: sdiv_v2i32_pow2_shl_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
	; GCN-NEXT: s_movk_i32 s4, 0x1000			; GCN-NEXT: s_movk_i32 s4, 0x1000
	; GCN-NEXT: s_mov_b32 s14, 0x4f800000			; GCN-NEXT: s_mov_b32 s15, 0x4f800000
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0xb			; GCN-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0xb
	; GCN-NEXT: s_mov_b32 s11, 0xf000			; GCN-NEXT: s_mov_b32 s11, 0xf000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshl_b32 s2, s4, s2			; GCN-NEXT: s_lshl_b32 s2, s4, s2
	; GCN-NEXT: s_ashr_i32 s5, s2, 31			; GCN-NEXT: s_ashr_i32 s5, s2, 31
	; GCN-NEXT: s_add_i32 s2, s2, s5			; GCN-NEXT: s_add_i32 s2, s2, s5
	; GCN-NEXT: s_xor_b32 s13, s2, s5			; GCN-NEXT: s_xor_b32 s14, s2, s5
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s13			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s14
	; GCN-NEXT: s_ashr_i32 s2, s6, 31			; GCN-NEXT: s_lshl_b32 s2, s4, s3
	; GCN-NEXT: s_lshl_b32 s0, s4, s3			; GCN-NEXT: s_ashr_i32 s4, s6, 31
	; GCN-NEXT: s_add_i32 s1, s6, s2			; GCN-NEXT: s_add_i32 s3, s6, s4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: s_ashr_i32 s6, s0, 31			; GCN-NEXT: s_ashr_i32 s6, s2, 31
	; GCN-NEXT: s_add_i32 s4, s0, s6			; GCN-NEXT: s_add_i32 s8, s2, s6
	; GCN-NEXT: s_xor_b32 s3, s1, s2			; GCN-NEXT: s_xor_b32 s12, s3, s4
	; GCN-NEXT: v_mul_f32_e32 v0, s14, v0			; GCN-NEXT: v_mul_f32_e32 v0, s15, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: s_xor_b32 s15, s4, s6			; GCN-NEXT: s_xor_b32 s16, s8, s6
	; GCN-NEXT: s_xor_b32 s12, s2, s5			; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
				; GCN-NEXT: s_xor_b32 s13, s4, s5
				; GCN-NEXT: v_mul_lo_u32 v1, v0, s14
				; GCN-NEXT: v_mul_hi_u32 v2, v0, s14
	; GCN-NEXT: s_mov_b32 s10, -1			; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s13
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s13
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[2:3]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, v0			; GCN-NEXT: v_mul_hi_u32 v1, v1, v0
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, s15			; GCN-NEXT: v_cvt_f32_u32_e32 v2, s16
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, v1, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[2:3]
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v2			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v2
	; GCN-NEXT: v_mul_hi_u32 v0, v0, s3			; GCN-NEXT: v_mul_hi_u32 v0, v0, s12
	; GCN-NEXT: v_mul_f32_e32 v1, s14, v1			; GCN-NEXT: v_mul_f32_e32 v1, s15, v1
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s13			; GCN-NEXT: v_mul_lo_u32 v2, v0, s14
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0			; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v0
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s12, v2
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s14, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s15			; GCN-NEXT: v_mul_lo_u32 v4, v1, s16
	; GCN-NEXT: v_mul_hi_u32 v5, v1, s15			; GCN-NEXT: v_mul_hi_u32 v5, v1, s16
	; GCN-NEXT: s_ashr_i32 s13, s7, 31			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s12, v2
	; GCN-NEXT: s_add_i32 s7, s7, s13			; GCN-NEXT: s_ashr_i32 s12, s7, 31
	; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4			; GCN-NEXT: v_sub_i32_e32 v6, vcc, 0, v4
	; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v5			; GCN-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v5
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v4, v4, v1			; GCN-NEXT: v_mul_hi_u32 v4, v4, v1
	; GCN-NEXT: s_xor_b32 s7, s7, s13			; GCN-NEXT: s_add_i32 s7, s7, s12
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s3, v2			; GCN-NEXT: s_xor_b32 s7, s7, s12
	; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v4, v1			; GCN-NEXT: v_add_i32_e32 v5, vcc, v4, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v4, v1
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[4:5]
	; GCN-NEXT: v_mul_hi_u32 v1, v1, s7			; GCN-NEXT: v_mul_hi_u32 v1, v1, s7
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v0, s[2:3]
	; GCN-NEXT: v_mul_lo_u32 v2, v1, s15			; GCN-NEXT: v_mul_lo_u32 v2, v1, s16
	; GCN-NEXT: v_xor_b32_e32 v0, s12, v0			; GCN-NEXT: v_xor_b32_e32 v0, s13, v0
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, s13, v0
	; GCN-NEXT: s_xor_b32 s4, s13, s6			; GCN-NEXT: s_xor_b32 s4, s12, s6
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s7, v2			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s7, v2
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s15, v3			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s16, v3
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s7, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], s7, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v1			; GCN-NEXT: v_add_i32_e32 v3, vcc, -1, v1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v1			; GCN-NEXT: v_add_i32_e32 v2, vcc, 1, v1
	; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]			; GCN-NEXT: s_and_b64 vcc, s[0:1], s[2:3]
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[2:3]
	; GCN-NEXT: v_xor_b32_e32 v1, s4, v1			; GCN-NEXT: v_xor_b32_e32 v1, s4, v1
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s4, v1			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, s4, v1
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = sdiv <2 x i32> %x, %shl.y			%r = sdiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @srem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @srem_i32_oddk_denom(			; CHECK-LABEL: @srem_i32_oddk_denom(
	; CHECK-NEXT: [[R:%.]] = srem i32 [[X:%.]], 1235195			; CHECK-NEXT: [[R:%.]] = srem i32 [[X:%.]], 1235195
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: srem_i32_oddk_denom:			; GCN-LABEL: srem_i32_oddk_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GCN-NEXT: s_load_dword s4, s[0:1], 0xb
	; GCN-NEXT: s_load_dword s0, s[0:1], 0xb
	; GCN-NEXT: v_mov_b32_e32 v0, 0xd9528441			; GCN-NEXT: v_mov_b32_e32 v0, 0xd9528441
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s3, 0xf000
				; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_hi_i32 v0, s0, v0			; GCN-NEXT: v_mul_hi_i32 v0, s4, v0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, s0, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, s4, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 31, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 20, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 20, v0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_mul_i32_i24_e32 v0, 0x12d8fb, v0			; GCN-NEXT: v_mul_i32_i24_e32 v0, 0x12d8fb, v0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s0, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = srem i32 %x, 1235195			%r = srem i32 %x, 1235195
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @srem_i32_pow2k_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @srem_i32_pow2k_denom(			; CHECK-LABEL: @srem_i32_pow2k_denom(
	▲ Show 20 Lines • Show All 461 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: @udiv_i64_pow2_shl_denom(			; CHECK-LABEL: @udiv_i64_pow2_shl_denom(
	; CHECK-NEXT: [[SHL_Y:%.]] = shl i64 4096, [[Y:%.]]			; CHECK-NEXT: [[SHL_Y:%.]] = shl i64 4096, [[Y:%.]]
	; CHECK-NEXT: [[R:%.]] = udiv i64 [[X:%.]], [[SHL_Y]]			; CHECK-NEXT: [[R:%.]] = udiv i64 [[X:%.]], [[SHL_Y]]
	; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]]			; CHECK-NEXT: store i64 [[R]], i64 addrspace(1)* [[OUT:%.*]]
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_i64_pow2_shl_denom:			; GCN-LABEL: udiv_i64_pow2_shl_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-NEXT: s_load_dword s8, s[0:1], 0xd			; GCN-NEXT: s_load_dword s8, s[0:1], 0xd
				; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s0, s4
	; GCN-NEXT: s_add_i32 s8, s8, 12			; GCN-NEXT: s_add_i32 s8, s8, 12
				; GCN-NEXT: s_mov_b32 s0, s4
	; GCN-NEXT: s_mov_b32 s1, s5			; GCN-NEXT: s_mov_b32 s1, s5
	; GCN-NEXT: s_lshr_b64 s[4:5], s[6:7], s8			; GCN-NEXT: s_lshr_b64 s[4:5], s[6:7], s8
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	%r = udiv i64 %x, %shl.y			%r = udiv i64 %x, %shl.y
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GCN-LABEL: udiv_v2i64_mixed_pow2k_denom:			; GCN-LABEL: udiv_v2i64_mixed_pow2k_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GCN-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000			; GCN-NEXT: v_madak_f32 v0, 0, v0, 0x457ff000
	; GCN-NEXT: v_rcp_f32_e32 v0, v0			; GCN-NEXT: v_rcp_f32_e32 v0, v0
	; GCN-NEXT: s_movk_i32 s6, 0xf001			; GCN-NEXT: s_movk_i32 s6, 0xf001
				; GCN-NEXT: v_mov_b32_e32 v8, 0
	; GCN-NEXT: v_mov_b32_e32 v7, 0			; GCN-NEXT: v_mov_b32_e32 v7, 0
	; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
	; GCN-NEXT: s_movk_i32 s0, 0xfff			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s6			; GCN-NEXT: v_mul_hi_u32 v2, v0, s6
	; GCN-NEXT: v_mul_lo_u32 v5, v1, s6			; GCN-NEXT: v_mul_lo_u32 v3, v1, s6
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s6			; GCN-NEXT: v_mul_lo_u32 v4, v0, s6
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_movk_i32 s0, 0xfff
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v0, v3			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
				; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v4			; GCN-NEXT: v_mul_hi_u32 v6, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v3			; GCN-NEXT: v_mul_hi_u32 v3, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v3			; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
	; GCN-NEXT: v_mul_hi_u32 v9, v1, v3			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v1, v3
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v7, v8, vcc			; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v8, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v4, vcc			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v2, vcc			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
	; GCN-NEXT: v_add_i32_e64 v0, s[2:3], v0, v3			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, s6			; GCN-NEXT: v_add_i32_e64 v0, s[2:3], v0, v2
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v1, v4, s[2:3]			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v3, s6			; GCN-NEXT: v_mul_hi_u32 v4, v0, s6
	; GCN-NEXT: v_mul_lo_u32 v8, v0, s6			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v1, v3, s[2:3]
	; GCN-NEXT: v_subrev_i32_e32 v5, vcc, v0, v5			; GCN-NEXT: v_mul_lo_u32 v5, v2, s6
				; GCN-NEXT: v_mul_lo_u32 v6, v0, s6
				; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v0, v4
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v5			; GCN-NEXT: v_mul_lo_u32 v5, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v8			; GCN-NEXT: v_mul_hi_u32 v9, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v5			; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v5			; GCN-NEXT: v_mul_hi_u32 v11, v2, v4
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v7, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v3, v8			; GCN-NEXT: v_mul_lo_u32 v10, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v8, v3, v8			; GCN-NEXT: v_mul_hi_u32 v6, v2, v6
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6			; GCN-NEXT: v_add_i32_e32 v5, vcc, v10, v5
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mul_lo_u32 v3, s10, v1			; GCN-NEXT: v_mul_lo_u32 v2, s10, v1
	; GCN-NEXT: v_mul_hi_u32 v4, s10, v0			; GCN-NEXT: v_mul_hi_u32 v3, s10, v0
	; GCN-NEXT: v_mul_hi_u32 v5, s10, v1			; GCN-NEXT: v_mul_hi_u32 v4, s10, v1
	; GCN-NEXT: v_mul_hi_u32 v6, s11, v1			; GCN-NEXT: v_mul_hi_u32 v5, s11, v1
	; GCN-NEXT: v_mul_lo_u32 v1, s11, v1			; GCN-NEXT: v_mul_lo_u32 v1, s11, v1
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v5, s11, v0			; GCN-NEXT: v_mul_lo_u32 v4, s11, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s11, v0			; GCN-NEXT: v_mul_hi_u32 v0, s11, v0
	; GCN-NEXT: s_lshr_b64 s[2:3], s[8:9], 12			; GCN-NEXT: s_lshr_b64 s[2:3], s[8:9], 12
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v4, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v6, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v1, s0			; GCN-NEXT: v_mul_lo_u32 v2, v1, s0
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s0			; GCN-NEXT: v_mul_hi_u32 v3, v0, s0
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s0			; GCN-NEXT: v_mul_lo_u32 v4, v0, s0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s11			; GCN-NEXT: v_mov_b32_e32 v3, s11
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s10, v4			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s10, v4
	; GCN-NEXT: v_subb_u32_e32 v2, vcc, v3, v2, vcc			; GCN-NEXT: v_subb_u32_e32 v2, vcc, v3, v2, vcc
	; GCN-NEXT: v_subrev_i32_e32 v3, vcc, s0, v4			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, s0, v4
	▲ Show 20 Lines • Show All 693 Lines • ▼ Show 20 Lines
	;			;
	; GCN-LABEL: ssdiv_v2i64_mixed_pow2k_denom:			; GCN-LABEL: ssdiv_v2i64_mixed_pow2k_denom:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: v_mov_b32_e32 v0, 0x457ff000			; GCN-NEXT: v_mov_b32_e32 v0, 0x457ff000
	; GCN-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GCN-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GCN-NEXT: v_mac_f32_e32 v0, 0, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0, v1
	; GCN-NEXT: v_rcp_f32_e32 v0, v0			; GCN-NEXT: v_rcp_f32_e32 v0, v0
	; GCN-NEXT: s_movk_i32 s6, 0xf001			; GCN-NEXT: s_movk_i32 s6, 0xf001
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GCN-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s0, s9, 31			; GCN-NEXT: s_ashr_i32 s0, s9, 31
	Show All 12 Lines
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 12			; GCN-NEXT: s_ashr_i64 s[2:3], s[2:3], 12
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: s_mov_b32 s9, s8			; GCN-NEXT: s_mov_b32 s9, s8
				; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GCN-NEXT: v_mov_b32_e32 v4, 0			; GCN-NEXT: v_mov_b32_e32 v4, 0
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mov_b32_e32 v6, 0			; GCN-NEXT: v_mov_b32_e32 v6, 0
	; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2			; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v6, v5, vcc
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s14			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s14
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, s15			; GCN-NEXT: v_cvt_f32_u32_e32 v1, s15
	; GCN-NEXT: s_mov_b32 s20, 0x2f800000			; GCN-NEXT: s_mov_b32 s20, 0x2f800000
	; GCN-NEXT: s_mov_b32 s21, 0xcf800000			; GCN-NEXT: s_mov_b32 s21, 0xcf800000
	; GCN-NEXT: s_sub_u32 s6, 0, s14			; GCN-NEXT: s_sub_u32 s6, 0, s14
	; GCN-NEXT: v_mac_f32_e32 v0, s18, v1			; GCN-NEXT: v_mac_f32_e32 v0, s18, v1
	; GCN-NEXT: v_rcp_f32_e32 v0, v0			; GCN-NEXT: v_rcp_f32_e32 v0, v0
	; GCN-NEXT: s_subb_u32 s7, 0, s15			; GCN-NEXT: s_subb_u32 s7, 0, s15
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
				; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_f32_e32 v0, s19, v0			; GCN-NEXT: v_mul_f32_e32 v0, s19, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s20, v0			; GCN-NEXT: v_mul_f32_e32 v1, s20, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, s21, v1			; GCN-NEXT: v_mac_f32_e32 v0, s21, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s6, v0			; GCN-NEXT: v_mul_hi_u32 v3, s6, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s6, v1			; GCN-NEXT: v_mul_lo_u32 v2, s6, v1
	▲ Show 20 Lines • Show All 624 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s16			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s16
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, s17			; GCN-NEXT: v_cvt_f32_u32_e32 v1, s17
	; GCN-NEXT: s_mov_b32 s20, 0x2f800000			; GCN-NEXT: s_mov_b32 s20, 0x2f800000
	; GCN-NEXT: s_mov_b32 s21, 0xcf800000			; GCN-NEXT: s_mov_b32 s21, 0xcf800000
	; GCN-NEXT: s_sub_u32 s6, 0, s16			; GCN-NEXT: s_sub_u32 s6, 0, s16
	; GCN-NEXT: v_mac_f32_e32 v0, s18, v1			; GCN-NEXT: v_mac_f32_e32 v0, s18, v1
	; GCN-NEXT: v_rcp_f32_e32 v0, v0			; GCN-NEXT: v_rcp_f32_e32 v0, v0
	; GCN-NEXT: s_subb_u32 s7, 0, s17			; GCN-NEXT: s_subb_u32 s7, 0, s17
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
				; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GCN-NEXT: v_mul_f32_e32 v0, s19, v0			; GCN-NEXT: v_mul_f32_e32 v0, s19, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s20, v0			; GCN-NEXT: v_mul_f32_e32 v1, s20, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, s21, v1			; GCN-NEXT: v_mac_f32_e32 v0, s21, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s12, s9, 31			; GCN-NEXT: s_ashr_i32 s12, s9, 31
	▲ Show 20 Lines • Show All 237 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bitreverse.ll

Show First 20 Lines • Show All 324 Lines • ▼ Show 20 Lines	; FLAT-NEXT: s_endpgm
%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1		%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1
store i64 %brev, i64 addrspace(1)* %out		store i64 %brev, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_brev_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %valptr) #0 {		define amdgpu_kernel void @v_brev_i64(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %valptr) #0 {
; SI-LABEL: v_brev_i64:		; SI-LABEL: v_brev_i64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s7
; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s6, 0xff00ff		; SI-NEXT: s_mov_b32 s2, 0xff00ff
; SI-NEXT: s_mov_b32 s8, 0xf0f0f0f		; SI-NEXT: s_mov_b32 s8, 0xf0f0f0f
; SI-NEXT: s_mov_b32 s9, 0xf0f0f0f0		; SI-NEXT: s_mov_b32 s9, 0xf0f0f0f0
; SI-NEXT: s_mov_b32 s10, 0x33333333		; SI-NEXT: s_mov_b32 s10, 0x33333333
; SI-NEXT: s_mov_b32 s11, 0xcccccccc		; SI-NEXT: s_mov_b32 s11, 0xcccccccc
; SI-NEXT: s_mov_b32 s0, 0x55555555		; SI-NEXT: s_mov_b32 s12, 0x55555555
; SI-NEXT: s_mov_b32 s1, 0xaaaaaaaa		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_alignbit_b32 v2, v0, v0, 8		; SI-NEXT: v_alignbit_b32 v2, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24		; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
; SI-NEXT: v_alignbit_b32 v3, v1, v1, 8		; SI-NEXT: v_alignbit_b32 v3, v1, v1, 8
; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24		; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: v_bfi_b32 v2, s6, v0, v2		; SI-NEXT: v_bfi_b32 v2, s2, v0, v2
; SI-NEXT: v_bfi_b32 v4, s6, v1, v3		; SI-NEXT: v_bfi_b32 v4, s2, v1, v3
; SI-NEXT: v_and_b32_e32 v1, s8, v2		; SI-NEXT: v_and_b32_e32 v1, s8, v2
; SI-NEXT: v_and_b32_e32 v0, s8, v4		; SI-NEXT: v_and_b32_e32 v0, s8, v4
; SI-NEXT: v_and_b32_e32 v3, s9, v2		; SI-NEXT: v_and_b32_e32 v3, s9, v2
; SI-NEXT: v_and_b32_e32 v2, s9, v4		; SI-NEXT: v_and_b32_e32 v2, s9, v4
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 4
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 4
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s2, 0xaaaaaaaa
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_and_b32_e32 v1, s10, v3		; SI-NEXT: v_and_b32_e32 v1, s10, v3
; SI-NEXT: v_and_b32_e32 v0, s10, v2		; SI-NEXT: v_and_b32_e32 v0, s10, v2
; SI-NEXT: v_and_b32_e32 v3, s11, v3		; SI-NEXT: v_and_b32_e32 v3, s11, v3
; SI-NEXT: v_and_b32_e32 v2, s11, v2		; SI-NEXT: v_and_b32_e32 v2, s11, v2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 2
; SI-NEXT: v_or_b32_e32 v3, v3, v1		; SI-NEXT: v_or_b32_e32 v3, v3, v1
; SI-NEXT: v_or_b32_e32 v2, v2, v0		; SI-NEXT: v_or_b32_e32 v2, v2, v0
; SI-NEXT: v_and_b32_e32 v1, s0, v3		; SI-NEXT: v_and_b32_e32 v1, s12, v3
; SI-NEXT: v_and_b32_e32 v0, s0, v2		; SI-NEXT: v_and_b32_e32 v0, s12, v2
; SI-NEXT: v_and_b32_e32 v3, s1, v3		; SI-NEXT: v_and_b32_e32 v3, s2, v3
; SI-NEXT: v_and_b32_e32 v2, s1, v2		; SI-NEXT: v_and_b32_e32 v2, s2, v2
; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1		; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1		; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], 1
		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: v_or_b32_e32 v1, v3, v1		; SI-NEXT: v_or_b32_e32 v1, v3, v1
; SI-NEXT: v_or_b32_e32 v0, v2, v0		; SI-NEXT: v_or_b32_e32 v0, v2, v0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: s_waitcnt lgkmcnt(0)
		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; FLAT-LABEL: v_brev_i64:		; FLAT-LABEL: v_brev_i64:
; FLAT: ; %bb.0:		; FLAT: ; %bb.0:
; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; FLAT-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; FLAT-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; FLAT-NEXT: s_mov_b32 s6, 0x10203		; FLAT-NEXT: s_mov_b32 s8, 0x10203
; FLAT-NEXT: s_mov_b32 s2, 0x33333333		; FLAT-NEXT: s_mov_b32 s2, 0xf0f0f0f
; FLAT-NEXT: s_mov_b32 s3, 0xcccccccc		; FLAT-NEXT: s_mov_b32 s6, 0xcccccccc
; FLAT-NEXT: s_waitcnt lgkmcnt(0)		; FLAT-NEXT: s_waitcnt lgkmcnt(0)
; FLAT-NEXT: v_mov_b32_e32 v1, s1		; FLAT-NEXT: v_mov_b32_e32 v1, s5
; FLAT-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; FLAT-NEXT: v_add_u32_e32 v0, vcc, s4, v0
; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; FLAT-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; FLAT-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
; FLAT-NEXT: s_mov_b32 s0, 0xf0f0f0f		; FLAT-NEXT: s_mov_b32 s4, 0xf0f0f0f0
; FLAT-NEXT: s_mov_b32 s1, 0xf0f0f0f0		; FLAT-NEXT: s_mov_b32 s5, 0x33333333
; FLAT-NEXT: s_mov_b32 s7, 0xf000		; FLAT-NEXT: s_mov_b32 s7, 0x55555555
		; FLAT-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; FLAT-NEXT: s_mov_b32 s3, 0xf000
; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; FLAT-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; FLAT-NEXT: v_perm_b32 v2, 0, v0, s6		; FLAT-NEXT: v_perm_b32 v2, 0, v0, s8
; FLAT-NEXT: v_perm_b32 v4, 0, v1, s6		; FLAT-NEXT: v_perm_b32 v4, 0, v1, s8
; FLAT-NEXT: v_and_b32_e32 v1, s0, v2		; FLAT-NEXT: v_and_b32_e32 v1, s2, v2
; FLAT-NEXT: v_and_b32_e32 v0, s0, v4		; FLAT-NEXT: v_and_b32_e32 v0, s2, v4
; FLAT-NEXT: v_and_b32_e32 v3, s1, v2		; FLAT-NEXT: v_and_b32_e32 v3, s4, v2
; FLAT-NEXT: v_and_b32_e32 v2, s1, v4		; FLAT-NEXT: v_and_b32_e32 v2, s4, v4
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 4, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 4, v[2:3]
; FLAT-NEXT: s_mov_b32 s0, 0x55555555		; FLAT-NEXT: s_mov_b32 s2, 0xaaaaaaaa
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_and_b32_e32 v1, s2, v3		; FLAT-NEXT: v_and_b32_e32 v1, s5, v3
; FLAT-NEXT: v_and_b32_e32 v0, s2, v2		; FLAT-NEXT: v_and_b32_e32 v0, s5, v2
; FLAT-NEXT: v_and_b32_e32 v3, s3, v3		; FLAT-NEXT: v_and_b32_e32 v3, s6, v3
; FLAT-NEXT: v_and_b32_e32 v2, s3, v2		; FLAT-NEXT: v_and_b32_e32 v2, s6, v2
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 2, v[2:3]
; FLAT-NEXT: s_mov_b32 s1, 0xaaaaaaaa
; FLAT-NEXT: v_or_b32_e32 v3, v3, v1		; FLAT-NEXT: v_or_b32_e32 v3, v3, v1
; FLAT-NEXT: v_or_b32_e32 v2, v2, v0		; FLAT-NEXT: v_or_b32_e32 v2, v2, v0
; FLAT-NEXT: v_and_b32_e32 v1, s0, v3		; FLAT-NEXT: v_and_b32_e32 v1, s7, v3
; FLAT-NEXT: v_and_b32_e32 v0, s0, v2		; FLAT-NEXT: v_and_b32_e32 v0, s7, v2
; FLAT-NEXT: v_and_b32_e32 v3, s1, v3		; FLAT-NEXT: v_and_b32_e32 v3, s2, v3
; FLAT-NEXT: v_and_b32_e32 v2, s1, v2		; FLAT-NEXT: v_and_b32_e32 v2, s2, v2
; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]		; FLAT-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]		; FLAT-NEXT: v_lshrrev_b64 v[2:3], 1, v[2:3]
; FLAT-NEXT: s_mov_b32 s6, -1		; FLAT-NEXT: s_mov_b32 s2, -1
; FLAT-NEXT: v_or_b32_e32 v1, v3, v1		; FLAT-NEXT: v_or_b32_e32 v1, v3, v1
; FLAT-NEXT: v_or_b32_e32 v0, v2, v0		; FLAT-NEXT: v_or_b32_e32 v0, v2, v0
; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; FLAT-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; FLAT-NEXT: s_endpgm		; FLAT-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i64, i64 addrspace(1)* %valptr, i32 %tid		%gep = getelementptr i64, i64 addrspace(1)* %valptr, i32 %tid
%val = load i64, i64 addrspace(1)* %gep		%val = load i64, i64 addrspace(1)* %gep
%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1		%brev = call i64 @llvm.bitreverse.i64(i64 %val) #1
store i64 %brev, i64 addrspace(1)* %out		store i64 %brev, i64 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

Show First 20 Lines • Show All 837 Lines • ▼ Show 20 Lines	call void @external_void_func_12xv3f32(
<3 x float><float 9.0, float 9.0, float 9.0>,		<3 x float><float 9.0, float 9.0, float 9.0>,
<3 x float><float 10.0, float 11.0, float 12.0>,		<3 x float><float 10.0, float 11.0, float 12.0>,
<3 x float><float 13.0, float 14.0, float 15.0>)		<3 x float><float 13.0, float 14.0, float 15.0>)
ret void		ret void
}		}

; GCN-LABEL: {{^}}stack_8xv5i32:		; GCN-LABEL: {{^}}stack_8xv5i32:

; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 8		; GCN-DAG: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 9		; GCN-DAG: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 10		; GCN-DAG: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 11		; GCN-DAG: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12		; GCN-DAG: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
; GCN: buffer_store_dword [[REG8]], {{.*$}}		; GCN-DAG: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4		; GCN-DAG: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8		; GCN-DAG: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12		; GCN-DAG: buffer_store_dword [[REG8]], {{.*$}}
; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16		; GCN-DAG: buffer_store_dword [[REG9]], {{.*}} offset:4
; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13		; GCN-DAG: buffer_store_dword [[REG10]], {{.*}} offset:8
; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14		; GCN-DAG: buffer_store_dword [[REG11]], {{.*}} offset:12
; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15		; GCN-DAG: buffer_store_dword [[REG12]], {{.*}} offset:16
; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20		; GCN-DAG: buffer_store_dword [[REG13]], {{.*}} offset:20
; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24		; GCN-DAG: buffer_store_dword [[REG14]], {{.*}} offset:24
; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28		; GCN-DAG: buffer_store_dword [[REG15]], {{.*}} offset:28

; GCN: v_mov_b32_e32 v31, 7		; GCN: v_mov_b32_e32 v31, 7
; GCN: s_getpc		; GCN: s_getpc
define void @stack_8xv5i32() #0 {		define void @stack_8xv5i32() #0 {
entry:		entry:
call void @external_void_func_8xv5i32(		call void @external_void_func_8xv5i32(
<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,		<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,
<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,		<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,
<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,		<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,
<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,		<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,
<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,		<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,
<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,		<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,
<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,		<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,
<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)		<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)
ret void		ret void
}		}

; GCN-LABEL: {{^}}stack_8xv5f32:		; GCN-LABEL: {{^}}stack_8xv5f32:
; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000		; GCN-DAG: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000
; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000		; GCN-DAG: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000
; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000		; GCN-DAG: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000
; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000		; GCN-DAG: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000
; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000		; GCN-DAG: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000
; GCN: buffer_store_dword [[REG8]], {{.*$}}		; GCN-DAG: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4		; GCN-DAG: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8		; GCN-DAG: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12		; GCN-DAG: buffer_store_dword [[REG8]], {{.*$}}
; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16		; GCN-DAG: buffer_store_dword [[REG9]], {{.*}} offset:4
; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000		; GCN-DAG: buffer_store_dword [[REG10]], {{.*}} offset:8
; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000		; GCN-DAG: buffer_store_dword [[REG11]], {{.*}} offset:12
; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000		; GCN-DAG: buffer_store_dword [[REG12]], {{.*}} offset:16
; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20		; GCN-DAG: buffer_store_dword [[REG13]], {{.*}} offset:20
; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24		; GCN-DAG: buffer_store_dword [[REG14]], {{.*}} offset:24
; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28		; GCN-DAG: buffer_store_dword [[REG15]], {{.*}} offset:28

; GCN: v_mov_b32_e32 v31, 0x40e00000		; GCN: v_mov_b32_e32 v31, 0x40e00000
; GCN: s_getpc		; GCN: s_getpc
define void @stack_8xv5f32() #0 {		define void @stack_8xv5f32() #0 {
entry:		entry:
call void @external_void_func_8xv5f32(		call void @external_void_func_8xv5f32(
<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,		<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,
<5 x float><float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>,		<5 x float><float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>,
Show All 22 Lines

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4		%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4		store <4 x i8> %val, <4 x i8> addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_copy_v4i8_x2(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {		define amdgpu_kernel void @test_copy_v4i8_x2(<4 x i8> addrspace(1)* %out0, <4 x i8> addrspace(1)* %out1, <4 x i8> addrspace(1)* %in) nounwind {
; SI-LABEL: test_copy_v4i8_x2:		; SI-LABEL: test_copy_v4i8_x2:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s11, 0xf000		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_mov_b32 s3, s11
; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; SI-NEXT: s_mov_b32 s10, -1		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s8, s6		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b32 s9, s7		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mov_b32 s6, s10		; SI-NEXT: s_mov_b32 s0, s6
; SI-NEXT: s_mov_b32 s7, s11		; SI-NEXT: s_mov_b32 s1, s7
		; SI-NEXT: s_mov_b32 s6, s2
		; SI-NEXT: s_mov_b32 s7, s3
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; SI-NEXT: buffer_store_dword v0, off, s[8:11], 0		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_copy_v4i8_x2:		; VI-LABEL: test_copy_v4i8_x2:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s3, 0xf000		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s3
; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
		; VI-NEXT: s_mov_b32 s3, 0xf000
		; VI-NEXT: s_mov_b32 s2, -1
; VI-NEXT: s_mov_b32 s0, s6		; VI-NEXT: s_mov_b32 s0, s6
; VI-NEXT: s_mov_b32 s1, s7		; VI-NEXT: s_mov_b32 s1, s7
; VI-NEXT: s_mov_b32 s6, s2		; VI-NEXT: s_mov_b32 s6, s2
; VI-NEXT: s_mov_b32 s7, s3		; VI-NEXT: s_mov_b32 s7, s3
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0		; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
▲ Show 20 Lines • Show All 542 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ctpop64.ll

Show All 39 Lines	define amdgpu_kernel void @v_ctpop_i64(i32 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in) nounwind {
%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone		%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone
%truncctpop = trunc i64 %ctpop to i32		%truncctpop = trunc i64 %ctpop to i32
store i32 %truncctpop, i32 addrspace(1)* %out, align 4		store i32 %truncctpop, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_ctpop_i64_user:		; FUNC-LABEL: {{^}}v_ctpop_i64_user:
; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},		; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[LOVAL:[0-9]+]]:[[HIVAL:[0-9]+]]{{\]}},
; GCN: v_bcnt_u32_b32{{(_e64)*}} [[MIDRESULT:v[0-9]+]], v[[LOVAL]], 0
; SI-NEXT: v_bcnt_u32_b32_e32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
; VI-NEXT: v_bcnt_u32_b32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
; GCN-DAG: v_or_b32_e32 v[[RESULT_LO:[0-9]+]], s{{[0-9]+}}, [[RESULT]]
; GCN-DAG: v_mov_b32_e32 v[[RESULT_HI:[0-9]+]], s{{[0-9]+}}		; GCN-DAG: v_mov_b32_e32 v[[RESULT_HI:[0-9]+]], s{{[0-9]+}}
		; GCN-DAG: v_bcnt_u32_b32{{(_e64)*}} [[MIDRESULT:v[0-9]+]], v[[LOVAL]], 0
		; SI-DAG-NEXT: v_bcnt_u32_b32_e32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
		; VI-DAG-NEXT: v_bcnt_u32_b32 [[RESULT:v[0-9]+]], v[[HIVAL]], [[MIDRESULT]]
		; GCN: v_or_b32_e32 v[[RESULT_LO:[0-9]+]], s{{[0-9]+}}, [[RESULT]]
; GCN: buffer_store_dwordx2 v{{\[}}[[RESULT_LO]]:[[RESULT_HI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[RESULT_LO]]:[[RESULT_HI]]{{\]}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @v_ctpop_i64_user(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in, i64 %s.val) nounwind {		define amdgpu_kernel void @v_ctpop_i64_user(i64 addrspace(1)* noalias %out, i64 addrspace(1)* noalias %in, i64 %s.val) nounwind {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %tid		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %tid
%val = load i64, i64 addrspace(1)* %in.gep, align 8		%val = load i64, i64 addrspace(1)* %in.gep, align 8
%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone		%ctpop = call i64 @llvm.ctpop.i64(i64 %val) nounwind readnone
%or = or i64 %ctpop, %s.val		%or = or i64 %ctpop, %s.val
▲ Show 20 Lines • Show All 143 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 351 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s2, 0			; SI-NEXT: s_mov_b32 s2, 0
	; SI-NEXT: s_mov_b32 s3, s7			; SI-NEXT: s_mov_b32 s3, s7
	; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[0:3], 0 addr64 offset:5			; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[0:3], 0 addr64 offset:4
	; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[0:3], 0 addr64 offset:6			; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[0:3], 0 addr64 offset:5
				; SI-NEXT: buffer_load_ubyte v6, v[0:1], s[0:3], 0 addr64 offset:6
	; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[0:3], 0 addr64			; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[0:3], 0 addr64
	; SI-NEXT: buffer_load_ubyte v5, v[0:1], s[0:3], 0 addr64 offset:1			; SI-NEXT: buffer_load_ubyte v5, v[0:1], s[0:3], 0 addr64 offset:1
	; SI-NEXT: buffer_load_ubyte v6, v[0:1], s[0:3], 0 addr64 offset:2			; SI-NEXT: buffer_load_ubyte v7, v[0:1], s[0:3], 0 addr64 offset:2
	; SI-NEXT: buffer_load_ubyte v7, v[0:1], s[0:3], 0 addr64 offset:3			; SI-NEXT: buffer_load_ubyte v0, v[0:1], s[0:3], 0 addr64 offset:3
	; SI-NEXT: buffer_load_ubyte v8, v[0:1], s[0:3], 0 addr64 offset:4
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt vmcnt(4)			; SI-NEXT: s_waitcnt vmcnt(4)
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; SI-NEXT: v_cvt_f32_ubyte0_e32 v6, v6
	; SI-NEXT: s_waitcnt vmcnt(3)			; SI-NEXT: s_waitcnt vmcnt(2)
	; SI-NEXT: v_cvt_f32_ubyte2_e32 v1, v5			; SI-NEXT: v_cvt_f32_ubyte2_e32 v1, v5
	; SI-NEXT: v_cvt_f32_ubyte2_e32 v5, v2			; SI-NEXT: v_cvt_f32_ubyte2_e32 v5, v3
	; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; SI-NEXT: v_or_b32_e32 v2, v7, v6
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8			; SI-NEXT: v_lshlrev_b32_e32 v8, 8, v0
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v8, v3			; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
				; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v2
				; SI-NEXT: v_or_b32_e32 v2, v8, v7
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2			; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2
	; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2			; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2
	; SI-NEXT: buffer_store_dword v8, off, s[4:7], 0 offset:24			; SI-NEXT: buffer_store_dword v6, off, s[4:7], 0 offset:24
	; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[4:7], 0 offset:16			; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[4:7], 0 offset:16
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: load_v7i8_to_v7f32:			; VI-LABEL: load_v7i8_to_v7f32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
	Show All 11 Lines
	; VI-NEXT: v_add_u32_e32 v6, vcc, 6, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 6, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v8, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v8, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v10, vcc, 5, v0			; VI-NEXT: v_add_u32_e32 v10, vcc, 5, v0
	; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v13, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v13, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v6, v[6:7]			; VI-NEXT: flat_load_ubyte v8, v[8:9]
	; VI-NEXT: flat_load_ubyte v7, v[8:9]			; VI-NEXT: flat_load_ubyte v9, v[10:11]
	; VI-NEXT: flat_load_ubyte v8, v[10:11]			; VI-NEXT: flat_load_ubyte v10, v[12:13]
	; VI-NEXT: flat_load_ubyte v9, v[12:13]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: flat_load_ubyte v1, v[2:3]			; VI-NEXT: flat_load_ubyte v1, v[2:3]
	; VI-NEXT: flat_load_ubyte v2, v[4:5]			; VI-NEXT: flat_load_ubyte v2, v[4:5]
				; VI-NEXT: flat_load_ubyte v3, v[6:7]
	; VI-NEXT: s_waitcnt vmcnt(6) lgkmcnt(6)			; VI-NEXT: s_waitcnt vmcnt(6) lgkmcnt(6)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v6			; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v8
	; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)			; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v7			; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v9
	; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)			; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v8
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
				; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
				; VI-NEXT: v_lshlrev_b32_e32 v7, 8, v1
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v1			; VI-NEXT: v_or_b32_sdwa v2, v7, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v3
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v9			; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v10
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2
	; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16			; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid
	%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1			%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1
	%cvt = uitofp <7 x i8> %load to <7 x float>			%cvt = uitofp <7 x i8> %load to <7 x float>
	▲ Show 20 Lines • Show All 491 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

Show First 20 Lines • Show All 2,437 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @free_fold_src_code_size_cost_use_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float addrspace(1)* %d.ptr) #0 {
%mul2 = fmul float %fneg.fma0, %d		%mul2 = fmul float %fneg.fma0, %d

store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
store volatile float %mul2, float addrspace(1)* %out		store volatile float %mul2, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}free_fold_src_code_size_cost_use_f64:		; GCN-LABEL: {{^}}free_fold_src_code_size_cost_use_f64:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[B:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[B:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[C:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[C:v\[[0-9]+:[0-9]+\]]]
; GCN: {{buffer\|flat}}_load_dwordx2 [[D:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: {{buffer\|flat}}_load_dwordx2 [[D:v\[[0-9]+:[0-9]+\]]]

; GCN: v_fma_f64 [[FMA0:v\[[0-9]+:[0-9]+\]]], [[A]], [[B]], 2.0		; GCN-DAG: v_fma_f64 [[FMA0:v\[[0-9]+:[0-9]+\]]], [[A]], [[B]], 2.0
; GCN-DAG: v_mul_f64 [[MUL0:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[C]]		; GCN-DAG: v_mul_f64 [[MUL0:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[C]]
; GCN-DAG: v_mul_f64 [[MUL1:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[D]]		; GCN-DAG: v_mul_f64 [[MUL1:v\[[0-9]+:[0-9]+\]]], -[[FMA0]], [[D]]

; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]
; GCN-NEXT: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]		; GCN-NEXT: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]
define amdgpu_kernel void @free_fold_src_code_size_cost_use_f64(double addrspace(1)* %out, double addrspace(1)* %a.ptr, double addrspace(1)* %b.ptr, double addrspace(1)* %c.ptr, double addrspace(1)* %d.ptr) #0 {		define amdgpu_kernel void @free_fold_src_code_size_cost_use_f64(double addrspace(1)* %out, double addrspace(1)* %a.ptr, double addrspace(1)* %b.ptr, double addrspace(1)* %c.ptr, double addrspace(1)* %d.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 1,190 Lines • ▼ Show 20 Lines
	}			}

	define <2 x i24> @v_fshr_v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2) {			define <2 x i24> @v_fshr_v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2) {
	; SI-LABEL: v_fshr_v2i24:			; SI-LABEL: v_fshr_v2i24:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8			; SI-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8
	; SI-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16			; SI-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16
	; SI-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:20			; SI-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12
	; SI-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:12			; SI-NEXT: buffer_load_dword v4, off, s[0:3], s32
	; SI-NEXT: buffer_load_dword v5, off, s[0:3], s32			; SI-NEXT: buffer_load_dword v5, off, s[0:3], s32 offset:20
	; SI-NEXT: buffer_load_dword v6, off, s[0:3], s32 offset:4			; SI-NEXT: buffer_load_dword v6, off, s[0:3], s32 offset:4
	; SI-NEXT: s_mov_b32 s4, 0xffffff			; SI-NEXT: s_mov_b32 s4, 0xffffff
	; SI-NEXT: s_mov_b32 s5, 0xaaaaaaab			; SI-NEXT: s_mov_b32 s5, 0xaaaaaaab
	; SI-NEXT: v_add_i32_e32 v7, vcc, 3, v0			; SI-NEXT: v_add_i32_e32 v7, vcc, 3, v0
	; SI-NEXT: v_add_i32_e32 v8, vcc, 4, v0			; SI-NEXT: v_add_i32_e32 v8, vcc, 4, v0
	; SI-NEXT: v_add_i32_e32 v9, vcc, 5, v0			; SI-NEXT: v_add_i32_e32 v9, vcc, 5, v0
	; SI-NEXT: v_add_i32_e32 v10, vcc, 2, v0			; SI-NEXT: v_add_i32_e32 v10, vcc, 2, v0
	; SI-NEXT: s_waitcnt vmcnt(5)			; SI-NEXT: s_waitcnt vmcnt(5)
	; SI-NEXT: v_and_b32_e32 v14, s4, v1			; SI-NEXT: v_and_b32_e32 v14, s4, v1
	; SI-NEXT: s_waitcnt vmcnt(4)			; SI-NEXT: s_waitcnt vmcnt(4)
	; SI-NEXT: v_and_b32_e32 v2, s4, v2			; SI-NEXT: v_and_b32_e32 v2, s4, v2
	; SI-NEXT: v_mul_hi_u32 v12, v2, s5			; SI-NEXT: v_mul_hi_u32 v12, v2, s5
	; SI-NEXT: s_waitcnt vmcnt(3)			; SI-NEXT: s_waitcnt vmcnt(3)
	; SI-NEXT: v_and_b32_e32 v3, s4, v3			; SI-NEXT: v_and_b32_e32 v11, s4, v3
	; SI-NEXT: v_mul_hi_u32 v13, v3, s5			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: s_waitcnt vmcnt(2)			; SI-NEXT: v_and_b32_e32 v5, s4, v5
	; SI-NEXT: v_and_b32_e32 v11, s4, v4			; SI-NEXT: v_mul_hi_u32 v13, v5, s5
	; SI-NEXT: v_lshrrev_b32_e32 v12, 4, v12			; SI-NEXT: v_lshrrev_b32_e32 v12, 4, v12
	; SI-NEXT: v_mul_lo_u32 v12, v12, 24			; SI-NEXT: v_mul_lo_u32 v12, v12, 24
	; SI-NEXT: v_lshrrev_b32_e32 v13, 4, v13			; SI-NEXT: v_lshrrev_b32_e32 v13, 4, v13
	; SI-NEXT: v_mul_lo_u32 v13, v13, 24			; SI-NEXT: v_mul_lo_u32 v13, v13, 24
	; SI-NEXT: v_sub_i32_e32 v2, vcc, v2, v12			; SI-NEXT: v_sub_i32_e32 v2, vcc, v2, v12
	; SI-NEXT: v_lshr_b32_e32 v12, v14, v2			; SI-NEXT: v_lshr_b32_e32 v12, v14, v2
	; SI-NEXT: v_sub_i32_e32 v3, vcc, v3, v13			; SI-NEXT: v_sub_i32_e32 v5, vcc, v5, v13
	; SI-NEXT: v_sub_i32_e32 v13, vcc, 24, v2			; SI-NEXT: v_sub_i32_e32 v13, vcc, 24, v2
	; SI-NEXT: v_sub_i32_e32 v14, vcc, 24, v3			; SI-NEXT: v_sub_i32_e32 v14, vcc, 24, v5
	; SI-NEXT: v_and_b32_e32 v13, s4, v13			; SI-NEXT: v_and_b32_e32 v13, s4, v13
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: v_lshl_b32_e32 v4, v4, v13
	; SI-NEXT: v_lshl_b32_e32 v5, v5, v13
	; SI-NEXT: v_and_b32_e32 v14, 0xffffff, v14			; SI-NEXT: v_and_b32_e32 v14, 0xffffff, v14
	; SI-NEXT: v_lshr_b32_e32 v11, v11, v3			; SI-NEXT: v_lshr_b32_e32 v11, v11, v5
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshl_b32_e32 v6, v6, v14			; SI-NEXT: v_lshl_b32_e32 v6, v6, v14
	; SI-NEXT: v_or_b32_e32 v5, v5, v12			; SI-NEXT: v_or_b32_e32 v4, v4, v12
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; SI-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; SI-NEXT: v_or_b32_e32 v6, v6, v11			; SI-NEXT: v_or_b32_e32 v6, v6, v11
	; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; SI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5
	; SI-NEXT: v_cndmask_b32_e32 v2, v6, v4, vcc			; SI-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; SI-NEXT: buffer_store_byte v2, v7, s[0:3], 0 offen			; SI-NEXT: buffer_store_byte v2, v7, s[0:3], 0 offen
	; SI-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen			; SI-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen
	; SI-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; SI-NEXT: v_lshrrev_b32_e32 v0, 8, v2
	; SI-NEXT: s_waitcnt expcnt(1)			; SI-NEXT: s_waitcnt expcnt(1)
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: s_waitcnt expcnt(0)			; SI-NEXT: s_waitcnt expcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: buffer_store_byte v0, v8, s[0:3], 0 offen			; SI-NEXT: buffer_store_byte v0, v8, s[0:3], 0 offen
	; SI-NEXT: buffer_store_byte v2, v9, s[0:3], 0 offen			; SI-NEXT: buffer_store_byte v2, v9, s[0:3], 0 offen
	; SI-NEXT: buffer_store_byte v1, v10, s[0:3], 0 offen			; SI-NEXT: buffer_store_byte v1, v10, s[0:3], 0 offen
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0)
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v2i24:			; VI-LABEL: v_fshr_v2i24:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8			; VI-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8
	; VI-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16			; VI-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16
	; VI-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:20			; VI-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:12
	; VI-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:12			; VI-NEXT: buffer_load_dword v4, off, s[0:3], s32
	; VI-NEXT: buffer_load_dword v5, off, s[0:3], s32			; VI-NEXT: buffer_load_dword v5, off, s[0:3], s32 offset:20
	; VI-NEXT: buffer_load_dword v6, off, s[0:3], s32 offset:4			; VI-NEXT: buffer_load_dword v6, off, s[0:3], s32 offset:4
	; VI-NEXT: s_mov_b32 s4, 0xffffff			; VI-NEXT: s_mov_b32 s4, 0xffffff
	; VI-NEXT: s_mov_b32 s5, 0xaaaaaaab			; VI-NEXT: s_mov_b32 s5, 0xaaaaaaab
	; VI-NEXT: v_add_u32_e32 v7, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v7, vcc, 3, v0
	; VI-NEXT: v_add_u32_e32 v8, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v8, vcc, 4, v0
	; VI-NEXT: v_add_u32_e32 v9, vcc, 5, v0			; VI-NEXT: v_add_u32_e32 v9, vcc, 5, v0
	; VI-NEXT: v_add_u32_e32 v10, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v10, vcc, 2, v0
	; VI-NEXT: s_waitcnt vmcnt(5)			; VI-NEXT: s_waitcnt vmcnt(5)
	; VI-NEXT: v_and_b32_e32 v14, s4, v1			; VI-NEXT: v_and_b32_e32 v14, s4, v1
	; VI-NEXT: s_waitcnt vmcnt(4)			; VI-NEXT: s_waitcnt vmcnt(4)
	; VI-NEXT: v_and_b32_e32 v2, s4, v2			; VI-NEXT: v_and_b32_e32 v2, s4, v2
	; VI-NEXT: v_mul_hi_u32 v12, v2, s5			; VI-NEXT: v_mul_hi_u32 v12, v2, s5
	; VI-NEXT: s_waitcnt vmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_and_b32_e32 v3, s4, v3			; VI-NEXT: v_and_b32_e32 v11, s4, v3
	; VI-NEXT: v_mul_hi_u32 v13, v3, s5			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: s_waitcnt vmcnt(2)			; VI-NEXT: v_and_b32_e32 v5, s4, v5
	; VI-NEXT: v_and_b32_e32 v11, s4, v4			; VI-NEXT: v_mul_hi_u32 v13, v5, s5
	; VI-NEXT: v_lshrrev_b32_e32 v12, 4, v12			; VI-NEXT: v_lshrrev_b32_e32 v12, 4, v12
	; VI-NEXT: v_mul_lo_u32 v12, v12, 24			; VI-NEXT: v_mul_lo_u32 v12, v12, 24
	; VI-NEXT: v_lshrrev_b32_e32 v13, 4, v13			; VI-NEXT: v_lshrrev_b32_e32 v13, 4, v13
	; VI-NEXT: v_mul_lo_u32 v13, v13, 24			; VI-NEXT: v_mul_lo_u32 v13, v13, 24
	; VI-NEXT: v_sub_u32_e32 v2, vcc, v2, v12			; VI-NEXT: v_sub_u32_e32 v2, vcc, v2, v12
	; VI-NEXT: v_lshrrev_b32_e32 v12, v2, v14			; VI-NEXT: v_lshrrev_b32_e32 v12, v2, v14
	; VI-NEXT: v_sub_u32_e32 v3, vcc, v3, v13			; VI-NEXT: v_sub_u32_e32 v5, vcc, v5, v13
	; VI-NEXT: v_sub_u32_e32 v13, vcc, 24, v2			; VI-NEXT: v_sub_u32_e32 v13, vcc, 24, v2
	; VI-NEXT: v_sub_u32_e32 v14, vcc, 24, v3			; VI-NEXT: v_sub_u32_e32 v14, vcc, 24, v5
	; VI-NEXT: v_and_b32_e32 v13, s4, v13			; VI-NEXT: v_and_b32_e32 v13, s4, v13
	; VI-NEXT: s_waitcnt vmcnt(1)			; VI-NEXT: v_lshlrev_b32_e32 v4, v13, v4
	; VI-NEXT: v_lshlrev_b32_e32 v5, v13, v5
	; VI-NEXT: v_and_b32_e32 v14, 0xffffff, v14			; VI-NEXT: v_and_b32_e32 v14, 0xffffff, v14
	; VI-NEXT: v_lshrrev_b32_e32 v11, v3, v11			; VI-NEXT: v_lshrrev_b32_e32 v11, v5, v11
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b32_e32 v6, v14, v6			; VI-NEXT: v_lshlrev_b32_e32 v6, v14, v6
	; VI-NEXT: v_or_b32_e32 v5, v5, v12			; VI-NEXT: v_or_b32_e32 v4, v4, v12
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; VI-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; VI-NEXT: v_or_b32_e32 v6, v6, v11			; VI-NEXT: v_or_b32_e32 v6, v6, v11
	; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5
	; VI-NEXT: v_cndmask_b32_e32 v2, v6, v4, vcc			; VI-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; VI-NEXT: buffer_store_byte v2, v7, s[0:3], 0 offen			; VI-NEXT: buffer_store_byte v2, v7, s[0:3], 0 offen
	; VI-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen			; VI-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen
	; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v2
	; VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; VI-NEXT: buffer_store_byte v0, v8, s[0:3], 0 offen			; VI-NEXT: buffer_store_byte v0, v8, s[0:3], 0 offen
	; VI-NEXT: buffer_store_byte v2, v9, s[0:3], 0 offen			; VI-NEXT: buffer_store_byte v2, v9, s[0:3], 0 offen
	; VI-NEXT: buffer_store_byte v1, v10, s[0:3], 0 offen			; VI-NEXT: buffer_store_byte v1, v10, s[0:3], 0 offen
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v2i24:			; GFX9-LABEL: v_fshr_v2i24:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8			; GFX9-NEXT: buffer_load_dword v1, off, s[0:3], s32 offset:8
	; GFX9-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16			; GFX9-NEXT: buffer_load_dword v2, off, s[0:3], s32 offset:16
	; GFX9-NEXT: buffer_load_dword v3, off, s[0:3], s32 offset:20			; GFX9-NEXT: buffer_load_dword v3, off, s[0:3], s32
	; GFX9-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:12			; GFX9-NEXT: buffer_load_dword v4, off, s[0:3], s32 offset:20
	; GFX9-NEXT: buffer_load_dword v5, off, s[0:3], s32			; GFX9-NEXT: buffer_load_dword v5, off, s[0:3], s32 offset:4
	; GFX9-NEXT: buffer_load_dword v8, off, s[0:3], s32 offset:4			; GFX9-NEXT: buffer_load_dword v8, off, s[0:3], s32 offset:12
	; GFX9-NEXT: s_mov_b32 s4, 0xffffff			; GFX9-NEXT: s_mov_b32 s4, 0xffffff
	; GFX9-NEXT: s_mov_b32 s5, 0xaaaaaaab			; GFX9-NEXT: s_mov_b32 s5, 0xaaaaaaab
	; GFX9-NEXT: s_waitcnt vmcnt(5)			; GFX9-NEXT: s_waitcnt vmcnt(5)
	; GFX9-NEXT: v_and_b32_e32 v10, s4, v1			; GFX9-NEXT: v_and_b32_e32 v10, s4, v1
	; GFX9-NEXT: s_waitcnt vmcnt(4)			; GFX9-NEXT: s_waitcnt vmcnt(4)
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v2			; GFX9-NEXT: v_and_b32_e32 v2, s4, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v2, s5			; GFX9-NEXT: v_mul_hi_u32 v6, v2, s5
	; GFX9-NEXT: s_waitcnt vmcnt(3)
	; GFX9-NEXT: v_and_b32_e32 v3, s4, v3
	; GFX9-NEXT: v_mul_hi_u32 v7, v3, s5
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_and_b32_e32 v9, s4, v4			; GFX9-NEXT: v_and_b32_e32 v4, s4, v4
				; GFX9-NEXT: v_mul_hi_u32 v7, v4, s5
				; GFX9-NEXT: s_waitcnt vmcnt(0)
				; GFX9-NEXT: v_and_b32_e32 v9, s4, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24			; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 4, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 4, v7
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24			; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v6			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, v2, v10			; GFX9-NEXT: v_lshrrev_b32_e32 v6, v2, v10
	; GFX9-NEXT: v_sub_u32_e32 v3, v3, v7			; GFX9-NEXT: v_sub_u32_e32 v4, v4, v7
	; GFX9-NEXT: v_sub_u32_e32 v7, 24, v2			; GFX9-NEXT: v_sub_u32_e32 v7, 24, v2
	; GFX9-NEXT: v_sub_u32_e32 v10, 24, v3			; GFX9-NEXT: v_sub_u32_e32 v10, 24, v4
	; GFX9-NEXT: v_and_b32_e32 v7, s4, v7			; GFX9-NEXT: v_and_b32_e32 v7, s4, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, v3, v9			; GFX9-NEXT: v_lshrrev_b32_e32 v9, v4, v9
	; GFX9-NEXT: v_and_b32_e32 v10, 0xffffff, v10			; GFX9-NEXT: v_and_b32_e32 v10, 0xffffff, v10
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: v_lshl_or_b32 v3, v3, v7, v6
	; GFX9-NEXT: v_lshl_or_b32 v5, v5, v7, v6
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: v_lshl_or_b32 v5, v5, v10, v9
	; GFX9-NEXT: v_lshl_or_b32 v6, v8, v10, v9			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v4, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5			; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5
	; GFX9-NEXT: buffer_store_byte v3, v0, s[0:3], 0 offen offset:4			; GFX9-NEXT: buffer_store_byte v3, v0, s[0:3], 0 offen offset:4
	; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3			; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3
	; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2			; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2
	; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen			; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v2i24:			; R600-LABEL: v_fshr_v2i24:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)			%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)
	ret <2 x i24> %ret			ret <2 x i24> %ret
	}			}

llvm/test/CodeGen/AMDGPU/idot2.ll

Show First 20 Lines • Show All 824 Lines • ▼ Show 20 Lines	entry:
store i32 %add6, i32 addrspace(1)* %dst, align 4		store i32 %add6, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @notudot2_SameVec(<2 x i16> addrspace(1)* %src1,		define amdgpu_kernel void @notudot2_SameVec(<2 x i16> addrspace(1)* %src1,
; GFX7-LABEL: notudot2_SameVec:		; GFX7-LABEL: notudot2_SameVec:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX7-NEXT: s_load_dword s7, s[0:1], 0x0		; GFX7-NEXT: s_load_dword s7, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s5, s6, 16		; GFX7-NEXT: s_lshr_b32 s5, s6, 16
; GFX7-NEXT: v_mov_b32_e32 v0, s7		; GFX7-NEXT: v_mov_b32_e32 v0, s7
; GFX7-NEXT: s_and_b32 s4, s4, 0xffff		; GFX7-NEXT: s_and_b32 s4, s4, 0xffff
▲ Show 20 Lines • Show All 1,697 Lines • ▼ Show 20 Lines	entry:

store i32 %add2, i32 addrspace(1)* %dst, align 4		store i32 %add2, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @udot2_acc16(<2 x i16> addrspace(1)* %src1,		define amdgpu_kernel void @udot2_acc16(<2 x i16> addrspace(1)* %src1,
; GFX7-LABEL: udot2_acc16:		; GFX7-LABEL: udot2_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 16		; GFX7-NEXT: s_lshr_b32 s2, s0, 16
; GFX7-NEXT: s_lshr_b32 s7, s5, 16		; GFX7-NEXT: s_lshr_b32 s3, s1, 16
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot2_acc16:		; GFX8-LABEL: udot2_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_mov_b32 s0, 0xffff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_mov_b32 s1, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_and_b32 s3, s2, s1
; GFX8-NEXT: s_lshr_b32 s1, s1, 16
; GFX8-NEXT: s_and_b32 s0, s2, s0
; GFX8-NEXT: s_lshr_b32 s2, s2, 16		; GFX8-NEXT: s_lshr_b32 s2, s2, 16
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: s_and_b32 s1, s0, s1
		; GFX8-NEXT: s_lshr_b32 s0, s0, 16
		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s3
		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot2_acc16:		; GFX9-NODL-LABEL: udot2_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_mov_b32 s0, 0xffff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_mov_b32 s1, 0xffff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 16
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 16		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 16
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 16
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot2_acc16:		; GFX9-DL-LABEL: udot2_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s2, v3, v2		; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_acc16:		; GFX10-DL-LABEL: udot2_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
Show All 35 Lines
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s10, s2		; GFX7-NEXT: s_mov_b32 s10, s2
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_mov_b32 s8, s6		; GFX7-NEXT: s_mov_b32 s8, s6
; GFX7-NEXT: s_mov_b32 s9, s7		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_mov_b32 s11, s3
; GFX7-NEXT: s_mov_b32 s6, s2		; GFX7-NEXT: s_mov_b32 s6, s2
; GFX7-NEXT: s_mov_b32 s7, s3		; GFX7-NEXT: s_mov_b32 s7, s3
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: buffer_load_ushort v0, off, s[8:11], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0		; GFX7-NEXT: buffer_load_ushort v1, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v1, off, s[8:11], 0
; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
; GFX7-NEXT: s_waitcnt vmcnt(1)		; GFX7-NEXT: s_waitcnt vmcnt(1)
; GFX7-NEXT: v_bfe_i32 v2, v0, 0, 8		; GFX7-NEXT: v_bfe_i32 v3, v0, 0, 8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_i32 v3, v1, 0, 8		; GFX7-NEXT: v_bfe_i32 v2, v1, 0, 8
; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
; GFX7-NEXT: v_bfe_i32 v1, v1, 8, 8		; GFX7-NEXT: v_bfe_i32 v1, v1, 8, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: v_mad_i32_i24 v0, v1, v0, s4		; GFX7-NEXT: v_mad_i32_i24 v0, v0, v1, s4
; GFX7-NEXT: v_mad_i32_i24 v0, v3, v2, v0		; GFX7-NEXT: v_mad_i32_i24 v0, v3, v2, v0
; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: notsdot2_sext8:		; GFX8-LABEL: notsdot2_sext8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Currently, vector elements{0 and 3} get zero_extended from i16 to i32 which should		; TODO: Currently, vector elements{0 and 3} get zero_extended from i16 to i32 which should
; be sign_extended directly to i32; prevents the pattern recognizer to recognize this pattern.		; be sign_extended directly to i32; prevents the pattern recognizer to recognize this pattern.
define amdgpu_kernel void @idot4_acc16(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc16(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc16:		; GFX7-LABEL: idot4_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_sext_i32_i8 s6, s4		; GFX7-NEXT: s_sext_i32_i8 s2, s0
; GFX7-NEXT: s_sext_i32_i8 s7, s5		; GFX7-NEXT: s_sext_i32_i8 s3, s1
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x80008		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x80008
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_bfe_i32 s12, s5, 0x80010		; GFX7-NEXT: s_bfe_i32 s12, s1, 0x80010
; GFX7-NEXT: s_bfe_i32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_i32 s9, s0, 0x80008
; GFX7-NEXT: s_and_b32 s10, s10, s8		; GFX7-NEXT: s_and_b32 s10, s10, s8
; GFX7-NEXT: s_and_b32 s6, s6, s8		; GFX7-NEXT: s_and_b32 s2, s2, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_i32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x80010
; GFX7-NEXT: s_ashr_i32 s5, s5, 24		; GFX7-NEXT: s_ashr_i32 s1, s1, 24
; GFX7-NEXT: s_and_b32 s12, s12, s8		; GFX7-NEXT: s_and_b32 s12, s12, s8
; GFX7-NEXT: s_and_b32 s9, s9, s8		; GFX7-NEXT: s_and_b32 s9, s9, s8
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: s_ashr_i32 s4, s4, 24		; GFX7-NEXT: s_ashr_i32 s0, s0, 24
; GFX7-NEXT: s_and_b32 s11, s11, s8		; GFX7-NEXT: s_and_b32 s11, s11, s8
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc16:		; GFX8-LABEL: idot4_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_sext_i32_i8 s3, s2		; GFX8-NEXT: s_sext_i32_i8 s3, s2
; GFX8-NEXT: s_bfe_i32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_i32 s5, s2, 0x80008
		; GFX8-NEXT: s_sext_i32_i8 s1, s0
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_i32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_i32 s7, s2, 0x80010
; GFX8-NEXT: s_sext_i32_i8 s1, s0
; GFX8-NEXT: s_bfe_i32 s4, s0, 0x80008		; GFX8-NEXT: s_bfe_i32 s4, s0, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s5		; GFX8-NEXT: v_mov_b32_e32 v4, s5
; GFX8-NEXT: s_bfe_i32 s6, s0, 0x80010		; GFX8-NEXT: s_bfe_i32 s6, s0, 0x80010
; GFX8-NEXT: s_ashr_i32 s2, s2, 24		; GFX8-NEXT: s_ashr_i32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_ashr_i32 s0, s0, 24		; GFX8-NEXT: s_ashr_i32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_i32_i24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s4, v4, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: idot4_acc16:		; GFX9-NODL-LABEL: idot4_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2		; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2
; GFX9-NODL-NEXT: s_bfe_i32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_i32 s5, s2, 0x80008
		; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_i32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_i32 s7, s2, 0x80010
; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-NODL-NEXT: s_bfe_i32 s4, s0, 0x80008		; GFX9-NODL-NEXT: s_bfe_i32 s4, s0, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5
; GFX9-NODL-NEXT: s_bfe_i32 s6, s0, 0x80010		; GFX9-NODL-NEXT: s_bfe_i32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_ashr_i32 s2, s2, 24		; GFX9-NODL-NEXT: s_ashr_i32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_ashr_i32 s0, s0, 24		; GFX9-NODL-NEXT: s_ashr_i32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v3, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s4, v4, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s4, v4, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s6, v5, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc16:		; GFX9-DL-LABEL: idot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s2, v3, v2		; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc16:		; GFX10-DL-LABEL: idot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	entry:
%add4 = add i16 %add3, %mul4		%add4 = add i16 %add3, %mul4
store i16 %add4, i16 addrspace(1)* %dst, align 2		store i16 %add4, i16 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @idot4_acc8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc8:		; GFX7-LABEL: idot4_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc8:		; GFX8-LABEL: idot4_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_movk_i32 s1, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_and_b32 s3, s2, s1
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_and_b32 s1, s0, s1
; GFX8-NEXT: s_and_b32 s0, s2, s0
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s2, 0x80010
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
		; GFX8-NEXT: v_mov_b32_e32 v5, s6
		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: idot4_acc8:		; GFX9-NODL-LABEL: idot4_acc8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_movk_i32 s1, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s2, 0x80010
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc8:		; GFX9-DL-LABEL: idot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s2, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc8:		; GFX10-DL-LABEL: idot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 418 Lines • ▼ Show 20 Lines	entry:

store i32 %add4, i32 addrspace(1)* %dst, align 4		store i32 %add4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @idot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @idot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: idot4_acc16_vecMul:		; GFX7-LABEL: idot4_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_ashr_i32 s6, s4, 24		; GFX7-NEXT: s_ashr_i32 s2, s0, 24
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x80010		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x80010
; GFX7-NEXT: s_bfe_i32 s11, s5, 0x80008		; GFX7-NEXT: s_bfe_i32 s11, s1, 0x80008
; GFX7-NEXT: s_ashr_i32 s9, s5, 24		; GFX7-NEXT: s_ashr_i32 s9, s1, 24
; GFX7-NEXT: s_sext_i32_i8 s5, s5		; GFX7-NEXT: s_sext_i32_i8 s1, s1
; GFX7-NEXT: s_bfe_i32 s7, s4, 0x80010		; GFX7-NEXT: s_bfe_i32 s3, s0, 0x80010
; GFX7-NEXT: s_bfe_i32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_i32 s8, s0, 0x80008
; GFX7-NEXT: s_sext_i32_i8 s4, s4		; GFX7-NEXT: s_sext_i32_i8 s0, s0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_i32_i24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s8, v2, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s8, v2, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s7, v3, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s3, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: v_mad_i32_i24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot4_acc16_vecMul:		; GFX8-LABEL: idot4_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s0		; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s0
; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s1		; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s1
; GFX8-NEXT: s_bfe_i32 s5, s1, 0x80010		; GFX8-NEXT: s_bfe_i32 s5, s1, 0x80010
; GFX8-NEXT: s_ashr_i32 s4, s1, 24		; GFX8-NEXT: s_ashr_i32 s4, s1, 24
; GFX8-NEXT: s_sext_i32_i8 s1, s1		; GFX8-NEXT: s_sext_i32_i8 s1, s1
; GFX8-NEXT: s_ashr_i32 s2, s0, 24		; GFX8-NEXT: s_ashr_i32 s2, s0, 24
; GFX8-NEXT: s_bfe_i32 s3, s0, 0x80010		; GFX8-NEXT: s_bfe_i32 s3, s0, 0x80010
▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

Show First 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	entry:

store i32 %mad4, i32 addrspace(1)* %dst, align 4		store i32 %mad4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @udot4_acc16(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc16(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc16:		; GFX7-LABEL: udot4_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc16:		; GFX8-LABEL: udot4_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_movk_i32 s3, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008
		; GFX8-NEXT: s_and_b32 s1, s0, s3
		; GFX8-NEXT: s_and_b32 s3, s2, s3
		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s5		; GFX8-NEXT: v_mov_b32_e32 v4, s5
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_and_b32 s0, s2, s0
; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc16:		; GFX9-NODL-LABEL: udot4_acc16:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_movk_i32 s3, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008
		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s3
		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s3
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010
		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s5
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc16:		; GFX9-DL-LABEL: udot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s2, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_short v[0:1], v2, off		; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc16:		; GFX10-DL-LABEL: udot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	entry:

store i16 %mad4, i16 addrspace(1)* %dst, align 2		store i16 %mad4, i16 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @udot4_acc8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc8:		; GFX7-LABEL: udot4_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_movk_i32 s5, 0xff		; GFX7-NEXT: s_movk_i32 s1, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s7, s6, s5		; GFX7-NEXT: s_and_b32 s3, s2, s1
; GFX7-NEXT: s_bfe_u32 s8, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s2, 0x80008
; GFX7-NEXT: s_and_b32 s5, s4, s5		; GFX7-NEXT: s_and_b32 s1, s0, s1
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80010
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc8:		; GFX8-LABEL: udot4_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_movk_i32 s1, 0xff
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_and_b32 s3, s2, s1
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s1, s0, s1
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s2, 0x80010
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
		; GFX8-NEXT: v_mov_b32_e32 v5, s6
		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc8:		; GFX9-NODL-LABEL: udot4_acc8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_movk_i32 s1, 0xff
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_and_b32 s3, s2, s1
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_bfe_u32 s4, s2, 0x80008
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s1, s0, s1
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s2, 0x80010
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_bfe_u32 s7, s0, 0x80010
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc8:		; GFX9-DL-LABEL: udot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s2, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc8:		; GFX10-DL-LABEL: udot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
Show All 39 Lines	entry:
store i8 %mad4, i8 addrspace(1)* %dst, align 2		store i8 %mad4, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

; TODO: Generate udot4?		; TODO: Generate udot4?
define amdgpu_kernel void @udot2_8(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot2_8(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot2_8:		; GFX7-LABEL: udot2_8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s7, s4, s8		; GFX7-NEXT: s_and_b32 s3, s0, s8
; GFX7-NEXT: s_and_b32 s6, s5, s8		; GFX7-NEXT: s_and_b32 s2, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: s_bfe_u32 s5, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80008
; GFX7-NEXT: s_bfe_u32 s4, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot2_8:		; GFX8-LABEL: udot2_8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s3, s2, s0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_and_b32 s0, s1, s0		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX8-NEXT: s_and_b32 s3, s0, s4
		; GFX8-NEXT: s_and_b32 s2, s1, s4
		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot2_8:		; GFX9-NODL-LABEL: udot2_8:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_and_b32 s3, s2, s0		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_and_b32 s0, s1, s0		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX9-NODL-NEXT: s_and_b32 s3, s0, s4
		; GFX9-NODL-NEXT: s_and_b32 s2, s1, s4
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX9-NODL-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot2_8:		; GFX9-DL-LABEL: udot2_8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_movk_i32 s4, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s3, s2, s0		; GFX9-DL-NEXT: s_and_b32 s3, s0, s4
; GFX9-DL-NEXT: s_and_b32 s0, s1, s0		; GFX9-DL-NEXT: s_and_b32 s2, s1, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: s_bfe_u32 s2, s2, 0x80008
; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x80008		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_8:		; GFX10-DL-LABEL: udot2_8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
Show All 34 Lines	entry:
%mad2 = add i8 %mad1, %mul2		%mad2 = add i8 %mad1, %mul2
store i8 %mad2, i8 addrspace(1)* %dst, align 2		store i8 %mad2, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

define amdgpu_kernel void @udot4_CommutationInsideMAD(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_CommutationInsideMAD(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_CommutationInsideMAD:		; GFX7-LABEL: udot4_CommutationInsideMAD:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s6, s4, s8		; GFX7-NEXT: s_and_b32 s2, s0, s8
; GFX7-NEXT: s_and_b32 s7, s5, s8		; GFX7-NEXT: s_and_b32 s3, s1, s8
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80010
; GFX7-NEXT: s_bfe_u32 s9, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s1, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v2, s8		; GFX7-NEXT: v_mov_b32_e32 v2, s8
; GFX7-NEXT: s_bfe_u32 s11, s5, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s1, 0x80010
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s5, s5, 24		; GFX7-NEXT: s_lshr_b32 s1, s1, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s4		; GFX7-NEXT: v_mov_b32_e32 v1, s0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_CommutationInsideMAD:		; GFX8-LABEL: udot4_CommutationInsideMAD:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_and_b32 s2, s0, s4
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s3, s1, s4
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
		; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v4, s4		; GFX8-NEXT: v_mov_b32_e32 v4, s4
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: s_lshr_b32 s1, s1, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6		; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_CommutationInsideMAD:		; GFX9-NODL-LABEL: udot4_CommutationInsideMAD:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_and_b32 s2, s0, s4
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: s_and_b32 s3, s1, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s4
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationInsideMAD:		; GFX9-DL-LABEL: udot4_CommutationInsideMAD:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[4:5], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s3, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationInsideMAD:		; GFX10-DL-LABEL: udot4_CommutationInsideMAD:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
Show All 39 Lines	entry:
store i8 %mad4, i8 addrspace(1)* %dst, align 2		store i8 %mad4, i8 addrspace(1)* %dst, align 2
ret void		ret void
}		}

; TODO: Support commutation accross the adds.		; TODO: Support commutation accross the adds.
define amdgpu_kernel void @udot4_CommutationAccrossMADs(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_CommutationAccrossMADs(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_CommutationAccrossMADs:		; GFX7-LABEL: udot4_CommutationAccrossMADs:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_and_b32 s6, s4, s8		; GFX7-NEXT: s_and_b32 s2, s0, s8
; GFX7-NEXT: s_and_b32 s7, s5, s8		; GFX7-NEXT: s_and_b32 s3, s1, s8
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s9, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s1, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v1, s8		; GFX7-NEXT: v_mov_b32_e32 v1, s8
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80010
; GFX7-NEXT: v_mov_b32_e32 v2, s6		; GFX7-NEXT: v_mov_b32_e32 v2, s2
; GFX7-NEXT: s_bfe_u32 s11, s5, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s1, 0x80010
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s5, s5, 24		; GFX7-NEXT: s_lshr_b32 s1, s1, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s4		; GFX7-NEXT: v_mov_b32_e32 v1, s0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_CommutationAccrossMADs:		; GFX8-LABEL: udot4_CommutationAccrossMADs:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_and_b32 s3, s1, s0		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_and_b32 s2, s0, s4
		; GFX8-NEXT: s_and_b32 s3, s1, s4
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s4		; GFX8-NEXT: v_mov_b32_e32 v3, s4
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: v_mov_b32_e32 v4, s2
; GFX8-NEXT: v_mov_b32_e32 v4, s3		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s6		; GFX8-NEXT: v_mov_b32_e32 v5, s6
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s1, s1, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s0
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_CommutationAccrossMADs:		; GFX9-NODL-LABEL: udot4_CommutationAccrossMADs:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_movk_i32 s4, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_and_b32 s3, s1, s0		; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: s_and_b32 s2, s0, s4
		; GFX9-NODL-NEXT: s_and_b32 s3, s1, s4
		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-NODL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s4		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s4
; GFX9-NODL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_and_b32 s0, s2, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-NODL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_movk_i32 s4, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s4, s1, 0x80008		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_and_b32 s3, s1, s0		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_and_b32 s2, s0, s4
		; GFX9-DL-NEXT: s_and_b32 s3, s1, s4
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x80008
		; GFX9-DL-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s4		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s4
; GFX9-DL-NEXT: s_bfe_u32 s6, s1, 0x80010		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-DL-NEXT: s_and_b32 s0, s2, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-DL-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-DL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s6		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s6
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-DL-NEXT: s_lshr_b32 s1, s1, 24
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s5, v3, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v4, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s3, v4, v2
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s0
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 462 Lines • ▼ Show 20 Lines	entry:
%res = add i32 %add4, %add		%res = add i32 %add4, %add
store i32 %res, i32 addrspace(1)* %dst, align 4		store i32 %res, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

define amdgpu_kernel void @notdot4_mixedtypes(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @notdot4_mixedtypes(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: notdot4_mixedtypes:		; GFX7-LABEL: notdot4_mixedtypes:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_sext_i32_i8 s7, s6		; GFX7-NEXT: s_sext_i32_i8 s3, s2
; GFX7-NEXT: s_bfe_u32 s9, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s2, 0x80008
; GFX7-NEXT: s_sext_i32_i8 s5, s4		; GFX7-NEXT: s_sext_i32_i8 s1, s0
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80008
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: s_bfe_u32 s11, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s2, 0x80010
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s7		; GFX7-NEXT: v_mov_b32_e32 v3, s3
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x80010
; GFX7-NEXT: s_lshr_b32 s6, s6, 24		; GFX7-NEXT: s_lshr_b32 s2, s2, 24
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: s_lshr_b32 s4, s4, 24		; GFX7-NEXT: s_lshr_b32 s0, s0, 24
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: notdot4_mixedtypes:		; GFX8-LABEL: notdot4_mixedtypes:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX8-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX8-NEXT: s_sext_i32_i8 s3, s2		; GFX8-NEXT: s_sext_i32_i8 s3, s2
		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: v_mov_b32_e32 v3, s5		; GFX8-NEXT: v_mov_b32_e32 v3, s5
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: s_sext_i32_i8 s1, s0		; GFX8-NEXT: s_sext_i32_i8 s1, s0
; GFX8-NEXT: v_mov_b32_e32 v4, s3		; GFX8-NEXT: v_mov_b32_e32 v4, s3
; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX8-NEXT: s_lshr_b32 s2, s2, 24		; GFX8-NEXT: s_lshr_b32 s2, s2, 24
; GFX8-NEXT: v_mov_b32_e32 v5, s7		; GFX8-NEXT: v_mov_b32_e32 v5, s7
; GFX8-NEXT: s_lshr_b32 s0, s0, 24		; GFX8-NEXT: s_lshr_b32 s0, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s4, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s4, v3, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s1, v4, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s1, v4, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: notdot4_mixedtypes:		; GFX9-NODL-LABEL: notdot4_mixedtypes:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NODL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NODL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NODL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NODL-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX9-NODL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-NODL-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2		; GFX9-NODL-NEXT: s_sext_i32_i8 s3, s2
		; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s5		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX9-NODL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0		; GFX9-NODL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-NODL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010		; GFX9-NODL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-NODL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-NODL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24		; GFX9-NODL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s4, v3, v2
; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v4, v2		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, s1, v4, v2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NODL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off		; GFX9-NODL-NEXT: global_store_short v[0:1], v2, off
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: notdot4_mixedtypes:		; GFX9-DL-LABEL: notdot4_mixedtypes:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80008		; GFX9-DL-NEXT: s_bfe_u32 s5, s2, 0x80008
; GFX9-DL-NEXT: s_sext_i32_i8 s3, s2		; GFX9-DL-NEXT: s_sext_i32_i8 s3, s2
		; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s5		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s5
; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX9-DL-NEXT: s_bfe_u32 s7, s2, 0x80010
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX9-DL-NEXT: s_sext_i32_i8 s1, s0		; GFX9-DL-NEXT: s_sext_i32_i8 s1, s0
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s3
; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x80010		; GFX9-DL-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24		; GFX9-DL-NEXT: s_lshr_b32 s2, s2, 24
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s7
; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24		; GFX9-DL-NEXT: s_lshr_b32 s0, s0, 24
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v3, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v3, v2
▲ Show 20 Lines • Show All 258 Lines • ▼ Show 20 Lines	entry:
store i32 %add4, i32 addrspace(1)* %dst, align 4		store i32 %add4, i32 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: This pattern should be recognized.		; TODO: This pattern should be recognized.
define amdgpu_kernel void @udot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc16_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc16_vecMul:		; GFX7-LABEL: udot4_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_movk_i32 s7, 0xff		; GFX7-NEXT: s_movk_i32 s3, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s10, s6, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s2, 0x80008
; GFX7-NEXT: s_bfe_u32 s12, s6, 0x80010		; GFX7-NEXT: s_bfe_u32 s12, s2, 0x80010
; GFX7-NEXT: s_lshr_b32 s9, s6, 24		; GFX7-NEXT: s_lshr_b32 s9, s2, 24
; GFX7-NEXT: s_and_b32 s6, s6, s7		; GFX7-NEXT: s_and_b32 s2, s2, s3
; GFX7-NEXT: s_lshr_b32 s5, s4, 24		; GFX7-NEXT: s_lshr_b32 s1, s0, 24
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x80010		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x80010
; GFX7-NEXT: s_and_b32 s4, s4, s7		; GFX7-NEXT: s_and_b32 s0, s0, s3
; GFX7-NEXT: v_mov_b32_e32 v1, s6		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: v_mad_u32_u24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s1, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc16_vecMul:		; GFX8-LABEL: udot4_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_and_b32 s6, s1, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s0, s2, s0		; GFX8-NEXT: s_and_b32 s6, s0, s4
; GFX8-NEXT: v_mov_b32_e32 v5, s0		; GFX8-NEXT: s_and_b32 s4, s1, s4
; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010		; GFX8-NEXT: v_mov_b32_e32 v5, s4
; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s2		; GFX8-NEXT: s_bfe_u32 s7, s1, 0x80010
; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s1		; GFX8-NEXT: v_lshrrev_b16_e64 v3, 8, s1
; GFX8-NEXT: s_lshr_b32 s4, s2, 24		; GFX8-NEXT: v_lshrrev_b16_e64 v4, 8, s0
; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80010
; GFX8-NEXT: v_mov_b32_e32 v6, s7
; GFX8-NEXT: s_lshr_b32 s3, s1, 24		; GFX8-NEXT: s_lshr_b32 s3, s1, 24
		; GFX8-NEXT: s_bfe_u32 s5, s0, 0x80010
		; GFX8-NEXT: v_mov_b32_e32 v6, s7
		; GFX8-NEXT: s_lshr_b32 s2, s0, 24
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s6, v5, v2
; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v3, v2
; GFX8-NEXT: v_mad_u32_u24 v2, s5, v6, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s5, v6, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s4		; GFX8-NEXT: v_mov_b32_e32 v3, s3
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-NODL-LABEL: udot4_acc16_vecMul:		; GFX9-NODL-LABEL: udot4_acc16_vecMul:
; GFX9-NODL: ; %bb.0: ; %entry		; GFX9-NODL: ; %bb.0: ; %entry
; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0xffff
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines	entry:
store i16 %add4, i16 addrspace(1)* %dst, align 4		store i16 %add4, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @udot4_acc8_vecMul(<4 x i8> addrspace(1)* %src1,		define amdgpu_kernel void @udot4_acc8_vecMul(<4 x i8> addrspace(1)* %src1,
; GFX7-LABEL: udot4_acc8_vecMul:		; GFX7-LABEL: udot4_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s6, s4, 0x80008		; GFX7-NEXT: s_bfe_u32 s2, s0, 0x80008
; GFX7-NEXT: s_bfe_u32 s10, s5, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s1, 0x80008
; GFX7-NEXT: s_lshr_b32 s11, s5, 16		; GFX7-NEXT: s_lshr_b32 s11, s1, 16
; GFX7-NEXT: s_lshr_b32 s12, s5, 24		; GFX7-NEXT: s_lshr_b32 s12, s1, 24
; GFX7-NEXT: v_mov_b32_e32 v3, s10		; GFX7-NEXT: v_mov_b32_e32 v3, s10
; GFX7-NEXT: s_lshr_b32 s7, s4, 16		; GFX7-NEXT: s_lshr_b32 s3, s0, 16
; GFX7-NEXT: v_mov_b32_e32 v2, s11		; GFX7-NEXT: v_mov_b32_e32 v2, s11
; GFX7-NEXT: s_lshr_b32 s9, s4, 24		; GFX7-NEXT: s_lshr_b32 s9, s0, 24
; GFX7-NEXT: v_mov_b32_e32 v1, s12		; GFX7-NEXT: v_mov_b32_e32 v1, s12
; GFX7-NEXT: s_mul_i32 s4, s4, s5		; GFX7-NEXT: s_mul_i32 s0, s0, s1
; GFX7-NEXT: v_mul_u32_u24_e32 v1, s9, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v1, s9, v1
; GFX7-NEXT: v_mul_u32_u24_e32 v2, s7, v2		; GFX7-NEXT: v_mul_u32_u24_e32 v2, s3, v2
; GFX7-NEXT: v_mul_u32_u24_e32 v3, s6, v3		; GFX7-NEXT: v_mul_u32_u24_e32 v3, s2, v3
; GFX7-NEXT: s_and_b32 s5, s4, s8		; GFX7-NEXT: s_and_b32 s1, s0, s8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_and_b32_e32 v2, s8, v2		; GFX7-NEXT: v_and_b32_e32 v2, s8, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_or_b32_e32 v2, s5, v3		; GFX7-NEXT: v_or_b32_e32 v2, s1, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_add_i32_e32 v0, vcc, s4, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, s0, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot4_acc8_vecMul:		; GFX8-LABEL: udot4_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_movk_i32 s4, 0xff
		; GFX8-NEXT: v_mov_b32_e32 v3, s4
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: v_mov_b32_e32 v3, s0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s2, s0, 24		; GFX8-NEXT: s_lshr_b32 s2, s0, 24
; GFX8-NEXT: s_lshr_b32 s4, s1, 24		; GFX8-NEXT: s_lshr_b32 s4, s1, 24
; GFX8-NEXT: s_lshr_b32 s3, s0, 16		; GFX8-NEXT: s_lshr_b32 s3, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v4, s0		; GFX8-NEXT: v_mov_b32_e32 v4, s0
; GFX8-NEXT: v_mov_b32_e32 v5, s1		; GFX8-NEXT: v_mov_b32_e32 v5, s1
; GFX8-NEXT: s_mul_i32 s0, s0, s1		; GFX8-NEXT: s_mul_i32 s0, s0, s1
; GFX8-NEXT: s_lshr_b32 s5, s1, 16		; GFX8-NEXT: s_lshr_b32 s5, s1, 16
▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Once the unnecessary zero extentions of the elements are removed;		; TODO: Once the unnecessary zero extentions of the elements are removed;
; pattern recognizer will kick in.		; pattern recognizer will kick in.
define amdgpu_kernel void @idot8_acc16(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc16(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc16:		; GFX7-LABEL: idot8_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s6, s4, 0x40000		; GFX7-NEXT: s_bfe_i32 s2, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s7, s5, 0x40000		; GFX7-NEXT: s_bfe_i32 s3, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x40004		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x40004
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_bfe_i32 s9, s4, 0x40004		; GFX7-NEXT: s_bfe_i32 s9, s0, 0x40004
; GFX7-NEXT: s_bfe_i32 s12, s5, 0x40008		; GFX7-NEXT: s_bfe_i32 s12, s1, 0x40008
; GFX7-NEXT: s_and_b32 s10, s10, s8		; GFX7-NEXT: s_and_b32 s10, s10, s8
; GFX7-NEXT: s_and_b32 s6, s6, s8		; GFX7-NEXT: s_and_b32 s2, s2, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_i32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_i32 s14, s5, 0x4000c		; GFX7-NEXT: s_bfe_i32 s14, s1, 0x4000c
; GFX7-NEXT: s_and_b32 s12, s12, s8		; GFX7-NEXT: s_and_b32 s12, s12, s8
; GFX7-NEXT: s_and_b32 s9, s9, s8		; GFX7-NEXT: s_and_b32 s9, s9, s8
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: s_bfe_i32 s13, s4, 0x4000c		; GFX7-NEXT: s_bfe_i32 s13, s0, 0x4000c
; GFX7-NEXT: s_bfe_i32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40010
; GFX7-NEXT: s_and_b32 s14, s14, s8		; GFX7-NEXT: s_and_b32 s14, s14, s8
; GFX7-NEXT: s_and_b32 s11, s11, s8		; GFX7-NEXT: s_and_b32 s11, s11, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_bfe_i32 s15, s4, 0x40010		; GFX7-NEXT: s_bfe_i32 s15, s0, 0x40010
; GFX7-NEXT: s_bfe_i32 s18, s5, 0x40014		; GFX7-NEXT: s_bfe_i32 s18, s1, 0x40014
; GFX7-NEXT: s_and_b32 s16, s16, s8		; GFX7-NEXT: s_and_b32 s16, s16, s8
; GFX7-NEXT: s_and_b32 s13, s13, s8		; GFX7-NEXT: s_and_b32 s13, s13, s8
; GFX7-NEXT: v_mov_b32_e32 v4, s14		; GFX7-NEXT: v_mov_b32_e32 v4, s14
; GFX7-NEXT: s_bfe_i32 s20, s5, 0x40018		; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40018
; GFX7-NEXT: s_bfe_i32 s17, s4, 0x40014		; GFX7-NEXT: s_bfe_i32 s17, s0, 0x40014
; GFX7-NEXT: s_and_b32 s18, s18, s8		; GFX7-NEXT: s_and_b32 s18, s18, s8
; GFX7-NEXT: s_and_b32 s15, s15, s8		; GFX7-NEXT: s_and_b32 s15, s15, s8
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: s_bfe_i32 s19, s4, 0x40018		; GFX7-NEXT: s_bfe_i32 s19, s0, 0x40018
; GFX7-NEXT: s_ashr_i32 s5, s5, 28		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: s_and_b32 s20, s20, s8		; GFX7-NEXT: s_and_b32 s20, s20, s8
; GFX7-NEXT: s_and_b32 s17, s17, s8		; GFX7-NEXT: s_and_b32 s17, s17, s8
; GFX7-NEXT: v_mov_b32_e32 v6, s18		; GFX7-NEXT: v_mov_b32_e32 v6, s18
; GFX7-NEXT: s_ashr_i32 s4, s4, 28		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
; GFX7-NEXT: s_and_b32 s19, s19, s8		; GFX7-NEXT: s_and_b32 s19, s19, s8
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v7, s20		; GFX7-NEXT: v_mov_b32_e32 v7, s20
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s15, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s15, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s17, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s17, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s19, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s19, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc16:		; GFX8-LABEL: idot8_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s4, s0, 0x40000		; GFX8-NEXT: s_bfe_i32 s4, s0, 0x40000
; GFX8-NEXT: s_bfe_i32 s5, s1, 0x40000		; GFX8-NEXT: s_bfe_i32 s5, s1, 0x40000
; GFX8-NEXT: s_bfe_i32 s7, s1, 0x40004		; GFX8-NEXT: s_bfe_i32 s7, s1, 0x40004
; GFX8-NEXT: s_bfe_i32 s9, s1, 0x40008		; GFX8-NEXT: s_bfe_i32 s9, s1, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v6, s5		; GFX8-NEXT: v_mov_b32_e32 v6, s5
; GFX8-NEXT: s_lshr_b32 s2, s0, 12		; GFX8-NEXT: s_lshr_b32 s2, s0, 12
; GFX8-NEXT: s_lshr_b32 s3, s1, 12		; GFX8-NEXT: s_lshr_b32 s3, s1, 12
Show All 27 Lines
; GFX8-NEXT: v_mad_i32_i24 v2, s14, v10, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s14, v10, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s1		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc16:		; GFX9-LABEL: idot8_acc16:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_i32 s4, s0, 0x40000		; GFX9-NEXT: s_bfe_i32 s4, s0, 0x40000
; GFX9-NEXT: s_bfe_i32 s5, s1, 0x40000		; GFX9-NEXT: s_bfe_i32 s5, s1, 0x40000
; GFX9-NEXT: s_bfe_i32 s7, s1, 0x40004		; GFX9-NEXT: s_bfe_i32 s7, s1, 0x40004
; GFX9-NEXT: s_bfe_i32 s9, s1, 0x40008		; GFX9-NEXT: s_bfe_i32 s9, s1, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v6, s5		; GFX9-NEXT: v_mov_b32_e32 v6, s5
; GFX9-NEXT: s_lshr_b32 s2, s0, 12		; GFX9-NEXT: s_lshr_b32 s2, s0, 12
; GFX9-NEXT: s_lshr_b32 s3, s1, 12		; GFX9-NEXT: s_lshr_b32 s3, s1, 12
Show All 27 Lines
; GFX9-NEXT: v_mad_i32_i24 v2, s14, v10, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s14, v10, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc16:		; GFX9-DL-LABEL: idot8_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_i32 s4, s0, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s4, s0, 0x40000
; GFX9-DL-NEXT: s_bfe_i32 s5, s1, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s5, s1, 0x40000
; GFX9-DL-NEXT: s_bfe_i32 s7, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_i32 s7, s1, 0x40004
; GFX9-DL-NEXT: s_bfe_i32 s9, s1, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s9, s1, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s5		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s5
; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 12		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 12
; GFX9-DL-NEXT: s_lshr_b32 s3, s1, 12		; GFX9-DL-NEXT: s_lshr_b32 s3, s1, 12
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @idot8_acc8(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc8(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc8:		; GFX7-LABEL: idot8_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s6, s4, 0x40000		; GFX7-NEXT: s_bfe_i32 s2, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s7, s5, 0x40000		; GFX7-NEXT: s_bfe_i32 s3, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s10, s5, 0x40004		; GFX7-NEXT: s_bfe_i32 s10, s1, 0x40004
; GFX7-NEXT: s_and_b32 s7, s7, s8		; GFX7-NEXT: s_and_b32 s3, s3, s8
; GFX7-NEXT: s_bfe_i32 s9, s4, 0x40004		; GFX7-NEXT: s_bfe_i32 s9, s0, 0x40004
; GFX7-NEXT: s_bfe_i32 s12, s5, 0x40008		; GFX7-NEXT: s_bfe_i32 s12, s1, 0x40008
; GFX7-NEXT: s_and_b32 s10, s10, s8		; GFX7-NEXT: s_and_b32 s10, s10, s8
; GFX7-NEXT: s_and_b32 s6, s6, s8		; GFX7-NEXT: s_and_b32 s2, s2, s8
; GFX7-NEXT: v_mov_b32_e32 v1, s7		; GFX7-NEXT: v_mov_b32_e32 v1, s3
; GFX7-NEXT: s_bfe_i32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_i32 s14, s5, 0x4000c		; GFX7-NEXT: s_bfe_i32 s14, s1, 0x4000c
; GFX7-NEXT: s_and_b32 s12, s12, s8		; GFX7-NEXT: s_and_b32 s12, s12, s8
; GFX7-NEXT: s_and_b32 s9, s9, s8		; GFX7-NEXT: s_and_b32 s9, s9, s8
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: s_bfe_i32 s13, s4, 0x4000c		; GFX7-NEXT: s_bfe_i32 s13, s0, 0x4000c
; GFX7-NEXT: s_bfe_i32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40010
; GFX7-NEXT: s_and_b32 s14, s14, s8		; GFX7-NEXT: s_and_b32 s14, s14, s8
; GFX7-NEXT: s_and_b32 s11, s11, s8		; GFX7-NEXT: s_and_b32 s11, s11, s8
; GFX7-NEXT: v_mov_b32_e32 v3, s12		; GFX7-NEXT: v_mov_b32_e32 v3, s12
; GFX7-NEXT: s_bfe_i32 s15, s4, 0x40010		; GFX7-NEXT: s_bfe_i32 s15, s0, 0x40010
; GFX7-NEXT: s_bfe_i32 s18, s5, 0x40014		; GFX7-NEXT: s_bfe_i32 s18, s1, 0x40014
; GFX7-NEXT: s_and_b32 s16, s16, s8		; GFX7-NEXT: s_and_b32 s16, s16, s8
; GFX7-NEXT: s_and_b32 s13, s13, s8		; GFX7-NEXT: s_and_b32 s13, s13, s8
; GFX7-NEXT: v_mov_b32_e32 v4, s14		; GFX7-NEXT: v_mov_b32_e32 v4, s14
; GFX7-NEXT: s_bfe_i32 s20, s5, 0x40018		; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40018
; GFX7-NEXT: s_bfe_i32 s17, s4, 0x40014		; GFX7-NEXT: s_bfe_i32 s17, s0, 0x40014
; GFX7-NEXT: s_and_b32 s18, s18, s8		; GFX7-NEXT: s_and_b32 s18, s18, s8
; GFX7-NEXT: s_and_b32 s15, s15, s8		; GFX7-NEXT: s_and_b32 s15, s15, s8
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: s_bfe_i32 s19, s4, 0x40018		; GFX7-NEXT: s_bfe_i32 s19, s0, 0x40018
; GFX7-NEXT: s_ashr_i32 s5, s5, 28		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: s_and_b32 s20, s20, s8		; GFX7-NEXT: s_and_b32 s20, s20, s8
; GFX7-NEXT: s_and_b32 s17, s17, s8		; GFX7-NEXT: s_and_b32 s17, s17, s8
; GFX7-NEXT: v_mov_b32_e32 v6, s18		; GFX7-NEXT: v_mov_b32_e32 v6, s18
; GFX7-NEXT: s_ashr_i32 s4, s4, 28		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
; GFX7-NEXT: s_and_b32 s19, s19, s8		; GFX7-NEXT: s_and_b32 s19, s19, s8
; GFX7-NEXT: s_and_b32 s5, s5, s8		; GFX7-NEXT: s_and_b32 s1, s1, s8
; GFX7-NEXT: v_mov_b32_e32 v7, s20		; GFX7-NEXT: v_mov_b32_e32 v7, s20
; GFX7-NEXT: s_and_b32 s4, s4, s8		; GFX7-NEXT: s_and_b32 s0, s0, s8
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s13, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s13, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s15, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s15, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s17, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s17, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s19, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s19, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc8:		; GFX8-LABEL: idot8_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_movk_i32 s2, 0xff		; GFX8-NEXT: s_movk_i32 s6, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s6, s3, 0x40000		; GFX8-NEXT: s_bfe_i32 s5, s2, 0x40000
; GFX8-NEXT: s_lshr_b32 s4, s3, 12
; GFX8-NEXT: s_bfe_i32 s8, s3, 0x40004
; GFX8-NEXT: s_bfe_i32 s10, s3, 0x40008
; GFX8-NEXT: s_lshr_b32 s1, s0, 12		; GFX8-NEXT: s_lshr_b32 s1, s0, 12
; GFX8-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX8-NEXT: s_lshr_b32 s3, s2, 12
; GFX8-NEXT: v_mov_b32_e32 v6, s6		; GFX8-NEXT: s_bfe_i32 s8, s2, 0x40004
		; GFX8-NEXT: s_bfe_i32 s10, s2, 0x40008
		; GFX8-NEXT: s_bfe_i32 s4, s0, 0x40000
		; GFX8-NEXT: v_mov_b32_e32 v6, s5
; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX8-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX8-NEXT: v_lshlrev_b16_e64 v5, 12, s3
; GFX8-NEXT: s_bfe_i32 s7, s0, 0x40004		; GFX8-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX8-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX8-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v3, s10		; GFX8-NEXT: v_mov_b32_e32 v3, s10
; GFX8-NEXT: v_mov_b32_e32 v7, s8		; GFX8-NEXT: v_mov_b32_e32 v7, s8
; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX8-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX8-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX8-NEXT: v_mul_i32_i24_e32 v3, s9, v3		; GFX8-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX8-NEXT: s_bfe_i32 s12, s3, 0x40010		; GFX8-NEXT: s_bfe_i32 s12, s2, 0x40010
; GFX8-NEXT: v_and_b32_e32 v4, s2, v4		; GFX8-NEXT: v_and_b32_e32 v4, s6, v4
; GFX8-NEXT: v_and_b32_e32 v5, s2, v5		; GFX8-NEXT: v_and_b32_e32 v5, s6, v5
; GFX8-NEXT: s_bfe_i32 s14, s3, 0x40014		; GFX8-NEXT: s_bfe_i32 s14, s2, 0x40014
; GFX8-NEXT: s_bfe_i32 s11, s0, 0x40010		; GFX8-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX8-NEXT: v_mov_b32_e32 v8, s12		; GFX8-NEXT: v_mov_b32_e32 v8, s12
; GFX8-NEXT: s_bfe_i32 s16, s3, 0x40018		; GFX8-NEXT: s_bfe_i32 s16, s2, 0x40018
; GFX8-NEXT: s_bfe_i32 s13, s0, 0x40014		; GFX8-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX8-NEXT: v_mov_b32_e32 v9, s14		; GFX8-NEXT: v_mov_b32_e32 v9, s14
; GFX8-NEXT: s_bfe_i32 s15, s0, 0x40018		; GFX8-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX8-NEXT: s_ashr_i32 s3, s3, 28		; GFX8-NEXT: s_ashr_i32 s2, s2, 28
; GFX8-NEXT: v_mov_b32_e32 v10, s16		; GFX8-NEXT: v_mov_b32_e32 v10, s16
; GFX8-NEXT: s_ashr_i32 s0, s0, 28		; GFX8-NEXT: s_ashr_i32 s0, s0, 28
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s4, v6, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s7, v7, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX8-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s11, v8, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s13, v9, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX8-NEXT: v_mad_i32_i24 v2, s15, v10, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s3		; GFX8-NEXT: v_mov_b32_e32 v3, s2
; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX8-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc8:		; GFX9-LABEL: idot8_acc8:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_movk_i32 s2, 0xff		; GFX9-NEXT: s_movk_i32 s6, 0xff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: v_mov_b32_e32 v1, s1
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_i32 s6, s3, 0x40000		; GFX9-NEXT: s_bfe_i32 s5, s2, 0x40000
; GFX9-NEXT: s_lshr_b32 s4, s3, 12
; GFX9-NEXT: s_bfe_i32 s8, s3, 0x40004
; GFX9-NEXT: s_bfe_i32 s10, s3, 0x40008
; GFX9-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-NEXT: s_lshr_b32 s1, s0, 12
; GFX9-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX9-NEXT: s_lshr_b32 s3, s2, 12
; GFX9-NEXT: v_mov_b32_e32 v6, s6		; GFX9-NEXT: s_bfe_i32 s8, s2, 0x40004
		; GFX9-NEXT: s_bfe_i32 s10, s2, 0x40008
		; GFX9-NEXT: s_bfe_i32 s4, s0, 0x40000
		; GFX9-NEXT: v_mov_b32_e32 v6, s5
; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX9-NEXT: v_lshlrev_b16_e64 v5, 12, s3
; GFX9-NEXT: s_bfe_i32 s7, s0, 0x40004		; GFX9-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX9-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX9-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v3, s10		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: v_mov_b32_e32 v7, s8		; GFX9-NEXT: v_mov_b32_e32 v7, s8
; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX9-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-NEXT: v_mul_i32_i24_e32 v3, s9, v3		; GFX9-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX9-NEXT: s_bfe_i32 s12, s3, 0x40010		; GFX9-NEXT: s_bfe_i32 s12, s2, 0x40010
; GFX9-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-NEXT: v_and_b32_e32 v4, s6, v4
; GFX9-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-NEXT: v_and_b32_e32 v5, s6, v5
; GFX9-NEXT: s_bfe_i32 s14, s3, 0x40014		; GFX9-NEXT: s_bfe_i32 s14, s2, 0x40014
; GFX9-NEXT: s_bfe_i32 s11, s0, 0x40010		; GFX9-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX9-NEXT: v_mov_b32_e32 v8, s12		; GFX9-NEXT: v_mov_b32_e32 v8, s12
; GFX9-NEXT: s_bfe_i32 s16, s3, 0x40018		; GFX9-NEXT: s_bfe_i32 s16, s2, 0x40018
; GFX9-NEXT: s_bfe_i32 s13, s0, 0x40014		; GFX9-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v9, s14		; GFX9-NEXT: v_mov_b32_e32 v9, s14
; GFX9-NEXT: s_bfe_i32 s15, s0, 0x40018		; GFX9-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX9-NEXT: s_ashr_i32 s3, s3, 28		; GFX9-NEXT: s_ashr_i32 s2, s2, 28
; GFX9-NEXT: v_mov_b32_e32 v10, s16		; GFX9-NEXT: v_mov_b32_e32 v10, s16
; GFX9-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-NEXT: s_ashr_i32 s0, s0, 28
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s4, v6, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s7, v7, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX9-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s11, v8, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s13, v9, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX9-NEXT: v_mad_i32_i24 v2, s15, v10, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s3		; GFX9-NEXT: v_mov_b32_e32 v3, s2
; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc8:		; GFX9-DL-LABEL: idot8_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_movk_i32 s2, 0xff		; GFX9-DL-NEXT: s_movk_i32 s6, 0xff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s4
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s5
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dword s2, s[2:3], 0x0
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_i32 s6, s3, 0x40000		; GFX9-DL-NEXT: s_bfe_i32 s5, s2, 0x40000
; GFX9-DL-NEXT: s_lshr_b32 s4, s3, 12
; GFX9-DL-NEXT: s_bfe_i32 s8, s3, 0x40004
; GFX9-DL-NEXT: s_bfe_i32 s10, s3, 0x40008
; GFX9-DL-NEXT: s_lshr_b32 s1, s0, 12		; GFX9-DL-NEXT: s_lshr_b32 s1, s0, 12
; GFX9-DL-NEXT: s_bfe_i32 s5, s0, 0x40000		; GFX9-DL-NEXT: s_lshr_b32 s3, s2, 12
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s6		; GFX9-DL-NEXT: s_bfe_i32 s8, s2, 0x40004
		; GFX9-DL-NEXT: s_bfe_i32 s10, s2, 0x40008
		; GFX9-DL-NEXT: s_bfe_i32 s4, s0, 0x40000
		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s5
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s4		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s3
; GFX9-DL-NEXT: s_bfe_i32 s7, s0, 0x40004		; GFX9-DL-NEXT: s_bfe_i32 s7, s0, 0x40004
; GFX9-DL-NEXT: s_bfe_i32 s9, s0, 0x40008		; GFX9-DL-NEXT: s_bfe_i32 s9, s0, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s8		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s8
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v4, 12, v4
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-DL-NEXT: v_mul_i32_i24_e32 v3, s9, v3		; GFX9-DL-NEXT: v_mul_i32_i24_e32 v3, s9, v3
; GFX9-DL-NEXT: s_bfe_i32 s12, s3, 0x40010		; GFX9-DL-NEXT: s_bfe_i32 s12, s2, 0x40010
; GFX9-DL-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-DL-NEXT: v_and_b32_e32 v4, s6, v4
; GFX9-DL-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-DL-NEXT: v_and_b32_e32 v5, s6, v5
; GFX9-DL-NEXT: s_bfe_i32 s14, s3, 0x40014		; GFX9-DL-NEXT: s_bfe_i32 s14, s2, 0x40014
; GFX9-DL-NEXT: s_bfe_i32 s11, s0, 0x40010		; GFX9-DL-NEXT: s_bfe_i32 s11, s0, 0x40010
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s12
; GFX9-DL-NEXT: s_bfe_i32 s16, s3, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s16, s2, 0x40018
; GFX9-DL-NEXT: s_bfe_i32 s13, s0, 0x40014		; GFX9-DL-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s14		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s14
; GFX9-DL-NEXT: s_bfe_i32 s15, s0, 0x40018		; GFX9-DL-NEXT: s_bfe_i32 s15, s0, 0x40018
; GFX9-DL-NEXT: s_ashr_i32 s3, s3, 28		; GFX9-DL-NEXT: s_ashr_i32 s2, s2, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v10, s16		; GFX9-DL-NEXT: v_mov_b32_e32 v10, s16
; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28		; GFX9-DL-NEXT: s_ashr_i32 s0, s0, 28
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s5, v6, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s4, v6, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s7, v7, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s7, v7, v2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, v2		; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s11, v8, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s11, v8, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s13, v9, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s13, v9, v2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s15, v10, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s15, v10, v2
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2		; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off		; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot8_acc8:		; GFX10-DL-LABEL: idot8_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: ; implicit-def: $vcc_hi		; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
▲ Show 20 Lines • Show All 755 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @idot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc16_vecMul:		; GFX7-LABEL: idot8_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s8, 0xffff		; GFX7-NEXT: s_mov_b32 s8, 0xffff
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s6, s[6:7], 0x0
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0
		; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s15, s6, 0x40018		; GFX7-NEXT: s_bfe_i32 s15, s6, 0x40018
; GFX7-NEXT: s_bfe_i32 s16, s6, 0x40014		; GFX7-NEXT: s_bfe_i32 s16, s6, 0x40014
; GFX7-NEXT: s_bfe_i32 s17, s6, 0x40010		; GFX7-NEXT: s_bfe_i32 s17, s6, 0x40010
; GFX7-NEXT: s_bfe_i32 s18, s6, 0x40000		; GFX7-NEXT: s_bfe_i32 s18, s6, 0x40000
; GFX7-NEXT: s_bfe_i32 s19, s6, 0x40004		; GFX7-NEXT: s_bfe_i32 s19, s6, 0x40004
; GFX7-NEXT: s_bfe_i32 s20, s6, 0x40008		; GFX7-NEXT: s_bfe_i32 s20, s6, 0x40008
; GFX7-NEXT: s_ashr_i32 s14, s6, 28		; GFX7-NEXT: s_ashr_i32 s14, s6, 28
Show All 35 Lines
; GFX7-NEXT: v_mad_i32_i24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s7, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s14		; GFX7-NEXT: v_mov_b32_e32 v1, s14
; GFX7-NEXT: v_mad_i32_i24 v0, s5, v1, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s5, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc16_vecMul:		; GFX8-LABEL: idot8_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dword s3, s[2:3], 0x0
		; GFX8-NEXT: s_load_dword s1, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshl_b32 s27, s3, 28		; GFX8-NEXT: s_lshl_b32 s27, s3, 28
; GFX8-NEXT: s_ashr_i64 s[16:17], s[2:3], 60		; GFX8-NEXT: s_ashr_i64 s[16:17], s[2:3], 60
		; GFX8-NEXT: s_lshl_b32 s15, s1, 28
; GFX8-NEXT: s_lshl_b32 s19, s3, 8		; GFX8-NEXT: s_lshl_b32 s19, s3, 8
; GFX8-NEXT: s_lshl_b32 s21, s3, 12		; GFX8-NEXT: s_lshl_b32 s21, s3, 12
; GFX8-NEXT: s_lshl_b32 s15, s1, 28
; GFX8-NEXT: s_lshl_b32 s23, s3, 16		; GFX8-NEXT: s_lshl_b32 s23, s3, 16
; GFX8-NEXT: s_lshl_b32 s25, s3, 24		; GFX8-NEXT: s_lshl_b32 s25, s3, 24
; GFX8-NEXT: s_lshl_b32 s17, s3, 4		; GFX8-NEXT: s_lshl_b32 s17, s3, 4
; GFX8-NEXT: s_lshl_b32 s3, s3, 20		; GFX8-NEXT: s_lshl_b32 s3, s3, 20
; GFX8-NEXT: s_ashr_i64 s[4:5], s[0:1], 60		; GFX8-NEXT: s_ashr_i64 s[4:5], s[0:1], 60
; GFX8-NEXT: s_ashr_i64 s[26:27], s[26:27], 60		; GFX8-NEXT: s_ashr_i64 s[26:27], s[26:27], 60
; GFX8-NEXT: s_lshl_b32 s7, s1, 8		; GFX8-NEXT: s_lshl_b32 s7, s1, 8
; GFX8-NEXT: s_lshl_b32 s9, s1, 12		; GFX8-NEXT: s_lshl_b32 s9, s1, 12
▲ Show 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.		; TODO: Support this pattern.
define amdgpu_kernel void @idot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @idot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: idot8_acc8_vecMul:		; GFX7-LABEL: idot8_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_movk_i32 s8, 0xff		; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: s_mov_b32 s9, 0xffff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_mov_b32 s9, 0xffff
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_i32 s6, s4, 0x40000		; GFX7-NEXT: s_bfe_i32 s2, s0, 0x40000
; GFX7-NEXT: s_bfe_i32 s15, s5, 0x40000		; GFX7-NEXT: s_bfe_i32 s15, s1, 0x40000
; GFX7-NEXT: s_bfe_i32 s16, s5, 0x40004		; GFX7-NEXT: s_bfe_i32 s16, s1, 0x40004
; GFX7-NEXT: s_bfe_i32 s17, s5, 0x40008		; GFX7-NEXT: s_bfe_i32 s17, s1, 0x40008
; GFX7-NEXT: s_bfe_i32 s18, s5, 0x4000c		; GFX7-NEXT: s_bfe_i32 s18, s1, 0x4000c
; GFX7-NEXT: s_bfe_i32 s19, s5, 0x40010		; GFX7-NEXT: s_bfe_i32 s19, s1, 0x40010
; GFX7-NEXT: s_bfe_i32 s20, s5, 0x40014		; GFX7-NEXT: s_bfe_i32 s20, s1, 0x40014
; GFX7-NEXT: s_bfe_i32 s21, s5, 0x40018		; GFX7-NEXT: s_bfe_i32 s21, s1, 0x40018
; GFX7-NEXT: s_ashr_i32 s5, s5, 28		; GFX7-NEXT: s_ashr_i32 s1, s1, 28
; GFX7-NEXT: v_mov_b32_e32 v8, s15		; GFX7-NEXT: v_mov_b32_e32 v8, s15
; GFX7-NEXT: s_bfe_i32 s7, s4, 0x40004		; GFX7-NEXT: s_bfe_i32 s3, s0, 0x40004
; GFX7-NEXT: v_mov_b32_e32 v7, s16		; GFX7-NEXT: v_mov_b32_e32 v7, s16
; GFX7-NEXT: s_bfe_i32 s10, s4, 0x40008		; GFX7-NEXT: s_bfe_i32 s10, s0, 0x40008
; GFX7-NEXT: v_mov_b32_e32 v6, s17		; GFX7-NEXT: v_mov_b32_e32 v6, s17
; GFX7-NEXT: s_bfe_i32 s11, s4, 0x4000c		; GFX7-NEXT: s_bfe_i32 s11, s0, 0x4000c
; GFX7-NEXT: v_mov_b32_e32 v5, s18		; GFX7-NEXT: v_mov_b32_e32 v5, s18
; GFX7-NEXT: s_bfe_i32 s12, s4, 0x40010		; GFX7-NEXT: s_bfe_i32 s12, s0, 0x40010
; GFX7-NEXT: v_mov_b32_e32 v4, s19		; GFX7-NEXT: v_mov_b32_e32 v4, s19
; GFX7-NEXT: s_bfe_i32 s13, s4, 0x40014		; GFX7-NEXT: s_bfe_i32 s13, s0, 0x40014
; GFX7-NEXT: v_mov_b32_e32 v3, s20		; GFX7-NEXT: v_mov_b32_e32 v3, s20
; GFX7-NEXT: s_bfe_i32 s14, s4, 0x40018		; GFX7-NEXT: s_bfe_i32 s14, s0, 0x40018
; GFX7-NEXT: v_mov_b32_e32 v2, s21		; GFX7-NEXT: v_mov_b32_e32 v2, s21
; GFX7-NEXT: s_ashr_i32 s4, s4, 28		; GFX7-NEXT: s_ashr_i32 s0, s0, 28
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mul_i32_i24_e32 v1, s4, v1		; GFX7-NEXT: v_mul_i32_i24_e32 v1, s0, v1
; GFX7-NEXT: v_mul_i32_i24_e32 v2, s14, v2		; GFX7-NEXT: v_mul_i32_i24_e32 v2, s14, v2
; GFX7-NEXT: v_mul_i32_i24_e32 v3, s13, v3		; GFX7-NEXT: v_mul_i32_i24_e32 v3, s13, v3
; GFX7-NEXT: v_mul_i32_i24_e32 v9, s12, v4		; GFX7-NEXT: v_mul_i32_i24_e32 v9, s12, v4
; GFX7-NEXT: v_mul_i32_i24_e32 v5, s11, v5		; GFX7-NEXT: v_mul_i32_i24_e32 v5, s11, v5
; GFX7-NEXT: v_mul_i32_i24_e32 v6, s10, v6		; GFX7-NEXT: v_mul_i32_i24_e32 v6, s10, v6
; GFX7-NEXT: v_mul_i32_i24_e32 v7, s7, v7		; GFX7-NEXT: v_mul_i32_i24_e32 v7, s3, v7
; GFX7-NEXT: v_mul_i32_i24_e32 v8, s6, v8		; GFX7-NEXT: v_mul_i32_i24_e32 v8, s2, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_and_b32_e32 v2, s8, v2		; GFX7-NEXT: v_and_b32_e32 v2, s8, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_and_b32_e32 v9, s8, v9		; GFX7-NEXT: v_and_b32_e32 v9, s8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_and_b32_e32 v6, s8, v6		; GFX7-NEXT: v_and_b32_e32 v6, s8, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_and_b32_e32 v8, s8, v8		; GFX7-NEXT: v_and_b32_e32 v8, s8, v8
Show All 17 Lines
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0
; GFX7-NEXT: v_mad_i32_i24 v0, s12, v4, v0		; GFX7-NEXT: v_mad_i32_i24 v0, s12, v4, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: idot8_acc8_vecMul:		; GFX8-LABEL: idot8_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_mov_b32 s33, 0xffff		; GFX8-NEXT: s_mov_b32 s33, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s3, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s1, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s3, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshl_b32 s11, s1, 24		; GFX8-NEXT: s_lshl_b32 s11, s1, 24
; GFX8-NEXT: s_lshl_b32 s15, s1, 16		; GFX8-NEXT: s_lshl_b32 s15, s1, 16
; GFX8-NEXT: s_ashr_i64 s[20:21], s[2:3], 60		; GFX8-NEXT: s_ashr_i64 s[20:21], s[2:3], 60
; GFX8-NEXT: s_lshl_b32 s23, s3, 24		; GFX8-NEXT: s_lshl_b32 s23, s3, 24
; GFX8-NEXT: s_lshl_b32 s25, s3, 28		; GFX8-NEXT: s_lshl_b32 s25, s3, 28
; GFX8-NEXT: s_lshl_b32 s27, s3, 16		; GFX8-NEXT: s_lshl_b32 s27, s3, 16
; GFX8-NEXT: s_ashr_i64 s[8:9], s[0:1], 60		; GFX8-NEXT: s_ashr_i64 s[8:9], s[0:1], 60
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: idot8_acc8_vecMul:		; GFX9-LABEL: idot8_acc8_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NEXT: s_mov_b32 s4, 0xffff
; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s7, s0, 4		; GFX9-NEXT: s_lshr_b32 s7, s0, 4
; GFX9-NEXT: s_lshr_b32 s14, s1, 4		; GFX9-NEXT: s_lshr_b32 s14, s1, 4
; GFX9-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX9-NEXT: v_lshlrev_b16_e64 v3, 12, s0
; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX9-NEXT: v_lshlrev_b16_e64 v7, 12, s7
; GFX9-NEXT: v_lshlrev_b16_e64 v14, 12, s14		; GFX9-NEXT: v_lshlrev_b16_e64 v14, 12, s14
; GFX9-NEXT: s_lshr_b32 s8, s0, 12		; GFX9-NEXT: s_lshr_b32 s8, s0, 12
Show All 10 Lines
; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v14		; GFX9-NEXT: v_ashrrev_i16_e32 v14, 12, v14
; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v12		; GFX9-NEXT: v_ashrrev_i16_e32 v12, 12, v12
; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX9-NEXT: v_ashrrev_i16_e32 v6, 12, v6
; GFX9-NEXT: v_ashrrev_i16_e32 v13, 12, v13		; GFX9-NEXT: v_ashrrev_i16_e32 v13, 12, v13
; GFX9-NEXT: v_mul_lo_u16_e32 v3, v3, v4		; GFX9-NEXT: v_mul_lo_u16_e32 v3, v3, v4
; GFX9-NEXT: v_mul_lo_u16_sdwa v7, v7, v14 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v7, v7, v14 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: s_lshr_b32 s3, s0, 20		; GFX9-NEXT: s_lshr_b32 s2, s0, 20
; GFX9-NEXT: s_lshr_b32 s4, s0, 16		; GFX9-NEXT: s_lshr_b32 s3, s0, 16
; GFX9-NEXT: s_lshr_b32 s10, s1, 20		; GFX9-NEXT: s_lshr_b32 s10, s1, 20
; GFX9-NEXT: s_lshr_b32 s11, s1, 16		; GFX9-NEXT: s_lshr_b32 s11, s1, 16
; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_e32 v5, v5, v12		; GFX9-NEXT: v_mul_lo_u16_e32 v5, v5, v12
; GFX9-NEXT: v_lshlrev_b16_e64 v10, 12, s4		; GFX9-NEXT: v_lshlrev_b16_e64 v10, 12, s3
; GFX9-NEXT: v_lshlrev_b16_e64 v11, 12, s3		; GFX9-NEXT: v_lshlrev_b16_e64 v11, 12, s2
; GFX9-NEXT: v_lshlrev_b16_e64 v17, 12, s11		; GFX9-NEXT: v_lshlrev_b16_e64 v17, 12, s11
; GFX9-NEXT: v_lshlrev_b16_e64 v18, 12, s10		; GFX9-NEXT: v_lshlrev_b16_e64 v18, 12, s10
; GFX9-NEXT: s_lshr_b32 s5, s0, 28		; GFX9-NEXT: s_lshr_b32 s5, s0, 28
; GFX9-NEXT: s_lshr_b32 s6, s0, 24		; GFX9-NEXT: s_lshr_b32 s6, s0, 24
; GFX9-NEXT: s_lshr_b32 s12, s1, 28		; GFX9-NEXT: s_lshr_b32 s12, s1, 28
; GFX9-NEXT: s_lshr_b32 s13, s1, 24		; GFX9-NEXT: s_lshr_b32 s13, s1, 24
; GFX9-NEXT: v_and_b32_e32 v3, s2, v3		; GFX9-NEXT: v_and_b32_e32 v3, s4, v3
; GFX9-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_lshlrev_b16_e64 v8, 12, s6		; GFX9-NEXT: v_lshlrev_b16_e64 v8, 12, s6
; GFX9-NEXT: v_lshlrev_b16_e64 v9, 12, s5		; GFX9-NEXT: v_lshlrev_b16_e64 v9, 12, s5
; GFX9-NEXT: v_lshlrev_b16_e64 v15, 12, s13		; GFX9-NEXT: v_lshlrev_b16_e64 v15, 12, s13
; GFX9-NEXT: v_lshlrev_b16_e64 v16, 12, s12		; GFX9-NEXT: v_lshlrev_b16_e64 v16, 12, s12
; GFX9-NEXT: v_or_b32_e32 v5, v3, v5		; GFX9-NEXT: v_or_b32_e32 v5, v3, v5
; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v10		; GFX9-NEXT: v_ashrrev_i16_e32 v10, 12, v10
; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v17		; GFX9-NEXT: v_ashrrev_i16_e32 v17, 12, v17
; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11		; GFX9-NEXT: v_ashrrev_i16_e32 v11, 12, v11
; GFX9-NEXT: v_ashrrev_i16_e32 v18, 12, v18		; GFX9-NEXT: v_ashrrev_i16_e32 v18, 12, v18
; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8		; GFX9-NEXT: v_ashrrev_i16_e32 v8, 12, v8
; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v15		; GFX9-NEXT: v_ashrrev_i16_e32 v15, 12, v15
; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v9		; GFX9-NEXT: v_ashrrev_i16_e32 v9, 12, v9
; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v16		; GFX9-NEXT: v_ashrrev_i16_e32 v16, 12, v16
; GFX9-NEXT: v_mul_lo_u16_sdwa v4, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v4, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_e32 v10, v10, v17		; GFX9-NEXT: v_mul_lo_u16_e32 v10, v10, v17
; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v5		; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v5
; GFX9-NEXT: v_or_b32_sdwa v4, v10, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v4, v10, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_sdwa v9, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v9, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_e32 v8, v8, v15		; GFX9-NEXT: v_mul_lo_u16_e32 v8, v8, v15
; GFX9-NEXT: v_or_b32_sdwa v8, v8, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v8, v8, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-NEXT: v_and_b32_e32 v4, s4, v4
; GFX9-NEXT: v_or_b32_e32 v6, v4, v8		; GFX9-NEXT: v_or_b32_e32 v6, v4, v8
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-NEXT: v_add_u32_e32 v2, v2, v7		; GFX9-NEXT: v_add_u32_e32 v2, v2, v7
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_add_u32_e32 v2, v2, v4		; GFX9-NEXT: v_add_u32_e32 v2, v2, v4
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v6		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v6
; GFX9-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot8_acc8_vecMul:		; GFX9-DL-LABEL: idot8_acc8_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_mov_b32 s4, 0xffff
; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_lshr_b32 s7, s0, 4		; GFX9-DL-NEXT: s_lshr_b32 s7, s0, 4
; GFX9-DL-NEXT: s_lshr_b32 s14, s1, 4		; GFX9-DL-NEXT: s_lshr_b32 s14, s1, 4
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s7		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s7
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v14, 12, s14		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v14, 12, s14
; GFX9-DL-NEXT: s_lshr_b32 s8, s0, 12		; GFX9-DL-NEXT: s_lshr_b32 s8, s0, 12
Show All 10 Lines
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v14		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v14, 12, v14
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v5, 12, v5
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v12		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v12, 12, v12
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v6, 12, v6
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v13, 12, v13		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v13, 12, v13
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v3, v3, v4		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v3, v3, v4
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v7, v7, v14 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v7, v7, v14 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_or_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: s_lshr_b32 s3, s0, 20		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 20
; GFX9-DL-NEXT: s_lshr_b32 s4, s0, 16		; GFX9-DL-NEXT: s_lshr_b32 s3, s0, 16
; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 20		; GFX9-DL-NEXT: s_lshr_b32 s10, s1, 20
; GFX9-DL-NEXT: s_lshr_b32 s11, s1, 16		; GFX9-DL-NEXT: s_lshr_b32 s11, s1, 16
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, v6, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, v5, v12		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, v5, v12
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v10, 12, s4		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v10, 12, s3
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v11, 12, s3		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v11, 12, s2
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v17, 12, s11		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v17, 12, s11
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v18, 12, s10		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v18, 12, s10
; GFX9-DL-NEXT: s_lshr_b32 s5, s0, 28		; GFX9-DL-NEXT: s_lshr_b32 s5, s0, 28
; GFX9-DL-NEXT: s_lshr_b32 s6, s0, 24		; GFX9-DL-NEXT: s_lshr_b32 s6, s0, 24
; GFX9-DL-NEXT: s_lshr_b32 s12, s1, 28		; GFX9-DL-NEXT: s_lshr_b32 s12, s1, 28
; GFX9-DL-NEXT: s_lshr_b32 s13, s1, 24		; GFX9-DL-NEXT: s_lshr_b32 s13, s1, 24
; GFX9-DL-NEXT: v_and_b32_e32 v3, s2, v3		; GFX9-DL-NEXT: v_and_b32_e32 v3, s4, v3
; GFX9-DL-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v8, 12, s6		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v8, 12, s6
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v9, 12, s5		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v9, 12, s5
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v15, 12, s13		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v15, 12, s13
; GFX9-DL-NEXT: v_lshlrev_b16_e64 v16, 12, s12		; GFX9-DL-NEXT: v_lshlrev_b16_e64 v16, 12, s12
; GFX9-DL-NEXT: v_or_b32_e32 v5, v3, v5		; GFX9-DL-NEXT: v_or_b32_e32 v5, v3, v5
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v10		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v10, 12, v10
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v17		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v17, 12, v17
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v11, 12, v11
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v18, 12, v18		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v18, 12, v18
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v8, 12, v8
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v15		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v15, 12, v15
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v9		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v9, 12, v9
; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v16		; GFX9-DL-NEXT: v_ashrrev_i16_e32 v16, 12, v16
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, v11, v18 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v10, v10, v17		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v10, v10, v17
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v5		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v5
; GFX9-DL-NEXT: v_or_b32_sdwa v4, v10, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v4, v10, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v9, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v9, v9, v16 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v8, v8, v15		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v8, v8, v15
; GFX9-DL-NEXT: v_or_b32_sdwa v8, v8, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v8, v8, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-DL-NEXT: v_and_b32_e32 v4, s2, v4		; GFX9-DL-NEXT: v_and_b32_e32 v4, s4, v4
; GFX9-DL-NEXT: v_or_b32_e32 v6, v4, v8		; GFX9-DL-NEXT: v_or_b32_e32 v6, v4, v8
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-DL-NEXT: v_add_u32_e32 v2, v3, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v7		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v7
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v6		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v6
▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the unnecessary instruction(that is zero-extending the		; TODO: Remove the unnecessary instruction(that is zero-extending the
; 2nd MAD) to have the pattern-recognizer to kick in.		; 2nd MAD) to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc16(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc16(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc16:		; GFX7-LABEL: udot8_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_and_b32 s5, s5, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40004
; GFX7-NEXT: s_and_b32 s4, s4, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc16:		; GFX8-LABEL: udot8_acc16:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s2, s0, 28		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
Show All 24 Lines
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v9, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s9		; GFX8-NEXT: v_mov_b32_e32 v3, s9
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc16:		; GFX9-LABEL: udot8_acc16:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s2, s0, 28		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX9-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
Show All 24 Lines
; GFX9-NEXT: v_mad_u32_u24 v2, s3, v9, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s3, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s9		; GFX9-NEXT: v_mov_b32_e32 v3, s9
; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc16:		; GFX9-DL-LABEL: udot8_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ushort v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the unnecessary instruction(that is zero-extending the		; TODO: Remove the unnecessary instruction(that is zero-extending the
; 2nd MAD) to have the pattern-recognizer to kick in.		; 2nd MAD) to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc8(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc8(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc8:		; GFX7-LABEL: udot8_acc8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_and_b32 s5, s5, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40004
; GFX7-NEXT: s_and_b32 s4, s4, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc8:		; GFX8-LABEL: udot8_acc8:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s2, s0, 28		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
Show All 24 Lines
; GFX8-NEXT: v_mad_u32_u24 v2, s3, v9, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s3, v9, v2
; GFX8-NEXT: v_mov_b32_e32 v3, s9		; GFX8-NEXT: v_mov_b32_e32 v3, s9
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc8:		; GFX9-LABEL: udot8_acc8:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s2, s0, 28		; GFX9-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX9-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX9-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
Show All 24 Lines
; GFX9-NEXT: v_mad_u32_u24 v2, s3, v9, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s3, v9, v2
; GFX9-NEXT: v_mov_b32_e32 v3, s9		; GFX9-NEXT: v_mov_b32_e32 v3, s9
; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc8:		; GFX9-DL-LABEL: udot8_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28		; GFX9-DL-NEXT: s_lshr_b32 s2, s0, 28
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Remove the two unnecessary instructions(and+add after 2nd MAD)		; TODO: Remove the two unnecessary instructions(and+add after 2nd MAD)
; to have the pattern-recognizer to kick in.		; to have the pattern-recognizer to kick in.
define amdgpu_kernel void @udot8_acc4(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc4(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc4:		; GFX7-LABEL: udot8_acc4:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_and_b32 s5, s5, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40004
; GFX7-NEXT: s_and_b32 s4, s4, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc4:		; GFX8-LABEL: udot8_acc4:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s8, s0, 15		; GFX8-NEXT: s_and_b32 s8, s0, 15
; GFX8-NEXT: s_and_b32 s15, s1, 15		; GFX8-NEXT: s_and_b32 s15, s1, 15
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX8-NEXT: v_mov_b32_e32 v4, s15		; GFX8-NEXT: v_mov_b32_e32 v4, s15
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX8-NEXT: v_mov_b32_e32 v3, s9		; GFX8-NEXT: v_mov_b32_e32 v3, s9
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc4:		; GFX9-LABEL: udot8_acc4:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s8, s0, 15		; GFX9-NEXT: s_and_b32 s8, s0, 15
; GFX9-NEXT: s_and_b32 s15, s1, 15		; GFX9-NEXT: s_and_b32 s15, s1, 15
; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v4, s15		; GFX9-NEXT: v_mov_b32_e32 v4, s15
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX9-NEXT: v_mov_b32_e32 v3, s9		; GFX9-NEXT: v_mov_b32_e32 v3, s9
; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc4:		; GFX9-DL-LABEL: udot8_acc4:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s8, s0, 15		; GFX9-DL-NEXT: s_and_b32 s8, s0, 15
; GFX9-DL-NEXT: s_and_b32 s15, s1, 15		; GFX9-DL-NEXT: s_and_b32 s15, s1, 15
; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010
▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Currently, permutation of udot8 is turned off due to a huge increase		; TODO: Currently, permutation of udot8 is turned off due to a huge increase
; in the compile time.		; in the compile time.
define amdgpu_kernel void @udot8_CommutationInsideMAD(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_CommutationInsideMAD(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_CommutationInsideMAD:		; GFX7-LABEL: udot8_CommutationInsideMAD:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_and_b32 s5, s5, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40004
; GFX7-NEXT: s_and_b32 s4, s4, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_CommutationInsideMAD:		; GFX8-LABEL: udot8_CommutationInsideMAD:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s8, s0, 15		; GFX8-NEXT: s_and_b32 s8, s0, 15
; GFX8-NEXT: s_and_b32 s15, s1, 15		; GFX8-NEXT: s_and_b32 s15, s1, 15
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX8-NEXT: v_mov_b32_e32 v4, s15		; GFX8-NEXT: v_mov_b32_e32 v4, s15
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX8-NEXT: v_mov_b32_e32 v3, s9		; GFX8-NEXT: v_mov_b32_e32 v3, s9
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_CommutationInsideMAD:		; GFX9-LABEL: udot8_CommutationInsideMAD:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s8, s0, 15		; GFX9-NEXT: s_and_b32 s8, s0, 15
; GFX9-NEXT: s_and_b32 s15, s1, 15		; GFX9-NEXT: s_and_b32 s15, s1, 15
; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v4, s15		; GFX9-NEXT: v_mov_b32_e32 v4, s15
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX9-NEXT: v_mov_b32_e32 v3, s9		; GFX9-NEXT: v_mov_b32_e32 v3, s9
; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_CommutationInsideMAD:		; GFX9-DL-LABEL: udot8_CommutationInsideMAD:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s8, s0, 15		; GFX9-DL-NEXT: s_and_b32 s8, s0, 15
; GFX9-DL-NEXT: s_and_b32 s15, s1, 15		; GFX9-DL-NEXT: s_and_b32 s15, s1, 15
; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010
▲ Show 20 Lines • Show All 642 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; TODO: Clean up the code(by default pk_mad_I16 should be generated), then		; TODO: Clean up the code(by default pk_mad_I16 should be generated), then
; support the pattern.		; support the pattern.
define amdgpu_kernel void @udot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc16_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc16_vecMul:		; GFX7-LABEL: udot8_acc16_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x40004
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x40004
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x4000c
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_and_b32 s18, s5, 15		; GFX7-NEXT: s_and_b32 s18, s1, 15
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_bfe_u32 s5, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x4000c
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mul_u32_u24_e32 v2, s12, v2		; GFX7-NEXT: v_mul_u32_u24_e32 v2, s12, v2
; GFX7-NEXT: v_mul_u32_u24_e32 v4, s10, v4		; GFX7-NEXT: v_mul_u32_u24_e32 v4, s10, v4
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_and_b32 s11, s4, 15		; GFX7-NEXT: s_and_b32 s11, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: s_bfe_u32 s4, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x40008
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mul_u32_u24_e32 v1, s4, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v1, s0, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_mul_u32_u24_e32 v3, s11, v3		; GFX7-NEXT: v_mul_u32_u24_e32 v3, s11, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_or_b32_e32 v1, v1, v2		; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
; GFX7-NEXT: v_or_b32_e32 v2, v3, v4		; GFX7-NEXT: v_or_b32_e32 v2, v3, v4
; GFX7-NEXT: v_alignbit_b32 v3, v1, v2, 16		; GFX7-NEXT: v_alignbit_b32 v3, v1, v2, 16
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v3, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc16_vecMul:		; GFX8-LABEL: udot8_acc16_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v2, v[0:1]		; GFX8-NEXT: flat_load_ushort v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s2, s0, 28		; GFX8-NEXT: s_lshr_b32 s2, s0, 28
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s15, s1, 0x40004
▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines	entry:
store i16 %add8, i16 addrspace(1)* %dst, align 4		store i16 %add8, i16 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Cleanup the code to generate MAD; pattern should be recognized then.		; TODO: Cleanup the code to generate MAD; pattern should be recognized then.
define amdgpu_kernel void @udot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc8_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc8_vecMul:		; GFX7-LABEL: udot8_acc8_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s6, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s2, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s13, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s13, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s17, s5, 28		; GFX7-NEXT: s_lshr_b32 s17, s1, 28
; GFX7-NEXT: v_mov_b32_e32 v8, s13		; GFX7-NEXT: v_mov_b32_e32 v8, s13
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40008
; GFX7-NEXT: s_and_b32 s16, s5, 15		; GFX7-NEXT: s_and_b32 s16, s1, 15
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40004
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: s_lshr_b32 s10, s4, 28		; GFX7-NEXT: s_lshr_b32 s10, s0, 28
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mul_u32_u24_e32 v4, s10, v4		; GFX7-NEXT: v_mul_u32_u24_e32 v4, s10, v4
; GFX7-NEXT: v_mul_u32_u24_e32 v6, s8, v6		; GFX7-NEXT: v_mul_u32_u24_e32 v6, s8, v6
; GFX7-NEXT: v_mul_u32_u24_e32 v8, s6, v8		; GFX7-NEXT: v_mul_u32_u24_e32 v8, s2, v8
; GFX7-NEXT: s_bfe_u32 s5, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40008
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_and_b32 s9, s4, 15		; GFX7-NEXT: s_and_b32 s9, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40018
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40014
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mul_u32_u24_e32 v2, s12, v2		; GFX7-NEXT: v_mul_u32_u24_e32 v2, s12, v2
; GFX7-NEXT: s_bfe_u32 s4, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x40010
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mul_u32_u24_e32 v3, s11, v3		; GFX7-NEXT: v_mul_u32_u24_e32 v3, s11, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
; GFX7-NEXT: v_mul_u32_u24_e32 v5, s9, v5		; GFX7-NEXT: v_mul_u32_u24_e32 v5, s9, v5
; GFX7-NEXT: v_mul_u32_u24_e32 v7, s7, v7		; GFX7-NEXT: v_mul_u32_u24_e32 v7, s3, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: v_or_b32_e32 v4, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v5, v6
; GFX7-NEXT: v_or_b32_e32 v5, v7, v8		; GFX7-NEXT: v_or_b32_e32 v5, v7, v8
; GFX7-NEXT: v_mul_u32_u24_e32 v9, s4, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v9, s0, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; GFX7-NEXT: v_or_b32_e32 v2, v9, v2		; GFX7-NEXT: v_or_b32_e32 v2, v9, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_or_b32_e32 v3, v4, v5		; GFX7-NEXT: v_or_b32_e32 v3, v4, v5
; GFX7-NEXT: v_alignbit_b32 v4, v2, v3, 8		; GFX7-NEXT: v_alignbit_b32 v4, v2, v3, 8
; GFX7-NEXT: v_alignbit_b32 v5, v2, v3, 16		; GFX7-NEXT: v_alignbit_b32 v5, v2, v3, 16
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v2
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v5, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v7
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v8
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc8_vecMul:		; GFX8-LABEL: udot8_acc8_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX8-NEXT: s_mov_b32 s4, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s0, 0xffff		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_bfe_u32 s7, s1, 0x40004		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_u32 s9, s1, 0x4000c		; GFX8-NEXT: s_bfe_u32 s7, s0, 0x40004
; GFX8-NEXT: s_bfe_u32 s14, s2, 0x40004		; GFX8-NEXT: s_bfe_u32 s9, s0, 0x4000c
; GFX8-NEXT: s_and_b32 s15, s2, 15		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX8-NEXT: s_bfe_u32 s16, s2, 0x4000c		; GFX8-NEXT: s_and_b32 s15, s1, 15
; GFX8-NEXT: s_bfe_u32 s3, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s16, s1, 0x4000c
; GFX8-NEXT: s_lshr_b32 s5, s1, 28		; GFX8-NEXT: s_bfe_u32 s2, s0, 0x40014
; GFX8-NEXT: s_bfe_u32 s10, s2, 0x40014		; GFX8-NEXT: s_lshr_b32 s5, s0, 28
; GFX8-NEXT: s_bfe_u32 s11, s2, 0x40010		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40014
; GFX8-NEXT: s_lshr_b32 s12, s2, 28		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40010
; GFX8-NEXT: s_bfe_u32 s13, s2, 0x40018		; GFX8-NEXT: s_lshr_b32 s12, s1, 28
; GFX8-NEXT: s_bfe_u32 s2, s2, 0x40008		; GFX8-NEXT: s_bfe_u32 s13, s1, 0x40018
; GFX8-NEXT: s_and_b32 s8, s1, 15		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x40008
		; GFX8-NEXT: s_and_b32 s8, s0, 15
; GFX8-NEXT: v_mov_b32_e32 v4, s16		; GFX8-NEXT: v_mov_b32_e32 v4, s16
; GFX8-NEXT: v_mov_b32_e32 v5, s9		; GFX8-NEXT: v_mov_b32_e32 v5, s9
; GFX8-NEXT: v_mov_b32_e32 v6, s15		; GFX8-NEXT: v_mov_b32_e32 v6, s15
; GFX8-NEXT: v_mov_b32_e32 v7, s14		; GFX8-NEXT: v_mov_b32_e32 v7, s14
; GFX8-NEXT: v_mov_b32_e32 v8, s7		; GFX8-NEXT: v_mov_b32_e32 v8, s7
; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v5, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v5, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_e32 v5, s8, v6		; GFX8-NEXT: v_mul_u32_u24_e32 v5, s8, v6
; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v8, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v8, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: s_bfe_u32 s4, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s3, s0, 0x40010
; GFX8-NEXT: s_bfe_u32 s6, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x40018
; GFX8-NEXT: v_mov_b32_e32 v9, s13		; GFX8-NEXT: v_mov_b32_e32 v9, s13
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x40008		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x40008
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v3, s1
; GFX8-NEXT: v_mov_b32_e32 v10, s12		; GFX8-NEXT: v_mov_b32_e32 v10, s12
; GFX8-NEXT: v_mov_b32_e32 v11, s5		; GFX8-NEXT: v_mov_b32_e32 v11, s5
; GFX8-NEXT: v_mov_b32_e32 v12, s11		; GFX8-NEXT: v_mov_b32_e32 v12, s11
; GFX8-NEXT: v_mov_b32_e32 v13, s10		; GFX8-NEXT: v_mov_b32_e32 v13, s10
; GFX8-NEXT: v_mov_b32_e32 v14, s3		; GFX8-NEXT: v_mov_b32_e32 v14, s2
; GFX8-NEXT: v_mul_u32_u24_e32 v3, s1, v3		; GFX8-NEXT: v_mul_u32_u24_e32 v3, s0, v3
; GFX8-NEXT: v_or_b32_e32 v5, v5, v6		; GFX8-NEXT: v_or_b32_e32 v5, v5, v6
; GFX8-NEXT: v_mul_u32_u24_e32 v7, s6, v9		; GFX8-NEXT: v_mul_u32_u24_e32 v7, s6, v9
; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v11, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v8, v11, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_mul_u32_u24_e32 v9, s4, v12		; GFX8-NEXT: v_mul_u32_u24_e32 v9, s3, v12
; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v14, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_mul_u32_u24_sdwa v10, v14, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v5, s0, v5		; GFX8-NEXT: v_and_b32_e32 v5, s4, v5
; GFX8-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_or_b32_e32 v9, v9, v10		; GFX8-NEXT: v_or_b32_e32 v9, v9, v10
; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v4, s0, v9		; GFX8-NEXT: v_and_b32_e32 v4, s4, v9
; GFX8-NEXT: v_or_b32_e32 v3, v5, v3		; GFX8-NEXT: v_or_b32_e32 v3, v5, v3
; GFX8-NEXT: v_or_b32_e32 v6, v4, v7		; GFX8-NEXT: v_or_b32_e32 v6, v4, v7
; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3		; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3
; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6		; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v6
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v5
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v7, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v4		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v4
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v8, v2
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX8-NEXT: v_add_u32_sdwa v2, vcc, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc8_vecMul:		; GFX9-LABEL: udot8_acc8_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-NEXT: s_mov_b32 s4, 0xffff
; GFX9-NEXT: s_mov_b32 s2, 0xffff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_u32 s3, s0, 0x40010		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_bfe_u32 s2, s0, 0x40010
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40010
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40018
; GFX9-NEXT: s_lshr_b32 s13, s1, 28		; GFX9-NEXT: s_lshr_b32 s13, s1, 28
; GFX9-NEXT: s_and_b32 s14, s1, 15		; GFX9-NEXT: s_and_b32 s14, s1, 15
; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s15, s1, 0x40004
; GFX9-NEXT: s_bfe_u32 s16, s1, 0x40008		; GFX9-NEXT: s_bfe_u32 s16, s1, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v3, s10		; GFX9-NEXT: v_mov_b32_e32 v3, s10
; GFX9-NEXT: s_bfe_u32 s1, s1, 0x4000c		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x4000c
; GFX9-NEXT: s_bfe_u32 s4, s0, 0x40014		; GFX9-NEXT: s_bfe_u32 s3, s0, 0x40014
; GFX9-NEXT: v_mov_b32_e32 v4, s11		; GFX9-NEXT: v_mov_b32_e32 v4, s11
; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40018		; GFX9-NEXT: s_bfe_u32 s5, s0, 0x40018
; GFX9-NEXT: v_mov_b32_e32 v5, s12		; GFX9-NEXT: v_mov_b32_e32 v5, s12
; GFX9-NEXT: s_lshr_b32 s6, s0, 28		; GFX9-NEXT: s_lshr_b32 s6, s0, 28
; GFX9-NEXT: v_mov_b32_e32 v6, s13		; GFX9-NEXT: v_mov_b32_e32 v6, s13
; GFX9-NEXT: s_and_b32 s7, s0, 15		; GFX9-NEXT: s_and_b32 s7, s0, 15
; GFX9-NEXT: v_mov_b32_e32 v7, s14		; GFX9-NEXT: v_mov_b32_e32 v7, s14
; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40004		; GFX9-NEXT: s_bfe_u32 s8, s0, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v8, s15		; GFX9-NEXT: v_mov_b32_e32 v8, s15
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40008		; GFX9-NEXT: s_bfe_u32 s9, s0, 0x40008
; GFX9-NEXT: v_mov_b32_e32 v9, s16		; GFX9-NEXT: v_mov_b32_e32 v9, s16
; GFX9-NEXT: s_bfe_u32 s0, s0, 0x4000c		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-NEXT: v_mov_b32_e32 v10, s1		; GFX9-NEXT: v_mov_b32_e32 v10, s1
; GFX9-NEXT: v_mul_lo_u16_e32 v3, s3, v3		; GFX9-NEXT: v_mul_lo_u16_e32 v3, s2, v3
; GFX9-NEXT: v_mul_lo_u16_sdwa v4, s4, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v4, s3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_e32 v5, s5, v5		; GFX9-NEXT: v_mul_lo_u16_e32 v5, s5, v5
; GFX9-NEXT: v_mul_lo_u16_sdwa v6, s6, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v6, s6, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mul_lo_u16_e32 v7, s7, v7		; GFX9-NEXT: v_mul_lo_u16_e32 v7, s7, v7
; GFX9-NEXT: v_mul_lo_u16_sdwa v8, s8, v8 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v8, s8, v8 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_e32 v3, v3, v4		; GFX9-NEXT: v_or_b32_e32 v3, v3, v4
; GFX9-NEXT: v_or_b32_sdwa v4, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v4, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_e32 v5, v7, v8		; GFX9-NEXT: v_or_b32_e32 v5, v7, v8
; GFX9-NEXT: v_mul_lo_u16_e32 v9, s9, v9		; GFX9-NEXT: v_mul_lo_u16_e32 v9, s9, v9
; GFX9-NEXT: v_mul_lo_u16_sdwa v10, s0, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_mul_lo_u16_sdwa v10, s0, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-NEXT: v_and_b32_e32 v5, s4, v5
; GFX9-NEXT: v_or_b32_sdwa v6, v9, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v6, v9, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_e32 v6, v5, v6		; GFX9-NEXT: v_or_b32_e32 v6, v5, v6
; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v6		; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v6
; GFX9-NEXT: v_and_b32_e32 v3, s2, v3		; GFX9-NEXT: v_and_b32_e32 v3, s4, v3
; GFX9-NEXT: v_or_b32_e32 v4, v3, v4		; GFX9-NEXT: v_or_b32_e32 v4, v3, v4
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v2, v5, v2		; GFX9-NEXT: v_add_u32_e32 v2, v5, v2
; GFX9-NEXT: v_add_u32_e32 v2, v2, v7		; GFX9-NEXT: v_add_u32_e32 v2, v2, v7
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v4		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v4
; GFX9-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc8_vecMul:		; GFX9-DL-LABEL: udot8_acc8_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX9-DL-NEXT: s_mov_b32 s4, 0xffff
; GFX9-DL-NEXT: s_mov_b32 s2, 0xffff
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_bfe_u32 s3, s0, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s2, s0, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40010
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40018
; GFX9-DL-NEXT: s_lshr_b32 s13, s1, 28		; GFX9-DL-NEXT: s_lshr_b32 s13, s1, 28
; GFX9-DL-NEXT: s_and_b32 s14, s1, 15		; GFX9-DL-NEXT: s_and_b32 s14, s1, 15
; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s15, s1, 0x40004
; GFX9-DL-NEXT: s_bfe_u32 s16, s1, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s16, s1, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s1, s1, 0x4000c
; GFX9-DL-NEXT: s_bfe_u32 s4, s0, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s3, s0, 0x40014
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s11		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s11
; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s5, s0, 0x40018
; GFX9-DL-NEXT: v_mov_b32_e32 v5, s12		; GFX9-DL-NEXT: v_mov_b32_e32 v5, s12
; GFX9-DL-NEXT: s_lshr_b32 s6, s0, 28		; GFX9-DL-NEXT: s_lshr_b32 s6, s0, 28
; GFX9-DL-NEXT: v_mov_b32_e32 v6, s13		; GFX9-DL-NEXT: v_mov_b32_e32 v6, s13
; GFX9-DL-NEXT: s_and_b32 s7, s0, 15		; GFX9-DL-NEXT: s_and_b32 s7, s0, 15
; GFX9-DL-NEXT: v_mov_b32_e32 v7, s14		; GFX9-DL-NEXT: v_mov_b32_e32 v7, s14
; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s8, s0, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v8, s15		; GFX9-DL-NEXT: v_mov_b32_e32 v8, s15
; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40008		; GFX9-DL-NEXT: s_bfe_u32 s9, s0, 0x40008
; GFX9-DL-NEXT: v_mov_b32_e32 v9, s16		; GFX9-DL-NEXT: v_mov_b32_e32 v9, s16
; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c		; GFX9-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c
; GFX9-DL-NEXT: v_mov_b32_e32 v10, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v10, s1
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v3, s3, v3		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v3, s2, v3
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, s4, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, s3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, s5, v5		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v5, s5, v5
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, s6, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v6, s6, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, s7, v7		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v7, s7, v7
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v8, s8, v8 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v8, s8, v8 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_or_b32_e32 v3, v3, v4		; GFX9-DL-NEXT: v_or_b32_e32 v3, v3, v4
; GFX9-DL-NEXT: v_or_b32_sdwa v4, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v4, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_or_b32_e32 v5, v7, v8		; GFX9-DL-NEXT: v_or_b32_e32 v5, v7, v8
; GFX9-DL-NEXT: v_mul_lo_u16_e32 v9, s9, v9		; GFX9-DL-NEXT: v_mul_lo_u16_e32 v9, s9, v9
; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v10, s0, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v10, s0, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_and_b32_e32 v5, s2, v5		; GFX9-DL-NEXT: v_and_b32_e32 v5, s4, v5
; GFX9-DL-NEXT: v_or_b32_sdwa v6, v9, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-DL-NEXT: v_or_b32_sdwa v6, v9, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-DL-NEXT: v_or_b32_e32 v6, v5, v6		; GFX9-DL-NEXT: v_or_b32_e32 v6, v5, v6
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v6		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v6
; GFX9-DL-NEXT: v_and_b32_e32 v3, s2, v3		; GFX9-DL-NEXT: v_and_b32_e32 v3, s4, v3
; GFX9-DL-NEXT: v_or_b32_e32 v4, v3, v4		; GFX9-DL-NEXT: v_or_b32_e32 v4, v3, v4
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_add_u32_e32 v2, v5, v2		; GFX9-DL-NEXT: v_add_u32_e32 v2, v5, v2
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v7		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v7
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3		; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v4		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v4
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines	entry:
store i8 %add8, i8 addrspace(1)* %dst, align 4		store i8 %add8, i8 addrspace(1)* %dst, align 4
ret void		ret void
}		}

; TODO: Once the adictional "and+add" are removed, the pattern will be recognized.		; TODO: Once the adictional "and+add" are removed, the pattern will be recognized.
define amdgpu_kernel void @udot8_acc4_vecMul(<8 x i4> addrspace(1)* %src1,		define amdgpu_kernel void @udot8_acc4_vecMul(<8 x i4> addrspace(1)* %src1,
; GFX7-LABEL: udot8_acc4_vecMul:		; GFX7-LABEL: udot8_acc4_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xd
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: buffer_load_ubyte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ubyte v0, off, s[4:7], 0
; GFX7-NEXT: s_load_dword s4, s[4:5], 0x0		; GFX7-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX7-NEXT: s_load_dword s5, s[6:7], 0x0		; GFX7-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_lshr_b32 s6, s4, 28		; GFX7-NEXT: s_lshr_b32 s2, s0, 28
; GFX7-NEXT: s_bfe_u32 s14, s5, 0x40018		; GFX7-NEXT: s_bfe_u32 s14, s1, 0x40018
; GFX7-NEXT: s_bfe_u32 s15, s5, 0x40014		; GFX7-NEXT: s_bfe_u32 s15, s1, 0x40014
; GFX7-NEXT: s_bfe_u32 s16, s5, 0x40010		; GFX7-NEXT: s_bfe_u32 s16, s1, 0x40010
; GFX7-NEXT: s_bfe_u32 s17, s5, 0x4000c		; GFX7-NEXT: s_bfe_u32 s17, s1, 0x4000c
; GFX7-NEXT: s_bfe_u32 s18, s5, 0x40008		; GFX7-NEXT: s_bfe_u32 s18, s1, 0x40008
; GFX7-NEXT: s_bfe_u32 s19, s5, 0x40004		; GFX7-NEXT: s_bfe_u32 s19, s1, 0x40004
; GFX7-NEXT: s_lshr_b32 s13, s5, 28		; GFX7-NEXT: s_lshr_b32 s13, s1, 28
; GFX7-NEXT: s_and_b32 s5, s5, 15		; GFX7-NEXT: s_and_b32 s1, s1, 15
; GFX7-NEXT: s_bfe_u32 s7, s4, 0x40018		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x40018
; GFX7-NEXT: s_bfe_u32 s8, s4, 0x40014		; GFX7-NEXT: s_bfe_u32 s8, s0, 0x40014
; GFX7-NEXT: s_bfe_u32 s9, s4, 0x40010		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x40010
; GFX7-NEXT: s_bfe_u32 s10, s4, 0x4000c		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x4000c
; GFX7-NEXT: s_bfe_u32 s11, s4, 0x40008		; GFX7-NEXT: s_bfe_u32 s11, s0, 0x40008
; GFX7-NEXT: s_bfe_u32 s12, s4, 0x40004		; GFX7-NEXT: s_bfe_u32 s12, s0, 0x40004
; GFX7-NEXT: s_and_b32 s4, s4, 15		; GFX7-NEXT: s_and_b32 s0, s0, 15
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, s19		; GFX7-NEXT: v_mov_b32_e32 v2, s19
; GFX7-NEXT: v_mov_b32_e32 v3, s18		; GFX7-NEXT: v_mov_b32_e32 v3, s18
; GFX7-NEXT: v_mov_b32_e32 v4, s17		; GFX7-NEXT: v_mov_b32_e32 v4, s17
; GFX7-NEXT: v_mov_b32_e32 v5, s16		; GFX7-NEXT: v_mov_b32_e32 v5, s16
; GFX7-NEXT: v_mov_b32_e32 v6, s15		; GFX7-NEXT: v_mov_b32_e32 v6, s15
; GFX7-NEXT: v_mov_b32_e32 v7, s14		; GFX7-NEXT: v_mov_b32_e32 v7, s14
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_mad_u32_u24 v0, s4, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s0, v1, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s12, v2, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s11, v3, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s10, v4, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s9, v5, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s8, v6, v0
; GFX7-NEXT: v_mad_u32_u24 v0, s7, v7, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s3, v7, v0
; GFX7-NEXT: v_mov_b32_e32 v1, s13		; GFX7-NEXT: v_mov_b32_e32 v1, s13
; GFX7-NEXT: v_mad_u32_u24 v0, s6, v1, v0		; GFX7-NEXT: v_mad_u32_u24 v0, s2, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 15, v0		; GFX7-NEXT: v_and_b32_e32 v0, 15, v0
; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_byte v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX8-LABEL: udot8_acc4_vecMul:		; GFX8-LABEL: udot8_acc4_vecMul:
; GFX8: ; %bb.0: ; %entry		; GFX8: ; %bb.0: ; %entry
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ubyte v2, v[0:1]		; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s8, s0, 15		; GFX8-NEXT: s_and_b32 s8, s0, 15
; GFX8-NEXT: s_and_b32 s15, s1, 15		; GFX8-NEXT: s_and_b32 s15, s1, 15
; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX8-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX8-NEXT: v_mov_b32_e32 v4, s15		; GFX8-NEXT: v_mov_b32_e32 v4, s15
; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX8-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX8-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX8-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX8-NEXT: v_mov_b32_e32 v3, s9		; GFX8-NEXT: v_mov_b32_e32 v3, s9
; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX8-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX8-NEXT: v_and_b32_e32 v2, 15, v2		; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
; GFX8-NEXT: flat_store_byte v[0:1], v2		; GFX8-NEXT: flat_store_byte v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udot8_acc4_vecMul:		; GFX9-LABEL: udot8_acc4_vecMul:
; GFX9: ; %bb.0: ; %entry		; GFX9: ; %bb.0: ; %entry
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: v_mov_b32_e32 v0, s2
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s8, s0, 15		; GFX9-NEXT: s_and_b32 s8, s0, 15
; GFX9-NEXT: s_and_b32 s15, s1, 15		; GFX9-NEXT: s_and_b32 s15, s1, 15
; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-NEXT: v_mov_b32_e32 v4, s15		; GFX9-NEXT: v_mov_b32_e32 v4, s15
; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-NEXT: s_bfe_u32 s12, s1, 0x40010
Show All 27 Lines
; GFX9-NEXT: v_mov_b32_e32 v3, s9		; GFX9-NEXT: v_mov_b32_e32 v3, s9
; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2		; GFX9-NEXT: v_mad_u32_u24 v2, s2, v3, v2
; GFX9-NEXT: v_and_b32_e32 v2, 15, v2		; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
; GFX9-NEXT: global_store_byte v[0:1], v2, off		; GFX9-NEXT: global_store_byte v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot8_acc4_vecMul:		; GFX9-DL-LABEL: udot8_acc4_vecMul:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1		; GFX9-DL-NEXT: v_mov_b32_e32 v1, s3
; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off		; GFX9-DL-NEXT: global_load_ubyte v2, v[0:1], off
; GFX9-DL-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: s_load_dword s0, s[0:1], 0x0
		; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: s_and_b32 s8, s0, 15		; GFX9-DL-NEXT: s_and_b32 s8, s0, 15
; GFX9-DL-NEXT: s_and_b32 s15, s1, 15		; GFX9-DL-NEXT: s_and_b32 s15, s1, 15
; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004		; GFX9-DL-NEXT: s_bfe_u32 s14, s1, 0x40004
; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15		; GFX9-DL-NEXT: v_mov_b32_e32 v4, s15
; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018		; GFX9-DL-NEXT: s_bfe_u32 s10, s1, 0x40018
; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014		; GFX9-DL-NEXT: s_bfe_u32 s11, s1, 0x40014
; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010		; GFX9-DL-NEXT: s_bfe_u32 s12, s1, 0x40010
▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

	Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}byte8_inselt:			; GCN-LABEL: {{^}}byte8_inselt:
	; GCN-NOT: v_movrel			; GCN-NOT: v_movrel
	; GCN-NOT: buffer_			; GCN-NOT: buffer_
	; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3			; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3
	; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]			; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]
	; GCN: s_mov_b32 [[K:s[0-9]+]], 0x1010101			; GCN: s_mov_b32 [[K:s[0-9]+]], 0x1010101
	; GCN: s_and_b32 s3, s1, [[K]]			; GCN: s_and_b32 s{{[0-9]+}}, s1, [[K]]
	; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[K]]			; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[K]]
	; GCN: s_andn2_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]			; GCN: s_andn2_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
	; GCN: s_or_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]			; GCN: s_or_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
	define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {			define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {
	entry:			entry:
	%v = insertelement <8 x i8> %vec, i8 1, i32 %sel			%v = insertelement <8 x i8> %vec, i8 1, i32 %sel
	store <8 x i8> %v, <8 x i8> addrspace(1)* %out			store <8 x i8> %v, <8 x i8> addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

Show First 20 Lines • Show All 1,611 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
%vecins = insertelement <4 x double> %a, double 8.0, i32 %b		%vecins = insertelement <4 x double> %a, double 8.0, i32 %b
store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {		define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {
; SI-LABEL: dynamic_insertelement_v8f64:		; SI-LABEL: dynamic_insertelement_v8f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0		; SI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x10
; SI-NEXT: s_load_dwordx16 s[12:27], s[4:5], 0x10		; SI-NEXT: s_load_dword s6, s[4:5], 0x20
; SI-NEXT: s_load_dword s4, s[4:5], 0x20
; SI-NEXT: s_add_u32 s0, s0, s7		; SI-NEXT: s_add_u32 s0, s0, s7
; SI-NEXT: s_addc_u32 s1, s1, 0		; SI-NEXT: s_addc_u32 s1, s1, 0
; SI-NEXT: v_mov_b32_e32 v16, 64		; SI-NEXT: v_mov_b32_e32 v16, 64
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_mov_b32_e32 v0, s12		; SI-NEXT: v_mov_b32_e32 v0, s8
; SI-NEXT: s_and_b32 s4, s4, 7		; SI-NEXT: s_and_b32 s6, s6, 7
; SI-NEXT: s_lshl_b32 s4, s4, 3		; SI-NEXT: s_lshl_b32 s6, s6, 3
; SI-NEXT: v_mov_b32_e32 v1, s13		; SI-NEXT: v_mov_b32_e32 v1, s9
; SI-NEXT: v_mov_b32_e32 v12, s24		; SI-NEXT: v_mov_b32_e32 v12, s20
; SI-NEXT: v_mov_b32_e32 v13, s25		; SI-NEXT: v_mov_b32_e32 v13, s21
; SI-NEXT: v_mov_b32_e32 v14, s26		; SI-NEXT: v_mov_b32_e32 v14, s22
; SI-NEXT: v_mov_b32_e32 v15, s27		; SI-NEXT: v_mov_b32_e32 v15, s23
; SI-NEXT: v_mov_b32_e32 v2, s14		; SI-NEXT: v_or_b32_e32 v16, s6, v16
; SI-NEXT: v_mov_b32_e32 v3, s15		; SI-NEXT: v_mov_b32_e32 v2, s10
; SI-NEXT: v_mov_b32_e32 v4, s16		; SI-NEXT: v_mov_b32_e32 v3, s11
; SI-NEXT: v_mov_b32_e32 v5, s17		; SI-NEXT: v_mov_b32_e32 v4, s12
; SI-NEXT: v_mov_b32_e32 v6, s18		; SI-NEXT: v_mov_b32_e32 v5, s13
; SI-NEXT: v_mov_b32_e32 v7, s19		; SI-NEXT: v_mov_b32_e32 v6, s14
; SI-NEXT: v_mov_b32_e32 v8, s20		; SI-NEXT: v_mov_b32_e32 v7, s15
; SI-NEXT: v_mov_b32_e32 v9, s21		; SI-NEXT: v_mov_b32_e32 v8, s16
; SI-NEXT: v_mov_b32_e32 v10, s22		; SI-NEXT: v_mov_b32_e32 v9, s17
; SI-NEXT: v_mov_b32_e32 v11, s23		; SI-NEXT: v_mov_b32_e32 v10, s18
		; SI-NEXT: v_mov_b32_e32 v11, s19
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:112		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:112
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:96		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:96
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
; SI-NEXT: v_or_b32_e32 v16, s4, v16		; SI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; SI-NEXT: v_mov_b32_e32 v0, 0		; SI-NEXT: v_mov_b32_e32 v0, 0
; SI-NEXT: v_mov_b32_e32 v1, 0x40200000		; SI-NEXT: v_mov_b32_e32 v1, 0x40200000
; SI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], 0 offen		; SI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], 0 offen
; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0 offset:64		; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0 offset:64
; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], 0 offset:96		; SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], 0 offset:96
; SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], 0 offset:112		; SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], 0 offset:112
; SI-NEXT: s_mov_b32 s11, 0x100f000		; SI-NEXT: s_mov_b32 s7, 0x100f000
; SI-NEXT: s_mov_b32 s10, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[8:11], 0 offset:48		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:48
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[8:11], 0 offset:32		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:32
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: dynamic_insertelement_v8f64:		; VI-LABEL: dynamic_insertelement_v8f64:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0		; VI-NEXT: s_load_dword s6, s[4:5], 0x80
; VI-NEXT: s_load_dwordx16 s[12:27], s[4:5], 0x40		; VI-NEXT: s_load_dwordx16 s[8:23], s[4:5], 0x40
; VI-NEXT: s_load_dword s4, s[4:5], 0x80
; VI-NEXT: s_add_u32 s0, s0, s7		; VI-NEXT: s_add_u32 s0, s0, s7
; VI-NEXT: s_addc_u32 s1, s1, 0		; VI-NEXT: s_addc_u32 s1, s1, 0
; VI-NEXT: v_mov_b32_e32 v16, 64		; VI-NEXT: v_mov_b32_e32 v16, 64
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s12		; VI-NEXT: s_and_b32 s6, s6, 7
; VI-NEXT: s_and_b32 s4, s4, 7		; VI-NEXT: s_lshl_b32 s6, s6, 3
; VI-NEXT: s_lshl_b32 s4, s4, 3		; VI-NEXT: v_mov_b32_e32 v0, s8
; VI-NEXT: v_mov_b32_e32 v1, s13		; VI-NEXT: v_mov_b32_e32 v1, s9
; VI-NEXT: v_mov_b32_e32 v12, s24		; VI-NEXT: v_mov_b32_e32 v12, s20
; VI-NEXT: v_mov_b32_e32 v13, s25		; VI-NEXT: v_mov_b32_e32 v13, s21
; VI-NEXT: v_mov_b32_e32 v14, s26		; VI-NEXT: v_mov_b32_e32 v14, s22
; VI-NEXT: v_mov_b32_e32 v15, s27		; VI-NEXT: v_mov_b32_e32 v15, s23
; VI-NEXT: v_mov_b32_e32 v2, s14		; VI-NEXT: v_or_b32_e32 v16, s6, v16
; VI-NEXT: v_mov_b32_e32 v3, s15		; VI-NEXT: v_mov_b32_e32 v2, s10
; VI-NEXT: v_mov_b32_e32 v4, s16		; VI-NEXT: v_mov_b32_e32 v3, s11
; VI-NEXT: v_mov_b32_e32 v5, s17		; VI-NEXT: v_mov_b32_e32 v4, s12
; VI-NEXT: v_mov_b32_e32 v6, s18		; VI-NEXT: v_mov_b32_e32 v5, s13
; VI-NEXT: v_mov_b32_e32 v7, s19		; VI-NEXT: v_mov_b32_e32 v6, s14
; VI-NEXT: v_mov_b32_e32 v8, s20		; VI-NEXT: v_mov_b32_e32 v7, s15
; VI-NEXT: v_mov_b32_e32 v9, s21		; VI-NEXT: v_mov_b32_e32 v8, s16
; VI-NEXT: v_mov_b32_e32 v10, s22		; VI-NEXT: v_mov_b32_e32 v9, s17
; VI-NEXT: v_mov_b32_e32 v11, s23		; VI-NEXT: v_mov_b32_e32 v10, s18
		; VI-NEXT: v_mov_b32_e32 v11, s19
; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:112		; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:112
; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:96		; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:96
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
; VI-NEXT: v_or_b32_e32 v16, s4, v16		; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
; VI-NEXT: v_mov_b32_e32 v0, 0		; VI-NEXT: v_mov_b32_e32 v0, 0
; VI-NEXT: v_mov_b32_e32 v1, 0x40200000		; VI-NEXT: v_mov_b32_e32 v1, 0x40200000
; VI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], 0 offen		; VI-NEXT: buffer_store_dwordx2 v[0:1], v16, s[0:3], 0 offen
; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0 offset:64		; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0 offset:64
; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], 0 offset:96		; VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[0:3], 0 offset:96
; VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], 0 offset:112		; VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[0:3], 0 offset:112
; VI-NEXT: s_mov_b32 s11, 0x1100f000		; VI-NEXT: s_mov_b32 s7, 0x1100f000
; VI-NEXT: s_mov_b32 s10, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt vmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[8:11], 0 offset:48		; VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:48
; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[8:11], 0 offset:32		; VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:32
; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%vecins = insertelement <8 x double> %a, double 8.0, i32 %b		%vecins = insertelement <8 x double> %a, double 8.0, i32 %b
store <8 x double> %vecins, <8 x double> addrspace(1)* %out, align 16		store <8 x double> %vecins, <8 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

declare <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1		declare <4 x float> @llvm.amdgcn.image.gather4.lz.2d.v4f32.f32(i32, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
; VI-NEXT: ;;#ASMSTART		; VI-NEXT: ;;#ASMSTART
; VI-NEXT: ; use s2		; VI-NEXT: ; use s2
; VI-NEXT: ;;#ASMEND		; VI-NEXT: ;;#ASMEND
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:		; CI-LABEL: s_insertelement_v2i16_0_multi_use_hi_reg:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dword s4, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: v_mov_b32_e32 v0, s0
; CI-NEXT: s_load_dword s0, s[2:3], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: v_mov_b32_e32 v1, s1
; CI-NEXT: s_and_b32 s1, s4, 0xffff		; CI-NEXT: s_load_dword s0, s[2:3], 0x0
		; CI-NEXT: s_load_dword s1, s[4:5], 0xc
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshr_b32 s0, s0, 16		; CI-NEXT: s_lshr_b32 s0, s0, 16
		; CI-NEXT: s_and_b32 s1, s1, 0xffff
; CI-NEXT: s_lshl_b32 s2, s0, 16		; CI-NEXT: s_lshl_b32 s2, s0, 16
; CI-NEXT: s_or_b32 s1, s1, s2		; CI-NEXT: s_or_b32 s1, s1, s2
; CI-NEXT: v_mov_b32_e32 v2, s1		; CI-NEXT: v_mov_b32_e32 v2, s1
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: ;;#ASMSTART		; CI-NEXT: ;;#ASMSTART
; CI-NEXT: ; use s0		; CI-NEXT: ; use s0
; CI-NEXT: ;;#ASMEND		; CI-NEXT: ;;#ASMEND
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
▲ Show 20 Lines • Show All 947 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; FIXME: Enable for others when argument load not split		; FIXME: Enable for others when argument load not split
define amdgpu_kernel void @s_insertelement_v2i16_dynamic(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(4)* %idx.ptr) #0 {		define amdgpu_kernel void @s_insertelement_v2i16_dynamic(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(4)* %vec.ptr, i32 addrspace(4)* %idx.ptr) #0 {
; GFX9-LABEL: s_insertelement_v2i16_dynamic:		; GFX9-LABEL: s_insertelement_v2i16_dynamic:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX9-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; GFX9-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s0		; GFX9-NEXT: s_load_dword s0, s[0:1], 0x0
; GFX9-NEXT: v_mov_b32_e32 v1, s1		; GFX9-NEXT: s_load_dword s1, s[6:7], 0x0
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0		; GFX9-NEXT: v_mov_b32_e32 v0, s4
; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0		; GFX9-NEXT: v_mov_b32_e32 v1, s5
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshl_b32 s0, s0, 4		; GFX9-NEXT: s_lshl_b32 s0, s0, 4
; GFX9-NEXT: s_lshl_b32 s0, 0xffff, s0		; GFX9-NEXT: s_lshl_b32 s0, 0xffff, s0
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_bfi_b32 v2, s0, v2, v3		; GFX9-NEXT: v_bfi_b32 v2, s0, v2, v3
; GFX9-NEXT: global_store_dword v[0:1], v2, off		; GFX9-NEXT: global_store_dword v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: s_insertelement_v2i16_dynamic:		; VI-LABEL: s_insertelement_v2i16_dynamic:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x10		; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; VI-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; VI-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: s_load_dword s0, s[0:1], 0x0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: s_load_dword s1, s[6:7], 0x0
; VI-NEXT: s_load_dword s0, s[4:5], 0x0		; VI-NEXT: v_mov_b32_e32 v0, s4
; VI-NEXT: s_load_dword s1, s[2:3], 0x0		; VI-NEXT: v_mov_b32_e32 v1, s5
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_lshl_b32 s0, s0, 4		; VI-NEXT: s_lshl_b32 s0, s0, 4
; VI-NEXT: s_lshl_b32 s0, 0xffff, s0		; VI-NEXT: s_lshl_b32 s0, 0xffff, s0
; VI-NEXT: v_mov_b32_e32 v3, s1		; VI-NEXT: v_mov_b32_e32 v3, s1
; VI-NEXT: v_bfi_b32 v2, s0, v2, v3		; VI-NEXT: v_bfi_b32 v2, s0, v2, v3
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: s_insertelement_v2i16_dynamic:		; CI-LABEL: s_insertelement_v2i16_dynamic:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x4
; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x4		; CI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; CI-NEXT: v_mov_b32_e32 v2, 0x3e703e7		; CI-NEXT: v_mov_b32_e32 v2, 0x3e703e7
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_mov_b32_e32 v0, s0		; CI-NEXT: s_load_dword s0, s[0:1], 0x0
; CI-NEXT: v_mov_b32_e32 v1, s1		; CI-NEXT: s_load_dword s1, s[6:7], 0x0
; CI-NEXT: s_load_dword s0, s[4:5], 0x0		; CI-NEXT: v_mov_b32_e32 v0, s4
; CI-NEXT: s_load_dword s1, s[2:3], 0x0		; CI-NEXT: v_mov_b32_e32 v1, s5
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: s_lshl_b32 s0, s0, 4		; CI-NEXT: s_lshl_b32 s0, s0, 4
; CI-NEXT: s_lshl_b32 s0, 0xffff, s0		; CI-NEXT: s_lshl_b32 s0, 0xffff, s0
; CI-NEXT: v_mov_b32_e32 v3, s1		; CI-NEXT: v_mov_b32_e32 v3, s1
; CI-NEXT: v_bfi_b32 v2, s0, v2, v3		; CI-NEXT: v_bfi_b32 v2, s0, v2, v3
; CI-NEXT: flat_store_dword v[0:1], v2		; CI-NEXT: flat_store_dword v[0:1], v2
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%idx = load volatile i32, i32 addrspace(4)* %idx.ptr		%idx = load volatile i32, i32 addrspace(4)* %idx.ptr
▲ Show 20 Lines • Show All 521 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
ret void		ret void
}		}

; FIXME: Better code on CI?		; FIXME: Better code on CI?
define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {
; GFX9-LABEL: v_insertelement_v4i16_dynamic_vgpr:		; GFX9-LABEL: v_insertelement_v4i16_dynamic_vgpr:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s4, s[4:5], 0x10
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v2		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v2
		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
		; GFX9-NEXT: s_load_dword s2, s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v3, s1		; GFX9-NEXT: v_mov_b32_e32 v3, s1
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2
; GFX9-NEXT: s_mov_b32 s1, 0		; GFX9-NEXT: s_mov_b32 s1, 0
; GFX9-NEXT: s_mov_b32 s0, 0xffff		; GFX9-NEXT: s_mov_b32 s0, 0xffff
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v4
; GFX9-NEXT: v_lshlrev_b64 v[4:5], v4, s[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[4:5], v4, s[0:1]
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s4, s4		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_pack_ll_b32_b16 s0, s2, s2
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_bfi_b32 v1, v5, s0, v1		; GFX9-NEXT: v_bfi_b32 v1, v5, s0, v1
; GFX9-NEXT: v_bfi_b32 v0, v4, s0, v0		; GFX9-NEXT: v_bfi_b32 v0, v4, s0, v0
; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off		; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4i16_dynamic_vgpr:		; VI-LABEL: v_insertelement_v4i16_dynamic_vgpr:
; VI: ; %bb.0:		; VI: ; %bb.0:
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_bfi_b32 v1, s1, v5, v1		; GFX9-NEXT: v_bfi_b32 v1, s1, v5, v1
; GFX9-NEXT: v_bfi_b32 v0, s0, v4, v0		; GFX9-NEXT: v_bfi_b32 v0, s0, v4, v0
; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off		; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_insertelement_v4f16_dynamic_sgpr:		; VI-LABEL: v_insertelement_v4f16_dynamic_sgpr:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x10
; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
; VI-NEXT: v_mov_b32_e32 v1, s3		; VI-NEXT: v_mov_b32_e32 v1, s3
		; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
		; VI-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x10
; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2		; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
; VI-NEXT: s_mov_b32 s0, 0xffff		; VI-NEXT: s_mov_b32 s0, 0xffff
; VI-NEXT: v_mov_b32_e32 v3, s1		; VI-NEXT: v_mov_b32_e32 v3, s1
; VI-NEXT: s_mov_b32 s1, 0		; VI-NEXT: s_mov_b32 s1, 0
; VI-NEXT: s_lshl_b32 s2, s5, 4		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_and_b32 s3, s4, s0		; VI-NEXT: s_lshl_b32 s3, s3, 4
; VI-NEXT: s_lshl_b64 s[0:1], s[0:1], s2		; VI-NEXT: s_and_b32 s2, s2, s0
; VI-NEXT: s_lshl_b32 s2, s3, 16		; VI-NEXT: s_lshl_b64 s[0:1], s[0:1], s3
; VI-NEXT: s_or_b32 s2, s3, s2		; VI-NEXT: s_lshl_b32 s3, s2, 16
		; VI-NEXT: s_or_b32 s2, s2, s3
; VI-NEXT: v_mov_b32_e32 v4, s2		; VI-NEXT: v_mov_b32_e32 v4, s2
; VI-NEXT: v_mov_b32_e32 v5, s2		; VI-NEXT: v_mov_b32_e32 v5, s2
; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc		; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0)
; VI-NEXT: v_bfi_b32 v1, s1, v4, v1		; VI-NEXT: v_bfi_b32 v1, s1, v4, v1
; VI-NEXT: v_bfi_b32 v0, s0, v5, v0		; VI-NEXT: v_bfi_b32 v0, s0, v5, v0
; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; CI-LABEL: v_insertelement_v4f16_dynamic_sgpr:		; CI-LABEL: v_insertelement_v4f16_dynamic_sgpr:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; CI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x4
; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0		; CI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_mov_b32_e32 v1, s3		; CI-NEXT: v_mov_b32_e32 v1, s3
; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2		; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]		; CI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
		; CI-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x4
; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2		; CI-NEXT: v_add_i32_e32 v2, vcc, s0, v2
; CI-NEXT: s_mov_b32 s0, 0xffff		; CI-NEXT: s_mov_b32 s0, 0xffff
; CI-NEXT: s_and_b32 s2, s4, s0
; CI-NEXT: s_lshl_b32 s4, s4, 16
; CI-NEXT: v_mov_b32_e32 v3, s1		; CI-NEXT: v_mov_b32_e32 v3, s1
; CI-NEXT: s_or_b32 s2, s2, s4
; CI-NEXT: s_mov_b32 s1, 0		; CI-NEXT: s_mov_b32 s1, 0
; CI-NEXT: s_lshl_b32 s3, s5, 4		; CI-NEXT: s_waitcnt lgkmcnt(0)
		; CI-NEXT: s_and_b32 s4, s2, s0
		; CI-NEXT: s_lshl_b32 s2, s2, 16
		; CI-NEXT: s_or_b32 s2, s4, s2
		; CI-NEXT: s_lshl_b32 s3, s3, 4
; CI-NEXT: s_lshl_b64 s[0:1], s[0:1], s3		; CI-NEXT: s_lshl_b64 s[0:1], s[0:1], s3
; CI-NEXT: v_mov_b32_e32 v4, s2		; CI-NEXT: v_mov_b32_e32 v4, s2
; CI-NEXT: v_mov_b32_e32 v5, s2		; CI-NEXT: v_mov_b32_e32 v5, s2
; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc		; CI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; CI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; CI-NEXT: s_waitcnt vmcnt(0)
; CI-NEXT: v_bfi_b32 v1, s1, v4, v1		; CI-NEXT: v_bfi_b32 v1, s1, v4, v1
; CI-NEXT: v_bfi_b32 v0, s0, v5, v0		; CI-NEXT: v_bfi_b32 v0, s0, v5, v0
; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; CI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x half>, <4 x half> addrspace(1)* %out, i64 %tid.ext
Show All 12 Lines

llvm/test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines	entry:
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

define amdgpu_kernel void @maxnum_v2f16(		define amdgpu_kernel void @maxnum_v2f16(
; SI-LABEL: maxnum_v2f16:		; SI-LABEL: maxnum_v2f16:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_load_dword s6, s[6:7], 0x0		; SI-NEXT: s_load_dword s6, s[6:7], 0x0
; SI-NEXT: s_load_dword s0, s[0:1], 0x0		; SI-NEXT: s_load_dword s0, s[0:1], 0x0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_lshr_b32 s1, s6, 16		; SI-NEXT: s_lshr_b32 s1, s6, 16
		; SI-NEXT: v_cvt_f32_f16_e32 v3, s1
		; SI-NEXT: v_cvt_f32_f16_e32 v0, s6
		; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: v_cvt_f32_f16_e32 v1, s0		; SI-NEXT: v_cvt_f32_f16_e32 v1, s0
; SI-NEXT: s_lshr_b32 s0, s0, 16		; SI-NEXT: s_lshr_b32 s0, s0, 16
; SI-NEXT: v_cvt_f32_f16_e32 v2, s0		; SI-NEXT: v_cvt_f32_f16_e32 v2, s0
; SI-NEXT: v_cvt_f32_f16_e32 v3, s1
; SI-NEXT: v_cvt_f32_f16_e32 v0, s6
; SI-NEXT: v_mul_f32_e32 v1, 1.0, v1
; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3		; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3
		; SI-NEXT: v_mul_f32_e32 v1, 1.0, v1
; SI-NEXT: v_mul_f32_e32 v0, 1.0, v0		; SI-NEXT: v_mul_f32_e32 v0, 1.0, v0
		; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
; SI-NEXT: v_max_f32_e32 v2, v3, v2		; SI-NEXT: v_max_f32_e32 v2, v3, v2
; SI-NEXT: v_max_f32_e32 v0, v0, v1		; SI-NEXT: v_max_f32_e32 v0, v0, v1
; SI-NEXT: v_cvt_f16_f32_e32 v2, v2		; SI-NEXT: v_cvt_f16_f32_e32 v2, v2
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_mov_b32 s0, s4		; SI-NEXT: s_mov_b32 s0, s4
; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: maxnum_v2f16:		; VI-LABEL: maxnum_v2f16:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
▲ Show 20 Lines • Show All 485 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.minnum.f16.ll

Show First 20 Lines • Show All 254 Lines • ▼ Show 20 Lines	entry:
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

define amdgpu_kernel void @minnum_v2f16_ieee(		define amdgpu_kernel void @minnum_v2f16_ieee(
; SI-LABEL: minnum_v2f16_ieee:		; SI-LABEL: minnum_v2f16_ieee:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_load_dword s6, s[6:7], 0x0		; SI-NEXT: s_load_dword s6, s[6:7], 0x0
; SI-NEXT: s_load_dword s0, s[0:1], 0x0		; SI-NEXT: s_load_dword s0, s[0:1], 0x0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_lshr_b32 s1, s6, 16		; SI-NEXT: s_lshr_b32 s1, s6, 16
		; SI-NEXT: v_cvt_f32_f16_e32 v3, s1
		; SI-NEXT: v_cvt_f32_f16_e32 v0, s6
		; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: v_cvt_f32_f16_e32 v1, s0		; SI-NEXT: v_cvt_f32_f16_e32 v1, s0
; SI-NEXT: s_lshr_b32 s0, s0, 16		; SI-NEXT: s_lshr_b32 s0, s0, 16
; SI-NEXT: v_cvt_f32_f16_e32 v2, s0		; SI-NEXT: v_cvt_f32_f16_e32 v2, s0
; SI-NEXT: v_cvt_f32_f16_e32 v3, s1
; SI-NEXT: v_cvt_f32_f16_e32 v0, s6
; SI-NEXT: v_mul_f32_e32 v1, 1.0, v1
; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3		; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3
		; SI-NEXT: v_mul_f32_e32 v1, 1.0, v1
; SI-NEXT: v_mul_f32_e32 v0, 1.0, v0		; SI-NEXT: v_mul_f32_e32 v0, 1.0, v0
		; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
; SI-NEXT: v_min_f32_e32 v2, v3, v2		; SI-NEXT: v_min_f32_e32 v2, v3, v2
; SI-NEXT: v_min_f32_e32 v0, v0, v1		; SI-NEXT: v_min_f32_e32 v0, v0, v1
; SI-NEXT: v_cvt_f16_f32_e32 v2, v2		; SI-NEXT: v_cvt_f16_f32_e32 v2, v2
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_mov_b32 s0, s4		; SI-NEXT: s_mov_b32 s0, s4
; SI-NEXT: s_mov_b32 s1, s5
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0		; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: minnum_v2f16_ieee:		; VI-LABEL: minnum_v2f16_ieee:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
▲ Show 20 Lines • Show All 515 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

Show First 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%result = call double @llvm.round.f64(double %x) #1		%result = call double @llvm.round.f64(double %x) #1
store double %result, double addrspace(1)* %out.gep		store double %result, double addrspace(1)* %out.gep
ret void		ret void
}		}

define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {		define amdgpu_kernel void @round_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %in) #0 {
; SI-LABEL: round_v2f64:		; SI-LABEL: round_v2f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; SI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_movk_i32 s7, 0xfc01		; SI-NEXT: s_movk_i32 s7, 0xfc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014
; SI-NEXT: s_add_i32 s14, s0, s7		; SI-NEXT: s_add_i32 s14, s0, s7
		; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s14		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s14
; SI-NEXT: s_brev_b32 s15, 1		; SI-NEXT: s_brev_b32 s15, 1
; SI-NEXT: s_andn2_b64 s[12:13], s[10:11], s[0:1]		; SI-NEXT: s_andn2_b64 s[12:13], s[10:11], s[0:1]
; SI-NEXT: s_and_b32 s0, s11, s15		; SI-NEXT: s_and_b32 s0, s11, s15
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: v_mov_b32_e32 v0, s13		; SI-NEXT: v_mov_b32_e32 v0, s13
; SI-NEXT: v_cmp_lt_i32_e64 vcc, s14, 0		; SI-NEXT: v_cmp_lt_i32_e64 vcc, s14, 0
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	; CI-NEXT: s_endpgm
%result = call <2 x double> @llvm.round.v2f64(<2 x double> %in) #1		%result = call <2 x double> @llvm.round.v2f64(<2 x double> %in) #1
store <2 x double> %result, <2 x double> addrspace(1)* %out		store <2 x double> %result, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {		define amdgpu_kernel void @round_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) #0 {
; SI-LABEL: round_v4f64:		; SI-LABEL: round_v4f64:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0x11		; SI-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0x11
		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_movk_i32 s18, 0xfc01		; SI-NEXT: s_movk_i32 s18, 0xfc01
; SI-NEXT: s_mov_b32 s3, 0xfffff		; SI-NEXT: s_mov_b32 s3, 0xfffff
; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014		; SI-NEXT: s_bfe_u32 s0, s11, 0xb0014
; SI-NEXT: s_add_i32 s19, s0, s18		; SI-NEXT: s_add_i32 s19, s0, s18
		; SI-NEXT: s_mov_b32 s2, s6
; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s19		; SI-NEXT: s_lshr_b64 s[0:1], s[2:3], s19
; SI-NEXT: s_brev_b32 s20, 1		; SI-NEXT: s_brev_b32 s20, 1
; SI-NEXT: s_andn2_b64 s[16:17], s[10:11], s[0:1]		; SI-NEXT: s_andn2_b64 s[16:17], s[10:11], s[0:1]
; SI-NEXT: s_and_b32 s0, s11, s20		; SI-NEXT: s_and_b32 s0, s11, s20
; SI-NEXT: v_mov_b32_e32 v1, s0		; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: v_mov_b32_e32 v0, s17		; SI-NEXT: v_mov_b32_e32 v0, s17
; SI-NEXT: v_cmp_lt_i32_e64 vcc, s19, 0		; SI-NEXT: v_cmp_lt_i32_e64 vcc, s19, 0
; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; SI-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[8:9]		; SI-NEXT: v_add_f64 v[0:1], v[0:1], v[8:9]
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v4f64:		; CI-LABEL: round_v4f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; CI-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x11
; CI-NEXT: s_load_dwordx8 s[8:15], s[0:1], 0x11		; CI-NEXT: s_brev_b32 s12, -2
; CI-NEXT: s_brev_b32 s2, -2
; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v12, 0x3ff00000
; CI-NEXT: s_mov_b32 s7, 0xf000		; CI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; CI-NEXT: s_mov_b32 s6, -1		; CI-NEXT: s_mov_b32 s3, 0xf000
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_trunc_f64_e32 v[0:1], s[10:11]		; CI-NEXT: v_trunc_f64_e32 v[0:1], s[6:7]
; CI-NEXT: v_mov_b32_e32 v4, s11		; CI-NEXT: v_mov_b32_e32 v4, s7
; CI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]		; CI-NEXT: v_add_f64 v[2:3], s[6:7], -v[0:1]
; CI-NEXT: v_bfi_b32 v4, s2, v12, v4		; CI-NEXT: v_bfi_b32 v4, s12, v12, v4
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5
; CI-NEXT: v_trunc_f64_e32 v[8:9], s[8:9]		; CI-NEXT: v_trunc_f64_e32 v[8:9], s[4:5]
; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
; CI-NEXT: v_mov_b32_e32 v2, 0		; CI-NEXT: v_mov_b32_e32 v2, 0
; CI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]		; CI-NEXT: v_add_f64 v[2:3], v[0:1], v[2:3]
; CI-NEXT: v_add_f64 v[0:1], s[8:9], -v[8:9]		; CI-NEXT: v_add_f64 v[0:1], s[4:5], -v[8:9]
; CI-NEXT: v_mov_b32_e32 v4, s9		; CI-NEXT: v_mov_b32_e32 v4, s5
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[0:1]\|, 0.5
; CI-NEXT: v_bfi_b32 v4, s2, v12, v4		; CI-NEXT: v_bfi_b32 v4, s12, v12, v4
; CI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
; CI-NEXT: v_trunc_f64_e32 v[4:5], s[14:15]		; CI-NEXT: v_trunc_f64_e32 v[4:5], s[10:11]
; CI-NEXT: v_mov_b32_e32 v10, s15		; CI-NEXT: v_mov_b32_e32 v10, s11
; CI-NEXT: v_add_f64 v[6:7], s[14:15], -v[4:5]		; CI-NEXT: v_add_f64 v[6:7], s[10:11], -v[4:5]
; CI-NEXT: v_bfi_b32 v10, s2, v12, v10		; CI-NEXT: v_bfi_b32 v10, s12, v12, v10
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[6:7]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v6, 0		; CI-NEXT: v_mov_b32_e32 v6, 0
; CI-NEXT: v_cndmask_b32_e32 v7, 0, v10, vcc		; CI-NEXT: v_cndmask_b32_e32 v7, 0, v10, vcc
; CI-NEXT: v_trunc_f64_e32 v[10:11], s[12:13]		; CI-NEXT: v_trunc_f64_e32 v[10:11], s[8:9]
; CI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]		; CI-NEXT: v_add_f64 v[6:7], v[4:5], v[6:7]
; CI-NEXT: v_add_f64 v[4:5], s[12:13], -v[10:11]		; CI-NEXT: v_add_f64 v[4:5], s[8:9], -v[10:11]
; CI-NEXT: v_mov_b32_e32 v13, s13		; CI-NEXT: v_mov_b32_e32 v13, s9
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[4:5]\|, 0.5
; CI-NEXT: v_bfi_b32 v12, s2, v12, v13		; CI-NEXT: v_bfi_b32 v12, s12, v12, v13
; CI-NEXT: v_cndmask_b32_e32 v5, 0, v12, vcc		; CI-NEXT: v_cndmask_b32_e32 v5, 0, v12, vcc
; CI-NEXT: v_mov_b32_e32 v4, 0		; CI-NEXT: v_mov_b32_e32 v4, 0
; CI-NEXT: v_mov_b32_e32 v0, 0		; CI-NEXT: v_mov_b32_e32 v0, 0
; CI-NEXT: v_add_f64 v[4:5], v[10:11], v[4:5]		; CI-NEXT: v_add_f64 v[4:5], v[10:11], v[4:5]
		; CI-NEXT: s_mov_b32 s2, -1
; CI-NEXT: v_add_f64 v[0:1], v[8:9], v[0:1]		; CI-NEXT: v_add_f64 v[0:1], v[8:9], v[0:1]
; CI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; CI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
; CI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; CI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; CI-NEXT: s_endpgm		; CI-NEXT: s_endpgm
%result = call <4 x double> @llvm.round.v4f64(<4 x double> %in) #1		%result = call <4 x double> @llvm.round.v4f64(<4 x double> %in) #1
store <4 x double> %result, <4 x double> addrspace(1)* %out		store <4 x double> %result, <4 x double> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {		define amdgpu_kernel void @round_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %in) #0 {
; SI-LABEL: round_v8f64:		; SI-LABEL: round_v8f64:
▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48		; SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48
; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:32		; SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:32
; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; CI-LABEL: round_v8f64:		; CI-LABEL: round_v8f64:
; CI: ; %bb.0:		; CI: ; %bb.0:
; CI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; CI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19		; CI-NEXT: s_load_dwordx16 s[8:23], s[0:1], 0x19
; CI-NEXT: s_brev_b32 s2, -2		; CI-NEXT: s_brev_b32 s2, -2
; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000		; CI-NEXT: v_mov_b32_e32 v16, 0x3ff00000
		; CI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; CI-NEXT: s_mov_b32 s7, 0xf000		; CI-NEXT: s_mov_b32 s7, 0xf000
; CI-NEXT: s_mov_b32 s6, -1
; CI-NEXT: s_waitcnt lgkmcnt(0)		; CI-NEXT: s_waitcnt lgkmcnt(0)
; CI-NEXT: v_trunc_f64_e32 v[0:1], s[10:11]		; CI-NEXT: v_trunc_f64_e32 v[0:1], s[10:11]
; CI-NEXT: v_mov_b32_e32 v4, s11		; CI-NEXT: v_mov_b32_e32 v4, s11
; CI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]		; CI-NEXT: v_add_f64 v[2:3], s[10:11], -v[0:1]
; CI-NEXT: v_bfi_b32 v4, s2, v16, v4		; CI-NEXT: v_bfi_b32 v4, s2, v16, v4
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[2:3]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v2, 0		; CI-NEXT: v_mov_b32_e32 v2, 0
; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc		; CI-NEXT: v_cndmask_b32_e32 v3, 0, v4, vcc
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
; CI-NEXT: v_mov_b32_e32 v14, 0		; CI-NEXT: v_mov_b32_e32 v14, 0
; CI-NEXT: v_mov_b32_e32 v17, s17		; CI-NEXT: v_mov_b32_e32 v17, s17
; CI-NEXT: v_add_f64 v[8:9], v[8:9], v[14:15]		; CI-NEXT: v_add_f64 v[8:9], v[8:9], v[14:15]
; CI-NEXT: v_add_f64 v[14:15], s[16:17], -v[12:13]		; CI-NEXT: v_add_f64 v[14:15], s[16:17], -v[12:13]
; CI-NEXT: v_bfi_b32 v19, s2, v16, v17		; CI-NEXT: v_bfi_b32 v19, s2, v16, v17
; CI-NEXT: v_trunc_f64_e32 v[16:17], s[18:19]		; CI-NEXT: v_trunc_f64_e32 v[16:17], s[18:19]
; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[14:15]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 vcc, \|v[14:15]\|, 0.5
; CI-NEXT: v_add_f64 v[14:15], s[18:19], -v[16:17]		; CI-NEXT: v_add_f64 v[14:15], s[18:19], -v[16:17]
		; CI-NEXT: s_mov_b32 s6, -1
; CI-NEXT: v_cmp_ge_f64_e64 s[0:1], \|v[14:15]\|, 0.5		; CI-NEXT: v_cmp_ge_f64_e64 s[0:1], \|v[14:15]\|, 0.5
; CI-NEXT: v_mov_b32_e32 v14, 0		; CI-NEXT: v_mov_b32_e32 v14, 0
; CI-NEXT: v_cndmask_b32_e64 v15, 0, v18, s[0:1]		; CI-NEXT: v_cndmask_b32_e64 v15, 0, v18, s[0:1]
; CI-NEXT: v_add_f64 v[14:15], v[16:17], v[14:15]		; CI-NEXT: v_add_f64 v[14:15], v[16:17], v[14:15]
; CI-NEXT: v_cndmask_b32_e32 v17, 0, v19, vcc		; CI-NEXT: v_cndmask_b32_e32 v17, 0, v19, vcc
; CI-NEXT: v_mov_b32_e32 v16, 0		; CI-NEXT: v_mov_b32_e32 v16, 0
; CI-NEXT: v_add_f64 v[12:13], v[12:13], v[16:17]		; CI-NEXT: v_add_f64 v[12:13], v[12:13], v[16:17]
; CI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48		; CI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48
Show All 18 Lines

llvm/test/CodeGen/AMDGPU/madak.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6,GFX6_8_9,MAD %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6,GFX6_8_9,MAD %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX9,GFX6_8_9,GFX8_9,GFX8_9_10,MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,GFX10-MAD %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,GFX10-MAD %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -fp-contract=fast -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,FMA %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -fp-contract=fast -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -check-prefixes=GCN,GFX10,GFX8_9_10,FMA %s

	declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	declare float @llvm.fabs.f32(float) nounwind readnone			declare float @llvm.fabs.f32(float) nounwind readnone

	; GCN-LABEL: {{^}}madak_f32:			; GCN-LABEL: {{^}}madak_f32:
	; GFX6: buffer_load_dword [[VA:v[0-9]+]]			; GFX6: buffer_load_dword [[VA:v[0-9]+]]
	; GFX6: buffer_load_dword [[VB:v[0-9]+]]			; GFX6: buffer_load_dword [[VB:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX8_9_10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX8_9_10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	; GFX10-MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; GFX10-MAD: v_madak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	; FMA: v_fmaak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000			; FMA: v_fmaak_f32 {{v[0-9]+}}, [[VA]], [[VB]], 0x41200000
	define amdgpu_kernel void @madak_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {			define amdgpu_kernel void @madak_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid			%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
	%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid			%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
	%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid			%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	}			}

	; Make sure nothing weird happens with a value that is also allowed as			; Make sure nothing weird happens with a value that is also allowed as
	; an inline immediate.			; an inline immediate.

	; GCN-LABEL: {{^}}madak_inline_imm_f32:			; GCN-LABEL: {{^}}madak_inline_imm_f32:
	; GFX6: buffer_load_dword [[VA:v[0-9]+]]			; GFX6: buffer_load_dword [[VA:v[0-9]+]]
	; GFX6: buffer_load_dword [[VB:v[0-9]+]]			; GFX6: buffer_load_dword [[VB:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VA:v[0-9]+]]			; GFX8_9_10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX8: {{flat\|global}}_load_dword [[VB:v[0-9]+]]			; GFX8_9_10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX9: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VA:v[0-9]+]]
	; GFX10: {{flat\|global}}_load_dword [[VB:v[0-9]+]]
	; MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	; GFX10-MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; GFX10-MAD: v_mad_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	; FMA: v_fma_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0			; FMA: v_fma_f32 {{v[0-9]+}}, [[VA]], [[VB]], 4.0
	define amdgpu_kernel void @madak_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {			define amdgpu_kernel void @madak_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid			%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
	%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid			%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
	%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid			%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory_clause.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v8, s8			; GCN-NEXT: v_mov_b32_e32 v8, s8
	; GCN-NEXT: v_mov_b32_e32 v13, s19			; GCN-NEXT: v_mov_b32_e32 v13, s19
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_mov_b32_e32 v2, s2			; GCN-NEXT: v_mov_b32_e32 v2, s2
	; GCN-NEXT: v_mov_b32_e32 v3, s3			; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: v_mov_b32_e32 v5, s5			; GCN-NEXT: v_mov_b32_e32 v5, s5
	; GCN-NEXT: v_mov_b32_e32 v6, s6			; GCN-NEXT: v_mov_b32_e32 v6, s6
	; GCN-NEXT: v_mov_b32_e32 v7, s7			; GCN-NEXT: v_mov_b32_e32 v7, s7
				; GCN-NEXT: v_mov_b32_e32 v9, s9
				; GCN-NEXT: v_mov_b32_e32 v10, s10
				; GCN-NEXT: v_mov_b32_e32 v11, s11
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off			; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16			; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16
				; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
	; GCN-NEXT: v_mov_b32_e32 v0, s12			; GCN-NEXT: v_mov_b32_e32 v0, s12
	; GCN-NEXT: v_mov_b32_e32 v9, s9
	; GCN-NEXT: v_mov_b32_e32 v10, s10
	; GCN-NEXT: v_mov_b32_e32 v11, s11
	; GCN-NEXT: v_mov_b32_e32 v1, s13			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: v_mov_b32_e32 v2, s14			; GCN-NEXT: v_mov_b32_e32 v2, s14
	; GCN-NEXT: v_mov_b32_e32 v3, s15			; GCN-NEXT: v_mov_b32_e32 v3, s15
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48			; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	bb:			bb:
	%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16			%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16
	%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1			%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1
	%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16			%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16
	%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1			%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1
	%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2			%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2
	Show All 14 Lines
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_and_b32_e32 v2, 0x3ff, v2			; GCN-NEXT: v_and_b32_e32 v2, 0x3ff, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v2, 4, v2			; GCN-NEXT: v_lshlrev_b32_e32 v2, 4, v2
	; GCN-NEXT: v_add_u32_e32 v0, v0, v2			; GCN-NEXT: v_add_u32_e32 v0, v0, v2
	; GCN-NEXT: v_add_u32_e32 v1, v1, v2			; GCN-NEXT: v_add_u32_e32 v1, v1, v2
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
				; GCN-NEXT: buffer_load_dword v5, v0, s[0:3], 0 offen offset:16
	; GCN-NEXT: buffer_load_dword v6, v0, s[0:3], 0 offen offset:20			; GCN-NEXT: buffer_load_dword v6, v0, s[0:3], 0 offen offset:20
	; GCN-NEXT: buffer_load_dword v7, v0, s[0:3], 0 offen offset:24			; GCN-NEXT: buffer_load_dword v7, v0, s[0:3], 0 offen offset:24
	; GCN-NEXT: buffer_load_dword v8, v0, s[0:3], 0 offen offset:28			; GCN-NEXT: buffer_load_dword v8, v0, s[0:3], 0 offen offset:28
	; GCN-NEXT: buffer_load_dword v9, v0, s[0:3], 0 offen offset:32			; GCN-NEXT: buffer_load_dword v9, v0, s[0:3], 0 offen offset:32
	; GCN-NEXT: buffer_load_dword v10, v0, s[0:3], 0 offen offset:36			; GCN-NEXT: buffer_load_dword v10, v0, s[0:3], 0 offen offset:36
	; GCN-NEXT: buffer_load_dword v11, v0, s[0:3], 0 offen offset:40			; GCN-NEXT: buffer_load_dword v11, v0, s[0:3], 0 offen offset:40
	; GCN-NEXT: buffer_load_dword v12, v0, s[0:3], 0 offen offset:44			; GCN-NEXT: buffer_load_dword v12, v0, s[0:3], 0 offen offset:44
	; GCN-NEXT: buffer_load_dword v13, v0, s[0:3], 0 offen offset:48			; GCN-NEXT: buffer_load_dword v13, v0, s[0:3], 0 offen offset:48
	; GCN-NEXT: buffer_load_dword v14, v0, s[0:3], 0 offen offset:52			; GCN-NEXT: buffer_load_dword v14, v0, s[0:3], 0 offen offset:52
	; GCN-NEXT: buffer_load_dword v15, v0, s[0:3], 0 offen offset:56			; GCN-NEXT: buffer_load_dword v15, v0, s[0:3], 0 offen offset:56
	; GCN-NEXT: buffer_load_dword v16, v0, s[0:3], 0 offen offset:60			; GCN-NEXT: buffer_load_dword v16, v0, s[0:3], 0 offen offset:60
	; GCN-NEXT: buffer_load_dword v2, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v2, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v3, v0, s[0:3], 0 offen offset:4			; GCN-NEXT: buffer_load_dword v3, v0, s[0:3], 0 offen offset:4
	; GCN-NEXT: buffer_load_dword v4, v0, s[0:3], 0 offen offset:8			; GCN-NEXT: buffer_load_dword v4, v0, s[0:3], 0 offen offset:8
	; GCN-NEXT: buffer_load_dword v5, v0, s[0:3], 0 offen offset:12
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen offset:16			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen offset:12
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: s_waitcnt vmcnt(3)
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: s_waitcnt vmcnt(3)
	; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen offset:4			; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen offset:4
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: s_waitcnt vmcnt(3)
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen offset:8			; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen offset:8
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: s_waitcnt vmcnt(3)
	; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen offset:12			; GCN-NEXT: buffer_store_dword v0, v1, s[0:3], 0 offen offset:12
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen offset:16
	; GCN-NEXT: buffer_store_dword v0, v1, s[0:3], 0 offen offset:16
	; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen offset:20			; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen offset:20
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen offset:24			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen offset:24
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen offset:28			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen offset:28
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen offset:32			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen offset:32
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen offset:36			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen offset:36
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen offset:40			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen offset:40
	; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen offset:44			; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen offset:44
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen offset:48			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen offset:48
	Show All 32 Lines
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_load_dwordx2 v[8:9], v[0:1], s[2:3]			; GCN-NEXT: global_load_dwordx2 v[8:9], v[0:1], s[2:3]
				; GCN-NEXT: v_mov_b32_e32 v11, s5
				; GCN-NEXT: v_mov_b32_e32 v10, s4
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off
	; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16			; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16
	; GCN-NEXT: v_mov_b32_e32 v9, s5			; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off
	; GCN-NEXT: v_mov_b32_e32 v8, s4
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_nop 0			; GCN-NEXT: s_nop 0
	; GCN-NEXT: global_store_dwordx4 v[8:9], v[0:3], off			; GCN-NEXT: global_store_dwordx4 v[10:11], v[0:3], off
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: global_store_dwordx4 v[10:11], v[4:7], off offset:16
	; GCN-NEXT: global_store_dwordx4 v[8:9], v[4:7], off offset:16
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	bb:			bb:
	%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()			%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
	%tmp3 = zext i32 %tmp to i64			%tmp3 = zext i32 %tmp to i64
	%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 %tmp3			%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 %tmp3
	%tmp5 = bitcast i64 addrspace(1)* %tmp4 to <4 x i32> addrspace(1)* addrspace(1)*			%tmp5 = bitcast i64 addrspace(1)* %tmp4 to <4 x i32> addrspace(1)* addrspace(1)*
	%tmp6 = load <4 x i32> addrspace(1), <4 x i32> addrspace(1) addrspace(1)* %tmp5, align 8			%tmp6 = load <4 x i32> addrspace(1), <4 x i32> addrspace(1) addrspace(1)* %tmp5, align 8
	%tmp7 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp6, align 16			%tmp7 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp6, align 16
	▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 523 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_local_store_4_constants_i32(i32 addrspace(3)* %out) #0 {
store i32 333, i32 addrspace(3)* %out.gep.3		store i32 333, i32 addrspace(3)* %out.gep.3
store i32 1234, i32 addrspace(3)* %out		store i32 1234, i32 addrspace(3)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_5_constants_i32:		; GCN-LABEL: {{^}}merge_global_store_5_constants_i32:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 9{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 9{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI4:[0-9]+]], -12{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI4:[0-9]+]], -12{{$}}
; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 11{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 11{{$}}
; GCN: buffer_store_dwordx4 v{{\[}}[[LO]]:[[HI4]]{{\]}}		; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[LO]]:[[HI4]]{{\]}}
; GCN: buffer_store_dword v[[HI]]		; GCN: buffer_store_dword v[[HI]]
define amdgpu_kernel void @merge_global_store_5_constants_i32(i32 addrspace(1)* %out) {		define amdgpu_kernel void @merge_global_store_5_constants_i32(i32 addrspace(1)* %out) {
store i32 9, i32 addrspace(1)* %out, align 4		store i32 9, i32 addrspace(1)* %out, align 4
%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1		%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1
store i32 12, i32 addrspace(1)* %idx1, align 4		store i32 12, i32 addrspace(1)* %idx1, align 4
%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2		%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2
store i32 16, i32 addrspace(1)* %idx2, align 4		store i32 16, i32 addrspace(1)* %idx2, align 4
%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3		%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3
▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

	Show All 9 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 17			%a0 = shl i64 %call, 17
	%idx.ext11 = and i64 %a0, 4261412864			%idx.ext11 = and i64 %a0, 4261412864
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*			%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*
	%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv			%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {			define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {
	; GCN-LABEL: Offset64:			; GCN-LABEL: Offset64:
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	}			}

	define hidden amdgpu_kernel void @negativeoffset(i8 addrspace(1)* nocapture %buffer) {			define hidden amdgpu_kernel void @negativeoffset(i8 addrspace(1)* nocapture %buffer) {
	; GCN-LABEL: negativeoffset:			; GCN-LABEL: negativeoffset:
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0) #2			%call = tail call i64 @_Z13get_global_idj(i32 0) #2
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%0 = shl i64 %call, 7			%0 = shl i64 %call, 7
	%idx.ext11 = and i64 %0, 4294934528			%idx.ext11 = and i64 %0, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%buffer_head = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*			%buffer_head = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*

	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/sdiv.ll

	Show First 20 Lines • Show All 848 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_load_dwordx4 s[12:15], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[12:15], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s11, 0xf000			; GCN-NEXT: s_mov_b32 s11, 0xf000
	; GCN-NEXT: s_mov_b32 s10, -1			; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: s_mov_b32 s2, s10			; GCN-NEXT: s_mov_b32 s2, s10
	; GCN-NEXT: s_mov_b32 s3, s11			; GCN-NEXT: s_mov_b32 s3, s11
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s0, s14			; GCN-NEXT: s_mov_b32 s0, s14
	; GCN-NEXT: s_mov_b32 s1, s15			; GCN-NEXT: s_mov_b32 s1, s15
	; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; GCN-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16
				; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-NEXT: s_mov_b32 s14, 0x4f800000			; GCN-NEXT: s_mov_b32 s14, 0x4f800000
	; GCN-NEXT: s_mov_b32 s8, s12			; GCN-NEXT: s_mov_b32 s8, s12
	; GCN-NEXT: s_mov_b32 s9, s13			; GCN-NEXT: s_mov_b32 s9, s13
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; GCN-NEXT: v_ashrrev_i32_e32 v9, 31, v4
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GCN-NEXT: v_xor_b32_e32 v4, v4, v9			; GCN-NEXT: v_xor_b32_e32 v4, v4, v9
	; GCN-NEXT: v_xor_b32_e32 v15, v8, v9			; GCN-NEXT: v_xor_b32_e32 v15, v8, v9
	; GCN-NEXT: v_cvt_f32_u32_e32 v9, v4			; GCN-NEXT: v_cvt_f32_u32_e32 v9, v4
	; GCN-NEXT: v_ashrrev_i32_e32 v11, 31, v5			; GCN-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v11, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v11, v5
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v8, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v8, v0
	; GCN-NEXT: v_rcp_iflag_f32_e32 v9, v9			; GCN-NEXT: v_rcp_iflag_f32_e32 v9, v9
	; GCN-NEXT: v_xor_b32_e32 v5, v5, v11			; GCN-NEXT: v_xor_b32_e32 v5, v5, v11
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: s_load_dwordx4 s[12:15], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[12:15], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s11, 0xf000			; TONGA-NEXT: s_mov_b32 s11, 0xf000
	; TONGA-NEXT: s_mov_b32 s10, -1			; TONGA-NEXT: s_mov_b32 s10, -1
	; TONGA-NEXT: s_mov_b32 s2, s10			; TONGA-NEXT: s_mov_b32 s2, s10
	; TONGA-NEXT: s_mov_b32 s3, s11			; TONGA-NEXT: s_mov_b32 s3, s11
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s0, s14			; TONGA-NEXT: s_mov_b32 s0, s14
	; TONGA-NEXT: s_mov_b32 s1, s15			; TONGA-NEXT: s_mov_b32 s1, s15
	; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; TONGA-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; TONGA-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16
				; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; TONGA-NEXT: s_mov_b32 s14, 0x4f800000			; TONGA-NEXT: s_mov_b32 s14, 0x4f800000
	; TONGA-NEXT: s_mov_b32 s8, s12			; TONGA-NEXT: s_mov_b32 s8, s12
	; TONGA-NEXT: s_mov_b32 s9, s13			; TONGA-NEXT: s_mov_b32 s9, s13
	; TONGA-NEXT: s_waitcnt vmcnt(1)			; TONGA-NEXT: s_waitcnt vmcnt(1)
	; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; TONGA-NEXT: v_ashrrev_i32_e32 v9, 31, v4
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, v9, v4			; TONGA-NEXT: v_add_u32_e32 v4, vcc, v9, v4
				; TONGA-NEXT: s_waitcnt vmcnt(0)
				; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; TONGA-NEXT: v_xor_b32_e32 v4, v4, v9			; TONGA-NEXT: v_xor_b32_e32 v4, v4, v9
	; TONGA-NEXT: v_xor_b32_e32 v15, v8, v9			; TONGA-NEXT: v_xor_b32_e32 v15, v8, v9
	; TONGA-NEXT: v_cvt_f32_u32_e32 v9, v4			; TONGA-NEXT: v_cvt_f32_u32_e32 v9, v4
	; TONGA-NEXT: v_ashrrev_i32_e32 v11, 31, v5			; TONGA-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v11, v5			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v11, v5
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v8, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v8, v0
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v9, v9			; TONGA-NEXT: v_rcp_iflag_f32_e32 v9, v9
	; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11			; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s15, 0xf000			; GFX9-NEXT: s_mov_b32 s15, 0xf000
	; GFX9-NEXT: s_mov_b32 s14, -1			; GFX9-NEXT: s_mov_b32 s14, -1
	; GFX9-NEXT: s_mov_b32 s2, s14			; GFX9-NEXT: s_mov_b32 s2, s14
	; GFX9-NEXT: s_mov_b32 s3, s15			; GFX9-NEXT: s_mov_b32 s3, s15
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s0, s10			; GFX9-NEXT: s_mov_b32 s0, s10
	; GFX9-NEXT: s_mov_b32 s1, s11			; GFX9-NEXT: s_mov_b32 s1, s11
	; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[0:3], 0 offset:16
				; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[0:3], 0
	; GFX9-NEXT: s_mov_b32 s4, 0x4f800000			; GFX9-NEXT: s_mov_b32 s4, 0x4f800000
	; GFX9-NEXT: s_mov_b32 s12, s8			; GFX9-NEXT: s_mov_b32 s12, s8
	; GFX9-NEXT: s_mov_b32 s13, s9			; GFX9-NEXT: s_mov_b32 s13, s9
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v4
				; GFX9-NEXT: s_waitcnt vmcnt(0)
				; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GFX9-NEXT: v_add_u32_e32 v4, v4, v9			; GFX9-NEXT: v_add_u32_e32 v4, v4, v9
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v8			; GFX9-NEXT: v_add_u32_e32 v0, v0, v8
	; GFX9-NEXT: v_xor_b32_e32 v4, v4, v9			; GFX9-NEXT: v_xor_b32_e32 v4, v4, v9
	; GFX9-NEXT: v_xor_b32_e32 v16, v8, v9			; GFX9-NEXT: v_xor_b32_e32 v16, v8, v9
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v4			; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v4
	; GFX9-NEXT: v_ashrrev_i32_e32 v11, 31, v5			; GFX9-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v11			; GFX9-NEXT: v_add_u32_e32 v5, v5, v11
	▲ Show 20 Lines • Show All 1,315 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s		; RUN: llc -march=amdgcn -mcpu=gfx600 -amdgpu-bypass-slow-div=0 -amdgpu-codegenprepare-expand-div64 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-IR %s

define amdgpu_kernel void @s_test_sdiv(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv:		; GCN-LABEL: s_test_sdiv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
; GCN-NEXT: v_mov_b32_e32 v7, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i32 s12, s3, 31		; GCN-NEXT: s_ashr_i32 s12, s3, 31
; GCN-NEXT: s_add_u32 s2, s2, s12		; GCN-NEXT: s_add_u32 s2, s2, s12
; GCN-NEXT: s_mov_b32 s13, s12		; GCN-NEXT: s_mov_b32 s13, s12
; GCN-NEXT: s_addc_u32 s3, s3, s12		; GCN-NEXT: s_addc_u32 s3, s3, s12
; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]		; GCN-NEXT: s_xor_b64 s[2:3], s[2:3], s[12:13]
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3
; GCN-NEXT: s_sub_u32 s4, 0, s2		; GCN-NEXT: s_sub_u32 s4, 0, s2
; GCN-NEXT: s_subb_u32 s5, 0, s3		; GCN-NEXT: s_subb_u32 s5, 0, s3
; GCN-NEXT: s_ashr_i32 s14, s11, 31		; GCN-NEXT: s_ashr_i32 s14, s11, 31
; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1		; GCN-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
; GCN-NEXT: v_rcp_f32_e32 v0, v0		; GCN-NEXT: v_rcp_f32_e32 v0, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_mov_b32 s15, s14		; GCN-NEXT: s_mov_b32 s15, s14
; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0		; GCN-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
; GCN-NEXT: v_mul_f32_e32 v2, 0x2f800000, v0		; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v0
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v2		; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0		; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
; GCN-NEXT: v_mul_hi_u32 v4, s4, v0		; GCN-NEXT: v_mul_hi_u32 v5, s4, v0
; GCN-NEXT: v_mul_lo_u32 v3, s4, v2		; GCN-NEXT: v_mul_lo_u32 v4, s4, v3
; GCN-NEXT: v_mul_lo_u32 v6, s5, v0		; GCN-NEXT: v_mul_lo_u32 v7, s5, v0
; GCN-NEXT: v_mul_lo_u32 v5, s4, v0
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v6
; GCN-NEXT: v_mul_hi_u32 v4, v0, v5
; GCN-NEXT: v_mul_lo_u32 v6, v0, v3
; GCN-NEXT: v_mul_hi_u32 v8, v0, v3
; GCN-NEXT: v_mul_hi_u32 v9, v2, v3
; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v7, v8, vcc
; GCN-NEXT: v_mul_lo_u32 v8, v2, v5
; GCN-NEXT: v_mul_hi_u32 v5, v2, v5
; GCN-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v5, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v3
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc
; GCN-NEXT: v_addc_u32_e64 v3, vcc, v2, v4, s[0:1]
; GCN-NEXT: v_mul_lo_u32 v5, s4, v3
; GCN-NEXT: v_mul_hi_u32 v6, s4, v0
; GCN-NEXT: v_mul_lo_u32 v8, s5, v0
; GCN-NEXT: s_mov_b32 s5, s9
; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
; GCN-NEXT: v_mul_lo_u32 v6, s4, v0		; GCN-NEXT: v_mul_lo_u32 v6, s4, v0
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
		; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
		; GCN-NEXT: v_mul_hi_u32 v5, v0, v6
		; GCN-NEXT: v_mul_lo_u32 v7, v0, v4
		; GCN-NEXT: v_mul_hi_u32 v8, v0, v4
		; GCN-NEXT: v_mul_hi_u32 v9, v3, v4
		; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
		; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v2, v8, vcc
		; GCN-NEXT: v_mul_lo_u32 v8, v3, v6
		; GCN-NEXT: v_mul_hi_u32 v6, v3, v6
; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5		; GCN-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GCN-NEXT: v_mul_lo_u32 v10, v0, v5		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v6, vcc
; GCN-NEXT: v_mul_hi_u32 v12, v0, v5		; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v1, vcc
; GCN-NEXT: v_mul_hi_u32 v11, v0, v6		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_mul_hi_u32 v9, v3, v6		; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v4
; GCN-NEXT: v_mul_lo_u32 v6, v3, v6		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_mul_hi_u32 v8, v3, v5		; GCN-NEXT: v_addc_u32_e64 v4, vcc, v3, v5, s[0:1]
		; GCN-NEXT: v_mul_lo_u32 v6, s4, v4
		; GCN-NEXT: v_mul_hi_u32 v7, s4, v0
		; GCN-NEXT: v_mul_lo_u32 v8, s5, v0
		; GCN-NEXT: s_mov_b32 s5, s9
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
		; GCN-NEXT: v_mul_lo_u32 v7, s4, v0
		; GCN-NEXT: v_add_i32_e32 v6, vcc, v8, v6
		; GCN-NEXT: v_mul_lo_u32 v10, v0, v6
		; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
		; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
		; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
		; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
		; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; GCN-NEXT: v_addc_u32_e32 v11, vcc, v7, v12, vcc		; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
; GCN-NEXT: v_mul_lo_u32 v3, v3, v5		; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10		; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc		; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3		; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[0:1]		; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
; GCN-NEXT: s_add_u32 s0, s10, s14		; GCN-NEXT: s_add_u32 s0, s10, s14
; GCN-NEXT: s_addc_u32 s1, s11, s14		; GCN-NEXT: s_addc_u32 s1, s11, s14
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GCN-NEXT: s_xor_b64 s[10:11], s[0:1], s[14:15]		; GCN-NEXT: s_xor_b64 s[10:11], s[0:1], s[14:15]
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc		; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v3, s10, v2		; GCN-NEXT: v_mul_lo_u32 v4, s10, v3
; GCN-NEXT: v_mul_hi_u32 v4, s10, v0		; GCN-NEXT: v_mul_hi_u32 v5, s10, v0
; GCN-NEXT: v_mul_hi_u32 v5, s10, v2		; GCN-NEXT: v_mul_hi_u32 v6, s10, v3
; GCN-NEXT: v_mul_hi_u32 v6, s11, v2		; GCN-NEXT: v_mul_hi_u32 v7, s11, v3
; GCN-NEXT: v_mul_lo_u32 v2, s11, v2		; GCN-NEXT: v_mul_lo_u32 v3, s11, v3
; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GCN-NEXT: v_addc_u32_e32 v4, vcc, v7, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v5, vcc, v2, v6, vcc
; GCN-NEXT: v_mul_lo_u32 v5, s11, v0		; GCN-NEXT: v_mul_lo_u32 v6, s11, v0
; GCN-NEXT: v_mul_hi_u32 v0, s11, v0		; GCN-NEXT: v_mul_hi_u32 v0, s11, v0
; GCN-NEXT: s_mov_b32 s4, s8		; GCN-NEXT: s_mov_b32 s4, s8
; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; GCN-NEXT: v_addc_u32_e32 v0, vcc, v4, v0, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, v5, v0, vcc
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v6, v1, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v7, v1, vcc
		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
		; GCN-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
; GCN-NEXT: v_mul_lo_u32 v2, s2, v1		; GCN-NEXT: v_mul_lo_u32 v2, s2, v1
; GCN-NEXT: v_mul_hi_u32 v3, s2, v0		; GCN-NEXT: v_mul_hi_u32 v3, s2, v0
; GCN-NEXT: v_mul_lo_u32 v4, s3, v0		; GCN-NEXT: v_mul_lo_u32 v4, s3, v0
; GCN-NEXT: v_mov_b32_e32 v5, s3		; GCN-NEXT: v_mov_b32_e32 v5, s3
; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2		; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
; GCN-NEXT: v_mul_lo_u32 v3, s2, v0		; GCN-NEXT: v_mul_lo_u32 v3, s2, v0
; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4		; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
; GCN-NEXT: v_sub_i32_e32 v4, vcc, s11, v2		; GCN-NEXT: v_sub_i32_e32 v4, vcc, s11, v2
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = sdiv i64 %x, %y		%result = sdiv i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_sdiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv24_64:		; GCN-LABEL: s_test_sdiv24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 40
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_xor_b32 s4, s4, s8		; GCN-NEXT: s_xor_b32 s4, s4, s8
; GCN-NEXT: s_ashr_i32 s4, s4, 30		; GCN-NEXT: s_ashr_i32 s4, s4, 30
; GCN-NEXT: s_or_b32 s4, s4, 1		; GCN-NEXT: s_or_b32 s4, s4, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v3, s4		; GCN-NEXT: v_mov_b32_e32 v3, s4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv24_64:		; GCN-IR-LABEL: s_test_sdiv24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 40
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_xor_b32 s4, s4, s8		; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30		; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
; GCN-IR-NEXT: s_or_b32 s4, s4, 1		; GCN-IR-NEXT: s_or_b32 s4, s4, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
%result = sdiv i64 %1, %2		%result = sdiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv31_64:		; GCN-LABEL: s_test_sdiv31_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 33
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_xor_b32 s4, s4, s8		; GCN-NEXT: s_xor_b32 s4, s4, s8
; GCN-NEXT: s_ashr_i32 s4, s4, 30		; GCN-NEXT: s_ashr_i32 s4, s4, 30
; GCN-NEXT: s_or_b32 s4, s4, 1		; GCN-NEXT: s_or_b32 s4, s4, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v3, s4		; GCN-NEXT: v_mov_b32_e32 v3, s4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv31_64:		; GCN-IR-LABEL: s_test_sdiv31_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 33
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_xor_b32 s4, s4, s8		; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30		; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
; GCN-IR-NEXT: s_or_b32 s4, s4, 1		; GCN-IR-NEXT: s_or_b32 s4, s4, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
Show All 13 Lines	; GCN-IR-NEXT: s_endpgm
%result = sdiv i64 %1, %2		%result = sdiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv23_64:		; GCN-LABEL: s_test_sdiv23_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 41
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_xor_b32 s4, s4, s8		; GCN-NEXT: s_xor_b32 s4, s4, s8
; GCN-NEXT: s_ashr_i32 s4, s4, 30		; GCN-NEXT: s_ashr_i32 s4, s4, 30
; GCN-NEXT: s_or_b32 s4, s4, 1		; GCN-NEXT: s_or_b32 s4, s4, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v3, s4		; GCN-NEXT: v_mov_b32_e32 v3, s4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv23_64:		; GCN-IR-LABEL: s_test_sdiv23_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 41
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_xor_b32 s4, s4, s8		; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30		; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
; GCN-IR-NEXT: s_or_b32 s4, s4, 1		; GCN-IR-NEXT: s_or_b32 s4, s4, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
Show All 13 Lines	; GCN-IR-NEXT: s_endpgm
%result = sdiv i64 %1, %2		%result = sdiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv25_64:		; GCN-LABEL: s_test_sdiv25_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_ashr_i64 s[8:9], s[8:9], 39
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_xor_b32 s4, s4, s8		; GCN-NEXT: s_xor_b32 s4, s4, s8
; GCN-NEXT: s_ashr_i32 s4, s4, 30		; GCN-NEXT: s_ashr_i32 s4, s4, 30
; GCN-NEXT: s_or_b32 s4, s4, 1		; GCN-NEXT: s_or_b32 s4, s4, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_mov_b32_e32 v3, s4		; GCN-NEXT: v_mov_b32_e32 v3, s4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv25_64:		; GCN-IR-LABEL: s_test_sdiv25_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s9, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[8:9], 39
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_xor_b32 s4, s4, s8		; GCN-IR-NEXT: s_xor_b32 s4, s4, s8
; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30		; GCN-IR-NEXT: s_ashr_i32 s4, s4, 30
; GCN-IR-NEXT: s_or_b32 s4, s4, 1		; GCN-IR-NEXT: s_or_b32 s4, s4, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
▲ Show 20 Lines • Show All 1,273 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/setcc-limit-load-shrink.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: {{^}}const_load_no_shrink_dword_to_unaligned_byte:			; GCN-LABEL: {{^}}const_load_no_shrink_dword_to_unaligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013
	define amdgpu_kernel void @const_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {			define amdgpu_kernel void @const_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x
	%load = load i32, i32 addrspace(4)* %ptr, align 4			%load = load i32, i32 addrspace(4)* %ptr, align 4
	%and = and i32 %load, 524288			%and = and i32 %load, 524288
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: const_load_no_shrink_dword_to_aligned_byte:			; GCN-LABEL: const_load_no_shrink_dword_to_aligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003
	define amdgpu_kernel void @const_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {			define amdgpu_kernel void @const_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(4)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(4)* %in, i32 %x
	%load = load i32, i32 addrspace(4)* %ptr, align 4			%load = load i32, i32 addrspace(4)* %ptr, align 4
	%and = and i32 %load, 8			%and = and i32 %load, 8
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: global_load_no_shrink_dword_to_unaligned_byte:			; GCN-LABEL: global_load_no_shrink_dword_to_unaligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10013
	define amdgpu_kernel void @global_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i32 %x) {			define amdgpu_kernel void @global_load_no_shrink_dword_to_unaligned_byte(i32 addrspace(1)* noalias %out, i32 addrspace(1)* noalias %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x
	%load = load i32, i32 addrspace(1)* %ptr, align 4			%load = load i32, i32 addrspace(1)* %ptr, align 4
	%and = and i32 %load, 524288			%and = and i32 %load, 524288
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: global_load_no_shrink_dword_to_aligned_byte:			; GCN-LABEL: global_load_no_shrink_dword_to_aligned_byte:
	; GCN: s_load_dword [[LD:s[0-9]+]],			; GCN: s_load_dword [[LD:s[0-9]+]], {{[^,]*}}, 0x0
	; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003			; GCN: s_bfe_i32 s{{[0-9]+}}, [[LD]], 0x10003
	define amdgpu_kernel void @global_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %x) {			define amdgpu_kernel void @global_load_no_shrink_dword_to_aligned_byte(i32 addrspace(1)* %out, i32 addrspace(1)* %in, i32 %x) {
	%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x			%ptr = getelementptr i32, i32 addrspace(1)* %in, i32 %x
	%load = load i32, i32 addrspace(1)* %ptr, align 4			%load = load i32, i32 addrspace(1)* %ptr, align 4
	%and = and i32 %load, 8			%and = and i32 %load, 8
	%cmp = icmp eq i32 %and, 0			%cmp = icmp eq i32 %and, 0
	%sel = select i1 %cmp, i32 0, i32 -1			%sel = select i1 %cmp, i32 0, i32 -1
	store i32 %sel, i32 addrspace(1)* %out			store i32 %sel, i32 addrspace(1)* %out
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/sgpr-control-flow.ll

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	endif:
ret void		ret void
}		}

; The two S_ADD instructions should write to different registers, since		; The two S_ADD instructions should write to different registers, since
; different threads will take different control flow paths.		; different threads will take different control flow paths.
define amdgpu_kernel void @sgpr_if_else_valu_br(i32 addrspace(1)* %out, float %a, i32 %b, i32 %c, i32 %d, i32 %e) {		define amdgpu_kernel void @sgpr_if_else_valu_br(i32 addrspace(1)* %out, float %a, i32 %b, i32 %c, i32 %d, i32 %e) {
; SI-LABEL: sgpr_if_else_valu_br:		; SI-LABEL: sgpr_if_else_valu_br:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: v_cvt_f32_u32_e32 v0, v0
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
		; SI-NEXT: v_cvt_f32_u32_e32 v0, v0
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xc		; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xc
; SI-NEXT: ; implicit-def: $sgpr6		; SI-NEXT: ; implicit-def: $sgpr6
; SI-NEXT: v_cmp_lg_f32_e32 vcc, 0, v0		; SI-NEXT: v_cmp_lg_f32_e32 vcc, 0, v0
; SI-NEXT: s_and_saveexec_b64 s[8:9], vcc		; SI-NEXT: s_and_saveexec_b64 s[8:9], vcc
; SI-NEXT: s_xor_b64 s[8:9], exec, s[8:9]		; SI-NEXT: s_xor_b64 s[8:9], exec, s[8:9]
; SI-NEXT: s_cbranch_execz BB2_2		; SI-NEXT: s_cbranch_execz BB2_2
; SI-NEXT: ; %bb.1: ; %else		; SI-NEXT: ; %bb.1: ; %else
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 109 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

Show First 20 Lines • Show All 472 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %x, %y		%result = srem i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem23_64:		; GCN-LABEL: s_test_srem23_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: s_ashr_i64 s[8:9], s[4:5], 41
		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 41		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 41
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 41
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0
; GCN-NEXT: s_ashr_i32 s1, s1, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_or_b32 s1, s1, 1		; GCN-NEXT: s_xor_b32 s0, s6, s8
; GCN-NEXT: v_mov_b32_e32 v3, s1		; GCN-NEXT: s_ashr_i32 s0, s0, 30
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_or_b32 s0, s0, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-NEXT: v_mov_b32_e32 v3, s0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem23_64:		; GCN-IR-LABEL: s_test_srem23_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[4:5], 41
		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 41		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 41
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 41
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
; GCN-IR-NEXT: s_ashr_i32 s1, s1, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_or_b32 s1, s1, 1		; GCN-IR-NEXT: s_xor_b32 s0, s6, s8
; GCN-IR-NEXT: v_mov_b32_e32 v3, s1		; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_or_b32 s0, s0, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 23
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 41		%1 = ashr i64 %x, 41
%2 = ashr i64 %y, 41		%2 = ashr i64 %y, 41
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem24_64:		; GCN-LABEL: s_test_srem24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: s_ashr_i64 s[8:9], s[4:5], 40
		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0
; GCN-NEXT: s_ashr_i32 s1, s1, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_or_b32 s1, s1, 1		; GCN-NEXT: s_xor_b32 s0, s6, s8
; GCN-NEXT: v_mov_b32_e32 v3, s1		; GCN-NEXT: s_ashr_i32 s0, s0, 30
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_or_b32 s0, s0, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-NEXT: v_mov_b32_e32 v3, s0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_64:		; GCN-IR-LABEL: s_test_srem24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[4:5], 40
		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
; GCN-IR-NEXT: s_ashr_i32 s1, s1, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_or_b32 s1, s1, 1		; GCN-IR-NEXT: s_xor_b32 s0, s6, s8
; GCN-IR-NEXT: v_mov_b32_e32 v3, s1		; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_or_b32 s0, s0, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 40		%1 = ashr i64 %x, 40
%2 = ashr i64 %y, 40		%2 = ashr i64 %y, 40
%result = srem i64 %1, %2		%result = srem i64 %1, %2
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%2 = ashr i64 %y, 40		%2 = ashr i64 %y, 40
%result = srem i64 %1, %2		%result = srem i64 %1, %2
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem25_64:		; GCN-LABEL: s_test_srem25_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: s_ashr_i64 s[8:9], s[4:5], 39
		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 39		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 39
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 39
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0
; GCN-NEXT: s_ashr_i32 s1, s1, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_or_b32 s1, s1, 1		; GCN-NEXT: s_xor_b32 s0, s6, s8
; GCN-NEXT: v_mov_b32_e32 v3, s1		; GCN-NEXT: s_ashr_i32 s0, s0, 30
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_or_b32 s0, s0, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-NEXT: v_mov_b32_e32 v3, s0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem25_64:		; GCN-IR-LABEL: s_test_srem25_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[4:5], 39
		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 39		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 39
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 39
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
; GCN-IR-NEXT: s_ashr_i32 s1, s1, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_or_b32 s1, s1, 1		; GCN-IR-NEXT: s_xor_b32 s0, s6, s8
; GCN-IR-NEXT: v_mov_b32_e32 v3, s1		; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_or_b32 s0, s0, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 39		%1 = ashr i64 %x, 39
%2 = ashr i64 %y, 39		%2 = ashr i64 %y, 39
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem31_64:		; GCN-LABEL: s_test_srem31_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: s_ashr_i64 s[8:9], s[4:5], 33
		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 33		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 33
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 33
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0
; GCN-NEXT: s_ashr_i32 s1, s1, 30
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_or_b32 s1, s1, 1		; GCN-NEXT: s_xor_b32 s0, s6, s8
; GCN-NEXT: v_mov_b32_e32 v3, s1		; GCN-NEXT: s_ashr_i32 s0, s0, 30
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_or_b32 s0, s0, 1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-NEXT: v_mov_b32_e32 v3, s0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem31_64:		; GCN-IR-LABEL: s_test_srem31_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dword s5, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[4:5], 33
		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 33		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 33
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 33
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
; GCN-IR-NEXT: s_ashr_i32 s1, s1, 30
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_or_b32 s1, s1, 1		; GCN-IR-NEXT: s_xor_b32 s0, s6, s8
; GCN-IR-NEXT: v_mov_b32_e32 v3, s1		; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_or_b32 s0, s0, 1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
		; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 33		%1 = ashr i64 %x, 33
%2 = ashr i64 %y, 33		%2 = ashr i64 %y, 33
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

; 32 known sign bits		; 32 known sign bits
define amdgpu_kernel void @s_test_srem32_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem32_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem32_64:		; GCN-LABEL: s_test_srem32_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s8, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s7		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s7
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-NEXT: s_xor_b32 s0, s7, s8
; GCN-NEXT: s_xor_b32 s1, s7, s0		; GCN-NEXT: s_ashr_i32 s0, s0, 30
; GCN-NEXT: s_ashr_i32 s1, s1, 30
; GCN-NEXT: s_or_b32 s1, s1, 1
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: v_mov_b32_e32 v3, s1		; GCN-NEXT: s_or_b32 s0, s0, 1
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: v_mov_b32_e32 v3, s0
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s7, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s7, v0
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem32_64:		; GCN-IR-LABEL: s_test_srem32_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s8, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s7		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s7
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-IR-NEXT: s_xor_b32 s0, s7, s8
; GCN-IR-NEXT: s_xor_b32 s1, s7, s0		; GCN-IR-NEXT: s_ashr_i32 s0, s0, 30
; GCN-IR-NEXT: s_ashr_i32 s1, s1, 30
; GCN-IR-NEXT: s_or_b32 s1, s1, 1
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: v_mov_b32_e32 v3, s1		; GCN-IR-NEXT: s_or_b32 s0, s0, 1
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2		; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc		; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s8
; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s7, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s7, v0
; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = ashr i64 %x, 32		%1 = ashr i64 %x, 32
%2 = ashr i64 %y, 32		%2 = ashr i64 %y, 32
%result = srem i64 %1, %2		%result = srem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
▲ Show 20 Lines • Show All 1,449 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	; VI-NEXT: s_setpc_b64 s[30:31]
%add = add i16 %trunc, 4		%add = add i16 %trunc, 4
ret i16 %add		ret i16 %add
}		}

define amdgpu_kernel void @truncate_high_elt_extract_vector(<2 x i16> addrspace(1)* nocapture readonly %arg, <2 x i16> addrspace(1)* nocapture readonly %arg1, <2 x i16> addrspace(1)* nocapture %arg2) local_unnamed_addr {		define amdgpu_kernel void @truncate_high_elt_extract_vector(<2 x i16> addrspace(1)* nocapture readonly %arg, <2 x i16> addrspace(1)* nocapture readonly %arg1, <2 x i16> addrspace(1)* nocapture %arg2) local_unnamed_addr {
; SI-LABEL: truncate_high_elt_extract_vector:		; SI-LABEL: truncate_high_elt_extract_vector:
; SI: ; %bb.0: ; %bb		; SI: ; %bb.0: ; %bb
; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_load_dword s4, s[4:5], 0x0		; SI-NEXT: s_load_dword s4, s[4:5], 0x0
; SI-NEXT: s_load_dword s5, s[6:7], 0x0		; SI-NEXT: s_load_dword s5, s[6:7], 0x0
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_sext_i32_i16 s4, s4		; SI-NEXT: s_sext_i32_i16 s4, s4
; SI-NEXT: s_sext_i32_i16 s5, s5		; SI-NEXT: s_sext_i32_i16 s5, s5
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: v_mov_b32_e32 v0, s4
; SI-NEXT: v_mul_i32_i24_e32 v0, s5, v0		; SI-NEXT: v_mul_i32_i24_e32 v0, s5, v0
▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv64.ll

Show First 20 Lines • Show All 428 Lines • ▼ Show 20 Lines
; GCN-IR-NEXT: s_setpc_b64 s[30:31]		; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = udiv i64 %x, %y		%result = udiv i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_udiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_udiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_udiv24_64:		; GCN-LABEL: s_test_udiv24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_lshr_b32 s2, s2, 8
; GCN-NEXT: s_lshr_b32 s0, s0, 8		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-NEXT: s_lshr_b32 s0, s7, 8		; GCN-NEXT: s_lshr_b32 s0, s7, 8
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0		; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv24_64:		; GCN-IR-LABEL: s_test_udiv24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_lshr_b32 s2, s2, 8
; GCN-IR-NEXT: s_lshr_b32 s0, s0, 8		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-IR-NEXT: s_lshr_b32 s0, s7, 8		; GCN-IR-NEXT: s_lshr_b32 s0, s7, 8
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0		; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = udiv i64 %1, %2		%result = udiv i64 %1, %2
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_udiv32_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_udiv32_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_udiv32_i64:		; GCN-LABEL: s_test_udiv32_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dword s2, s[0:1], 0xe		; GCN-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s7
		; GCN-NEXT: s_mov_b32 s2, -1
		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s3
; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: s_mov_b32 s5, s1
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv32_i64:		; GCN-IR-LABEL: s_test_udiv32_i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s7
		; GCN-IR-NEXT: s_mov_b32 s2, -1
		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s3
; GCN-IR-NEXT: s_mov_b32 s4, s0
; GCN-IR-NEXT: s_mov_b32 s5, s1
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = lshr i64 %x, 32		%1 = lshr i64 %x, 32
%2 = lshr i64 %y, 32		%2 = lshr i64 %y, 32
%result = udiv i64 %1, %2		%result = udiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_udiv31_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_udiv31_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_udiv31_i64:		; GCN-LABEL: s_test_udiv31_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_lshr_b32 s2, s2, 1
; GCN-NEXT: s_lshr_b32 s0, s0, 1		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-NEXT: s_lshr_b32 s0, s7, 1		; GCN-NEXT: s_lshr_b32 s0, s7, 1
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0		; GCN-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv31_i64:		; GCN-IR-LABEL: s_test_udiv31_i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_lshr_b32 s2, s2, 1
; GCN-IR-NEXT: s_lshr_b32 s0, s0, 1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-IR-NEXT: s_lshr_b32 s0, s7, 1		; GCN-IR-NEXT: s_lshr_b32 s0, s7, 1
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0		; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = lshr i64 %x, 33		%1 = lshr i64 %x, 33
%2 = lshr i64 %y, 33		%2 = lshr i64 %y, 33
%result = udiv i64 %1, %2		%result = udiv i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_udiv23_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_udiv23_i64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_udiv23_i64:		; GCN-LABEL: s_test_udiv23_i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_lshr_b32 s2, s2, 9
; GCN-NEXT: s_lshr_b32 s0, s0, 9		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-NEXT: s_lshr_b32 s0, s7, 9		; GCN-NEXT: s_lshr_b32 s0, s7, 9
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-NEXT: s_mov_b32 s0, s4
		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-NEXT: v_and_b32_e32 v0, 0x7fffff, v0		; GCN-NEXT: v_and_b32_e32 v0, 0x7fffff, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_udiv23_i64:		; GCN-IR-LABEL: s_test_udiv23_i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
		; GCN-IR-NEXT: s_load_dword s2, s[0:1], 0xe
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s0, s[0:1], 0xe
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_lshr_b32 s2, s2, 9
; GCN-IR-NEXT: s_lshr_b32 s0, s0, 9		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s0
; GCN-IR-NEXT: s_lshr_b32 s0, s7, 9		; GCN-IR-NEXT: s_lshr_b32 s0, s7, 9
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s0
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0
		; GCN-IR-NEXT: s_mov_b32 s0, s4
		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffff, v0		; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffff, v0
▲ Show 20 Lines • Show All 1,310 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/urem64.ll

Show First 20 Lines • Show All 502 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
%result = urem i64 %1, %2		%result = urem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_urem31_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {		define amdgpu_kernel void @s_test_urem31_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
; GCN-LABEL: s_test_urem31_v2i64:		; GCN-LABEL: s_test_urem31_v2i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x11
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x11		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_lshr_b32 s2, s9, 1		; GCN-NEXT: s_lshr_b32 s4, s9, 1
; GCN-NEXT: s_lshr_b32 s0, s1, 1		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s0		; GCN-NEXT: s_lshr_b32 s5, s5, 1
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v2, s5
; GCN-NEXT: s_lshr_b32 s3, s3, 1		; GCN-NEXT: s_lshr_b32 s6, s7, 1
; GCN-NEXT: v_cvt_f32_u32_e32 v4, s3		; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v0
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: s_lshr_b32 s7, s11, 1
; GCN-NEXT: s_lshr_b32 s1, s11, 1		; GCN-NEXT: v_cvt_f32_u32_e32 v5, s7
; GCN-NEXT: v_cvt_f32_u32_e32 v3, s1		; GCN-NEXT: v_cvt_f32_u32_e32 v4, s6
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v3, v2, v3
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-NEXT: v_mad_f32 v2, -v3, v0, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v4		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v5
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc
; GCN-NEXT: v_mul_f32_e32 v2, v3, v2		; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
		; GCN-NEXT: v_mul_f32_e32 v2, v4, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
; GCN-NEXT: v_mad_f32 v2, -v2, v4, v3		; GCN-NEXT: v_mad_f32 v2, -v2, v5, v4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, v2, s3		; GCN-NEXT: v_mul_lo_u32 v2, v2, s7
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: s_brev_b32 s4, -2
; GCN-NEXT: s_brev_b32 s0, -2		; GCN-NEXT: v_and_b32_e32 v0, s4, v0
; GCN-NEXT: v_and_b32_e32 v0, s0, v0
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
; GCN-NEXT: v_and_b32_e32 v2, s0, v2
; GCN-NEXT: v_mov_b32_e32 v3, v1		; GCN-NEXT: v_mov_b32_e32 v3, v1
; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
		; GCN-NEXT: v_and_b32_e32 v2, s4, v2
		; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_urem31_v2i64:		; GCN-IR-LABEL: s_test_urem31_v2i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x11
; GCN-IR-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x11		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_lshr_b32 s2, s9, 1		; GCN-IR-NEXT: s_lshr_b32 s4, s9, 1
; GCN-IR-NEXT: s_lshr_b32 s0, s1, 1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s0		; GCN-IR-NEXT: s_lshr_b32 s5, s5, 1
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s2		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s5
; GCN-IR-NEXT: s_lshr_b32 s3, s3, 1		; GCN-IR-NEXT: s_lshr_b32 s6, s7, 1
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s3		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v3, v0
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: s_lshr_b32 s7, s11, 1
; GCN-IR-NEXT: s_lshr_b32 s1, s11, 1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s7
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v3, s1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s6
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v3, v2, v3
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v3, v3
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-IR-NEXT: v_mad_f32 v2, -v3, v0, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v4		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v5
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc
; GCN-IR-NEXT: v_mul_f32_e32 v2, v3, v2		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
		; GCN-IR-NEXT: v_mul_f32_e32 v2, v4, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
; GCN-IR-NEXT: v_mad_f32 v2, -v2, v4, v3		; GCN-IR-NEXT: v_mad_f32 v2, -v2, v5, v4
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5
; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s3		; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s7
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: s_brev_b32 s4, -2
; GCN-IR-NEXT: s_brev_b32 s0, -2		; GCN-IR-NEXT: v_and_b32_e32 v0, s4, v0
; GCN-IR-NEXT: v_and_b32_e32 v0, s0, v0
; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
; GCN-IR-NEXT: v_and_b32_e32 v2, s0, v2
; GCN-IR-NEXT: v_mov_b32_e32 v3, v1		; GCN-IR-NEXT: v_mov_b32_e32 v3, v1
; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
		; GCN-IR-NEXT: v_and_b32_e32 v2, s4, v2
		; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = lshr <2 x i64> %x, <i64 33, i64 33>		%1 = lshr <2 x i64> %x, <i64 33, i64 33>
%2 = lshr <2 x i64> %y, <i64 33, i64 33>		%2 = lshr <2 x i64> %y, <i64 33, i64 33>
%result = urem <2 x i64> %1, %2		%result = urem <2 x i64> %1, %2
store <2 x i64> %result, <2 x i64> addrspace(1)* %out		store <2 x i64> %result, <2 x i64> addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
%result = urem i64 %1, %2		%result = urem i64 %1, %2
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_urem23_64_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {		define amdgpu_kernel void @s_test_urem23_64_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
; GCN-LABEL: s_test_urem23_64_v2i64:		; GCN-LABEL: s_test_urem23_64_v2i64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x11
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x11		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_lshr_b32 s2, s9, 1		; GCN-NEXT: s_lshr_b32 s4, s9, 1
; GCN-NEXT: s_lshr_b32 s0, s1, 1		; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4
; GCN-NEXT: v_cvt_f32_u32_e32 v0, s0		; GCN-NEXT: s_lshr_b32 s5, s5, 1
; GCN-NEXT: v_cvt_f32_u32_e32 v1, s2		; GCN-NEXT: v_cvt_f32_u32_e32 v2, s5
; GCN-NEXT: s_lshr_b32 s3, s3, 9		; GCN-NEXT: s_lshr_b32 s6, s7, 9
; GCN-NEXT: v_cvt_f32_u32_e32 v4, s3		; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v0
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-NEXT: s_lshr_b32 s7, s11, 9
; GCN-NEXT: s_lshr_b32 s1, s11, 9		; GCN-NEXT: v_cvt_f32_u32_e32 v5, s7
; GCN-NEXT: v_cvt_f32_u32_e32 v3, s1		; GCN-NEXT: v_cvt_f32_u32_e32 v4, s6
; GCN-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-NEXT: v_mul_f32_e32 v3, v2, v3
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v3, v3
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-NEXT: v_mad_f32 v2, -v3, v0, v2
; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v4		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v5
; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc
; GCN-NEXT: v_mul_f32_e32 v2, v3, v2		; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
		; GCN-NEXT: v_mul_f32_e32 v2, v4, v2
; GCN-NEXT: v_trunc_f32_e32 v2, v2		; GCN-NEXT: v_trunc_f32_e32 v2, v2
; GCN-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
; GCN-NEXT: v_mad_f32 v2, -v2, v4, v3		; GCN-NEXT: v_mad_f32 v2, -v2, v5, v4
; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4		; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5
; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
; GCN-NEXT: v_mul_lo_u32 v2, v2, s3		; GCN-NEXT: v_mul_lo_u32 v2, v2, s7
; GCN-NEXT: v_mov_b32_e32 v1, 0		; GCN-NEXT: s_brev_b32 s4, -2
; GCN-NEXT: s_brev_b32 s0, -2		; GCN-NEXT: v_and_b32_e32 v0, s4, v0
; GCN-NEXT: v_and_b32_e32 v0, s0, v0
; GCN-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
; GCN-NEXT: v_and_b32_e32 v2, s0, v2
; GCN-NEXT: v_mov_b32_e32 v3, v1		; GCN-NEXT: v_mov_b32_e32 v3, v1
; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
		; GCN-NEXT: v_and_b32_e32 v2, s4, v2
		; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_urem23_64_v2i64:		; GCN-IR-LABEL: s_test_urem23_64_v2i64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x11
; GCN-IR-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xd
; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x11		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; GCN-IR-NEXT: s_mov_b32 s7, 0xf000		; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
; GCN-IR-NEXT: s_mov_b32 s6, -1		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_lshr_b32 s2, s9, 1		; GCN-IR-NEXT: s_lshr_b32 s4, s9, 1
; GCN-IR-NEXT: s_lshr_b32 s0, s1, 1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s0		; GCN-IR-NEXT: s_lshr_b32 s5, s5, 1
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, s2		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s5
; GCN-IR-NEXT: s_lshr_b32 s3, s3, 9		; GCN-IR-NEXT: s_lshr_b32 s6, s7, 9
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s3		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v3, v0
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v0		; GCN-IR-NEXT: s_lshr_b32 s7, s11, 9
; GCN-IR-NEXT: s_lshr_b32 s1, s11, 9		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s7
; GCN-IR-NEXT: v_cvt_f32_u32_e32 v3, s1		; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s6
; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2		; GCN-IR-NEXT: v_mul_f32_e32 v3, v2, v3
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v3, v3
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-IR-NEXT: v_mad_f32 v2, -v3, v0, v2
; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v6, v3
; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v4		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0		; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v5
; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s0		; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc
; GCN-IR-NEXT: v_mul_f32_e32 v2, v3, v2		; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
		; GCN-IR-NEXT: v_mul_f32_e32 v2, v4, v2
; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2		; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
; GCN-IR-NEXT: v_cvt_u32_f32_e32 v5, v2		; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
; GCN-IR-NEXT: v_mad_f32 v2, -v2, v4, v3		; GCN-IR-NEXT: v_mad_f32 v2, -v2, v5, v4
; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4		; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5
; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc		; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s3		; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s7
; GCN-IR-NEXT: v_mov_b32_e32 v1, 0		; GCN-IR-NEXT: s_brev_b32 s4, -2
; GCN-IR-NEXT: s_brev_b32 s0, -2		; GCN-IR-NEXT: v_and_b32_e32 v0, s4, v0
; GCN-IR-NEXT: v_and_b32_e32 v0, s0, v0
; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
; GCN-IR-NEXT: v_and_b32_e32 v2, s0, v2
; GCN-IR-NEXT: v_mov_b32_e32 v3, v1		; GCN-IR-NEXT: v_mov_b32_e32 v3, v1
; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
		; GCN-IR-NEXT: v_and_b32_e32 v2, s4, v2
		; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-IR-NEXT: s_endpgm		; GCN-IR-NEXT: s_endpgm
%1 = lshr <2 x i64> %x, <i64 33, i64 41>		%1 = lshr <2 x i64> %x, <i64 33, i64 41>
%2 = lshr <2 x i64> %y, <i64 33, i64 41>		%2 = lshr <2 x i64> %y, <i64 33, i64 41>
%result = urem <2 x i64> %1, %2		%result = urem <2 x i64> %1, %2
store <2 x i64> %result, <2 x i64> addrspace(1)* %out		store <2 x i64> %result, <2 x i64> addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 921 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

Show First 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	; GFX9-O0: buffer_load_dword v7
%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)		%tmp137 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp136)
%tmp138 = bitcast i64 %tmp137 to <2 x i32>		%tmp138 = bitcast i64 %tmp137 to <2 x i32>
call void @llvm.amdgcn.raw.buffer.store.v2i32(<2 x i32> %tmp138, <4 x i32> %tmp14, i32 4, i32 0, i32 0)		call void @llvm.amdgcn.raw.buffer.store.v2i32(<2 x i32> %tmp138, <4 x i32> %tmp14, i32 4, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @_amdgpu_cs_main(<4 x i32> inreg %desc, i32 %index) {		define amdgpu_cs void @_amdgpu_cs_main(<4 x i32> inreg %desc, i32 %index) {
%tmp17 = shl i32 %index, 5		%tmp17 = shl i32 %index, 5
; GFX9: buffer_load_dwordx4		; GFX9-DAG: buffer_load_dwordx4
%tmp18 = tail call <4 x i32> @llvm.amdgcn.s.buffer.load.v4i32(<4 x i32> %desc, i32 %tmp17, i32 0)		%tmp18 = tail call <4 x i32> @llvm.amdgcn.s.buffer.load.v4i32(<4 x i32> %desc, i32 %tmp17, i32 0)
%.i0.upto1.bc = bitcast <4 x i32> %tmp18 to <2 x i64>		%.i0.upto1.bc = bitcast <4 x i32> %tmp18 to <2 x i64>
%tmp19 = or i32 %tmp17, 16		%tmp19 = or i32 %tmp17, 16
; GFX9: buffer_load_dwordx2		; GFX9-DAG: buffer_load_dwordx2
%tmp20 = tail call <2 x i32> @llvm.amdgcn.s.buffer.load.v2i32(<4 x i32> %desc, i32 %tmp19, i32 0)		%tmp20 = tail call <2 x i32> @llvm.amdgcn.s.buffer.load.v2i32(<4 x i32> %desc, i32 %tmp19, i32 0)
%.i0.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 0		%.i0.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 0
%tmp22 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i0.upto1.extract, i64 9223372036854775807)		%tmp22 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i0.upto1.extract, i64 9223372036854775807)
%tmp97 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp22)		%tmp97 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp22)
%.i1.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 1		%.i1.upto1.extract = extractelement <2 x i64> %.i0.upto1.bc, i32 1
%tmp99 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i1.upto1.extract, i64 9223372036854775807)		%tmp99 = tail call i64 @llvm.amdgcn.set.inactive.i64(i64 %.i1.upto1.extract, i64 9223372036854775807)
%tmp174 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp99)		%tmp174 = tail call i64 @llvm.amdgcn.wwm.i64(i64 %tmp99)
%.i25 = bitcast <2 x i32> %tmp20 to i64		%.i25 = bitcast <2 x i32> %tmp20 to i64
Show All 26 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix cluster size threshold calculationAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 252257

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.ubfe.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/bitreverse.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

llvm/test/CodeGen/AMDGPU/ctpop64.ll

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

llvm/test/CodeGen/AMDGPU/llvm.minnum.f16.ll

llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll

llvm/test/CodeGen/AMDGPU/madak.ll

llvm/test/CodeGen/AMDGPU/memory_clause.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

llvm/test/CodeGen/AMDGPU/sdiv.ll

llvm/test/CodeGen/AMDGPU/sdiv64.ll

llvm/test/CodeGen/AMDGPU/setcc-limit-load-shrink.ll

llvm/test/CodeGen/AMDGPU/sgpr-control-flow.ll

llvm/test/CodeGen/AMDGPU/srem64.ll

llvm/test/CodeGen/AMDGPU/trunc-combine.ll

llvm/test/CodeGen/AMDGPU/udiv64.ll

llvm/test/CodeGen/AMDGPU/urem64.ll

llvm/test/CodeGen/AMDGPU/wwm-reserved.ll

[AMDGPU] Fix cluster size threshold calculation
AbandonedPublic