This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Remove the gfx10 VALU register destination cache model
AcceptedPublic

Authored by foad on Mar 10 2020, 5:05 AM.

Download Raw Diff

Details

Reviewers

rampitec
arsenm
nhaehnle

Summary

It complicates the model and we don't yet have any evidence that it
improves benchmarks.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Mar 10 2020, 5:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 10 2020, 5:05 AM

Herald added subscribers: llvm-commits, kerbowa, javed.absar and 8 others. · View Herald Transcript

foad added a child revision: D75910: [AMDGPU] Improve scheduling model for VOP3b instructions.Mar 10 2020, 5:06 AM

Harbormaster completed remote builds in B48661: Diff 249321.Mar 10 2020, 6:24 AM

According to spec "code should be scheduled to reuse data from destination cache whenever possible to reduce RAM reads both for power and performance. The destination cache retires results into the VGPRs at a rate of 1 result per VGPR-bank per cycle."

I.e. from the spec point of view some specific scheduling is needed here even though the impact is small. You may see no impact at all because GCNRegBankReassign fights most of the bank conflicts. It makes sense to remeasure with reassign disabled (-amdgpu-reassign-regs=0). I also think this modeling may be improved, in particular in respect to even and add halves of the cache, but not removed entirely.

In D75909#1915333, @rampitec wrote:

According to spec "code should be scheduled to reuse data from destination cache whenever possible to reduce RAM reads both for power and performance. The destination cache retires results into the VGPRs at a rate of 1 result per VGPR-bank per cycle."

I.e. from the spec point of view some specific scheduling is needed here even though the impact is small. You may see no impact at all because GCNRegBankReassign fights most of the bank conflicts. It makes sense to remeasure with reassign disabled (-amdgpu-reassign-regs=0). I also think this modeling may be improved, in particular in respect to even and add halves of the cache, but not removed entirely.

If HWRC is modelling a cache for VALU instructions writing VGPRs then why do we use it for non-VALU instructions like:

def : HWWriteRes<WriteSALU,          [HWSALU,   HWRC], 5>;
def : HWWriteRes<WriteSMEM,          [HWLGKM,   HWRC], 20>;

In D75909#1915458, @foad wrote:
In D75909#1915333, @rampitec wrote:

According to spec "code should be scheduled to reuse data from destination cache whenever possible to reduce RAM reads both for power and performance. The destination cache retires results into the VGPRs at a rate of 1 result per VGPR-bank per cycle."

I.e. from the spec point of view some specific scheduling is needed here even though the impact is small. You may see no impact at all because GCNRegBankReassign fights most of the bank conflicts. It makes sense to remeasure with reassign disabled (-amdgpu-reassign-regs=0). I also think this modeling may be improved, in particular in respect to even and add halves of the cache, but not removed entirely.

If HWRC is modelling a cache for VALU instructions writing VGPRs then why do we use it for non-VALU instructions like:
def : HWWriteRes<WriteSALU,          [HWSALU,   HWRC], 5>;
def : HWWriteRes<WriteSMEM,          [HWLGKM,   HWRC], 20>;
?

The same exists for SGPRs.

The number of test changes is massive, but looks pretty benign and rather points at weaknesses elsewhere.

There are three purposes to the destination cache:

Provide some slack if write-back to the register file is contested.
Re-use recently computed results to reduce register read bank conflicts.
Re-use recently computed results to save power.

We should probably just ignore point 1, and by far the main impact should be point 3. Either way, the moral of it is that if we can schedule dependent instructions to land *exactly* after the latency of the instructions that they depend on, then that's a win -- but it's a weak one and should be deprioritized relative to almost all other concerns.

I find the mixing up of VALU and other instruction types dubious here as well, because even if they do have similar mechanisms (and other than SALU they really don't), they are *separate* mechanisms and would presumably have to be modeled via a separate resource.

The bigger problem is that I don't see how the existing modeling via HWRC models what we want in the first place, and the test changes aren't particularly encouraging from the point of view of keeping it. If there isn't a really good argument, I'd agree with Jay that erring on the side of simplicity is the right thing to do here.

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll
65–68	This is a regression because the distance between dependent instructions is reduced too much. But before worrying about that, we need to worry about what looks like an unnecessary move from SGPR.
llvm/test/CodeGen/AMDGPU/idot2.ll
112–115	This is an improvement because it eliminates a stall.
260–262	These should be scalar instructions in the first place, but the change eliminates a stall.
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll
789–794	This change just doesn't matter.
llvm/test/CodeGen/AMDGPU/shrink-add-sub-constant.ll
467–470	The fact that the computation of v2 and v3 are moved earlier is a regression, but I would consider it unrelated. It rather points to the fact that the scheduler doesn't understand just how ridiculously long the latency of VMEM instructions is, and that adding those extra VALUs between it and the computation of its address doesn't actually help at all.

I'm going to say preliminarily that this change LGTM, but give it some time in case a better argument for keeping the HWRC comes up.

This revision is now accepted and ready to land.Mar 11 2020, 4:01 AM

In D75909#1916525, @nhaehnle wrote:

Either way, the moral of it is that if we can schedule dependent instructions to land *exactly* after the latency of the instructions that they depend on, then that's a win -- but it's a weak one and should be deprioritized relative to almost all other concerns.

My gut feeling is that in most cases the scheduler would already like to use results ASAP, to reduce overall latency. Teaching it that the advantage of using a result ASAP instead of 1 cycle later is more than just saving 1 cycle, would be an incredibly subtle change.

The bigger problem is that I don't see how the existing modeling via HWRC models what we want in the first place

Exactly. It defines a resource that is used for 1 cycle by every register write, but I don't understand how that is supposed to improve the scheduling.

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll
65–68	It's hard for the (pre-RA) scheduler to do a good job with copies/moves because it doesn't know what the register allocator will do with them. So I think this is probably just luck.

Can we run perf measurements with and without this change *and* -amdgpu-reassign-regs=0 applied in both cases? If the difference will be noise then I do not object to remove it.

foad mentioned this in D75910: [AMDGPU] Improve scheduling model for VOP3b instructions.Mar 24 2021, 8:20 AM

foad removed a child revision: D75910: [AMDGPU] Improve scheduling model for VOP3b instructions.Mar 24 2021, 8:20 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SISchedule.td

33 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

llvm.amdgcn.update.dpp.ll

16 lines

6 lines

204 lines

82 lines

332 lines

266 lines

498 lines

llvm.amdgcn.ds.gws.init.ll

2 lines

llvm.amdgcn.image.dim.ll

106 lines

llvm.amdgcn.image.sample.a16.dim.ll

68 lines

llvm.amdgcn.image.sample.dim.ll

6 lines

llvm.amdgcn.raw.buffer.load.ll

2 lines

llvm.fmuladd.f16.ll

8 lines

madak.ll

8 lines

memory-legalizer-atomic-cmpxchg.ll

24 lines

min.ll

13 lines

promote-constOffset-to-imm.ll

24 lines

scheduler-handle-move-bundle.mir

4 lines

shrink-add-sub-constant.ll

308 lines

Diff 249321

llvm/lib/Target/AMDGPU/SISchedule.td

Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	def HWSALU : ProcResource<1> {
let BufferSize = 1;		let BufferSize = 1;
}		}
def HWVMEM : ProcResource<1> {		def HWVMEM : ProcResource<1> {
let BufferSize = 15; // Taken from S_WAITCNT		let BufferSize = 15; // Taken from S_WAITCNT
}		}
def HWVALU : ProcResource<1> {		def HWVALU : ProcResource<1> {
let BufferSize = 1;		let BufferSize = 1;
}		}
def HWRC : ProcResource<1> { // Register destination cache
let BufferSize = 1;
}

class HWWriteRes<SchedWrite write, list<ProcResourceKind> resources,		class HWWriteRes<SchedWrite write, list<ProcResourceKind> resources,
int latency> : WriteRes<write, resources> {		int latency> : WriteRes<write, resources> {
let Latency = latency;		let Latency = latency;
}		}

class HWVALUWriteRes<SchedWrite write, int latency> :		class HWVALUWriteRes<SchedWrite write, int latency> :
HWWriteRes<write, [HWVALU], latency>;		HWWriteRes<write, [HWVALU], latency>;
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
def : InstRW<[WriteCopy], (instrs COPY)>;		def : InstRW<[WriteCopy], (instrs COPY)>;

} // End SchedModel = SIQuarterSpeedModel		} // End SchedModel = SIQuarterSpeedModel

let SchedModel = GFX10SpeedModel in {		let SchedModel = GFX10SpeedModel in {

// The latency values are 1 / (operations / cycle).		// The latency values are 1 / (operations / cycle).
// Add 1 stall cycle for VGPR read.		// Add 1 stall cycle for VGPR read.
def : HWWriteRes<Write32Bit, [HWVALU, HWRC], 5>;		def : HWWriteRes<Write32Bit, [HWVALU], 5>;
def : HWWriteRes<Write64Bit, [HWVALU, HWRC], 9>;		def : HWWriteRes<Write64Bit, [HWVALU], 9>;
def : HWWriteRes<WriteQuarterRate32, [HWVALU, HWRC], 17>;		def : HWWriteRes<WriteQuarterRate32, [HWVALU], 17>;
def : HWWriteRes<WriteFloatFMA, [HWVALU, HWRC], 5>;		def : HWWriteRes<WriteFloatFMA, [HWVALU], 5>;
def : HWWriteRes<WriteDouble, [HWVALU, HWRC], 17>;		def : HWWriteRes<WriteDouble, [HWVALU], 17>;
def : HWWriteRes<WriteDoubleAdd, [HWVALU, HWRC], 17>;		def : HWWriteRes<WriteDoubleAdd, [HWVALU], 17>;
def : HWWriteRes<WriteDoubleCvt, [HWVALU, HWRC], 17>;		def : HWWriteRes<WriteDoubleCvt, [HWVALU], 17>;

def : HWWriteRes<WriteBranch, [HWBranch], 32>;		def : HWWriteRes<WriteBranch, [HWBranch], 32>;
def : HWWriteRes<WriteExport, [HWExport, HWRC], 16>;		def : HWWriteRes<WriteExport, [HWExport], 16>;
def : HWWriteRes<WriteLDS, [HWLGKM, HWRC], 20>;		def : HWWriteRes<WriteLDS, [HWLGKM], 20>;
def : HWWriteRes<WriteSALU, [HWSALU, HWRC], 5>;		def : HWWriteRes<WriteSALU, [HWSALU], 5>;
def : HWWriteRes<WriteSMEM, [HWLGKM, HWRC], 20>;		def : HWWriteRes<WriteSMEM, [HWLGKM], 20>;
def : HWWriteRes<WriteVMEM, [HWVMEM, HWRC], 320>;		def : HWWriteRes<WriteVMEM, [HWVMEM], 320>;
def : HWWriteRes<WriteBarrier, [HWBranch], 2000>;		def : HWWriteRes<WriteBarrier, [HWBranch], 2000>;

def : InstRW<[WriteCopy], (instrs COPY)>;		def : InstRW<[WriteCopy], (instrs COPY)>;

} // End SchedModel = GFX10SpeedModel		} // End SchedModel = GFX10SpeedModel

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: update_dpp64_test:			; GFX10-LABEL: update_dpp64_test:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX10-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_lshlrev_b64 v[0:1], 3, v[0:1]			; GFX10-NEXT: v_lshlrev_b64 v[0:1], 3, v[0:1]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_mov_b32_e32 v3, s1			; GFX10-NEXT: v_mov_b32_e32 v3, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s0			; GFX10-NEXT: v_mov_b32_e32 v2, s0
	; GFX10-NEXT: v_mov_b32_e32 v5, s3			; GFX10-NEXT: v_add_co_u32_e64 v0, vcc_lo, v2, v0
	; GFX10-NEXT: v_mov_b32_e32 v4, s2			; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, v3, v1, vcc_lo
				nhaehnleUnsubmitted Not Done Reply Inline Actions This is a regression because the distance between dependent instructions is reduced too much. But before worrying about that, we need to worry about what looks like an unnecessary move from SGPR. nhaehnle: This is a regression because the distance between dependent instructions is reduced too much.
				foadAuthorUnsubmitted Done Reply Inline Actions It's hard for the (pre-RA) scheduler to do a good job with copies/moves because it doesn't know what the register allocator will do with them. So I think this is probably just luck. foad: It's hard for the (pre-RA) scheduler to do a good job with copies/moves because it doesn't know…
	; GFX10-NEXT: v_add_co_u32_e64 v6, vcc_lo, v2, v0			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_add_co_ci_u32_e32 v7, vcc_lo, v3, v1, vcc_lo			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: global_load_dwordx2 v[2:3], v[6:7], off			; GFX10-NEXT: global_load_dwordx2 v[4:5], v[0:1], off
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_mov_b32_dpp v4, v2 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX10-NEXT: v_mov_b32_dpp v2, v4 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
	; GFX10-NEXT: v_mov_b32_dpp v5, v3 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX10-NEXT: v_mov_b32_dpp v3, v5 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
	; GFX10-NEXT: global_store_dwordx2 v[6:7], v[4:5], off			; GFX10-NEXT: global_store_dwordx2 v[0:1], v[2:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%id = tail call i32 @llvm.amdgcn.workitem.id.x()			%id = tail call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i64, i64 addrspace(1)* %arg, i32 %id			%gep = getelementptr inbounds i64, i64 addrspace(1)* %arg, i32 %id
	%load = load i64, i64 addrspace(1)* %gep			%load = load i64, i64 addrspace(1)* %gep
	%tmp0 = call i64 @llvm.amdgcn.update.dpp.i64(i64 %in1, i64 %load, i32 1, i32 1, i32 1, i1 false) #1			%tmp0 = call i64 @llvm.amdgcn.update.dpp.i64(i64 %in1, i64 %load, i32 1, i32 1, i32 1, i1 false) #1
	store i64 %tmp0, i64 addrspace(1)* %gep			store i64 %tmp0, i64 addrspace(1)* %gep
	ret void			ret void
	}			}

	declare i32 @llvm.amdgcn.workitem.id.x() #0			declare i32 @llvm.amdgcn.workitem.id.x() #0
	declare i32 @llvm.amdgcn.update.dpp.i32(i32, i32, i32 immarg, i32 immarg, i32 immarg, i1 immarg) #1			declare i32 @llvm.amdgcn.update.dpp.i32(i32, i32, i32 immarg, i32 immarg, i32 immarg, i1 immarg) #1
	declare i64 @llvm.amdgcn.update.dpp.i64(i64, i64, i32 immarg, i32 immarg, i32 immarg, i1 immarg) #1			declare i64 @llvm.amdgcn.update.dpp.i64(i64, i64, i32 immarg, i32 immarg, i32 immarg, i1 immarg) #1

	attributes #0 = { nounwind readnone speculatable }			attributes #0 = { nounwind readnone speculatable }
	attributes #1 = { convergent nounwind readnone }			attributes #1 = { convergent nounwind readnone }

llvm/test/CodeGen/AMDGPU/fdiv.ll

Show All 37 Lines
}		}

; FUNC-LABEL: {{^}}fdiv_f32_denormals:		; FUNC-LABEL: {{^}}fdiv_f32_denormals:
; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W		; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS		; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]		; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]		; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]
		; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]

; PREGFX10-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
; PREGFX10-NOT: s_setreg		; PREGFX10-NOT: s_setreg
; PREGFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0		; PREGFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
; PREGFX10: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]		; PREGFX10: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
; PREGFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]		; PREGFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]
; PREGFX10: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]		; PREGFX10: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
; PREGFX10: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]		; PREGFX10: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
; PREGFX10: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]		; PREGFX10: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
; PREGFX10-NOT: s_setreg		; PREGFX10-NOT: s_setreg

; GFX10-NOT: s_denorm_mode		; GFX10-NOT: s_denorm_mode
; GFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0		; GFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
; GFX10: v_fmac_f32_e32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]]		; GFX10: v_fmac_f32_e32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]]
; GFX10: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
; GFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]		; GFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]
; GFX10: v_fma_f32 [[D:v[0-9]+]], [[C]], -[[NUM_SCALE]], [[DEN_SCALE]]		; GFX10: v_fma_f32 [[D:v[0-9]+]], [[C]], -[[NUM_SCALE]], [[DEN_SCALE]]
; GFX10: v_fmac_f32_e32 [[E:v[0-9]+]], [[D]], [[B]]		; GFX10: v_fmac_f32_e32 [[E:v[0-9]+]], [[D]], [[B]]
; GFX10: v_fmac_f32_e64 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]]		; GFX10: v_fmac_f32_e64 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]]
; GFX10-NOT: s_denorm_mode		; GFX10-NOT: s_denorm_mode

; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]		; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],		; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
▲ Show 20 Lines • Show All 241 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}


; FUNC-LABEL: {{^}}fdiv_f32_denorms_correctly_rounded_divide_sqrt:		; FUNC-LABEL: {{^}}fdiv_f32_denorms_correctly_rounded_divide_sqrt:

; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]		; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]		; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]
		; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]

; PREGFX10-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
; PREGFX10-NOT: s_setreg		; PREGFX10-NOT: s_setreg
; PREGFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0		; PREGFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
; PREGFX10: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]		; PREGFX10: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
; PREGFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]		; PREGFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]
; PREGFX10: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]		; PREGFX10: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
; PREGFX10: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]		; PREGFX10: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
; PREGFX10: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]		; PREGFX10: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
; PREGFX10-NOT: s_setreg		; PREGFX10-NOT: s_setreg

; GFX10-NOT: s_denorm_mode		; GFX10-NOT: s_denorm_mode
; GFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0		; GFX10: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
; GFX10: v_fmac_f32_e32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]]		; GFX10: v_fmac_f32_e32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]]
; GFX10: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
; GFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]		; GFX10: v_mul_f32_e32 [[C:v[0-9]+]], [[DEN_SCALE]], [[B]]
; GFX10: v_fma_f32 [[D:v[0-9]+]], [[C]], -[[NUM_SCALE]], [[DEN_SCALE]]		; GFX10: v_fma_f32 [[D:v[0-9]+]], [[C]], -[[NUM_SCALE]], [[DEN_SCALE]]
; GFX10: v_fmac_f32_e32 [[E:v[0-9]+]], [[D]], [[B]]		; GFX10: v_fmac_f32_e32 [[E:v[0-9]+]], [[D]], [[B]]
; GFX10: v_fmac_f32_e64 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]]		; GFX10: v_fmac_f32_e64 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]]
; GFX10-NOT: s_denorm_mode		; GFX10-NOT: s_denorm_mode

; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]		; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],		; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
Show All 13 Lines

llvm/test/CodeGen/AMDGPU/idot2.ll

	Show First 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2:			; GFX10-DL-LABEL: udot2:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s3, s2, v0
				nhaehnleUnsubmitted Not Done Reply Inline Actions This is an improvement because it eliminates a stall. nhaehnle: This is an improvement because it eliminates a stall.
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2			%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_MulMul:			; GFX10-DL-LABEL: udot2_MulMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s4, 0xffff
	; GFX10-DL-NEXT: s_load_dword s5, s[0:1], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s6, s2, s4			; GFX10-DL-NEXT: s_and_b32 s5, s3, s2
	; GFX10-DL-NEXT: s_and_b32 s4, s3, s4			; GFX10-DL-NEXT: s_and_b32 s2, s4, s2
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 16
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16			; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16
	; GFX10-DL-NEXT: v_mul_u32_u24_e64 v0, s4, s6			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s3, s2, v0			; GFX10-DL-NEXT: v_mul_u32_u24_e64 v0, s2, s5
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, s5, v0			; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
				; GFX10-DL-NEXT: v_mad_u32_u24 v0, s4, s3, v0
				nhaehnleUnsubmitted Not Done Reply Inline Actions These should be scalar instructions in the first place, but the change eliminates a stall. nhaehnle: These should be scalar instructions in the first place, but the change eliminates a stall.
				; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, s2, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot2_i32_i16 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot2_i32_i16 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot2:			; GFX10-DL-LABEL: idot2:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot2_i32_i16 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot2_i32_i16 v2, s3, s2, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2			%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_alt_AddOperands:			; GFX10-DL-LABEL: udot2_alt_AddOperands:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s3, s2, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2			%vec2 = load <2 x i16>, <2 x i16> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 233 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notudot2_SameVec:			; GFX10-DL-LABEL: notudot2_SameVec:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 16			; GFX10-DL-NEXT: s_and_b32 s2, s2, 0xffff
	; GFX10-DL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s2, s2, s4			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s3, s3, s4
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s3, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s2, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_v4i16:			; GFX10-DL-LABEL: udot2_v4i16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s3, s2, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i16> addrspace(1)* %src2,			<4 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1			%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1
	%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2			%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot2_u32_u16 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_v4i16_Hi:			; GFX10-DL-LABEL: udot2_v4i16_Hi:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x4			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x4
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x4
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s3, s2, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i16> addrspace(1)* %src2,			<4 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1			%vec1 = load <4 x i16>, <4 x i16> addrspace(1)* %src1
	%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2			%vec2 = load <4 x i16>, <4 x i16> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notudot2_v4i16_Even:			; GFX10-DL-LABEL: notudot2_v4i16_Even:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s8, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s7, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s3, s3, s7			; GFX10-DL-NEXT: s_and_b32 s3, s3, s8
	; GFX10-DL-NEXT: s_and_b32 s5, s5, s7			; GFX10-DL-NEXT: s_and_b32 s5, s5, s8
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
	; GFX10-DL-NEXT: s_and_b32 s2, s2, s7			; GFX10-DL-NEXT: s_and_b32 s2, s2, s8
	; GFX10-DL-NEXT: s_and_b32 s4, s4, s7			; GFX10-DL-NEXT: s_and_b32 s4, s4, s8
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s3, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s3, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s2, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s2, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i16> addrspace(1)* %src2,			<4 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notudot2_v4i16_Middle:			; GFX10-DL-LABEL: notudot2_v4i16_Middle:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s8, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s7, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s3, s3, s7			; GFX10-DL-NEXT: s_and_b32 s3, s3, s8
	; GFX10-DL-NEXT: s_and_b32 s5, s5, s7			; GFX10-DL-NEXT: s_and_b32 s5, s5, s8
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 16			; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 16
	; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 16			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s3, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s3, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s2, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s2, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notudot2_DiffIndex:			; GFX10-DL-LABEL: notudot2_DiffIndex:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s5, s[0:1], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s5, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s6, s2, 16			; GFX10-DL-NEXT: s_lshr_b32 s6, s3, 16
	; GFX10-DL-NEXT: s_and_b32 s7, s3, s5			; GFX10-DL-NEXT: s_and_b32 s7, s4, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s5
	; GFX10-DL-NEXT: s_and_b32 s2, s2, s5			; GFX10-DL-NEXT: s_and_b32 s2, s3, s2
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16			; GFX10-DL-NEXT: s_lshr_b32 s3, s4, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s7, s6, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s7, s6, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s2, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s2, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_MultipleUses_add1:			; GFX10-DL-LABEL: udot2_MultipleUses_add1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s5, 0xffff			; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s6, s2, 16
	; GFX10-DL-NEXT: s_lshr_b32 s7, s3, 16			; GFX10-DL-NEXT: s_lshr_b32 s7, s3, 16
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
	; GFX10-DL-NEXT: s_and_b32 s2, s2, s5			; GFX10-DL-NEXT: s_lshr_b32 s5, s4, 16
	; GFX10-DL-NEXT: s_and_b32 s3, s3, s5			; GFX10-DL-NEXT: s_and_b32 s4, s4, s2
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s7, s6, v0			; GFX10-DL-NEXT: s_and_b32 s2, s3, s2
	; GFX10-DL-NEXT: v_mad_u32_u24 v1, s3, s2, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s7, s5, v0
				; GFX10-DL-NEXT: v_mad_u32_u24 v1, s2, s4, v0
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v1, v0			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v1, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	▲ Show 20 Lines • Show All 268 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_MultipleUses_mul1:			; GFX10-DL-LABEL: udot2_MultipleUses_mul1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s5, s[0:1], 0x0
	; GFX10-DL-NEXT: s_mov_b32 s5, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s6, s2, s5			; GFX10-DL-NEXT: s_and_b32 s6, s3, s2
	; GFX10-DL-NEXT: s_and_b32 s5, s3, s5			; GFX10-DL-NEXT: s_and_b32 s2, s4, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s5
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 16
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16			; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s6, v0			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 16
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s3, s2, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s2, s6, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s4, s3, v0
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s6, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%vec1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 561 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: udot2_acc16:			; GFX10-DL-LABEL: udot2_acc16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s0, s1, v2			; GFX10-DL-NEXT: v_dot2_u32_u16 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<2 x i16> addrspace(1)* %src2,			<2 x i16> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%v1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1			%v1 = load <2 x i16>, <2 x i16> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

	Show First 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot4_i32_i8 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot4_acc32:			; GFX10-DL-LABEL: idot4_acc32:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s0, s1, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s2, s3, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: idot4_acc16:			; GFX10-DL-LABEL: idot4_acc16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s0, s1, v2			; GFX10-DL-NEXT: v_dot4_i32_i8 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: idot4_acc8:			; GFX10-DL-LABEL: idot4_acc8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2			; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 546 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot4_acc16_vecMul:			; GFX10-DL-LABEL: idot4_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_bfe_i32 s4, s0, 0x80000			; GFX10-DL-NEXT: s_lshr_b32 s4, s2, 16
	; GFX10-DL-NEXT: s_bfe_i32 s3, s1, 0x80000			; GFX10-DL-NEXT: s_lshr_b32 s5, s3, 16
	; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v11, 8, s2
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 8, s0			; GFX10-DL-NEXT: s_bfe_i32 s2, s2, 0x80000
	; GFX10-DL-NEXT: s_lshr_b32 s5, s1, 16			; GFX10-DL-NEXT: s_bfe_i32 s6, s3, 0x80000
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 8, s1			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v2, 8, s3
	; GFX10-DL-NEXT: v_and_b32_e32 v6, s3, v3			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 8, s4
	; GFX10-DL-NEXT: v_and_b32_e32 v7, s4, v3			; GFX10-DL-NEXT: s_bfe_i32 s3, s5, 0x80000
	; GFX10-DL-NEXT: s_bfe_i32 s0, s2, 0x80000			; GFX10-DL-NEXT: s_bfe_i32 s4, s4, 0x80000
	; GFX10-DL-NEXT: s_bfe_i32 s1, s5, 0x80000			; GFX10-DL-NEXT: v_and_b32_e32 v4, s6, v0
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v5, 16, v6			; GFX10-DL-NEXT: v_and_b32_e32 v5, s2, v0
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v7			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v6, 8, s5
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v6, 8, s2			; GFX10-DL-NEXT: v_and_b32_e32 v7, s3, v0
	; GFX10-DL-NEXT: v_and_b32_e32 v8, s1, v3			; GFX10-DL-NEXT: v_and_b32_e32 v8, s4, v0
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s0, v3			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v7, 8, s5			; GFX10-DL-NEXT: v_lshl_or_b32 v2, v2, 16, v4
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5			; GFX10-DL-NEXT: v_lshl_or_b32 v4, v11, 16, v5
	; GFX10-DL-NEXT: v_lshl_or_b32 v3, v6, 16, v3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v7, 16, v8			; GFX10-DL-NEXT: v_lshl_or_b32 v5, v6, 16, v7
				; GFX10-DL-NEXT: v_lshl_or_b32 v3, v3, 16, v8
				; GFX10-DL-NEXT: v_pk_mul_lo_u16 v2, v4, v2
				; GFX10-DL-NEXT: global_load_ushort v4, v[0:1], off
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v5
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v4, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v4, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	Show All 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot4_u32_u8 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc32:			; GFX10-DL-LABEL: udot4_acc32:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s2, s3, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: udot4_acc16:			; GFX10-DL-LABEL: udot4_acc16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2			; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: udot4_acc8:			; GFX10-DL-LABEL: udot4_acc8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2			; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s1, v3, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_8:			; GFX10-DL-LABEL: udot2_8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[2:3], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s3, s2
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_and_b32 s0, s4, s2
	; GFX10-DL-NEXT: s_movk_i32 s1, 0xff			; GFX10-DL-NEXT: s_bfe_u32 s2, s4, 0x80008
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_bfe_u32 s3, s3, 0x80008
	; GFX10-DL-NEXT: s_and_b32 s3, s2, s1
	; GFX10-DL-NEXT: s_and_b32 s1, s0, s1
	; GFX10-DL-NEXT: s_bfe_u32 s2, s2, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s0, s0, 0x80008
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s3, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s2, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s3, s2, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; GFX10-DL-LABEL: udot4_CommutationInsideMAD:			; GFX10-DL-LABEL: udot4_CommutationInsideMAD:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
				; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s1, s0, v2			; GFX10-DL-NEXT: v_dot4_u32_u8 v2, s1, s0, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s7, v5, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:			; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_and_b32 s0, s3, s2
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s4, s2
	; GFX10-DL-NEXT: s_movk_i32 s2, 0xff			; GFX10-DL-NEXT: s_bfe_u32 s2, s3, 0x80008
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x80008
	; GFX10-DL-NEXT: s_and_b32 s5, s0, s2
	; GFX10-DL-NEXT: s_and_b32 s2, s1, s2
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s3, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s2, v2
	; GFX10-DL-NEXT: s_bfe_u32 s3, s0, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s2, s3, 0x80010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-DL-NEXT: s_lshr_b32 s0, s3, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s5, v2			; GFX10-DL-NEXT: s_lshr_b32 s1, s4, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s3, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s2, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s0, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_multiuse_mul1:			; GFX10-DL-LABEL: udot4_multiuse_mul1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s5, s[0:1], 0x0
	; GFX10-DL-NEXT: s_movk_i32 s5, 0xff			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_and_b32 s6, s3, s2
	; GFX10-DL-NEXT: s_and_b32 s6, s2, s5			; GFX10-DL-NEXT: s_and_b32 s2, s4, s2
	; GFX10-DL-NEXT: s_and_b32 s5, s3, s5			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s5
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_bfe_u32 s5, s3, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x80008			; GFX10-DL-NEXT: s_bfe_u32 s7, s4, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80008			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s6, s2, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s6, s5, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s7, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s4, s7, v0			; GFX10-DL-NEXT: s_bfe_u32 s5, s3, 0x80010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s7, s4, 0x80010
	; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80010			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s6, s2, v0
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 24			; GFX10-DL-NEXT: s_lshr_b32 s2, s3, 24
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 24			; GFX10-DL-NEXT: s_lshr_b32 s3, s4, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s6, s5, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s7, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s4, s7, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_multiuse_add1:			; GFX10-DL-LABEL: udot4_multiuse_add1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_movk_i32 s2, 0xff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0
	; GFX10-DL-NEXT: s_movk_i32 s5, 0xff			; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_bfe_u32 s6, s2, 0x80008
	; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80008			; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80008
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6
	; GFX10-DL-NEXT: s_and_b32 s8, s2, s5			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x80008
	; GFX10-DL-NEXT: s_and_b32 s5, s3, s5			; GFX10-DL-NEXT: s_and_b32 s8, s4, s2
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s6, s7, v0			; GFX10-DL-NEXT: s_and_b32 s2, s3, s2
	; GFX10-DL-NEXT: s_bfe_u32 s6, s2, 0x80010			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s5, s7, v0
	; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s7, s3, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 24			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 24			; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v1, s8, s5, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v1, s8, s2, v0
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v0, s4, v0			; GFX10-DL-NEXT: s_lshr_b32 s2, s4, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v1, s6, s7, v1			; GFX10-DL-NEXT: v_add_nc_u32_e32 v0, s6, v0
				; GFX10-DL-NEXT: v_mad_u32_u24 v1, s5, s7, v1
	; GFX10-DL-NEXT: v_mad_u32_u24 v1, s2, s3, v1			; GFX10-DL-NEXT: v_mad_u32_u24 v1, s2, s3, v1
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v1, v0			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v1, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v5, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s6, v5, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s0, v3, v2
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notdot4_mixedtypes:			; GFX10-DL-LABEL: notdot4_mixedtypes:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x80008
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX10-DL-NEXT: s_bfe_u32 s5, s3, 0x80008
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_sext_i32_i8 s0, s2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80008			; GFX10-DL-NEXT: s_sext_i32_i8 s1, s3
	; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GFX10-DL-NEXT: s_sext_i32_i8 s4, s0
	; GFX10-DL-NEXT: s_sext_i32_i8 s5, s1
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s5, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x80010
	; GFX10-DL-NEXT: s_bfe_u32 s3, s1, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s5, s3, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-DL-NEXT: s_lshr_b32 s0, s2, 24
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s4, s5, v2			; GFX10-DL-NEXT: s_lshr_b32 s1, s3, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s5, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2
	▲ Show 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc32_vecMul:			; GFX10-DL-LABEL: udot4_acc32_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_movk_i32 s3, 0xff
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s5, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s6, s[0:1], 0x0
	; GFX10-DL-NEXT: s_movk_i32 s5, 0xff
	; GFX10-DL-NEXT: s_mov_b32 s6, 0xffff
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_and_b32 s7, s2, s5			; GFX10-DL-NEXT: s_and_b32 s7, s4, s3
	; GFX10-DL-NEXT: v_mov_b32_e32 v2, s4			; GFX10-DL-NEXT: s_and_b32 s3, s5, s3
	; GFX10-DL-NEXT: s_and_b32 s5, s3, s5			; GFX10-DL-NEXT: v_mov_b32_e32 v2, s6
	; GFX10-DL-NEXT: v_and_b32_sdwa v0, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1			; GFX10-DL-NEXT: v_and_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-DL-NEXT: v_and_b32_sdwa v1, s6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1			; GFX10-DL-NEXT: v_and_b32_sdwa v1, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s2, s4, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 24			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s7, s5, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s7, s3, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s3, 0x80010			; GFX10-DL-NEXT: s_bfe_u32 s3, s5, 0x80010
	; GFX10-DL-NEXT: s_lshr_b32 s3, s3, 24			; GFX10-DL-NEXT: s_lshr_b32 s5, s5, 24
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, v1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, v1, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v0, s4, s5, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v0, s2, s3, v0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s3, v0			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s4, s5, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc16_vecMul:			; GFX10-DL-LABEL: udot4_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s0			; GFX10-DL-NEXT: s_lshr_b32 s5, s2, 16
	; GFX10-DL-NEXT: v_and_b32_sdwa v7, v3, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: s_lshr_b32 s6, s3, 16
	; GFX10-DL-NEXT: v_lshrrev_b16_e64 v5, 8, s1			; GFX10-DL-NEXT: v_lshrrev_b16_e64 v1, 8, s2
	; GFX10-DL-NEXT: v_and_b32_sdwa v6, v3, s1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_lshrrev_b16_e64 v2, 8, s3
	; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 16			; GFX10-DL-NEXT: v_and_b32_sdwa v3, v0, s3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 16			; GFX10-DL-NEXT: v_and_b32_sdwa v4, v0, s2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v7			; GFX10-DL-NEXT: v_and_b32_sdwa v5, v0, s6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-DL-NEXT: v_and_b32_sdwa v6, v0, s5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, v5, 16, v6			; GFX10-DL-NEXT: s_lshr_b32 s4, s2, 24
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-DL-NEXT: v_lshl_or_b32 v2, v2, 16, v3
	; GFX10-DL-NEXT: v_and_b32_sdwa v6, v3, s3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_lshl_or_b32 v3, v1, 16, v4
	; GFX10-DL-NEXT: v_and_b32_sdwa v3, v3, s2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: v_lshl_or_b32 v5, s1, 16, v6			; GFX10-DL-NEXT: s_lshr_b32 s2, s3, 24
	; GFX10-DL-NEXT: v_lshl_or_b32 v3, s0, 16, v3			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v2, v3, v2
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v5			; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off
				; GFX10-DL-NEXT: v_lshl_or_b32 v4, s2, 16, v5
				; GFX10-DL-NEXT: v_lshl_or_b32 v5, s4, 16, v6
				; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v5, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v4, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v3, v2, v3
				; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v4
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc8_vecMul:			; GFX10-DL-LABEL: udot4_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s3			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_lshrrev_b16_e64 v3, 8, s0			; GFX10-DL-NEXT: v_lshrrev_b16_e64 v0, 8, s2
	; GFX10-DL-NEXT: v_lshrrev_b16_e64 v4, 8, s1			; GFX10-DL-NEXT: v_lshrrev_b16_e64 v1, 8, s3
	; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 24			; GFX10-DL-NEXT: s_lshr_b32 s4, s2, 24
	; GFX10-DL-NEXT: s_lshr_b32 s3, s1, 24			; GFX10-DL-NEXT: s_lshr_b32 s5, s3, 24
	; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 16			; GFX10-DL-NEXT: s_lshr_b32 s6, s2, 16
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, v3, v4			; GFX10-DL-NEXT: s_lshr_b32 s7, s3, 16
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s0, s1			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v0, v0, v1
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s2, s3			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v1, s2, s3
	; GFX10-DL-NEXT: s_lshr_b32 s0, s1, 16			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v2, s4, s5
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 8, v3			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, s6, s7
	; GFX10-DL-NEXT: v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v0, 8, v0
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 8, v5			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v2, 8, v2
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s4, s0			; GFX10-DL-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-DL-NEXT: v_or_b32_sdwa v1, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v4			; GFX10-DL-NEXT: v_or_b32_e32 v3, v2, v1
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v3
				; GFX10-DL-NEXT: global_load_ubyte v5, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v5			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v5
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<4 x i8> addrspace(1)* %src2,			<4 x i8> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1			%vec1 = load <4 x i8>, <4 x i8> addrspace(1)* %src1
	%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2			%vec2 = load <4 x i8>, <4 x i8> addrspace(1)* %src2

	Show All 15 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot8_i32_i4 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot8_i32_i4 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot8_acc32:			; GFX10-DL-LABEL: idot8_acc32:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
				; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_dot8_i32_i4 v2, s2, s4, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_dot8_i32_i4 v2, s1, s2, v0			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_i32_i24 v2, s15, v10, v2			; GFX9-DL-NEXT: v_mad_i32_i24 v2, s15, v10, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2			; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot8_acc16:			; GFX10-DL-LABEL: idot8_acc16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: global_load_ushort v4, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 12			; GFX10-DL-NEXT: s_lshr_b32 s0, s2, 12
	; GFX10-DL-NEXT: s_lshr_b32 s4, s1, 12			; GFX10-DL-NEXT: s_lshr_b32 s1, s4, 12
	; GFX10-DL-NEXT: s_bfe_i32 s5, s0, 0x40000			; GFX10-DL-NEXT: s_bfe_i32 s5, s2, 0x40000
	; GFX10-DL-NEXT: s_bfe_i32 s6, s1, 0x40000			; GFX10-DL-NEXT: s_bfe_i32 s6, s4, 0x40000
	; GFX10-DL-NEXT: s_bfe_i32 s7, s0, 0x40004			; GFX10-DL-NEXT: s_bfe_i32 s7, s2, 0x40004
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s2			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v2, 12, s0
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s4			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s1
	; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_i32 s8, s4, 0x40004
	; GFX10-DL-NEXT: s_bfe_i32 s9, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_i32 s9, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_i32 s2, s1, 0x40004			; GFX10-DL-NEXT: s_bfe_i32 s10, s4, 0x40008
				; GFX10-DL-NEXT: v_ashrrev_i16_e64 v2, 12, v2
				; GFX10-DL-NEXT: s_mov_b32 s0, 0xffff
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3
	; GFX10-DL-NEXT: s_mov_b32 s4, 0xffff			; GFX10-DL-NEXT: s_bfe_i32 s1, s4, 0x40010
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 12, v4			; GFX10-DL-NEXT: v_mul_i32_i24_e64 v5, s9, s10
	; GFX10-DL-NEXT: v_mul_i32_i24_e64 v5, s8, s9			; GFX10-DL-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s4, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX10-DL-NEXT: v_and_b32_e32 v4, s4, v4			; GFX10-DL-NEXT: s_bfe_i32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_i32 s4, s1, 0x40010
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
				; GFX10-DL-NEXT: v_mad_i32_i24 v4, s5, s6, v4
				; GFX10-DL-NEXT: s_bfe_i32 s5, s2, 0x40014
				; GFX10-DL-NEXT: s_bfe_i32 s6, s4, 0x40014
				; GFX10-DL-NEXT: v_mad_i32_i24 v4, s7, s8, v4
				; GFX10-DL-NEXT: v_add_nc_u32_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, v2, v3, v4
				; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2
				; GFX10-DL-NEXT: s_bfe_i32 s0, s2, 0x40018
				; GFX10-DL-NEXT: s_bfe_i32 s1, s4, 0x40018
				; GFX10-DL-NEXT: s_ashr_i32 s2, s2, 28
				; GFX10-DL-NEXT: s_ashr_i32 s4, s4, 28
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_i32 s5, s0, 0x40014
	; GFX10-DL-NEXT: s_bfe_i32 s6, s1, 0x40014
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s7, s2, v2
	; GFX10-DL-NEXT: s_bfe_i32 s2, s0, 0x40010
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, v3, v4, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: s_bfe_i32 s2, s0, 0x40018
	; GFX10-DL-NEXT: s_bfe_i32 s4, s1, 0x40018
	; GFX10-DL-NEXT: s_ashr_i32 s0, s0, 28
	; GFX10-DL-NEXT: s_ashr_i32 s1, s1, 28
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2
				; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 284 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_i32_i24 v2, s16, v10, v2			; GFX9-DL-NEXT: v_mad_i32_i24 v2, s16, v10, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s6
	; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2			; GFX9-DL-NEXT: v_mad_i32_i24 v2, s0, v3, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot8_acc8:			; GFX10-DL-LABEL: idot8_acc8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: global_load_ubyte v4, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s2, s0, 12			; GFX10-DL-NEXT: s_lshr_b32 s0, s2, 12
	; GFX10-DL-NEXT: s_lshr_b32 s4, s1, 12			; GFX10-DL-NEXT: s_lshr_b32 s1, s4, 12
	; GFX10-DL-NEXT: s_bfe_i32 s5, s0, 0x40000			; GFX10-DL-NEXT: s_bfe_i32 s5, s2, 0x40000
	; GFX10-DL-NEXT: s_bfe_i32 s6, s1, 0x40000			; GFX10-DL-NEXT: s_bfe_i32 s6, s4, 0x40000
	; GFX10-DL-NEXT: s_bfe_i32 s7, s0, 0x40004			; GFX10-DL-NEXT: s_bfe_i32 s7, s2, 0x40004
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s2			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v2, 12, s0
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s4			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s1
	; GFX10-DL-NEXT: s_bfe_i32 s8, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_i32 s8, s4, 0x40004
	; GFX10-DL-NEXT: s_bfe_i32 s9, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_i32 s9, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_i32 s2, s1, 0x40004			; GFX10-DL-NEXT: s_bfe_i32 s10, s4, 0x40008
				; GFX10-DL-NEXT: v_ashrrev_i16_e64 v2, 12, v2
				; GFX10-DL-NEXT: s_movk_i32 s0, 0xff
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3
	; GFX10-DL-NEXT: s_movk_i32 s4, 0xff			; GFX10-DL-NEXT: s_bfe_i32 s1, s4, 0x40010
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 12, v4			; GFX10-DL-NEXT: v_mul_i32_i24_e64 v5, s9, s10
	; GFX10-DL-NEXT: v_mul_i32_i24_e64 v5, s8, s9			; GFX10-DL-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s4, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX10-DL-NEXT: v_and_b32_e32 v4, s4, v4			; GFX10-DL-NEXT: s_bfe_i32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_i32 s4, s1, 0x40010
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
				; GFX10-DL-NEXT: v_mad_i32_i24 v4, s5, s6, v4
				; GFX10-DL-NEXT: s_bfe_i32 s5, s2, 0x40014
				; GFX10-DL-NEXT: s_bfe_i32 s6, s4, 0x40014
				; GFX10-DL-NEXT: v_mad_i32_i24 v4, s7, s8, v4
				; GFX10-DL-NEXT: v_add_nc_u32_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, v2, v3, v4
				; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2
				; GFX10-DL-NEXT: s_bfe_i32 s0, s2, 0x40018
				; GFX10-DL-NEXT: s_bfe_i32 s1, s4, 0x40018
				; GFX10-DL-NEXT: s_ashr_i32 s2, s2, 28
				; GFX10-DL-NEXT: s_ashr_i32 s4, s4, 28
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_i32 s5, s0, 0x40014
	; GFX10-DL-NEXT: s_bfe_i32 s6, s1, 0x40014
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s7, s2, v2
	; GFX10-DL-NEXT: s_bfe_i32 s2, s0, 0x40010
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, v3, v4, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: s_bfe_i32 s2, s0, 0x40018
	; GFX10-DL-NEXT: s_bfe_i32 s4, s1, 0x40018
	; GFX10-DL-NEXT: s_ashr_i32 s0, s0, 28
	; GFX10-DL-NEXT: s_ashr_i32 s1, s1, 28
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_i32_i24 v2, s0, s1, v2
				; GFX10-DL-NEXT: v_mad_i32_i24 v2, s2, s4, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 957 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot8_acc16_vecMul:			; GFX10-DL-LABEL: idot8_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s5, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004			; GFX10-DL-NEXT: s_lshr_b32 s1, s2, 28
	; GFX10-DL-NEXT: s_and_b32 s7, s1, 15			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s6, s2, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s7, s2, 0x40008
	; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 28			; GFX10-DL-NEXT: s_bfe_u32 s8, s2, 0x4000c
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s6			; GFX10-DL-NEXT: s_and_b32 s9, s2, 15
	; GFX10-DL-NEXT: s_bfe_u32 s9, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s2, s2, 0x40004
				; GFX10-DL-NEXT: s_and_b32 s10, s4, 15
				; GFX10-DL-NEXT: s_bfe_u32 s11, s4, 0x40004
				; GFX10-DL-NEXT: s_bfe_u32 s13, s4, 0x40008
				; GFX10-DL-NEXT: s_bfe_u32 s14, s4, 0x4000c
				; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s9, s2
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s7, s7, s8			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s7, s7, s8
	; GFX10-DL-NEXT: s_bfe_u32 s10, s0, 0x40014			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s9, s10, s11
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s10, s4, 0x40010
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v3, 12, s5 op_sel_hi:[0,1]			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s8, s13, s14
	; GFX10-DL-NEXT: s_bfe_u32 s0, s0, 0x4000c			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v2, 12, s2 op_sel_hi:[0,1]
				; GFX10-DL-NEXT: s_bfe_u32 s2, s4, 0x40014
				; GFX10-DL-NEXT: v_pk_lshlrev_b16 v3, 12, s9 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v4, 12, s7 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v4, 12, s7 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40008			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v5, 12, s8 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x4000c			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v2, 12, v2 op_sel_hi:[0,1]
				; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s6
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v3, 12, v3 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v3, 12, v3 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s6, s0			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s10, s2
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v4 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40010			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v5 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s8, s5			; GFX10-DL-NEXT: s_bfe_u32 s12, s4, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40018			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v2, v2, v3
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v5, 12, s0 op_sel_hi:[0,1]			; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off
	; GFX10-DL-NEXT: s_bfe_u32 s0, s1, 0x40014
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v4
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s5 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s9, s10
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v5 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s6, s0
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v6 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s5 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s5 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v7, 12, s0 op_sel_hi:[0,1]			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s2, s4			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v7, 12, s2 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s1, s7, s1			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s0, s1
				; GFX10-DL-NEXT: s_pack_ll_b32_b16 s1, s12, s4
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v7 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v7 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v7, 12, s1 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v7, 12, s1 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v3, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v3, 12, v6 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v3, 12, v6 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s0 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_lshlrev_b16 v6, 12, s0 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, v3, v5
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v7 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v5, 12, v7 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v6 op_sel_hi:[0,1]			; GFX10-DL-NEXT: v_pk_ashrrev_i16 v4, 12, v6 op_sel_hi:[0,1]
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: idot8_acc8_vecMul:			; GFX10-DL-LABEL: idot8_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_mov_b32 s0, 0xffff
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0
				; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_lshr_b32 s8, s0, 4
	; GFX10-DL-NEXT: s_lshr_b32 s15, s1, 4			; GFX10-DL-NEXT: s_lshr_b32 s15, s1, 4
	; GFX10-DL-NEXT: s_lshr_b32 s9, s0, 12			; GFX10-DL-NEXT: s_lshr_b32 s8, s2, 4
				; GFX10-DL-NEXT: s_lshr_b32 s9, s2, 12
	; GFX10-DL-NEXT: s_lshr_b32 s16, s1, 12			; GFX10-DL-NEXT: s_lshr_b32 s16, s1, 12
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s0			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 12, s2
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v12, 12, s15			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v12, 12, s15
				; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s8
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 12, s1
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v14, 12, s16			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v14, 12, s16
	; GFX10-DL-NEXT: s_lshr_b32 s10, s0, 8			; GFX10-DL-NEXT: s_lshr_b32 s10, s2, 8
	; GFX10-DL-NEXT: s_lshr_b32 s17, s1, 8			; GFX10-DL-NEXT: s_lshr_b32 s17, s1, 8
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 12, s9			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 12, s9
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v7, 12, v7			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v7, 12, v7
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v12			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v12
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s10			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v5, 12, s10
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v3, 12, v3
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 12, v4			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v4, 12, v4
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v13, 12, s17			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v13, 12, s17
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v7, v7, v12			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v7, v7, v12
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v19, 12, v6			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v19, 12, v6
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v14, 12, v14			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v14, 12, v14
	; GFX10-DL-NEXT: s_lshr_b32 s4, s0, 20			; GFX10-DL-NEXT: s_lshr_b32 s4, s2, 20
	; GFX10-DL-NEXT: s_lshr_b32 s5, s0, 16			; GFX10-DL-NEXT: s_lshr_b32 s5, s2, 16
	; GFX10-DL-NEXT: s_lshr_b32 s6, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s6, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s7, s0, 24			; GFX10-DL-NEXT: s_lshr_b32 s7, s2, 24
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, v3, v4			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, v3, v4
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, v19, v14			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, v19, v14
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 8, v7			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 8, v7
	; GFX10-DL-NEXT: s_lshr_b32 s11, s1, 20			; GFX10-DL-NEXT: s_lshr_b32 s11, s1, 20
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v13			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v13
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 12, v5			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 12, v5
	; GFX10-DL-NEXT: s_lshr_b32 s12, s1, 16			; GFX10-DL-NEXT: s_lshr_b32 s12, s1, 16
	; GFX10-DL-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: s_lshr_b32 s13, s1, 28			; GFX10-DL-NEXT: s_lshr_b32 s13, s1, 28
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v8, 12, s7			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v8, 12, s7
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v9, 12, s6			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v9, 12, s6
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v10, 12, s5			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v10, 12, s5
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v11, 12, s4			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v11, 12, s4
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v13, 12, s11			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v13, 12, s11
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v5, v12			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v5, v12
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 8, v4			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 8, v4
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s12			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 12, s12
	; GFX10-DL-NEXT: s_lshr_b32 s14, s1, 24			; GFX10-DL-NEXT: s_lshr_b32 s14, s1, 24
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v6, 12, v8			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v6, 12, v8
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v8, 12, v9			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v8, 12, v9
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v9, 12, v10			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v9, 12, v10
	; GFX10-DL-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s2, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v16, 12, s13			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v16, 12, s13
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 12, v11			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v5, 12, v11
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v10, 12, v13			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v10, 12, v13
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v15, 12, s14			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v15, 12, s14
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v7, 12, v7			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v7, 12, v7
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v11, 12, v16			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v11, 12, v16
	; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v4			; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v4
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v5, v10			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v5, v10
	; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v15			; GFX10-DL-NEXT: v_ashrrev_i16_e64 v12, 12, v15
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v10, v9, v7			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v10, v9, v7
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v8, v8, v11			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v8, v8, v11
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 8, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 8, v5			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 8, v5
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v6, v12			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, v6, v12
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 8, v8			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v6, 8, v8
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v9			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v9
	; GFX10-DL-NEXT: v_or_b32_sdwa v3, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v3, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s2, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v5			; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v5
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v4
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	Show All 33 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc32:			; GFX10-DL-LABEL: udot8_acc32:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
				; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s2, s4, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s2, v0			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc16:			; GFX10-DL-LABEL: udot8_acc16:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s2, 15
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_and_b32 s6, s4, 15
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x4000c
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s5, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x4000c
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40010
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x40014
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40018
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s4, v9, v2
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc8:			; GFX10-DL-LABEL: udot8_acc8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s2, 15
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_and_b32 s6, s4, 15
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x4000c
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s5, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x4000c
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 0xff, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40010
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x40014
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40018
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc4:			; GFX10-DL-LABEL: udot8_acc4:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s2, 15
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40004
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_and_b32 s4, s0, 15
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15			; GFX10-DL-NEXT: s_bfe_u32 s7, s0, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x4000c
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x4000c
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40014
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s7, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s7, v2
	; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s4, s5			; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s4, s5
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40014
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
				; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s0, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i4 addrspace(1)* nocapture %dst) {			i4 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2
	▲ Show 20 Lines • Show All 245 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_CommutationInsideMAD:			; GFX10-DL-LABEL: udot8_CommutationInsideMAD:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s2, 15
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_and_b32 s6, s4, 15
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s5, s4, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15			; GFX10-DL-NEXT: s_bfe_u32 s7, s4, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s8, s4, 0x4000c
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x4000c
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s6, s2, 0x4000c
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40008
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s5, v2
	; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s4, s8			; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s6, s8
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x40014
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s7, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s7, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40010
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40018
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2
				; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i4 addrspace(1)* nocapture %dst) {			i4 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2
	▲ Show 20 Lines • Show All 508 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc32_vecMul:			; GFX10-DL-LABEL: udot8_acc32_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x34
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[8:9], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s2, s[6:7], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
				; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
				; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
				; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s2, s4, v0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s2, v0			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s8
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i32 addrspace(1)* nocapture %dst) {			i32 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u32_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v[0:1], v2, off			; GFX9-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc16_vecMul:			; GFX10-DL-LABEL: udot8_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ushort v2, v[0:1], off			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[6:7], 0x0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: global_load_ushort v3, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_and_b32 s6, s2, 15
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s9, s2, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15			; GFX10-DL-NEXT: s_and_b32 s7, s4, 15
	; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s8, s4, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s8, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s10, s2, 0x4000c
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s2, s6			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s6, s6, s9
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s11, s4, 0x40008
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s4, s4, s5			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s7, s7, s8
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s12, s4, 0x4000c
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, s2, s4			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s10
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s4, s6, s7			; GFX10-DL-NEXT: s_bfe_u32 s0, s2, 0x40010
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s5, s8			; GFX10-DL-NEXT: s_bfe_u32 s8, s4, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v2, s6, s7
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40014			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s1, s11, s12
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s6, s2, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s7, s4, 0x40010
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, s5, s4			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, s5, s1
	; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40018			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s0, s6
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s2, s2, s6
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s7, s8			; GFX10-DL-NEXT: s_pack_ll_b32_b16 s5, s7, s8
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40018
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28			; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s4, s0			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x40018
	; GFX10-DL-NEXT: s_pack_ll_b32_b16 s1, s6, s1			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
				; GFX10-DL-NEXT: s_pack_ll_b32_b16 s1, s1, s2
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v3, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, s2, s5			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v3, s0, s5
				; GFX10-DL-NEXT: s_pack_ll_b32_b16 s0, s6, s4
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:BYTE_0
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, s0, s1			; GFX10-DL-NEXT: v_pk_mul_lo_u16 v4, s1, s0
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: global_store_short v[0:1], v2, off			; GFX10-DL-NEXT: global_store_short v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i16 addrspace(1)* nocapture %dst) {			i16 addrspace(1)* nocapture %dst) {
	▲ Show 20 Lines • Show All 302 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-DL-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX9-DL-NEXT: v_add_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc8_vecMul:			; GFX10-DL-LABEL: udot8_acc8_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: s_mov_b32 s2, 0xffff
				; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s4, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_load_dword s5, s[6:7], 0x0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: global_load_ubyte v5, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s0, s4, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40004			; GFX10-DL-NEXT: s_bfe_u32 s1, s5, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s5, s0, 15			; GFX10-DL-NEXT: s_and_b32 s6, s4, 15
	; GFX10-DL-NEXT: s_and_b32 s7, s1, 15			; GFX10-DL-NEXT: s_and_b32 s8, s5, 15
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s7, s4, 0x4000c
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s9, s5, 0x4000c
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, s2, s4			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v2, s0, s1
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s0, s4, 0x40008
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s5, s7			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v3, s6, s8
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s5, 0x40008
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s6, s8			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s7, s9
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 8, v3			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v2, 8, v2
	; GFX10-DL-NEXT: s_mov_b32 s5, 0xffff			; GFX10-DL-NEXT: s_bfe_u32 s7, s5, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s4, 0x40018
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v6, s2, s4			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v6, s0, s1
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v5, 8, v5			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 8, v4
	; GFX10-DL-NEXT: v_or_b32_e32 v3, v4, v3			; GFX10-DL-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s1, s4, 0x40014
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s0, s4, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40018			; GFX10-DL-NEXT: s_lshr_b32 s4, s4, 28
	; GFX10-DL-NEXT: v_or_b32_sdwa v4, v6, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v3, v6, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s5, v3			; GFX10-DL-NEXT: v_and_b32_e32 v2, s2, v2
	; GFX10-DL-NEXT: s_bfe_u32 s8, s1, 0x40010			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v4, s1, s7
	; GFX10-DL-NEXT: s_lshr_b32 s9, s1, 28			; GFX10-DL-NEXT: s_bfe_u32 s8, s5, 0x40010
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s9, s5, 28
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s4, s7			; GFX10-DL-NEXT: s_bfe_u32 s5, s5, 0x40018
	; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v4			; GFX10-DL-NEXT: v_or_b32_e32 v3, v2, v3
	; GFX10-DL-NEXT: s_bfe_u32 s1, s1, 0x40018			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v4, 8, v4
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v6, s2, s8			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v6, s0, s8
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v7, s0, s9			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v7, s4, s9
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v4			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v3
				; GFX10-DL-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 8, v7			; GFX10-DL-NEXT: v_lshlrev_b16_e64 v7, 8, v7
				; GFX10-DL-NEXT: v_and_b32_e32 v4, s2, v4
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v3, v2			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v5
	; GFX10-DL-NEXT: v_lshlrev_b16_e64 v3, 8, v5			; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s6, s5
	; GFX10-DL-NEXT: v_mul_lo_u16_e64 v5, s6, s1
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v8			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v8
	; GFX10-DL-NEXT: v_or_b32_e32 v3, v6, v3
	; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-DL-NEXT: v_or_b32_sdwa v5, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, s5, v3			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3			; GFX10-DL-NEXT: v_or_b32_e32 v3, v4, v5
	; GFX10-DL-NEXT: v_or_b32_e32 v4, v3, v5			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v3
	; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 8, v4			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v4
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: v_add_nc_u32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i8 addrspace(1)* nocapture %dst) {			i8 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2

	▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10			; GFX9-DL-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2			; GFX9-DL-NEXT: v_mad_u32_u24 v2, s2, v3, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX9-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX9-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_acc4_vecMul:			; GFX10-DL-LABEL: udot8_acc4_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
				; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
	; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off			; GFX10-DL-NEXT: global_load_ubyte v2, v[0:1], off
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX10-DL-NEXT: s_and_b32 s1, s2, 15
	; GFX10-DL-NEXT: s_load_dword s1, s[6:7], 0x0			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40004
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_and_b32 s4, s0, 15
	; GFX10-DL-NEXT: s_and_b32 s2, s0, 15			; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40004
	; GFX10-DL-NEXT: s_and_b32 s4, s1, 15			; GFX10-DL-NEXT: s_bfe_u32 s7, s0, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40004
	; GFX10-DL-NEXT: s_bfe_u32 s7, s1, 0x40008
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40008			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40008
	; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s4, s2, 0x4000c
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: s_bfe_u32 s5, s1, 0x4000c			; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x4000c
	; GFX10-DL-NEXT: s_bfe_u32 s6, s1, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s6, s0, 0x40014
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s7, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s7, v2
	; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s4, s5			; GFX10-DL-NEXT: v_mul_u32_u24_e64 v3, s4, s5
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40010			; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40010
	; GFX10-DL-NEXT: s_bfe_u32 s5, s0, 0x40014			; GFX10-DL-NEXT: s_bfe_u32 s5, s2, 0x40014
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3			; GFX10-DL-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3			; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, v2, v3
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: s_bfe_u32 s2, s0, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s1, s2, 0x40018
	; GFX10-DL-NEXT: s_bfe_u32 s4, s1, 0x40018			; GFX10-DL-NEXT: s_bfe_u32 s4, s0, 0x40018
				; GFX10-DL-NEXT: s_lshr_b32 s2, s2, 28
	; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28			; GFX10-DL-NEXT: s_lshr_b32 s0, s0, 28
	; GFX10-DL-NEXT: s_lshr_b32 s1, s1, 28
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s5, s6, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s4, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s1, s4, v2
	; GFX10-DL-NEXT: v_mad_u32_u24 v2, s0, s1, v2			; GFX10-DL-NEXT: v_mad_u32_u24 v2, s2, s0, v2
	; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-DL-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off			; GFX10-DL-NEXT: global_store_byte v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	<8 x i4> addrspace(1)* %src2,			<8 x i4> addrspace(1)* %src2,
	i4 addrspace(1)* nocapture %dst) {			i4 addrspace(1)* nocapture %dst) {
	entry:			entry:
	%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1			%vec1 = load <8 x i4>, <8 x i4> addrspace(1)* %src1
	%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2			%vec2 = load <8 x i4>, <8 x i4> addrspace(1)* %src2
	▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
	; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1			; GFX9-DL-NEXT: v_dot8_u32_u4 v2, s4, v0, v1
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX9-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot8_variant1:			; GFX10-DL-LABEL: udot8_variant1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX10-DL-NEXT: ; implicit-def: $vcc_hi			; GFX10-DL-NEXT: ; implicit-def: $vcc_hi
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_load_dword s6, s[4:5], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX10-DL-NEXT: s_load_dword s0, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
	; GFX10-DL-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s6			; GFX10-DL-NEXT: v_mov_b32_e32 v0, s3
	; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s1, s0, v0			; GFX10-DL-NEXT: s_load_dword s3, s[6:7], 0x0
	; GFX10-DL-NEXT: v_mov_b32_e32 v0, s4			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_mov_b32_e32 v1, s5			; GFX10-DL-NEXT: v_dot8_u32_u4 v2, s3, s2, v0
				; GFX10-DL-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-DL-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off			; GFX10-DL-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	i32 addrspace(1)* %v2addr,			i32 addrspace(1)* %v2addr,
	i32 addrspace(1)* %dst) {			i32 addrspace(1)* %dst) {
	entry:			entry:
	%v1 = load i32, i32 addrspace(1)* %v1addr, align 4			%v1 = load i32, i32 addrspace(1)* %v1addr, align 4
	%v2 = load i32, i32 addrspace(1)* %v2addr, align 4			%v2 = load i32, i32 addrspace(1)* %v2addr, align 4
	%and = and i32 %v1, 15			%and = and i32 %v1, 15
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.ds.gws.init.ll

	Show First 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; NOLOOP-NEXT: s_setpc_b64			; NOLOOP-NEXT: s_setpc_b64
	define void @gws_init_lgkmcnt(i32 %val) {			define void @gws_init_lgkmcnt(i32 %val) {
	call void @llvm.amdgcn.ds.gws.init(i32 %val, i32 0)			call void @llvm.amdgcn.ds.gws.init(i32 %val, i32 0)
	ret void			ret void
	}			}

	; Does not imply memory fence on its own			; Does not imply memory fence on its own
	; GCN-LABEL: {{^}}gws_init_wait_before:			; GCN-LABEL: {{^}}gws_init_wait_before:
				; NOLOOP: s_load_dword
				; NOLOOP: s_load_dword
	; NOLOOP: s_waitcnt lgkmcnt(0)			; NOLOOP: s_waitcnt lgkmcnt(0)
	; NOLOOP-NOT: s_waitcnt			; NOLOOP-NOT: s_waitcnt
	; NOLOOP: ds_gws_init			; NOLOOP: ds_gws_init
	; NOLOOP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; NOLOOP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	define amdgpu_kernel void @gws_init_wait_before(i32 %val, i32 addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @gws_init_wait_before(i32 %val, i32 addrspace(1)* %ptr) #0 {
	store i32 0, i32 addrspace(1)* %ptr			store i32 0, i32 addrspace(1)* %ptr
	call void @llvm.amdgcn.ds.gws.init(i32 %val, i32 7)			call void @llvm.amdgcn.ds.gws.init(i32 %val, i32 7)
	ret void			ret void
	}			}

	declare void @llvm.amdgcn.ds.gws.init(i32, i32) #1			declare void @llvm.amdgcn.ds.gws.init(i32, i32) #1
	declare i32 @llvm.amdgcn.workitem.id.x() #2			declare i32 @llvm.amdgcn.workitem.id.x() #2

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { convergent inaccessiblememonly nounwind writeonly }			attributes #1 = { convergent inaccessiblememonly nounwind writeonly }
	attributes #2 = { nounwind readnone speculatable }			attributes #2 = { nounwind readnone speculatable }

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.dim.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[5:6], v4, off			; NOPRT-NEXT: global_store_dword v[5:6], v4, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_tfe:			; GFX10-LABEL: load_1d_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, s8 ; encoding: [0x08,0x02,0x0c,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v7, s9 ; encoding: [0x09,0x02,0x0e,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v5, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v5, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[6:7], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x06,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 15, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 15, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[5:6], v4, off			; NOPRT-NEXT: global_store_dword v[5:6], v4, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_lwe:			; GFX10-LABEL: load_1d_lwe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, s8 ; encoding: [0x08,0x02,0x0c,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v7, s9 ; encoding: [0x09,0x02,0x0e,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v5, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm lwe ; encoding: [0x00,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v5, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm lwe ; encoding: [0x00,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[6:7], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x06,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>, i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 15, i32 %s, <8 x i32> %rsrc, i32 2, i32 0)			%v = call {<4 x float>, i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 15, i32 %s, <8 x i32> %rsrc, i32 2, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_2d_tfe:			; GFX10-LABEL: load_2d_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D unorm tfe ; encoding: [0x08,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D unorm tfe ; encoding: [0x08,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2d.v4f32i32.i32(i32 15, i32 %s, i32 %t, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2d.v4f32i32.i32(i32 15, i32 %s, i32 %t, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_tfe_lwe:			; GFX10-LABEL: load_3d_tfe_lwe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm tfe lwe ; encoding: [0x10,0x1f,0x03,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm tfe lwe ; encoding: [0x10,0x1f,0x03,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.3d.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %r, <8 x i32> %rsrc, i32 3, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.3d.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %r, <8 x i32> %rsrc, i32 3, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_cube_lwe:			; GFX10-LABEL: load_cube_lwe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_CUBE unorm lwe ; encoding: [0x18,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_CUBE unorm lwe ; encoding: [0x18,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.cube.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, <8 x i32> %rsrc, i32 2, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.cube.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, <8 x i32> %rsrc, i32 2, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1darray_tfe:			; GFX10-LABEL: load_1darray_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D_ARRAY unorm tfe ; encoding: [0x20,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D_ARRAY unorm tfe ; encoding: [0x20,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1darray.v4f32i32.i32(i32 15, i32 %s, i32 %slice, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1darray.v4f32i32.i32(i32 15, i32 %s, i32 %slice, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_2darray_lwe:			; GFX10-LABEL: load_2darray_lwe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_ARRAY unorm lwe ; encoding: [0x28,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_ARRAY unorm lwe ; encoding: [0x28,0x1f,0x02,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2darray.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, <8 x i32> %rsrc, i32 2, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2darray.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, <8 x i32> %rsrc, i32 2, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_2dmsaa_both:			; GFX10-LABEL: load_2dmsaa_both:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA unorm tfe lwe ; encoding: [0x30,0x1f,0x03,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA unorm tfe lwe ; encoding: [0x30,0x1f,0x03,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2dmsaa.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %fragid, <8 x i32> %rsrc, i32 3, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2dmsaa.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %fragid, <8 x i32> %rsrc, i32 3, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: load_2darraymsaa_tfe:			; GFX10-LABEL: load_2darraymsaa_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v8, v3 ; encoding: [0x03,0x03,0x10,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v8, v3 ; encoding: [0x03,0x03,0x10,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v9, s8 ; encoding: [0x08,0x02,0x12,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load v[0:4], v[5:8], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm tfe ; encoding: [0x38,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:4], v[5:8], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D_MSAA_ARRAY unorm tfe ; encoding: [0x38,0x1f,0x01,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v10, s9 ; encoding: [0x09,0x02,0x14,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[9:10], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x09,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2darraymsaa.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, i32 %fragid, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.2darraymsaa.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %slice, i32 %fragid, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_mip_1d_lwe:			; GFX10-LABEL: load_mip_1d_lwe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load_mip v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm lwe ; encoding: [0x00,0x1f,0x06,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load_mip v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm lwe ; encoding: [0x00,0x1f,0x06,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.mip.1d.v4f32i32.i32(i32 15, i32 %s, i32 %mip, <8 x i32> %rsrc, i32 2, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.mip.1d.v4f32i32.i32(i32 15, i32 %s, i32 %mip, <8 x i32> %rsrc, i32 2, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_mip_2d_tfe:			; GFX10-LABEL: load_mip_2d_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, v0 ; encoding: [0x00,0x03,0x0a,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v7, v2 ; encoding: [0x02,0x03,0x0e,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v6, v1 ; encoding: [0x01,0x03,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: v_mov_b32_e32 v10, s8 ; encoding: [0x08,0x02,0x14,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s9 ; encoding: [0x09,0x02,0x16,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: image_load_mip v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D unorm tfe ; encoding: [0x08,0x1f,0x05,0xf0,0x05,0x00,0x00,0x00]			; GFX10-NEXT: image_load_mip v[0:4], v[5:7], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_2D unorm tfe ; encoding: [0x08,0x1f,0x05,0xf0,0x05,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[5:6], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x04,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[10:11], v4, off ; encoding: [0x00,0x80,0x70,0xdc,0x0a,0x04,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.mip.2d.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %mip, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.mip.2d.v4f32i32.i32(i32 15, i32 %s, i32 %t, i32 %mip, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[4:5], v3, off			; NOPRT-NEXT: global_store_dword v[4:5], v3, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_tfe_V4_dmask3:			; GFX10-LABEL: load_1d_tfe_V4_dmask3:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, v0 ; encoding: [0x00,0x03,0x08,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v5, s9 ; encoding: [0x09,0x02,0x0a,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v5, s8 ; encoding: [0x08,0x02,0x0a,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v6, s9 ; encoding: [0x09,0x02,0x0c,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: image_load v[0:3], v4, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x17,0x01,0xf0,0x04,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:3], v4, s[0:7] dmask:0x7 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x17,0x01,0xf0,0x04,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v4, s8 ; encoding: [0x08,0x02,0x08,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[4:5], v3, off ; encoding: [0x00,0x80,0x70,0xdc,0x04,0x03,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[5:6], v3, off ; encoding: [0x00,0x80,0x70,0xdc,0x05,0x03,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 7, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[3:4], v2, off			; NOPRT-NEXT: global_store_dword v[3:4], v2, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_tfe_V4_dmask2:			; GFX10-LABEL: load_1d_tfe_V4_dmask2:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, v0 ; encoding: [0x00,0x03,0x06,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v4, s9 ; encoding: [0x09,0x02,0x08,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v4, s8 ; encoding: [0x08,0x02,0x08,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v5, s9 ; encoding: [0x09,0x02,0x0a,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: image_load v[0:2], v3, s[0:7] dmask:0x6 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x16,0x01,0xf0,0x03,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:2], v3, s[0:7] dmask:0x6 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x16,0x01,0xf0,0x03,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v3, s8 ; encoding: [0x08,0x02,0x06,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[3:4], v2, off ; encoding: [0x00,0x80,0x70,0xdc,0x03,0x02,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[4:5], v2, off ; encoding: [0x00,0x80,0x70,0xdc,0x04,0x02,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 6, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 6, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[2:3], v1, off			; NOPRT-NEXT: global_store_dword v[2:3], v1, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_tfe_V4_dmask1:			; GFX10-LABEL: load_1d_tfe_V4_dmask1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, s9 ; encoding: [0x09,0x02,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, s8 ; encoding: [0x08,0x02,0x06,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v4, s9 ; encoding: [0x09,0x02,0x08,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: image_load v[0:1], v2, s[0:7] dmask:0x8 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x18,0x01,0xf0,0x02,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:1], v2, s[0:7] dmask:0x8 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x18,0x01,0xf0,0x02,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v2, s8 ; encoding: [0x08,0x02,0x04,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[2:3], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x02,0x01,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[3:4], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x03,0x01,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 8, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<4 x float>,i32} @llvm.amdgcn.image.load.1d.v4f32i32.i32(i32 8, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<4 x float>, i32} %v, 0			%v.vec = extractvalue {<4 x float>, i32} %v, 0
	%v.err = extractvalue {<4 x float>, i32} %v, 1			%v.err = extractvalue {<4 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: global_store_dword v[2:3], v1, off			; NOPRT-NEXT: global_store_dword v[2:3], v1, off
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_1d_tfe_V2_dmask1:			; GFX10-LABEL: load_1d_tfe_V2_dmask1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v2, v0 ; encoding: [0x00,0x03,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, s9 ; encoding: [0x09,0x02,0x06,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, s8 ; encoding: [0x08,0x02,0x06,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v4, s9 ; encoding: [0x09,0x02,0x08,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: image_load v[0:1], v2, s[0:7] dmask:0x8 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x18,0x01,0xf0,0x02,0x00,0x00,0x00]			; GFX10-NEXT: image_load v[0:1], v2, s[0:7] dmask:0x8 dim:SQ_RSRC_IMG_1D unorm tfe ; encoding: [0x00,0x18,0x01,0xf0,0x02,0x00,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v2, s8 ; encoding: [0x08,0x02,0x04,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[2:3], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x02,0x01,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[3:4], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x03,0x01,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {<2 x float>,i32} @llvm.amdgcn.image.load.1d.v2f32i32.i32(i32 8, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)			%v = call {<2 x float>,i32} @llvm.amdgcn.image.load.1d.v2f32i32.i32(i32 8, i32 %s, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue {<2 x float>, i32} %v, 0			%v.vec = extractvalue {<2 x float>, i32} %v, 0
	%v.err = extractvalue {<2 x float>, i32} %v, 1			%v.err = extractvalue {<2 x float>, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <2 x float> %v.vec			ret <2 x float> %v.vec
	▲ Show 20 Lines • Show All 1,320 Lines • ▼ Show 20 Lines
	; NOPRT-NEXT: s_waitcnt vmcnt(0)			; NOPRT-NEXT: s_waitcnt vmcnt(0)
	; NOPRT-NEXT: v_mov_b32_e32 v0, v1			; NOPRT-NEXT: v_mov_b32_e32 v0, v1
	; NOPRT-NEXT: s_waitcnt lgkmcnt(0)			; NOPRT-NEXT: s_waitcnt lgkmcnt(0)
	; NOPRT-NEXT: ; return to shader part epilog			; NOPRT-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: image_load_mmo:			; GFX10-LABEL: image_load_mmo:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: image_load v1, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm ; encoding: [0x08,0x11,0x00,0xf0,0x01,0x01,0x00,0x00]			; GFX10-NEXT: image_load v1, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm ; encoding: [0x08,0x11,0x00,0xf0,0x01,0x01,0x00,0x00]
	; GFX10-NEXT: v_mov_b32_e32 v2, 0 ; encoding: [0x80,0x02,0x04,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v3, 0 ; encoding: [0x80,0x02,0x06,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: ds_write2_b32 v0, v2, v2 offset1:4 ; encoding: [0x00,0x04,0x38,0xd8,0x00,0x02,0x02,0x00]			; GFX10-NEXT: ds_write2_b32 v0, v3, v3 offset1:4 ; encoding: [0x00,0x04,0x38,0xd8,0x00,0x03,0x03,0x00]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: v_mov_b32_e32 v0, v1 ; encoding: [0x01,0x03,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, v1 ; encoding: [0x01,0x03,0x00,0x7e]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0) ; encoding: [0x7f,0xc0,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt lgkmcnt(0) ; encoding: [0x7f,0xc0,0x8c,0xbf]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	store float 0.000000e+00, float addrspace(3)* %lds			store float 0.000000e+00, float addrspace(3)* %lds
	%c0 = extractelement <2 x i32> %c, i32 0			%c0 = extractelement <2 x i32> %c, i32 0
	%c1 = extractelement <2 x i32> %c, i32 1			%c1 = extractelement <2 x i32> %c, i32 1
	%tex = call float @llvm.amdgcn.image.load.2d.f32.i32(i32 1, i32 %c0, i32 %c1, <8 x i32> %rsrc, i32 0, i32 0)			%tex = call float @llvm.amdgcn.image.load.2d.f32.i32(i32 1, i32 %c0, i32 %c1, <8 x i32> %rsrc, i32 0, i32 0)
	▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

	Show First 20 Lines • Show All 670 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_2d:			; GFX10-LABEL: sample_c_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v5, v10, v5
	; GFX10-NEXT: v_and_b32_e32 v3, v10, v3			; GFX10-NEXT: v_and_b32_e32 v3, v10, v3
	; GFX10-NEXT: v_and_b32_e32 v1, v10, v1			; GFX10-NEXT: v_and_b32_e32 v1, v10, v1
	; GFX10-NEXT: v_and_b32_e32 v5, v10, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5			; GFX10-NEXT: image_sample_c_d v[0:3], [v0, v2, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: image_sample_c_d v[0:3], [v0, v1, v3, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 35 Lines
	; GFX10-LABEL: sample_d_cl_2d:			; GFX10-LABEL: sample_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v0, v7, v0			; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_and_b32_e32 v4, v7, v4			; GFX10-NEXT: v_and_b32_e32 v4, v7, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v7, v2			; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v7, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v5, v3, 16, v2
	; GFX10-NEXT: image_sample_d_cl v[0:3], [v0, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_d_cl v[0:3], [v0, v5, v7, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 33 Lines
	; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:14], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:14], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_cl_2d:			; GFX10-LABEL: sample_c_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
	; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_and_b32_e32 v3, v8, v3			; GFX10-NEXT: v_and_b32_e32 v3, v8, v3
	; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5			; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
				; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
				; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5
				nhaehnleUnsubmitted Not Done Reply Inline Actions This change just doesn't matter. nhaehnle: This change just doesn't matter.
	; GFX10-NEXT: image_sample_c_d_cl v[0:3], [v0, v1, v6, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_d_cl v[0:3], [v0, v1, v3, v6, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s) {
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_cd_2d:			; GFX10-LABEL: sample_c_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v5, v10, v5
	; GFX10-NEXT: v_and_b32_e32 v3, v10, v3			; GFX10-NEXT: v_and_b32_e32 v3, v10, v3
	; GFX10-NEXT: v_and_b32_e32 v1, v10, v1			; GFX10-NEXT: v_and_b32_e32 v1, v10, v1
	; GFX10-NEXT: v_and_b32_e32 v5, v10, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5			; GFX10-NEXT: image_sample_c_cd v[0:3], [v0, v2, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: image_sample_c_cd v[0:3], [v0, v1, v3, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 35 Lines
	; GFX10-LABEL: sample_cd_cl_2d:			; GFX10-LABEL: sample_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v0, v7, v0			; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_and_b32_e32 v4, v7, v4			; GFX10-NEXT: v_and_b32_e32 v4, v7, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v7, v2			; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v7, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v5, v3, 16, v2
	; GFX10-NEXT: image_sample_cd_cl v[0:3], [v0, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_cd_cl v[0:3], [v0, v5, v7, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 33 Lines
	; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:14], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:14], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_cd_cl_2d:			; GFX10-LABEL: sample_c_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
	; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_and_b32_e32 v3, v8, v3			; GFX10-NEXT: v_and_b32_e32 v3, v8, v3
	; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5			; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
				; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
				; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5
	; GFX10-NEXT: image_sample_c_cd_cl v[0:3], [v0, v1, v6, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_cd_cl v[0:3], [v0, v1, v3, v6, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {			define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {
	▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 a16 da			; GFX9-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_o_2darray_V1:			; GFX10-LABEL: sample_c_d_o_2darray_V1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
	; GFX10-NEXT: v_and_b32_e32 v6, v9, v6			; GFX10-NEXT: v_and_b32_e32 v6, v9, v6
	; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4			; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
				; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
				; GFX10-NEXT: v_lshl_or_b32 v6, v7, 16, v6
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v7, v7, 16, v6			; GFX10-NEXT: v_lshl_or_b32 v7, v5, 16, v4
	; GFX10-NEXT: image_sample_c_d_o v0, [v0, v1, v2, v4, v7, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v0, [v0, v1, v2, v7, v6, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {			define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
	Show All 12 Lines
	; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 a16 da			; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_o_2darray_V2:			; GFX10-LABEL: sample_c_d_o_2darray_V2:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
	; GFX10-NEXT: v_and_b32_e32 v6, v9, v6			; GFX10-NEXT: v_and_b32_e32 v6, v9, v6
	; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4			; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
				; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
				; GFX10-NEXT: v_lshl_or_b32 v6, v7, 16, v6
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v7, v7, 16, v6			; GFX10-NEXT: v_lshl_or_b32 v7, v5, 16, v4
	; GFX10-NEXT: image_sample_c_d_o v[0:1], [v0, v1, v2, v4, v7, v8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v[0:1], [v0, v1, v2, v7, v6, v8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	declare <4 x float> @llvm.amdgcn.image.sample.1d.v4f32.f16(i32, half, <8 x i32>, <4 x i32>, i1, i32, i32) #1			declare <4 x float> @llvm.amdgcn.image.sample.1d.v4f32.f16(i32, half, <8 x i32>, <4 x i32>, i1, i32, i32) #1
	▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.dim.ll

	Show First 20 Lines • Show All 1,777 Lines • ▼ Show 20 Lines
	; GFX6789-NEXT: s_waitcnt vmcnt(0)			; GFX6789-NEXT: s_waitcnt vmcnt(0)
	; GFX6789-NEXT: ; return to shader part epilog			; GFX6789-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_o_2darray_V1_tfe:			; GFX10-LABEL: sample_c_d_o_2darray_V1_tfe:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v10, v0 ; encoding: [0x00,0x03,0x14,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v10, v0 ; encoding: [0x00,0x03,0x14,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v0, 0 ; encoding: [0x80,0x02,0x00,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v9, v1 ; encoding: [0x01,0x03,0x12,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v9, v1 ; encoding: [0x01,0x03,0x12,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v11, s12 ; encoding: [0x0c,0x02,0x16,0x7e]
				; GFX10-NEXT: v_mov_b32_e32 v12, s13 ; encoding: [0x0d,0x02,0x18,0x7e]
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]			; GFX10-NEXT: v_mov_b32_e32 v1, v0 ; encoding: [0x00,0x03,0x02,0x7e]
	; GFX10-NEXT: image_sample_c_d_o v[0:1], [v10, v9, v2, v3, v4, v5, v6, v7, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY tfe ; encoding: [0x2c,0x04,0xe9,0xf0,0x0a,0x00,0x40,0x00,0x09,0x02,0x03,0x04,0x05,0x06,0x07,0x08]			; GFX10-NEXT: image_sample_c_d_o v[0:1], [v10, v9, v2, v3, v4, v5, v6, v7, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY tfe ; encoding: [0x2c,0x04,0xe9,0xf0,0x0a,0x00,0x40,0x00,0x09,0x02,0x03,0x04,0x05,0x06,0x07,0x08]
	; GFX10-NEXT: v_mov_b32_e32 v2, s12 ; encoding: [0x0c,0x02,0x04,0x7e]
	; GFX10-NEXT: v_mov_b32_e32 v3, s13 ; encoding: [0x0d,0x02,0x06,0x7e]
	; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]			; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
	; GFX10-NEXT: global_store_dword v[2:3], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x02,0x01,0x7d,0x00]			; GFX10-NEXT: global_store_dword v[11:12], v1, off ; encoding: [0x00,0x80,0x70,0xdc,0x0b,0x01,0x7d,0x00]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0 ; encoding: [0x00,0x00,0xfd,0xbb]
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call {float,i32} @llvm.amdgcn.image.sample.c.d.o.2darray.f32i32.f32.f32(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 1, i32 0)			%v = call {float,i32} @llvm.amdgcn.image.sample.c.d.o.2darray.f32i32.f32.f32(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 1, i32 0)
	%v.vec = extractvalue {float, i32} %v, 0			%v.vec = extractvalue {float, i32} %v, 0
	%v.err = extractvalue {float, i32} %v, 1			%v.err = extractvalue {float, i32} %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret float %v.vec			ret float %v.vec
	▲ Show 20 Lines • Show All 592 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.raw.buffer.load.ll

Show First 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	main_body:
call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r1, float %r2, float %r3, float %r4, i1 true, i1 true)		call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r1, float %r2, float %r3, float %r4, i1 true, i1 true)
call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r5, float %r6, float undef, float undef, i1 true, i1 true)		call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r5, float %r6, float undef, float undef, i1 true, i1 true)
ret void		ret void
}		}

;CHECK-LABEL: {{^}}buffer_load_x1_offen_merged_or:		;CHECK-LABEL: {{^}}buffer_load_x1_offen_merged_or:
;CHECK-NEXT: %bb.		;CHECK-NEXT: %bb.
;CHECK-NEXT: v_lshlrev_b32_e32 v{{[0-9]}}, 6, v0		;CHECK-NEXT: v_lshlrev_b32_e32 v{{[0-9]}}, 6, v0
		;GFX10-NEXT: ; implicit-def: $vcc_hi
;CHECK-NEXT: buffer_load_dwordx4 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:4		;CHECK-NEXT: buffer_load_dwordx4 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:4
;CHECK-NEXT: buffer_load_dwordx2 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:28		;CHECK-NEXT: buffer_load_dwordx2 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:28
;CHECK: s_waitcnt		;CHECK: s_waitcnt
define amdgpu_ps void @buffer_load_x1_offen_merged_or(<4 x i32> inreg %rsrc, i32 %inp) {		define amdgpu_ps void @buffer_load_x1_offen_merged_or(<4 x i32> inreg %rsrc, i32 %inp) {
main_body:		main_body:
%a = shl i32 %inp, 6		%a = shl i32 %inp, 6
%a1 = or i32 %a, 4		%a1 = or i32 %a, 4
%a2 = or i32 %a, 8		%a2 = or i32 %a, 8
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	main_body:
%r4 = extractelement <2 x float> %vr2, i32 1		%r4 = extractelement <2 x float> %vr2, i32 1
call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r1, float %r2, float %r3, float %r4, i1 true, i1 true)		call void @llvm.amdgcn.exp.f32(i32 0, i32 15, float %r1, float %r2, float %r3, float %r4, i1 true, i1 true)
ret void		ret void
}		}

;CHECK-LABEL: {{^}}buffer_load_x2_offen_merged_or:		;CHECK-LABEL: {{^}}buffer_load_x2_offen_merged_or:
;CHECK-NEXT: %bb.		;CHECK-NEXT: %bb.
;CHECK-NEXT: v_lshlrev_b32_e32 v{{[0-9]}}, 4, v0		;CHECK-NEXT: v_lshlrev_b32_e32 v{{[0-9]}}, 4, v0
		;GFX10-NEXT: ; implicit-def: $vcc_hi
;CHECK-NEXT: buffer_load_dwordx4 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:4		;CHECK-NEXT: buffer_load_dwordx4 v[{{[0-9]}}:{{[0-9]}}], v{{[0-9]}}, s[0:3], 0 offen offset:4
;CHECK: s_waitcnt		;CHECK: s_waitcnt
define amdgpu_ps void @buffer_load_x2_offen_merged_or(<4 x i32> inreg %rsrc, i32 %inp) {		define amdgpu_ps void @buffer_load_x2_offen_merged_or(<4 x i32> inreg %rsrc, i32 %inp) {
main_body:		main_body:
%a = shl i32 %inp, 4		%a = shl i32 %inp, 4
%a1 = add i32 %a, 4		%a1 = add i32 %a, 4
%a2 = add i32 %a, 12		%a2 = add i32 %a, 12
%vr1 = call <2 x float> @llvm.amdgcn.raw.buffer.load.v2f32(<4 x i32> %rsrc, i32 %a1, i32 0, i32 0)		%vr1 = call <2 x float> @llvm.amdgcn.raw.buffer.load.v2f32(<4 x i32> %rsrc, i32 %a1, i32 0, i32 0)
▲ Show 20 Lines • Show All 234 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -mattr=-fp64-fp16-denormals -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI -check-prefix=SI-FLUSH %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -mattr=-fp64-fp16-denormals -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI -check-prefix=SI-FLUSH %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI -check-prefix=VI-FLUSH %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI -check-prefix=VI-FLUSH %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -mattr=+fp64-fp16-denormals -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI -check-prefix=SI-DENORM %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -mattr=+fp64-fp16-denormals -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SI -check-prefix=SI-DENORM %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI -check-prefix=VI-DENORM %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=VI -check-prefix=VI-DENORM %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx1010 -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX10 -check-prefix=GFX10-FLUSH %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx1010 -mattr=-fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX10 -check-prefix=GFX10-FLUSH %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx1010 -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX10 -check-prefix=GFX10-DENORM %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx1010 -mattr=+fp64-fp16-denormals,-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GFX10 -check-prefix=GFX10-DENORM %s

	declare half @llvm.fmuladd.f16(half %a, half %b, half %c)			declare half @llvm.fmuladd.f16(half %a, half %b, half %c)
	declare <2 x half> @llvm.fmuladd.v2f16(<2 x half> %a, <2 x half> %b, <2 x half> %c)			declare <2 x half> @llvm.fmuladd.v2f16(<2 x half> %a, <2 x half> %b, <2 x half> %c)

	; GCN-LABEL: {{^}}fmuladd_f16			; GCN-LABEL: {{^}}fmuladd_f16
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN-DAG: buffer_load_ushort v[[C_F16:[0-9]+]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]			; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]
	; SI: v_mac_f32_e32 v[[C_F32]], v[[A_F32]], v[[B_F32]]			; SI: v_mac_f32_e32 v[[C_F32]], v[[A_F32]], v[[B_F32]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]
	; SI: buffer_store_short v[[R_F16]]			; SI: buffer_store_short v[[R_F16]]

	; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], v[[A_F16]], v[[B_F16]]			; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], v[[A_F16]], v[[B_F16]]
	; VI-FLUSH: buffer_store_short v[[C_F16]]			; VI-FLUSH: buffer_store_short v[[C_F16]]

	; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]			; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; VI-DENORM: buffer_store_short [[RESULT]]			; VI-DENORM: buffer_store_short [[RESULT]]

	; GFX10-FLUSH: v_mul_f16_e32 [[MUL:v[0-9]+]], v[[A_F16]], v[[B_F16]]			; GFX10-FLUSH-DAG: v_mul_f16_e32 [[MUL:v[0-9]+]], v[[A_F16]], v[[B_F16]]
	; GFX10-FLUSH: v_add_f16_e32 [[ADD:v[0-9]+]], [[MUL]], v[[C_F16]]			; GFX10-FLUSH: v_add_f16_e32 [[ADD:v[0-9]+]], [[MUL]], v[[C_F16]]
	; GFX10-FLUSH: buffer_store_short [[ADD]]			; GFX10-FLUSH: buffer_store_short [[ADD]]

	; GFX10-DENORM: v_fmac_f16_e32 v[[C_F16]], v[[A_F16]], v[[B_F16]]			; GFX10-DENORM: v_fmac_f16_e32 v[[C_F16]], v[[A_F16]], v[[B_F16]]
	; GFX10-DENORM: buffer_store_short v[[C_F16]],			; GFX10-DENORM: buffer_store_short v[[C_F16]],

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmuladd_f16(			define amdgpu_kernel void @fmuladd_f16(
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; VI-FLUSH: buffer_load_dword v[[B_V2_F16:[0-9]+]]			; VI-FLUSH: buffer_load_dword v[[B_V2_F16:[0-9]+]]

	; VI-DENORM: buffer_load_dword v[[A_V2_F16:[0-9]+]]			; VI-DENORM: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; VI-DENORM: buffer_load_dword v[[B_V2_F16:[0-9]+]]			; VI-DENORM: buffer_load_dword v[[B_V2_F16:[0-9]+]]
	; VI-DENORM: buffer_load_dword v[[C_V2_F16:[0-9]+]]			; VI-DENORM: buffer_load_dword v[[C_V2_F16:[0-9]+]]

	; GFX10: buffer_load_dword v[[A_V2_F16:[0-9]+]]			; GFX10: buffer_load_dword v[[A_V2_F16:[0-9]+]]
	; GFX10: buffer_load_dword v[[B_V2_F16:[0-9]+]]			; GFX10: buffer_load_dword v[[B_V2_F16:[0-9]+]]
	; GFX10: buffer_load_dword v[[C_V2_F16:[0-9]+]]			; GFX10-DAG: buffer_load_dword v[[C_V2_F16:[0-9]+]]

	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]

	; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]			; SI-DAG: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
	; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]			; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
	Show All 19 Lines
	; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]			; VI-DENORM-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	; VI-DENORM-DAG: v_fma_f16 v[[RES0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]			; VI-DENORM-DAG: v_fma_f16 v[[RES0:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]
	; VI-DENORM-DAG: v_fma_f16 v[[RES1:[0-9]+]], v[[A_F16_1]], v[[B_F16_1]], v[[C_F16_1]]			; VI-DENORM-DAG: v_fma_f16 v[[RES1:[0-9]+]], v[[A_F16_1]], v[[B_F16_1]], v[[C_F16_1]]
	; VI-DENORM-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[RES1]]			; VI-DENORM-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[RES1]]
	; VI-DENORM-NOT: v_and_b32			; VI-DENORM-NOT: v_and_b32
	; VI-DENORM: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[RES0]], v[[R_F16_HI]]			; VI-DENORM: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[RES0]], v[[R_F16_HI]]

	; GFX10-FLUSH: v_pk_mul_f16 [[MUL:v[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]			; GFX10-FLUSH-DAG: v_pk_mul_f16 [[MUL:v[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]]
	; GFX10-FLUSH: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], [[MUL]], v[[C_V2_F16]]			; GFX10-FLUSH: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], [[MUL]], v[[C_V2_F16]]

	; GFX10-DENORM: v_pk_fma_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]			; GFX10-DENORM: v_pk_fma_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]], v[[C_V2_F16]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	define amdgpu_kernel void @fmuladd_v2f16(			define amdgpu_kernel void @fmuladd_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/madak.ll

	Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	}			}

	; SIFoldOperands should not fold the SGPR copy into the instruction before GFX10			; SIFoldOperands should not fold the SGPR copy into the instruction before GFX10
	; because the implicit immediate already uses the constant bus.			; because the implicit immediate already uses the constant bus.
	; On GFX10+ we can use two scalar operands.			; On GFX10+ we can use two scalar operands.
	; GCN-LABEL: {{^}}madak_constant_bus_violation:			; GCN-LABEL: {{^}}madak_constant_bus_violation:
	; GCN: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x12\|0x48}}			; GCN: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0x12\|0x48}}

	; GCN: {{buffer\|flat\|global}}_load_dword [[VGPR:v[0-9]+]]			; GCN-DAG: {{buffer\|flat\|global}}_load_dword [[VGPR:v[0-9]+]]
	; MAD: v_mov_b32_e32 [[MADAK:v[0-9]+]], 0x42280000			; MAD: v_mov_b32_e32 [[MADAK:v[0-9]+]], 0x42280000
	; MAD: v_mac_f32_e64 [[MADAK]], [[SGPR0]], 0.5			; MAD: v_mac_f32_e64 [[MADAK]], [[SGPR0]], 0.5
	; GFX10: v_mov_b32_e32 [[SGPR0_VCOPY:v[0-9]+]], [[SGPR0]]			; GFX10-DAG: v_mov_b32_e32 [[SGPR0_VCOPY:v[0-9]+]], [[SGPR0]]
	; GFX10-MAD: v_madak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000			; GFX10-MAD-DAG: v_madak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000
	; FMA: v_fmaak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000			; FMA-DAG: v_fmaak_f32 [[MADAK:v[0-9]+]], 0.5, [[SGPR0_VCOPY]], 0x42280000
	; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], [[MADAK]], [[VGPR]]			; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], [[MADAK]], [[VGPR]]
	; GFX6: buffer_store_dword [[MUL]]			; GFX6: buffer_store_dword [[MUL]]
	; GFX8_9_10: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[MUL]]			; GFX8_9_10: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[MUL]]
	define amdgpu_kernel void @madak_constant_bus_violation(i32 %arg1, [8 x i32], float %sgpr0, float %sgpr1) #0 {			define amdgpu_kernel void @madak_constant_bus_violation(i32 %arg1, [8 x i32], float %sgpr0, float %sgpr1) #0 {
	bb:			bb:
	%tmp = icmp eq i32 %arg1, 0			%tmp = icmp eq i32 %arg1, 0
	br i1 %tmp, label %bb3, label %bb4			br i1 %tmp, label %bb3, label %bb4

	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-atomic-cmpxchg.ll

Show First 20 Lines • Show All 3,082 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_acquire_monotonic_ret:		; GCN-LABEL: {{^}}workgroup_acquire_monotonic_ret:
; GCN-NOT: s_waitcnt vmcnt(0){{$}}		; GCN-NOT: s_waitcnt vmcnt(0){{$}}
; GCN-NOT: s_waitcnt_v{{[ms]}}cnt {{[^,]+, (0x)*0$}}		; GCN-NOT: s_waitcnt_v{{[ms]}}cnt {{[^,]+, (0x)*0$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX8: s_waitcnt vmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10: .amdhsa_kernel workgroup_acquire_monotonic_ret		; GFX10: .amdhsa_kernel workgroup_acquire_monotonic_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_acquire_monotonic_ret(		define amdgpu_kernel void @workgroup_acquire_monotonic_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_acq_rel_monotonic_ret:		; GCN-LABEL: {{^}}workgroup_acq_rel_monotonic_ret:
; GFX8-NOT: s_waitcnt vmcnt(0){{$}}		; GFX8-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX8: s_waitcnt vmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_acq_rel_monotonic_ret		; GFX10: .amdhsa_kernel workgroup_acq_rel_monotonic_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_acq_rel_monotonic_ret(		define amdgpu_kernel void @workgroup_acq_rel_monotonic_ret(
Show All 9 Lines
; GCN-LABEL: {{^}}workgroup_seq_cst_monotonic_ret:		; GCN-LABEL: {{^}}workgroup_seq_cst_monotonic_ret:
; GFX8-NOT: s_waitcnt vmcnt(0){{$}}		; GFX8-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX8: s_waitcnt vmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_seq_cst_monotonic_ret		; GFX10: .amdhsa_kernel workgroup_seq_cst_monotonic_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_seq_cst_monotonic_ret(		define amdgpu_kernel void @workgroup_seq_cst_monotonic_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_acquire_acquire_ret:		; GCN-LABEL: {{^}}workgroup_acquire_acquire_ret:
; GCN-NOT: s_waitcnt vmcnt(0){{$}}		; GCN-NOT: s_waitcnt vmcnt(0){{$}}
; GCN-NOT: s_waitcnt_v{{[ms]}}cnt {{[^,]+, (0x)*0$}}		; GCN-NOT: s_waitcnt_v{{[ms]}}cnt {{[^,]+, (0x)*0$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX8: s_waitcnt vmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10: .amdhsa_kernel workgroup_acquire_acquire_ret		; GFX10: .amdhsa_kernel workgroup_acquire_acquire_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_acquire_acquire_ret(		define amdgpu_kernel void @workgroup_acquire_acquire_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
Show All 9 Lines
; GFX8: s_waitcnt lgkmcnt(0){{$}}		; GFX8: s_waitcnt lgkmcnt(0){{$}}
; GFX8: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GFX8: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GFX10: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX8: s_waitcnt vmcnt(0){{$}}		; GFX8: s_waitcnt vmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_release_acquire_ret		; GFX10: .amdhsa_kernel workgroup_release_acquire_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_release_acquire_ret(		define amdgpu_kernel void @workgroup_release_acquire_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_acq_rel_acquire_ret:		; GCN-LABEL: {{^}}workgroup_acq_rel_acquire_ret:
; GFX8: s_waitcnt lgkmcnt(0){{$}}		; GFX8: s_waitcnt lgkmcnt(0){{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP: buffer_gl0_inv		; GFX10WGP: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_acq_rel_acquire_ret		; GFX10: .amdhsa_kernel workgroup_acq_rel_acquire_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_acq_rel_acquire_ret(		define amdgpu_kernel void @workgroup_acq_rel_acquire_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_seq_cst_acquire_ret:		; GCN-LABEL: {{^}}workgroup_seq_cst_acquire_ret:
; GFX8: s_waitcnt lgkmcnt(0){{$}}		; GFX8: s_waitcnt lgkmcnt(0){{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP-NEXT: buffer_gl0_inv		; GFX10WGP-NEXT: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_seq_cst_acquire_ret		; GFX10: .amdhsa_kernel workgroup_seq_cst_acquire_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_seq_cst_acquire_ret(		define amdgpu_kernel void @workgroup_seq_cst_acquire_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}workgroup_seq_cst_seq_cst_ret:		; GCN-LABEL: {{^}}workgroup_seq_cst_seq_cst_ret:
; GFX8: s_waitcnt lgkmcnt(0){{$}}		; GFX8: s_waitcnt lgkmcnt(0){{$}}
; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10WGP: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10WGP-NEXT: s_waitcnt_vscnt null, 0x0{{$}}
; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}		; GFX10CU-NOT: s_waitcnt vmcnt(0){{$}}
; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}		; GFX10CU-NOT: s_waitcnt_vscnt null, 0x0{{$}}
; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}		; GCN: flat_atomic_cmpswap v{{[0-9]+}}, v[{{[0-9]+\:[0-9]+}}], v[{{[0-9]+}}:{{[0-9]+}}]{{( offset:[0-9]+)*}} glc{{$}}
; GFX10WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}		; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0){{$}}
; GFX10CU: s_waitcnt vmcnt(0){{$}}
; GFX8-NOT: buffer_wbinvl1_vol		; GFX8-NOT: buffer_wbinvl1_vol
; GFX10WGP: buffer_gl0_inv		; GFX10WGP: buffer_gl0_inv
; GFX10CU-NOT: buffer_gl0_inv		; GFX10CU-NOT: buffer_gl0_inv
; GFX10: .amdhsa_kernel workgroup_seq_cst_seq_cst_ret		; GFX10: .amdhsa_kernel workgroup_seq_cst_seq_cst_ret
; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0		; GFX10WGP-NOT: .amdhsa_workgroup_processor_mode 0
; GFX10CU: .amdhsa_workgroup_processor_mode 0		; GFX10CU: .amdhsa_workgroup_processor_mode 0
; GFX10-NOT: .amdhsa_memory_ordered 0		; GFX10-NOT: .amdhsa_memory_ordered 0
define amdgpu_kernel void @workgroup_seq_cst_seq_cst_ret(		define amdgpu_kernel void @workgroup_seq_cst_seq_cst_ret(
i32* %out, i32 %in, i32 %old) {		i32* %out, i32 %in, i32 %old) {
entry:		entry:
%gep = getelementptr i32, i32* %out, i32 4		%gep = getelementptr i32, i32* %out, i32 4
%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst		%val = cmpxchg volatile i32* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst
%val0 = extractvalue { i32, i1 } %val, 0		%val0 = extractvalue { i32, i1 } %val, 0
store i32 %val0, i32* %out, align 4		store i32 %val0, i32* %out, align 4
ret void		ret void
}		}

llvm/test/CodeGen/AMDGPU/min.ll

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_test_imin_sle_i8(i8 addrspace(1)* %out, [8 x i32], i8 %a, [8 x i32], i8 %b) #0 {
ret void		ret void
}		}

; FIXME: Why vector and sdwa for last element?		; FIXME: Why vector and sdwa for last element?
; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:		; FUNC-LABEL: {{^}}s_test_imin_sle_v4i8:
; GCN-DAG: s_load_dwordx2		; GCN-DAG: s_load_dwordx2
; GCN-DAG: s_load_dword s		; GCN-DAG: s_load_dword s
; GCN-DAG: s_load_dword s		; GCN-DAG: s_load_dword s
; GCN-NOT: _load_

; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32
; SI: s_min_i32		; SI: s_min_i32

; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: s_min_i32		; VI: s_min_i32
; VI: v_min_i32_sdwa		; VI: v_min_i32_sdwa

; GFX9_10: v_min_i16		; GFX9_10-DAG: v_min_i16
; GFX9_10: v_min_i16		; GFX9_10-DAG: v_min_i16
; GFX9_10: v_min_i16		; GFX9_10-DAG: v_min_i16
; GFX9_10: v_min_i16		; GFX9_10-DAG: v_min_i16

; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
; EG: MIN_INT		; EG: MIN_INT
define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], <4 x i8> %b) #0 {		define amdgpu_kernel void @s_test_imin_sle_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], <4 x i8> %b) #0 {
%cmp = icmp sle <4 x i8> %a, %b		%cmp = icmp sle <4 x i8> %a, %b
%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b		%val = select <4 x i1> %cmp, <4 x i8> %a, <4 x i8> %b
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_test_umin_ult_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> %a, <8 x i16> %b) #0 {
store <8 x i16> %val, <8 x i16> addrspace(1)* %out		store <8 x i16> %val, <8 x i16> addrspace(1)* %out
ret void		ret void
}		}

; Make sure redundant and removed		; Make sure redundant and removed
; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umin_ult_i16:		; FUNC-LABEL: {{^}}simplify_demanded_bits_test_umin_ult_i16:
; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xa\|0x28}}		; GCN-DAG: s_load_dword [[A:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0xa\|0x28}}
; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}		; GCN-DAG: s_load_dword [[B:s[0-9]+]], {{s\[[0-9]+:[0-9]+\]}}, {{0x13\|0x4c}}
; GCN: s_min_u32 [[MIN:s[0-9]+]], [[A]], [[B]]		; GCN-DAG: s_and_b32 [[A2:s[0-9]+]], [[A]]
		; GCN-DAG: s_and_b32 [[B2:s[0-9]+]], [[B]]
		; GCN: s_min_u32 [[MIN:s[0-9]+]], [[A2]], [[B2]]
; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]		; GCN: v_mov_b32_e32 [[VMIN:v[0-9]+]], [[MIN]]
; GCN: buffer_store_dword [[VMIN]]		; GCN: buffer_store_dword [[VMIN]]

; EG: MIN_UINT		; EG: MIN_UINT
define amdgpu_kernel void @simplify_demanded_bits_test_umin_ult_i16(i32 addrspace(1)* %out, [8 x i32], i16 zeroext %a, [8 x i32], i16 zeroext %b) #0 {		define amdgpu_kernel void @simplify_demanded_bits_test_umin_ult_i16(i32 addrspace(1)* %out, [8 x i32], i16 zeroext %a, [8 x i32], i16 zeroext %b) #0 {
%a.ext = zext i16 %a to i32		%a.ext = zext i16 %a to i32
%b.ext = zext i16 %b to i32		%b.ext = zext i16 %b to i32
%cmp = icmp ult i32 %a.ext, %b.ext		%cmp = icmp ult i32 %a.ext, %b.ext
▲ Show 20 Lines • Show All 143 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

	Show All 18 Lines
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}

	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 7			%a0 = shl i64 %call, 7
	%idx.ext11 = and i64 %a0, 4294934528			%idx.ext11 = and i64 %a0, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 17			%a0 = shl i64 %call, 17
	%idx.ext11 = and i64 %a0, 4261412864			%idx.ext11 = and i64 %a0, 4261412864
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*			%a1 = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*
	%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv			%add.ptr6 = getelementptr inbounds i64, i64 addrspace(1)* %a1, i64 %conv
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%id = shl i64 %call, 7			%id = shl i64 %call, 7
	%idx.ext11 = and i64 %id, 4294934528			%idx.ext11 = and i64 %id, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*			%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 7			%a0 = shl i64 %call, 7
	%idx.ext11 = and i64 %a0, 4294934528			%idx.ext11 = and i64 %a0, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*			%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*

	Show All 26 Lines
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 7			%a0 = shl i64 %call, 7
	%idx.ext11 = and i64 %a0, 4294934528			%idx.ext11 = and i64 %a0, 4294934528
	%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11			%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
	%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*			%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*
	Show All 32 Lines
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	i8 addrspace(1)* %buffer2) {			i8 addrspace(1)* %buffer2) {
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	%a0 = shl i64 %call, 7			%a0 = shl i64 %call, 7
	%idx.ext11 = and i64 %a0, 4294934528			%idx.ext11 = and i64 %a0, 4294934528
	▲ Show 20 Lines • Show All 135 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/scheduler-handle-move-bundle.mir

Show All 13 Lines	machineFunctionInfo:
waveLimiter: false		waveLimiter: false
body: \|		body: \|
bb.0:		bb.0:
liveins: $sgpr4_sgpr5		liveins: $sgpr4_sgpr5

; GCN-LABEL: name: handleMove_bundle		; GCN-LABEL: name: handleMove_bundle
; GCN: liveins: $sgpr4_sgpr5		; GCN: liveins: $sgpr4_sgpr5
; GCN: [[COPY:%[0-9]+]]:sgpr_64 = COPY $sgpr4_sgpr5		; GCN: [[COPY:%[0-9]+]]:sgpr_64 = COPY $sgpr4_sgpr5
; GCN: [[S_LOAD_DWORD_IMM:%[0-9]+]]:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM [[COPY]], 0, 0, 0 :: (dereferenceable invariant load 4, align 16, addrspace 4)		; GCN: $vcc_hi = IMPLICIT_DEF
; GCN: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 1, implicit $exec		; GCN: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 1, implicit $exec
; GCN: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GCN: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GCN: $vcc_hi = IMPLICIT_DEF		; GCN: [[S_LOAD_DWORD_IMM:%[0-9]+]]:sreg_32_xm0_xexec = S_LOAD_DWORD_IMM [[COPY]], 0, 0, 0 :: (dereferenceable invariant load 4, align 16, addrspace 4)
; GCN: DS_WRITE_B32_gfx9 [[V_MOV_B32_e32_1]], [[V_MOV_B32_e32_]], 0, 0, implicit $exec :: (store 4, addrspace 3)		; GCN: DS_WRITE_B32_gfx9 [[V_MOV_B32_e32_1]], [[V_MOV_B32_e32_]], 0, 0, implicit $exec :: (store 4, addrspace 3)
; GCN: [[V_MOV_B32_e32_2:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec		; GCN: [[V_MOV_B32_e32_2:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
; GCN: $m0 = S_MOV_B32 0		; GCN: $m0 = S_MOV_B32 0
; GCN: $vgpr0 = COPY [[S_LOAD_DWORD_IMM]]		; GCN: $vgpr0 = COPY [[S_LOAD_DWORD_IMM]]
; GCN: BUNDLE implicit $vgpr0, implicit $m0, implicit $exec {		; GCN: BUNDLE implicit $vgpr0, implicit $m0, implicit $exec {
; GCN: DS_GWS_INIT $vgpr0, 11, 0, implicit $m0, implicit $exec :: (store 4)		; GCN: DS_GWS_INIT $vgpr0, 11, 0, implicit $m0, implicit $exec :: (store 4)
; GCN: S_WAITCNT 0		; GCN: S_WAITCNT 0
; GCN: }		; GCN: }
Show All 19 Lines

llvm/test/CodeGen/AMDGPU/shrink-add-sub-constant.ll

	Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_x_sub_64:			; GFX10-LABEL: v_test_i32_x_sub_64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 64, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v0, 64, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 %x, 64			%result = sub i32 %x, 64
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_x_sub_64_multi_use:			; GFX10-LABEL: v_test_i32_x_sub_64_multi_use:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: global_load_dword v4, v[0:1], off			; GFX10-NEXT: global_load_dword v4, v[0:1], off
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(1)			; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 64, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v1, 64, v4
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 64, v4			; GFX10-NEXT: v_subrev_nc_u32_e32 v0, 64, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v1, off
	; GFX10-NEXT: global_store_dword v[0:1], v3, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load volatile i32, i32 addrspace(1)* %gep			%x = load volatile i32, i32 addrspace(1)* %gep
	%y = load volatile i32, i32 addrspace(1)* %gep			%y = load volatile i32, i32 addrspace(1)* %gep
	%result0 = sub i32 %x, 64			%result0 = sub i32 %x, 64
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_64_sub_x:			; GFX10-LABEL: v_test_i32_64_sub_x:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, 64, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v0, 64, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 64, %x			%result = sub i32 64, %x
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_x_sub_65:			; GFX10-LABEL: v_test_i32_x_sub_65:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_add_nc_u32_e32 v2, 0xffffffbf, v3			; GFX10-NEXT: v_add_nc_u32_e32 v0, 0xffffffbf, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 %x, 65			%result = sub i32 %x, 65
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_65_sub_x:			; GFX10-LABEL: v_test_i32_65_sub_x:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, 0x41, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v0, 0x41, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 65, %x			%result = sub i32 65, %x
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_x_sub_neg16:			; GFX10-LABEL: v_test_i32_x_sub_neg16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
				nhaehnleUnsubmitted Not Done Reply Inline Actions The fact that the computation of v2 and v3 are moved earlier is a regression, but I would consider it unrelated. It rather points to the fact that the scheduler doesn't understand just how ridiculously long the latency of VMEM instructions is, and that adding those extra VALUs between it and the computation of its address doesn't actually help at all. nhaehnle: The fact that the computation of v2 and v3 are moved earlier is a regression, but I would…
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_add_nc_u32_e32 v2, 16, v3			; GFX10-NEXT: v_add_nc_u32_e32 v0, 16, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 %x, -16			%result = sub i32 %x, -16
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_neg16_sub_x:			; GFX10-LABEL: v_test_i32_neg16_sub_x:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, -16, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v0, -16, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 -16, %x			%result = sub i32 -16, %x
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_x_sub_neg17:			; GFX10-LABEL: v_test_i32_x_sub_neg17:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_add_nc_u32_e32 v2, 17, v3			; GFX10-NEXT: v_add_nc_u32_e32 v0, 17, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 %x, -17			%result = sub i32 %x, -17
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i32_neg17_sub_x:			; GFX10-LABEL: v_test_i32_neg17_sub_x:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u32_e32 v2, 0xffffffef, v3			; GFX10-NEXT: v_sub_nc_u32_e32 v0, 0xffffffef, v0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %tid.ext
	%x = load i32, i32 addrspace(1)* %gep			%x = load i32, i32 addrspace(1)* %gep
	%result = sub i32 -17, %x			%result = sub i32 -17, %x
	store i32 %result, i32 addrspace(1)* %gep.out			store i32 %result, i32 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i16_x_sub_64:			; GFX10-LABEL: v_test_i16_x_sub_64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 1, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 1, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_ushort v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_ushort v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u16_e64 v2, v3, 64			; GFX10-NEXT: v_sub_nc_u16_e64 v0, v0, 64
	; GFX10-NEXT: global_store_short v[0:1], v2, off			; GFX10-NEXT: global_store_short v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i16, i16 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i16, i16 addrspace(1)* %out, i64 %tid.ext
	%x = load i16, i16 addrspace(1)* %gep			%x = load i16, i16 addrspace(1)* %gep
	%result = sub i16 %x, 64			%result = sub i16 %x, 64
	store i16 %result, i16 addrspace(1)* %gep.out			store i16 %result, i16 addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_i16_x_sub_64_multi_use:			; GFX10-LABEL: v_test_i16_x_sub_64_multi_use:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 1, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 1, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_ushort v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: global_load_ushort v4, v[0:1], off			; GFX10-NEXT: global_load_ushort v4, v[0:1], off
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_ushort v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(1)			; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: v_sub_nc_u16_e64 v2, v3, 64			; GFX10-NEXT: v_sub_nc_u16_e64 v1, v4, 64
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_nc_u16_e64 v3, v4, 64			; GFX10-NEXT: v_sub_nc_u16_e64 v0, v0, 64
	; GFX10-NEXT: global_store_short v[0:1], v2, off			; GFX10-NEXT: global_store_short v[2:3], v1, off
	; GFX10-NEXT: global_store_short v[0:1], v3, off			; GFX10-NEXT: global_store_short v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds i16, i16 addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds i16, i16 addrspace(1)* %out, i64 %tid.ext
	%x = load volatile i16, i16 addrspace(1)* %gep			%x = load volatile i16, i16 addrspace(1)* %gep
	%y = load volatile i16, i16 addrspace(1)* %gep			%y = load volatile i16, i16 addrspace(1)* %gep
	%result0 = sub i16 %x, 64			%result0 = sub i16 %x, 64
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_64_64:			; GFX10-LABEL: v_test_v2i16_x_sub_64_64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 64 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 64 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 64, i16 64>			%result = sub <2 x i16> %x, <i16 64, i16 64>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_7_64:			; GFX10-LABEL: v_test_v2i16_x_sub_7_64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 7 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 7 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 7, i16 64>			%result = sub <2 x i16> %x, <i16 7, i16 64>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_64_123:			; GFX10-LABEL: v_test_v2i16_x_sub_64_123:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 64 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 64 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 64, i16 123>			%result = sub <2 x i16> %x, <i16 64, i16 123>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_7_0:			; GFX10-LABEL: v_test_v2i16_x_sub_7_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 7			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 7
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 7, i16 0>			%result = sub <2 x i16> %x, <i16 7, i16 0>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_0_16:			; GFX10-LABEL: v_test_v2i16_x_sub_0_16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 16 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 16 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 0, i16 16>			%result = sub <2 x i16> %x, <i16 0, i16 16>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_0_1_0:			; GFX10-LABEL: v_test_v2i16_x_sub_0_1_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, -4.0 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, -4.0 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 0, i16 -15360>			%result = sub <2 x i16> %x, <i16 0, i16 -15360>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_sub_0_neg1_0:			; GFX10-LABEL: v_test_v2i16_x_sub_0_neg1_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_i16 v2, v3, 4.0 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_i16 v0, v0, 4.0 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = sub <2 x i16> %x, <i16 0, i16 17408>			%result = sub <2 x i16> %x, <i16 0, i16 17408>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg32_neg32:			; GFX10-LABEL: v_test_v2i16_x_add_neg32_neg32:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 32 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 32 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -32, i16 -32>			%result = add <2 x i16> %x, <i16 -32, i16 -32>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_0_neg32:			; GFX10-LABEL: v_test_v2i16_x_add_0_neg32:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 32 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 32 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 0, i16 -32>			%result = add <2 x i16> %x, <i16 0, i16 -32>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg32_0:			; GFX10-LABEL: v_test_v2i16_x_add_neg32_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 32			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 32
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -32, i16 0>			%result = add <2 x i16> %x, <i16 -32, i16 0>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg16_neg16:			; GFX10-LABEL: v_test_v2i16_x_add_neg16_neg16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 16 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 16 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -16, i16 -16>			%result = add <2 x i16> %x, <i16 -16, i16 -16>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_0_neg16:			; GFX10-LABEL: v_test_v2i16_x_add_0_neg16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 16 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 16 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 0, i16 -16>			%result = add <2 x i16> %x, <i16 0, i16 -16>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg16_0:			; GFX10-LABEL: v_test_v2i16_x_add_neg16_0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 16			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 16
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -16, i16 0>			%result = add <2 x i16> %x, <i16 -16, i16 0>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg_fpone:			; GFX10-LABEL: v_test_v2i16_x_add_neg_fpone:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 1.0 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 1.0 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -15360, i16 -15360>			%result = add <2 x i16> %x, <i16 -15360, i16 -15360>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg_negfpone:			; GFX10-LABEL: v_test_v2i16_x_add_neg_negfpone:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, -1.0 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, -1.0 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 17408, i16 17408>			%result = add <2 x i16> %x, <i16 17408, i16 17408>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg_fptwo:			; GFX10-LABEL: v_test_v2i16_x_add_neg_fptwo:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, -2.0 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, -2.0 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 16384, i16 16384>			%result = add <2 x i16> %x, <i16 16384, i16 16384>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg_negfptwo:			; GFX10-LABEL: v_test_v2i16_x_add_neg_negfptwo:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 2.0 op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 2.0 op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -16384, i16 -16384>			%result = add <2 x i16> %x, <i16 -16384, i16 -16384>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_undef_neg32:			; GFX10-LABEL: v_test_v2i16_x_add_undef_neg32:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 32 op_sel:[0,1] op_sel_hi:[1,0]			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 32 op_sel:[0,1] op_sel_hi:[1,0]
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 undef, i16 -32>			%result = add <2 x i16> %x, <i16 undef, i16 -32>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: v_test_v2i16_x_add_neg32_undef:			; GFX10-LABEL: v_test_v2i16_x_add_neg32_undef:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2			; GFX10-NEXT: v_add_co_u32_e64 v0, s2, s2, v2
				; GFX10-NEXT: v_add_co_u32_e64 v2, s0, s0, v2
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2			; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s2, s3, 0, s2
	; GFX10-NEXT: global_load_dword v3, v[0:1], off			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, s1, 0, s0
	; GFX10-NEXT: v_add_co_u32_e64 v0, s0, s0, v2			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_add_co_ci_u32_e64 v1, s0, s1, 0, s0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_pk_sub_u16 v2, v3, 32			; GFX10-NEXT: v_pk_sub_u16 v0, v0, 32
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[2:3], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext			%gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
	%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep			%x = load <2 x i16>, <2 x i16> addrspace(1)* %gep
	%result = add <2 x i16> %x, <i16 -32, i16 undef>			%result = add <2 x i16> %x, <i16 -32, i16 undef>
	store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out			store <2 x i16> %result, <2 x i16> addrspace(1)* %gep.out
	ret void			ret void
	}			}

	declare i32 @llvm.amdgcn.workitem.id.x() #1			declare i32 @llvm.amdgcn.workitem.id.x() #1

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { nounwind readnone }			attributes #1 = { nounwind readnone }