This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Use legal shift amount type in DAGTypeLegalizer::JoinIntegers
ClosedPublic

Authored by foad on Jul 11 2023, 6:30 AM.

Download Raw Diff

Details

Reviewers

arsenm
RKSimon
craig.topper
jrbyrnes

Group Reviewers

Restricted Project

Commits

rGf7684d851039: [DAG] Use legal shift amount type in DAGTypeLegalizer::JoinIntegers

Summary

Documentation for TargetLowering::getShiftAmountTy says that LegalTypes
should generally be true during type legalization, so this patch does
that.

On AMDGPU the effect is that we use i32 (a sane type) instead of i64
(pointer sized type) for more shift amounts, which in turn allows more
formation of rotates and funnel shifts pre-legalization.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Jul 11 2023, 6:30 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 11 2023, 6:30 AM

Herald added subscribers: bzcheeseman, StephenFan, kerbowa and 3 others. · View Herald Transcript

foad requested review of this revision.Jul 11 2023, 6:30 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 11 2023, 6:30 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

LGTM. I don't think this pararameter makes any sense to begin with

This revision is now accepted and ready to land.Jul 11 2023, 6:34 AM

Herald added a subscriber: wdng. · View Herald TranscriptJul 11 2023, 6:34 AM

foad added reviewers: Restricted Project, RKSimon, craig.topper.Jul 11 2023, 6:36 AM

foad added inline comments.

llvm/test/CodeGen/AMDGPU/permute_i8.ll
220	A bunch of regressions like this seem to be related to worse use of v_perm.

I'll work on the regressions.

arsenm added a reviewer: jrbyrnes.Jul 11 2023, 6:39 AM

Avoid AMDGPU v_perm regressions by matching BSWAP.

This revision is now accepted and ready to land.Jul 11 2023, 8:46 AM

arsenm accepted this revision.Jul 11 2023, 11:33 AM

Harbormaster completed remote builds in B244499: Diff 539133.Jul 11 2023, 12:50 PM

foad added inline comments.Jul 12 2023, 12:12 AM

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll
109	There are still some minor regressions like this one, but I'm inclined to waive them. In this case the v_and is redundant because the result is the same as v1. SimplifyDemandedBits would normally optimize this but in this case it gives up because v2 has multiple uses: https://github.com/llvm/llvm-project/blob/49364503f621d807c4ee80050ab7a0cdb2b05a60/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp#L1116

Closed by commit rGf7684d851039: [DAG] Use legal shift amount type in DAGTypeLegalizer::JoinIntegers (authored by foad). · Explain WhyJul 12 2023, 12:21 AM

This revision was automatically updated to reflect the committed changes.

foad added a commit: rGf7684d851039: [DAG] Use legal shift amount type in DAGTypeLegalizer::JoinIntegers.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

LegalizeTypes.cpp

2 lines

test/

CodeGen/

AMDGPU/

bswap.ll

69 lines

build_vector.ll

5 lines

cvt_f32_ubyte.ll

182 lines

divergence-driven-buildvector.ll

12 lines

fneg-modifier-casting.ll

8 lines

8 lines

24 lines

30 lines

50 lines

insert_vector_elt.v2i16.ll

20 lines

integer-mad-patterns.ll

256 lines

load-constant-i8.ll

504 lines

permute_i8.ll

318 lines

reassoc-mul-add-1-to-mad.ll

71 lines

scalar_to_vector.ll

24 lines

usubsat.ll

5 lines

Diff 539061

llvm/lib/CodeGen/SelectionDAG/LegalizeTypes.cpp

Show First 20 Lines • Show All 994 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::JoinIntegers(SDValue Lo, SDValue Hi) {
// Arbitrarily use dlHi for result SDLoc		// Arbitrarily use dlHi for result SDLoc
SDLoc dlHi(Hi);		SDLoc dlHi(Hi);
SDLoc dlLo(Lo);		SDLoc dlLo(Lo);
EVT LVT = Lo.getValueType();		EVT LVT = Lo.getValueType();
EVT HVT = Hi.getValueType();		EVT HVT = Hi.getValueType();
EVT NVT = EVT::getIntegerVT(*DAG.getContext(),		EVT NVT = EVT::getIntegerVT(*DAG.getContext(),
LVT.getSizeInBits() + HVT.getSizeInBits());		LVT.getSizeInBits() + HVT.getSizeInBits());

EVT ShiftAmtVT = TLI.getShiftAmountTy(NVT, DAG.getDataLayout(), false);		EVT ShiftAmtVT = TLI.getShiftAmountTy(NVT, DAG.getDataLayout());
Lo = DAG.getNode(ISD::ZERO_EXTEND, dlLo, NVT, Lo);		Lo = DAG.getNode(ISD::ZERO_EXTEND, dlLo, NVT, Lo);
Hi = DAG.getNode(ISD::ANY_EXTEND, dlHi, NVT, Hi);		Hi = DAG.getNode(ISD::ANY_EXTEND, dlHi, NVT, Hi);
Hi = DAG.getNode(ISD::SHL, dlHi, NVT, Hi,		Hi = DAG.getNode(ISD::SHL, dlHi, NVT, Hi,
DAG.getConstant(LVT.getSizeInBits(), dlHi, ShiftAmtVT));		DAG.getConstant(LVT.getSizeInBits(), dlHi, ShiftAmtVT));
return DAG.getNode(ISD::OR, dlHi, NVT, Lo, Hi);		return DAG.getNode(ISD::OR, dlHi, NVT, Lo, Hi);
}		}

/// Promote the given target boolean to a target boolean of the given type.		/// Promote the given target boolean to a target boolean of the given type.
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bswap.ll

Show First 20 Lines • Show All 596 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_setpc_b64 s[30:31]
%zext = sext i16 %bswap to i32		%zext = sext i16 %bswap to i32
ret i32 %zext		ret i32 %zext
}		}

define <2 x i16> @v_bswap_v2i16(<2 x i16> %src) {		define <2 x i16> @v_bswap_v2i16(<2 x i16> %src) {
; SI-LABEL: v_bswap_v2i16:		; SI-LABEL: v_bswap_v2i16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_alignbit_b32 v2, v1, v1, 8		; SI-NEXT: v_alignbit_b32 v2, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: s_mov_b32 s4, 0xff00ff
; SI-NEXT: v_alignbit_b32 v3, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24		; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
; SI-NEXT: v_bfi_b32 v1, s4, v1, v2		; SI-NEXT: s_mov_b32 s4, 0xff00ff
; SI-NEXT: v_bfi_b32 v0, s4, v0, v3		; SI-NEXT: v_alignbit_b32 v3, v1, v1, 8
; SI-NEXT: v_and_b32_e32 v2, 0xffff0000, v1		; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_bfi_b32 v0, s4, v0, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v2		; SI-NEXT: v_bfi_b32 v1, s4, v1, v3
; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1		; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
		; SI-NEXT: v_alignbit_b32 v0, v1, v0, 16
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_bswap_v2i16:		; VI-LABEL: v_bswap_v2i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_mov_b32 s4, 0x2030001		; VI-NEXT: s_mov_b32 s4, 0x2030001
; VI-NEXT: v_perm_b32 v0, 0, v0, s4		; VI-NEXT: v_perm_b32 v0, 0, v0, s4
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: v_bswap_v2i16:		; GFX11-LABEL: v_bswap_v2i16:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: v_perm_b32 v0, 0, v0, 0x2030001		; GFX11-NEXT: v_perm_b32 v0, 0, v0, 0x2030001
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%bswap = call <2 x i16> @llvm.bswap.v2i16(<2 x i16> %src)		%bswap = call <2 x i16> @llvm.bswap.v2i16(<2 x i16> %src)
ret <2 x i16> %bswap		ret <2 x i16> %bswap
}		}

define <3 x i16> @v_bswap_v3i16(<3 x i16> %src) {		define <3 x i16> @v_bswap_v3i16(<3 x i16> %src) {
; SI-LABEL: v_bswap_v3i16:		; SI-LABEL: v_bswap_v3i16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_alignbit_b32 v3, v1, v1, 8		; SI-NEXT: v_alignbit_b32 v3, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: s_mov_b32 s4, 0xff00ff
; SI-NEXT: v_alignbit_b32 v4, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24		; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
		; SI-NEXT: s_mov_b32 s4, 0xff00ff
		; SI-NEXT: v_alignbit_b32 v4, v1, v1, 8
		; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: v_alignbit_b32 v5, v2, v2, 8		; SI-NEXT: v_alignbit_b32 v5, v2, v2, 8
; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24		; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24
; SI-NEXT: v_bfi_b32 v1, s4, v1, v3		; SI-NEXT: v_bfi_b32 v0, s4, v0, v3
; SI-NEXT: v_bfi_b32 v0, s4, v0, v4		; SI-NEXT: v_bfi_b32 v1, s4, v1, v4
; SI-NEXT: v_bfi_b32 v2, s4, v2, v5		; SI-NEXT: v_bfi_b32 v2, s4, v2, v5
; SI-NEXT: v_and_b32_e32 v3, 0xffff0000, v1		; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_alignbit_b32 v0, v1, v0, 16
; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v3		; SI-NEXT: v_alignbit_b32 v1, v2, v0, 16
; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_bswap_v3i16:		; VI-LABEL: v_bswap_v3i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_mov_b32 s4, 0x2030001		; VI-NEXT: s_mov_b32 s4, 0x2030001
; VI-NEXT: v_perm_b32 v0, 0, v0, s4		; VI-NEXT: v_perm_b32 v0, 0, v0, s4
; VI-NEXT: v_perm_b32 v1, 0, v1, s4		; VI-NEXT: v_perm_b32 v1, 0, v1, s4
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX11-LABEL: v_bswap_v3i16:		; GFX11-LABEL: v_bswap_v3i16:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX11-NEXT: v_perm_b32 v0, 0, v0, 0x2030001		; GFX11-NEXT: v_perm_b32 v0, 0, v0, 0x2030001
; GFX11-NEXT: v_perm_b32 v1, 0, v1, 0x2030001		; GFX11-NEXT: v_perm_b32 v1, 0, v1, 0x2030001
; GFX11-NEXT: s_setpc_b64 s[30:31]		; GFX11-NEXT: s_setpc_b64 s[30:31]
%bswap = call <3 x i16> @llvm.bswap.v3i16(<3 x i16> %src)		%bswap = call <3 x i16> @llvm.bswap.v3i16(<3 x i16> %src)
ret <3 x i16> %bswap		ret <3 x i16> %bswap
}		}

define <4 x i16> @v_bswap_v4i16(<4 x i16> %src) {		define <4 x i16> @v_bswap_v4i16(<4 x i16> %src) {
; SI-LABEL: v_bswap_v4i16:		; SI-LABEL: v_bswap_v4i16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_alignbit_b32 v4, v1, v1, 8		; SI-NEXT: v_alignbit_b32 v4, v2, v2, 8
; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24		; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24
; SI-NEXT: s_mov_b32 s4, 0xff00ff		; SI-NEXT: s_mov_b32 s4, 0xff00ff
; SI-NEXT: v_alignbit_b32 v5, v0, v0, 8		; SI-NEXT: v_alignbit_b32 v5, v3, v3, 8
; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
; SI-NEXT: v_alignbit_b32 v6, v3, v3, 8
; SI-NEXT: v_alignbit_b32 v3, v3, v3, 24		; SI-NEXT: v_alignbit_b32 v3, v3, v3, 24
; SI-NEXT: v_alignbit_b32 v7, v2, v2, 8		; SI-NEXT: v_alignbit_b32 v6, v0, v0, 8
; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24		; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
; SI-NEXT: v_bfi_b32 v1, s4, v1, v4		; SI-NEXT: v_alignbit_b32 v7, v1, v1, 8
; SI-NEXT: v_bfi_b32 v0, s4, v0, v5		; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
; SI-NEXT: v_bfi_b32 v3, s4, v3, v6		; SI-NEXT: v_bfi_b32 v2, s4, v2, v4
; SI-NEXT: v_bfi_b32 v2, s4, v2, v7		; SI-NEXT: v_bfi_b32 v3, s4, v3, v5
; SI-NEXT: v_and_b32_e32 v4, 0xffff0000, v1		; SI-NEXT: v_bfi_b32 v0, s4, v0, v6
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_bfi_b32 v1, s4, v1, v7
; SI-NEXT: v_and_b32_e32 v5, 0xffff0000, v3
; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
; SI-NEXT: v_or_b32_e32 v0, v0, v4
; SI-NEXT: v_or_b32_e32 v2, v2, v5
; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3		; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3
		; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
		; SI-NEXT: v_alignbit_b32 v2, v3, v2, 16
		; SI-NEXT: v_alignbit_b32 v0, v1, v0, 16
		; SI-NEXT: v_alignbit_b32 v1, v2, v0, 16
		; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_bswap_v4i16:		; VI-LABEL: v_bswap_v4i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_mov_b32 s4, 0x2030001		; VI-NEXT: s_mov_b32 s4, 0x2030001
; VI-NEXT: v_perm_b32 v0, 0, v0, s4		; VI-NEXT: v_perm_b32 v0, 0, v0, s4
; VI-NEXT: v_perm_b32 v1, 0, v1, s4		; VI-NEXT: v_perm_b32 v1, 0, v1, s4
▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/build_vector.ll

	Show First 20 Lines • Show All 65 Lines • ▼ Show 20 Lines

	; ALL-LABEL: {{^}}build_vector_v2i16_trunc:			; ALL-LABEL: {{^}}build_vector_v2i16_trunc:
	; R600: LSHR			; R600: LSHR
	; R600: OR_INT			; R600: OR_INT
	; R600: LSHR			; R600: LSHR
	; R600-NOT: MOV			; R600-NOT: MOV
	; GFX6: s_mov_b32 s3, 0xf000			; GFX6: s_mov_b32 s3, 0xf000
	; GFX6: s_waitcnt lgkmcnt(0)			; GFX6: s_waitcnt lgkmcnt(0)
	; GFX6: s_lshr_b32 s2, s2, 16			; GFX6: v_alignbit_b32 v0, 5, s4, 16
	; GFX6: s_or_b32 s4, s2, 0x50000
	; GFX6: s_mov_b32 s2, -1
	; GFX6: v_mov_b32_e32 v0, s4
	; GFX6: buffer_store_dword v0, off, s[0:3], 0			; GFX6: buffer_store_dword v0, off, s[0:3], 0
	; GFX8: s_mov_b32 s3, 0xf000			; GFX8: s_mov_b32 s3, 0xf000
	; GFX8: s_mov_b32 s2, -1			; GFX8: s_mov_b32 s2, -1
	; GFX8: s_waitcnt lgkmcnt(0)			; GFX8: s_waitcnt lgkmcnt(0)
	; GFX8: s_lshr_b32 s4, s4, 16			; GFX8: s_lshr_b32 s4, s4, 16
	; GFX8: s_or_b32 s4, s4, 0x50000			; GFX8: s_or_b32 s4, s4, 0x50000
	; GFX8: v_mov_b32_e32 v0, s4			; GFX8: v_mov_b32_e32 v0, s4
	; GFX8: buffer_store_dword v0, off, s[0:3], 0			; GFX8: buffer_store_dword v0, off, s[0:3], 0
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 1,386 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s11, 0xf000			; SI-NEXT: s_mov_b32 s11, 0xf000
	; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_mov_b32 s14, 0			; SI-NEXT: s_mov_b32 s14, 0
	; SI-NEXT: s_mov_b32 s15, s11			; SI-NEXT: s_mov_b32 s15, s11
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b64 s[12:13], s[4:5]			; SI-NEXT: s_mov_b64 s[12:13], s[4:5]
	; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[12:15], 0 addr64 offset:3			; SI-NEXT: buffer_load_ubyte v2, v[0:1], s[12:15], 0 addr64 offset:3
	; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[12:15], 0 addr64 offset:2
	; SI-NEXT: s_mov_b64 s[12:13], s[6:7]
	; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[12:15], 0 addr64 offset:2			; SI-NEXT: buffer_load_ubyte v4, v[0:1], s[12:15], 0 addr64 offset:2
				; SI-NEXT: s_mov_b64 s[12:13], s[6:7]
				; SI-NEXT: buffer_load_ubyte v3, v[0:1], s[12:15], 0 addr64 offset:2
	; SI-NEXT: s_mov_b32 s10, -1			; SI-NEXT: s_mov_b32 s10, -1
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: s_mov_b32 s2, s10			; SI-NEXT: s_mov_b32 s2, s10
	; SI-NEXT: s_mov_b32 s3, s11			; SI-NEXT: s_mov_b32 s3, s11
	; SI-NEXT: s_waitcnt vmcnt(2)			; SI-NEXT: s_waitcnt vmcnt(2)
	; SI-NEXT: v_lshlrev_b32_e32 v5, 24, v2			; SI-NEXT: v_lshlrev_b32_e32 v5, 8, v2
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_lshlrev_b32_e32 v6, 8, v3			; SI-NEXT: v_lshlrev_b32_e32 v6, 8, v4
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v3			; SI-NEXT: v_or_b32_e32 v5, v5, v4
				; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v4
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_or_b32_e32 v6, v4, v6			; SI-NEXT: v_or_b32_e32 v6, v3, v6
				; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v2			; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v2
	; SI-NEXT: v_alignbit_b32 v5, v3, v5, 24			; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v3
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; SI-NEXT: v_mov_b32_e32 v3, v1			; SI-NEXT: v_mov_b32_e32 v3, v1
	; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v6			; SI-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; SI-NEXT: v_or_b32_e32 v4, v5, v4			; SI-NEXT: v_alignbit_b32 v4, v4, v5, 24
				; SI-NEXT: v_or_b32_e32 v4, v4, v6
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: buffer_store_dword v4, off, s[8:11], 0			; SI-NEXT: buffer_store_dword v4, off, s[8:11], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:			; VI-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s8, 0x4000405			; VI-NEXT: s_mov_b32 s8, 0xc0c0001
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_add_u32_e32 v2, vcc, s4, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, s4, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_add_u32_e32 v4, vcc, s6, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, s6, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v0, vcc, 3, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, 3, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ubyte v6, v[0:1]			; VI-NEXT: v_add_u32_e32 v2, vcc, 2, v2
	; VI-NEXT: v_add_u32_e32 v0, vcc, 2, v2			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_ubyte v2, v[2:3]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: flat_load_ubyte v3, v[4:5]			; VI-NEXT: flat_load_ubyte v4, v[4:5]
	; VI-NEXT: flat_load_ubyte v4, v[0:1]			; VI-NEXT: flat_load_ubyte v3, v[2:3]
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_mov_b32 s4, s2			; VI-NEXT: s_mov_b32 s4, s2
	; VI-NEXT: s_mov_b32 s5, s3			; VI-NEXT: s_mov_b32 s5, s3
	; VI-NEXT: s_mov_b32 s2, s6			; VI-NEXT: s_mov_b32 s2, s6
	; VI-NEXT: s_mov_b32 s3, s7			; VI-NEXT: s_mov_b32 s3, s7
	; VI-NEXT: s_waitcnt vmcnt(3)
	; VI-NEXT: v_lshlrev_b32_e32 v5, 8, v6
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v6
	; VI-NEXT: s_waitcnt vmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2)
	; VI-NEXT: v_lshlrev_b32_e32 v7, 8, v2			; VI-NEXT: v_lshlrev_b32_e32 v5, 8, v0
	; VI-NEXT: s_waitcnt vmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v3			; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, v4			; VI-NEXT: v_or_b32_e32 v5, v5, v3
	; VI-NEXT: v_or_b32_e32 v4, v5, v4			; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, v3
	; VI-NEXT: v_or_b32_e32 v5, v7, v3			; VI-NEXT: v_lshlrev_b16_e32 v6, 8, v5
				; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: v_mov_b32_e32 v3, v1			; VI-NEXT: v_mov_b32_e32 v3, v1
	; VI-NEXT: v_perm_b32 v4, v4, v5, s8			; VI-NEXT: v_perm_b32 v5, 0, v5, s8
				; VI-NEXT: v_or_b32_sdwa v4, v4, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
				; VI-NEXT: v_or_b32_e32 v4, v5, v4
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: buffer_store_dword v4, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v4, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:			; GFX10-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_mov_b32_e32 v7, 0			; GFX10-NEXT: v_mov_b32_e32 v6, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_clause 0x3			; GFX10-NEXT: s_clause 0x2
	; GFX10-NEXT: global_load_ubyte v1, v0, s[4:5] offset:2			; GFX10-NEXT: global_load_ubyte v1, v0, s[4:5] offset:2
	; GFX10-NEXT: global_load_ubyte v3, v0, s[4:5] offset:3			; GFX10-NEXT: global_load_ubyte v3, v0, s[4:5] offset:3
	; GFX10-NEXT: global_load_ubyte v2, v0, s[6:7] offset:3			; GFX10-NEXT: global_load_ubyte v2, v0, s[6:7] offset:2
	; GFX10-NEXT: global_load_ubyte v4, v0, s[6:7] offset:2			; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: s_waitcnt vmcnt(2)			; GFX10-NEXT: v_lshl_or_b32 v0, v3, 8, v1
	; GFX10-NEXT: v_lshl_or_b32 v5, v3, 8, v1
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, v1			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: v_lshlrev_b16 v4, 8, v0
	; GFX10-NEXT: v_lshl_or_b32 v6, v2, 8, v4			; GFX10-NEXT: v_perm_b32 v5, 0, v0, 0xc0c0001
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, v3			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, v3
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: v_perm_b32 v4, v5, v6, 0x4000405			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dwordx4 v7, v[0:3], s[0:1]			; GFX10-NEXT: v_or_b32_sdwa v4, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: global_store_dword v7, v4, s[2:3]			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
				; GFX10-NEXT: v_or_b32_e32 v4, v5, v4
				; GFX10-NEXT: global_store_dwordx4 v6, v[0:3], s[0:1]
				; GFX10-NEXT: global_store_dword v6, v4, s[2:3]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:			; GFX9-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[4:5], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[4:5], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_ubyte v1, v0, s[4:5] offset:2			; GFX9-NEXT: global_load_ubyte v1, v0, s[4:5] offset:2
	; GFX9-NEXT: global_load_ubyte v2, v0, s[6:7] offset:3
	; GFX9-NEXT: global_load_ubyte v3, v0, s[4:5] offset:3			; GFX9-NEXT: global_load_ubyte v3, v0, s[4:5] offset:3
	; GFX9-NEXT: global_load_ubyte v4, v0, s[6:7] offset:2			; GFX9-NEXT: global_load_ubyte v4, v0, s[6:7] offset:2
	; GFX9-NEXT: s_mov_b32 s4, 0x4000405			; GFX9-NEXT: s_mov_b32 s4, 0xc0c0001
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_lshl_or_b32 v6, v3, 8, v1			; GFX9-NEXT: v_lshl_or_b32 v6, v3, 8, v1
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, v1			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
				; GFX9-NEXT: v_lshlrev_b16_e32 v7, 8, v6
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshl_or_b32 v7, v2, 8, v4
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v2, v4			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v3			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v3
				; GFX9-NEXT: v_perm_b32 v6, 0, v6, s4
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: v_perm_b32 v4, v6, v7, s4			; GFX9-NEXT: v_or_b32_sdwa v4, v4, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
				; GFX9-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]
	; GFX9-NEXT: global_store_dword v5, v4, s[2:3]			; GFX9-NEXT: global_store_dword v5, v4, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:			; GFX11-LABEL: load_v4i8_to_v4f32_unaligned_multiuse:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b256 s[0:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: v_mov_b32_e32 v6, 0			; GFX11-NEXT: v_mov_b32_e32 v6, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_clause 0x3			; GFX11-NEXT: s_clause 0x2
	; GFX11-NEXT: global_load_u8 v1, v0, s[4:5] offset:2			; GFX11-NEXT: global_load_u8 v1, v0, s[4:5] offset:2
	; GFX11-NEXT: global_load_u8 v3, v0, s[4:5] offset:3			; GFX11-NEXT: global_load_u8 v3, v0, s[4:5] offset:3
	; GFX11-NEXT: global_load_u8 v2, v0, s[6:7] offset:3
	; GFX11-NEXT: global_load_u8 v0, v0, s[6:7] offset:2			; GFX11-NEXT: global_load_u8 v0, v0, s[6:7] offset:2
	; GFX11-NEXT: s_waitcnt vmcnt(2)			; GFX11-NEXT: s_waitcnt vmcnt(1)
	; GFX11-NEXT: v_lshl_or_b32 v4, v3, 8, v1			; GFX11-NEXT: v_lshl_or_b32 v2, v3, 8, v1
	; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_3) \| instid1(VALU_DEP_3)
				; GFX11-NEXT: v_lshlrev_b16 v4, 8, v2
				; GFX11-NEXT: v_perm_b32 v5, 0, v2, 0xc0c0001
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_lshl_or_b32 v5, v2, 8, v0
	; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v2, v0
				; GFX11-NEXT: v_or_b32_e32 v4, v0, v4
	; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v3			; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v3
	; GFX11-NEXT: v_mov_b32_e32 v3, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4)			; GFX11-NEXT: v_dual_mov_b32 v3, v1 :: v_dual_lshlrev_b32 v4, 16, v4
	; GFX11-NEXT: v_perm_b32 v4, v4, v5, 0x4000405			; GFX11-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: global_store_b128 v6, v[0:3], s[0:1]			; GFX11-NEXT: global_store_b128 v6, v[0:3], s[0:1]
	; GFX11-NEXT: global_store_b32 v6, v4, s[2:3]			; GFX11-NEXT: global_store_b32 v6, v4, s[2:3]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%gep1 = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in1, i32 %tid			%gep1 = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in1, i32 %tid
	Show All 23 Lines
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s0, s6			; SI-NEXT: s_mov_b32 s0, s6
	; SI-NEXT: s_mov_b32 s1, s7			; SI-NEXT: s_mov_b32 s1, s7
	; SI-NEXT: s_mov_b32 s6, s2			; SI-NEXT: s_mov_b32 s6, s2
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
				; SI-NEXT: v_and_b32_e32 v6, 0xff00, v4
	; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4			; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4
	; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4			; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4
	; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4			; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
	; SI-NEXT: v_add_i32_e32 v7, vcc, 9, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, 9, v4
	; SI-NEXT: v_and_b32_e32 v6, 0xff00, v4
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_waitcnt expcnt(0)			; SI-NEXT: s_waitcnt expcnt(0)
	; SI-NEXT: v_and_b32_e32 v0, 0xff, v7			; SI-NEXT: v_and_b32_e32 v0, 0xff, v4
	; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v5			; SI-NEXT: v_add_i32_e32 v2, vcc, 9, v5
				; SI-NEXT: v_and_b32_e32 v1, 0xff00, v5
	; SI-NEXT: v_or_b32_e32 v0, v6, v0			; SI-NEXT: v_or_b32_e32 v0, v6, v0
	; SI-NEXT: v_and_b32_e32 v1, 0xff, v1			; SI-NEXT: v_and_b32_e32 v2, 0xff, v2
	; SI-NEXT: v_and_b32_e32 v4, 0xff000000, v4
	; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; SI-NEXT: v_or_b32_e32 v1, v4, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v1, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0
	; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: load_v4i8_to_v4f32_2_uses:			; VI-LABEL: load_v4i8_to_v4f32_2_uses:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: v_mov_b32_e32 v5, 9
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s4, s2			; VI-NEXT: s_mov_b32 s4, s2
	; VI-NEXT: s_mov_b32 s5, s3			; VI-NEXT: s_mov_b32 s5, s3
	; VI-NEXT: s_mov_b32 s2, s6			; VI-NEXT: s_mov_b32 s2, s6
	; VI-NEXT: s_mov_b32 s3, s7			; VI-NEXT: s_mov_b32 s3, s7
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 24, v4			; VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4
	; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4			; VI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
	; VI-NEXT: v_and_b32_e32 v7, 0xffffff00, v4			; VI-NEXT: v_and_b32_e32 v6, 0xffffff00, v4
	; VI-NEXT: v_add_u16_e32 v8, 9, v4			; VI-NEXT: v_add_u16_e32 v4, 9, v4
	; VI-NEXT: v_add_u16_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: s_nop 0			; VI-NEXT: s_nop 0
	; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v6			; VI-NEXT: v_and_b32_e32 v1, 0xffffff00, v5
	; VI-NEXT: v_or_b32_sdwa v0, v7, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; VI-NEXT: v_add_u16_e32 v2, 9, v5
	; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; VI-NEXT: v_or_b32_sdwa v0, v6, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
				; VI-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; VI-NEXT: v_mov_b32_e32 v2, 0x900			; VI-NEXT: v_mov_b32_e32 v2, 0x900
	; VI-NEXT: v_add_u16_e32 v0, 0x900, v0			; VI-NEXT: v_add_u16_e32 v0, 0x900, v0
	; VI-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: load_v4i8_to_v4f32_2_uses:			; GFX10-LABEL: load_v4i8_to_v4f32_2_uses:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: v_mov_b32_e32 v1, 24
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dword v0, v0, s[2:3]			; GFX10-NEXT: global_load_dword v0, v0, s[2:3]
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3			; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_sdwa v1, v1, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffffff00, v0			; GFX10-NEXT: v_and_b32_e32 v3, 0xffffff00, v0
	; GFX10-NEXT: v_add_nc_u16 v4, v0, 9			; GFX10-NEXT: v_add_nc_u16 v4, v0, 9
	; GFX10-NEXT: v_add_nc_u16 v2, v2, 9			; GFX10-NEXT: v_and_b32_e32 v2, 0xffffff00, v1
	; GFX10-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_add_nc_u16 v1, v1, 9
				; GFX10-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_or_b32_sdwa v2, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_or_b32_sdwa v2, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_cvt_f32_ubyte3_e32 v3, v0			; GFX10-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
	; GFX10-NEXT: v_add_nc_u16 v1, v1, 0x900			; GFX10-NEXT: v_add_nc_u16 v1, v1, 0x900
	; GFX10-NEXT: v_add_nc_u16 v5, v2, 0x900			; GFX10-NEXT: v_add_nc_u16 v5, v2, 0x900
	; GFX10-NEXT: v_cvt_f32_ubyte2_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v1
	; GFX10-NEXT: v_cvt_f32_ubyte1_e32 v1, v0			; GFX10-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; GFX10-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX10-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX10-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX10-NEXT: global_store_dword v4, v5, s[2:3]			; GFX10-NEXT: global_store_dword v4, v5, s[2:3]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: load_v4i8_to_v4f32_2_uses:			; GFX9-LABEL: load_v4i8_to_v4f32_2_uses:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: v_mov_b32_e32 v6, 9
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v4, v0, s[0:1]			; GFX9-NEXT: global_load_dword v4, v0, s[0:1]
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x24
	; GFX9-NEXT: s_movk_i32 s4, 0x900			; GFX9-NEXT: s_movk_i32 s4, 0x900
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v4
	; GFX9-NEXT: v_cvt_f32_ubyte3_e32 v3, v4			; GFX9-NEXT: v_cvt_f32_ubyte3_e32 v3, v4
	; GFX9-NEXT: v_cvt_f32_ubyte2_e32 v2, v4			; GFX9-NEXT: v_cvt_f32_ubyte2_e32 v2, v4
	; GFX9-NEXT: v_cvt_f32_ubyte1_e32 v1, v4			; GFX9-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
	; GFX9-NEXT: v_and_b32_e32 v8, 0xffffff00, v4			; GFX9-NEXT: v_and_b32_e32 v7, 0xffffff00, v4
	; GFX9-NEXT: v_add_u16_e32 v9, 9, v4			; GFX9-NEXT: v_add_u16_e32 v4, 9, v4
	; GFX9-NEXT: v_add_u16_sdwa v4, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]
	; GFX9-NEXT: s_nop 0			; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v7			; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff00, v6
	; GFX9-NEXT: v_or_b32_sdwa v0, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_add_u16_e32 v2, 9, v6
	; GFX9-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or_b32_sdwa v0, v7, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
				; GFX9-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_add_u16_e32 v0, 0x900, v0			; GFX9-NEXT: v_add_u16_e32 v0, 0x900, v0
	; GFX9-NEXT: v_add_u16_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_add_u16_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: global_store_dword v5, v0, s[2:3]			; GFX9-NEXT: global_store_dword v5, v0, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: load_v4i8_to_v4f32_2_uses:			; GFX11-LABEL: load_v4i8_to_v4f32_2_uses:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[2:3], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[2:3], s[0:1], 0x34
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_load_b32 v0, v0, s[2:3]			; GFX11-NEXT: global_load_b32 v0, v0, s[2:3]
	; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_add_nc_u16 v2, v0, 9			; GFX11-NEXT: v_add_nc_u16 v2, v0, 9
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX11-NEXT: v_and_b32_e32 v4, 0xffffff00, v0			; GFX11-NEXT: v_and_b32_e32 v4, 0xffffff00, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_add_nc_u16 v1, v1, 9			; GFX11-NEXT: v_add_nc_u16 v3, v1, 9
	; GFX11-NEXT: v_and_b32_e32 v2, 0xff, v2			; GFX11-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_3)			; GFX11-NEXT: v_and_b32_e32 v1, 0xffffff00, v1
	; GFX11-NEXT: v_lshlrev_b16 v3, 8, v3			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_and_b32_e32 v1, 0xff, v1			; GFX11-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_or_b32_e32 v2, v4, v2			; GFX11-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX11-NEXT: v_mov_b32_e32 v4, 0			; GFX11-NEXT: v_mov_b32_e32 v4, 0
	; GFX11-NEXT: v_or_b32_e32 v1, v3, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_3)			; GFX11-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX11-NEXT: v_add_nc_u16 v2, v2, 0x900			; GFX11-NEXT: v_add_nc_u16 v2, v2, 0x900
	; GFX11-NEXT: v_cvt_f32_ubyte3_e32 v3, v0			; GFX11-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_add_nc_u16 v1, v1, 0x900			; GFX11-NEXT: v_add_nc_u16 v1, v1, 0x900
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v2			; GFX11-NEXT: v_and_b32_e32 v5, 0xffff, v2
	; GFX11-NEXT: v_cvt_f32_ubyte2_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_ubyte2_e32 v2, v0
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_2) \| instid1(VALU_DEP_3)
	; GFX11-NEXT: v_lshlrev_b32_e32 v6, 16, v1			; GFX11-NEXT: v_lshlrev_b32_e32 v6, 16, v1
	; GFX11-NEXT: v_cvt_f32_ubyte1_e32 v1, v0			; GFX11-NEXT: v_cvt_f32_ubyte1_e32 v1, v0
	; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_3)
	; GFX11-NEXT: v_or_b32_e32 v5, v5, v6			; GFX11-NEXT: v_or_b32_e32 v5, v5, v6
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: global_store_b128 v4, v[0:3], s[0:1]			; GFX11-NEXT: global_store_b128 v4, v[0:3], s[0:1]
	; GFX11-NEXT: global_store_b32 v4, v5, s[2:3]			; GFX11-NEXT: global_store_b32 v4, v5, s[2:3]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	▲ Show 20 Lines • Show All 1,267 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/divergence-driven-buildvector.ll

Show First 20 Lines • Show All 444 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_setpc_b64 s[30:31]
ret i32 %val		ret i32 %val
}		}

define amdgpu_kernel void @uniform_vec_i16_HH(ptr addrspace(1) %out, i32 %a, i32 %b) {		define amdgpu_kernel void @uniform_vec_i16_HH(ptr addrspace(1) %out, i32 %a, i32 %b) {
; GCN-LABEL: uniform_vec_i16_HH:		; GCN-LABEL: uniform_vec_i16_HH:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NEXT: s_mov_b32 s7, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_lshr_b32 s2, s2, 16
; GCN-NEXT: s_and_b32 s3, s3, 0xffff0000
; GCN-NEXT: s_or_b32 s2, s2, s3
; GCN-NEXT: s_mov_b32 s6, -1		; GCN-NEXT: s_mov_b32 s6, -1
		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, s0		; GCN-NEXT: s_mov_b32 s4, s0
; GCN-NEXT: s_mov_b32 s5, s1		; GCN-NEXT: s_mov_b32 s5, s1
		; GCN-NEXT: s_lshr_b32 s0, s3, 16
; GCN-NEXT: v_mov_b32_e32 v0, s2		; GCN-NEXT: v_mov_b32_e32 v0, s2
		; GCN-NEXT: v_alignbit_b32 v0, s0, v0, 16
; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GFX9-LABEL: uniform_vec_i16_HH:		; GFX9-LABEL: uniform_vec_i16_HH:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: v_mov_b32_e32 v0, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
Show All 32 Lines	; GFX11-NEXT: s_endpgm
store i32 %val, ptr addrspace(1) %out, align 4		store i32 %val, ptr addrspace(1) %out, align 4
ret void		ret void
}		}

define i32 @divergent_vec_i16_HH(i32 %a, i32 %b) {		define i32 @divergent_vec_i16_HH(i32 %a, i32 %b) {
; GCN-LABEL: divergent_vec_i16_HH:		; GCN-LABEL: divergent_vec_i16_HH:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GCN-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GCN-NEXT: v_and_b32_e32 v1, 0xffff0000, v1		; GCN-NEXT: v_alignbit_b32 v0, v1, v0, 16
; GCN-NEXT: v_or_b32_e32 v0, v0, v1
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: divergent_vec_i16_HH:		; GFX9-LABEL: divergent_vec_i16_HH:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0x7060302		; GFX9-NEXT: s_mov_b32 s4, 0x7060302
; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 219 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg-modifier-casting.ll

	Show First 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v0, 1, v0			; GFX7-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v1			; GFX7-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v2, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v5, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v5, v3, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_xor_b32_e32 v1, 0x8000, v1
	; GFX7-NEXT: v_xor_b32_e32 v0, 0x8000, v0			; GFX7-NEXT: v_xor_b32_e32 v0, 0x8000, v0
	; GFX7-NEXT: v_xor_b32_e32 v1, 0x80000000, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: fneg_xor_select_v2i16:			; GFX9-LABEL: fneg_xor_select_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 1, v0			; GFX9-NEXT: v_and_b32_e32 v0, 1, v0
	; GFX9-NEXT: v_and_b32_e32 v1, 1, v1			; GFX9-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	▲ Show 20 Lines • Show All 1,400 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg.ll

	Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @s_fneg_v2i16(ptr addrspace(1) %out, i32 %arg) {			define amdgpu_kernel void @s_fneg_v2i16(ptr addrspace(1) %out, i32 %arg) {
	%in = bitcast i32 %arg to <2 x i16>			%in = bitcast i32 %arg to <2 x i16>
	%fneg = xor <2 x i16> %in, <i16 -32768, i16 -32768>			%fneg = xor <2 x i16> %in, <i16 -32768, i16 -32768>
	store <2 x i16> %fneg, ptr addrspace(1) %out			store <2 x i16> %fneg, ptr addrspace(1) %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v_fneg_v2i16:			; FUNC-LABEL: {{^}}v_fneg_v2i16:
	; SI: v_lshlrev_b32_e32 v1, 16, v1			; SI: v_xor_b32_e32 v1, 0x8000, v1
	; SI: v_xor_b32_e32 v0, 0x8000, v0			; SI: v_xor_b32_e32 v0, 0x8000, v0
	; SI: v_xor_b32_e32 v1, 0x80000000, v1			; SI: v_lshlrev_b32_e32 v2, 16, v1
	; SI: v_and_b32_e32 v0, 0xffff, v0			; SI: v_and_b32_e32 v0, 0xffff, v0
	; SI: v_or_b32_e32 v0, v0, v1			; SI: v_or_b32_e32 v0, v0, v2
	; SI: v_lshrrev_b32_e32 v1, 16, v1			; SI: v_and_b32_e32 v1, 0xffff, v1

	; VI: s_waitcnt			; VI: s_waitcnt
	; VI-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; VI-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; VI-NEXT: s_setpc_b64			; VI-NEXT: s_setpc_b64
	define <2 x i16> @v_fneg_v2i16(<2 x i16> %in) {			define <2 x i16> @v_fneg_v2i16(<2 x i16> %in) {
	%fneg = xor <2 x i16> %in, <i16 -32768, i16 -32768>			%fneg = xor <2 x i16> %in, <i16 -32768, i16 -32768>
	ret <2 x i16> %fneg			ret <2 x i16> %fneg
	}			}
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 1,845 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, 0xff00, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff00, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, 0xff00, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff00, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v0
				; GFX7-NEXT: v_alignbit_b32 v2, v4, v2, 16
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_alignbit_b32 v3, s10, v3, 16			; GFX7-NEXT: v_alignbit_b32 v0, v7, v0, 16
				; GFX7-NEXT: v_alignbit_b32 v3, 0, v3, 16
	; GFX7-NEXT: v_alignbit_b32 v6, 0, v6, 16			; GFX7-NEXT: v_alignbit_b32 v6, 0, v6, 16
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: v_mad_u32_u24 v1, v5, v4, v1
				; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v2
				; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v0
				; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
				; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v7, v8, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v5, v8, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc16_vecMul:			; GFX8-LABEL: udot4_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 358 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 2,009 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v8, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v15, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 0, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
				; GFX7-NEXT: v_bfe_i32 v14, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v15, 0xffff, v15			; GFX7-NEXT: v_and_b32_e32 v15, 0xffff, v15
	; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v13			; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2
	; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v10, v0, 24, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v11, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 16, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v12			; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v13
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v14			; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v11
	; GFX7-NEXT: v_mad_u32_u24 v0, v7, v14, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
	; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_and_b32_e32 v10, 0xffff, v10			; GFX7-NEXT: v_and_b32_e32 v10, 0xffff, v10
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
	; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9			; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX7-NEXT: v_and_b32_e32 v16, 0xffff, v16			; GFX7-NEXT: v_and_b32_e32 v16, 0xffff, v16
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v16, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 1,067 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,438 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v8, 15, v2			; GFX7-NEXT: v_and_b32_e32 v9, 15, v2
	; GFX7-NEXT: v_bfe_u32 v7, v2, 4, 4			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 28, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v15, 15, v0			; GFX7-NEXT: v_and_b32_e32 v16, 15, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v2			; GFX7-NEXT: v_bfe_u32 v4, v2, 24, 4
	; GFX7-NEXT: v_bfe_u32 v14, v0, 4, 4			; GFX7-NEXT: v_bfe_u32 v5, v2, 20, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 12, v0			; GFX7-NEXT: v_bfe_u32 v6, v2, 16, 4
				; GFX7-NEXT: v_bfe_u32 v7, v2, 8, 4
				; GFX7-NEXT: v_bfe_u32 v8, v2, 4, 4
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 12, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v10, 28, v0
				; GFX7-NEXT: v_bfe_u32 v11, v0, 24, 4
				; GFX7-NEXT: v_bfe_u32 v12, v0, 20, 4
				; GFX7-NEXT: v_bfe_u32 v13, v0, 16, 4
				; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 4
				; GFX7-NEXT: v_bfe_u32 v15, v0, 4, 4
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 12, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1
				; GFX7-NEXT: v_and_b32_e32 v2, 0xf000000, v2
				; GFX7-NEXT: v_and_b32_e32 v0, 0xf000000, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 4			; GFX7-NEXT: v_alignbit_b32 v2, s10, v2, 24
	; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 4			; GFX7-NEXT: v_alignbit_b32 v0, 0, v0, 24
	; GFX7-NEXT: v_and_b32_e32 v9, 0xf000000, v9
	; GFX7-NEXT: v_and_b32_e32 v16, 0xf000000, v16
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_alignbit_b32 v9, s10, v9, 24
	; GFX7-NEXT: v_alignbit_b32 v8, 0, v16, 24
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 4
	; GFX7-NEXT: v_bfe_u32 v12, v0, 16, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v8, v1
	; GFX7-NEXT: v_bfe_u32 v4, v2, 20, 4
	; GFX7-NEXT: v_bfe_u32 v11, v0, 20, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_bfe_u32 v3, v2, 24, 4
	; GFX7-NEXT: v_bfe_u32 v10, v0, 24, 4
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 28, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 28, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
				; GFX7-NEXT: v_mad_u32_u24 v0, v6, v13, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v5, v12, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v4, v11, v0
				; GFX7-NEXT: v_mad_u32_u24 v0, v3, v10, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot8_acc8_vecMul:			; GFX8-LABEL: udot8_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 862 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

	Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	;			;
	; CI-LABEL: s_insertelement_v2i16_0_reghi:			; CI-LABEL: s_insertelement_v2i16_0_reghi:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0xc			; CI-NEXT: s_load_dword s4, s[4:5], 0xc
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_load_dword s2, s[2:3], 0x0			; CI-NEXT: s_load_dword s2, s[2:3], 0x0
	; CI-NEXT: v_mov_b32_e32 v0, s0			; CI-NEXT: v_mov_b32_e32 v0, s0
				; CI-NEXT: v_mov_b32_e32 v2, s4
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: s_lshr_b32 s1, s4, 16
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_and_b32 s0, s2, 0xffff0000			; CI-NEXT: s_lshr_b32 s0, s2, 16
	; CI-NEXT: s_or_b32 s0, s1, s0			; CI-NEXT: v_alignbit_b32 v2, s0, v2, 16
	; CI-NEXT: v_mov_b32_e32 v2, s0
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: s_insertelement_v2i16_0_reghi:			; GFX11-LABEL: s_insertelement_v2i16_0_reghi:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
	; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x30			; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x30
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:			; CI-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_load_dword s2, s[2:3], 0x0			; CI-NEXT: s_load_dword s2, s[2:3], 0x0
	; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
				; CI-NEXT: v_mov_b32_e32 v2, s4
				; CI-NEXT: v_mov_b32_e32 v0, s0
	; CI-NEXT: s_lshr_b32 s0, s4, 16			; CI-NEXT: s_lshr_b32 s0, s4, 16
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_and_b32 s1, s2, 0xffff0000			; CI-NEXT: s_lshr_b32 s1, s2, 16
	; CI-NEXT: s_or_b32 s1, s0, s1			; CI-NEXT: v_alignbit_b32 v2, s1, v2, 16
	; CI-NEXT: v_mov_b32_e32 v2, s1
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: ;;#ASMSTART			; CI-NEXT: ;;#ASMSTART
	; CI-NEXT: ; use s0			; CI-NEXT: ; use s0
	; CI-NEXT: ;;#ASMEND			; CI-NEXT: ;;#ASMEND
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:			; GFX11-LABEL: s_insertelement_v2i16_0_reghi_multi_use_1:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
	; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; CI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: v_mov_b32_e32 v1, s3			; CI-NEXT: v_mov_b32_e32 v1, s3
	; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s2, v2
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: flat_load_dword v3, v[0:1]			; CI-NEXT: flat_load_dword v3, v[0:1]
	; CI-NEXT: v_mov_b32_e32 v1, s1			; CI-NEXT: v_mov_b32_e32 v1, s1
	; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2			; CI-NEXT: v_add_i32_e32 v0, vcc, s0, v2
	; CI-NEXT: s_lshr_b32 s0, s4, 16
	; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; CI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_and_b32_e32 v2, 0xffff0000, v3			; CI-NEXT: v_lshrrev_b32_e32 v2, 16, v3
	; CI-NEXT: v_or_b32_e32 v2, s0, v2			; CI-NEXT: v_alignbit_b32 v2, v2, s4, 16
	; CI-NEXT: flat_store_dword v[0:1], v2			; CI-NEXT: flat_store_dword v[0:1], v2
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: v_insertelement_v2i16_0_reghi:			; GFX11-LABEL: v_insertelement_v2i16_0_reghi:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x0
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10			; GFX11-NEXT: s_load_b32 s0, s[0:1], 0x10
	▲ Show 20 Lines • Show All 2,381 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 281 Lines • ▼ Show 20 Lines	entry:
%add20 = mul i16 %add14, %conv1636		%add20 = mul i16 %add14, %conv1636
ret i16 %add20		ret i16 %add20
}		}

define <2 x i16> @clpeak_imad_pat_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @clpeak_imad_pat_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_imad_pat_v2i16:		; GFX67-SDAG-LABEL: clpeak_imad_pat_v2i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v4, v3, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v4, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v5, v2, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v5, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v5, 16, v6
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v0, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v5, vcc, s4, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v4, v2, v0
		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v5, v3, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 0x10000, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v0, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v4, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v4, v4, v2, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v1, v3
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v5, v5, v3, 1
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v3, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v6
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v5
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v7
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v2, v1
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX67-GISEL-LABEL: clpeak_imad_pat_v2i16:		; GFX67-GISEL-LABEL: clpeak_imad_pat_v2i16:
; GFX67-GISEL: ; %bb.0: ; %entry		; GFX67-GISEL: ; %bb.0: ; %entry
; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1		; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1		; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1
▲ Show 20 Lines • Show All 873 Lines • ▼ Show 20 Lines	entry:
%add20 = mul i16 %add14, %conv1636		%add20 = mul i16 %add14, %conv1636
ret i16 %add20		ret i16 %add20
}		}

define <2 x i16> @clpeak_umad_pat_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @clpeak_umad_pat_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_umad_pat_v2i16:		; GFX67-SDAG-LABEL: clpeak_umad_pat_v2i16:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v4, v3, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v4, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v5, v2, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v5, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v5, 16, v6
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v0, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v5, vcc, s4, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v4, v2, v0
		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v5, v3, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 0x10000, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v0, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v4, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v4, v4, v2, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v1, v3
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v5, v5, v3, 1
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v3, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v6
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v5
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v7
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v2, v1
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX67-GISEL-LABEL: clpeak_umad_pat_v2i16:		; GFX67-GISEL-LABEL: clpeak_umad_pat_v2i16:
; GFX67-GISEL: ; %bb.0: ; %entry		; GFX67-GISEL: ; %bb.0: ; %entry
; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1		; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1		; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1
▲ Show 20 Lines • Show All 4,610 Lines • ▼ Show 20 Lines	entry:
%add44 = mul i16 %add38, %conv4076		%add44 = mul i16 %add38, %conv4076
ret i16 %add44		ret i16 %add44
}		}

define <2 x i16> @clpeak_imad_pat_v2i16_x2(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @clpeak_imad_pat_v2i16_x2(<2 x i16> %x, <2 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_imad_pat_v2i16_x2:		; GFX67-SDAG-LABEL: clpeak_imad_pat_v2i16_x2:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v4, v3, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v5, v2, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v4, v2, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v5, v3, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v4, v3, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v5, v2, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v0, v2
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v4, v2, 1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v2
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v5, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v1, v4, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v0, v5, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v0, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v1, v5, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v2, v0
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v2, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v3, v4, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v3, v4
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v2, v5, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v2, v5, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v5, 16, v6
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v0, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v5, vcc, s4, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v2, v4, v0
		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v3, v5, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 0x10000, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v0, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v4, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v4, v2, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v1, v3
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v5, v3, v5, 1
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v3, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v6
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v5
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v7
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v2, v1
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX67-GISEL-LABEL: clpeak_imad_pat_v2i16_x2:		; GFX67-GISEL-LABEL: clpeak_imad_pat_v2i16_x2:
; GFX67-GISEL: ; %bb.0: ; %entry		; GFX67-GISEL: ; %bb.0: ; %entry
; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1		; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1		; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1
▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines	entry:
%add14 = mul <2 x i16> %mul1345, %add1246		%add14 = mul <2 x i16> %mul1345, %add1246
ret <2 x i16> %add14		ret <2 x i16> %add14
}		}

define <2 x i16> @clpeak_umad_pat_v2i16_x2(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @clpeak_umad_pat_v2i16_x2(<2 x i16> %x, <2 x i16> %y) {
; GFX67-SDAG-LABEL: clpeak_umad_pat_v2i16_x2:		; GFX67-SDAG-LABEL: clpeak_umad_pat_v2i16_x2:
; GFX67-SDAG: ; %bb.0: ; %entry		; GFX67-SDAG: ; %bb.0: ; %entry
; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-SDAG-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-SDAG-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v4, v3, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v5, v2, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v4, v2, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v5, v3, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v4, v3, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v5, v2, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v0, v2
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v4, v2, 1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v2
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v5, v3, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v1, v4, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v0, v5, v2		; GFX67-SDAG-NEXT: v_mad_u32_u24 v2, v0, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v1		; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v1, v5, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v2, v0
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v2, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v4, 1
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v5, 1
; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v3, v4, v1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v3, v4
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v2, v5, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-SDAG-NEXT: v_mad_u32_u24 v3, v2, v5, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v5, 16, v6
; GFX67-SDAG-NEXT: s_mov_b32 s4, 0x10000
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v4, v0, v2
; GFX67-SDAG-NEXT: v_add_i32_e32 v5, vcc, s4, v5
; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
; GFX67-SDAG-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v5, 16, v5
; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v2, v4, v0
		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v3, v5, v1
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-SDAG-NEXT: v_add_i32_e32 v2, vcc, 0x10000, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v6, v0, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v4, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v4, v2, v4, 1
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v5		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v7, v1, v3
; GFX67-SDAG-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3		; GFX67-SDAG-NEXT: v_mad_u32_u24 v5, v3, v5, 1
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v1, v1, v3, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v6
		; GFX67-SDAG-NEXT: v_mad_u32_u24 v0, v0, v2, 1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v5
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v3, v3, v4
		; GFX67-SDAG-NEXT: v_and_b32_e32 v4, 0xffff, v7
		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v2, v4, v2
; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-SDAG-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-SDAG-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-SDAG-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-SDAG-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v0, v3, v0
; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v1, v2		; GFX67-SDAG-NEXT: v_mul_u32_u24_e32 v1, v2, v1
; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]		; GFX67-SDAG-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX67-GISEL-LABEL: clpeak_umad_pat_v2i16_x2:		; GFX67-GISEL-LABEL: clpeak_umad_pat_v2i16_x2:
; GFX67-GISEL: ; %bb.0: ; %entry		; GFX67-GISEL: ; %bb.0: ; %entry
; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1		; GFX67-GISEL-NEXT: v_add_i32_e32 v1, vcc, 1, v1
; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0		; GFX67-GISEL-NEXT: v_add_i32_e32 v0, vcc, 1, v0
; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1		; GFX67-GISEL-NEXT: v_and_b32_e32 v5, 0xffff, v1
▲ Show 20 Lines • Show All 699 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-constant-i8.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,062 Lines • ▼ Show 20 Lines	; EG-NEXT: 2(2.802597e-45), 0(0.000000e+00)
ret void		ret void
}		}

define amdgpu_kernel void @constant_zextload_v4i8_to_v4i16(ptr addrspace(1) %out, ptr addrspace(4) %in) #0 {		define amdgpu_kernel void @constant_zextload_v4i8_to_v4i16(ptr addrspace(1) %out, ptr addrspace(4) %in) #0 {
; GFX6-NOHSA-LABEL: constant_zextload_v4i8_to_v4i16:		; GFX6-NOHSA-LABEL: constant_zextload_v4i8_to_v4i16:
; GFX6-NOHSA: ; %bb.0:		; GFX6-NOHSA: ; %bb.0:
; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_load_dword s2, s[2:3], 0x0		; GFX6-NOHSA-NEXT: s_load_dword s4, s[2:3], 0x0
; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000		; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_and_b32 s4, s2, 0xff00
; GFX6-NOHSA-NEXT: s_lshr_b32 s5, s2, 8
; GFX6-NOHSA-NEXT: s_bfe_u32 s6, s2, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s2, s2, 0xff
; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff0000
; GFX6-NOHSA-NEXT: s_lshl_b32 s4, s4, 8
; GFX6-NOHSA-NEXT: s_or_b32 s5, s6, s5
; GFX6-NOHSA-NEXT: s_or_b32 s4, s2, s4
; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1		; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1
		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
		; GFX6-NOHSA-NEXT: s_and_b32 s5, s4, 0xff00
		; GFX6-NOHSA-NEXT: s_lshr_b32 s6, s4, 24
		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4
		; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v0, s6, v0, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s5, s5, 8
		; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s5
		; GFX6-NOHSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v0
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s5
; GFX6-NOHSA-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GFX6-NOHSA-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GFX6-NOHSA-NEXT: s_endpgm		; GFX6-NOHSA-NEXT: s_endpgm
;		;
; GFX7-HSA-LABEL: constant_zextload_v4i8_to_v4i16:		; GFX7-HSA-LABEL: constant_zextload_v4i8_to_v4i16:
; GFX7-HSA: ; %bb.0:		; GFX7-HSA: ; %bb.0:
; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_load_dword s2, s[2:3], 0x0		; GFX7-HSA-NEXT: s_load_dword s2, s[2:3], 0x0
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s0
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s1
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff00		; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff00
; GFX7-HSA-NEXT: s_lshr_b32 s1, s2, 8		; GFX7-HSA-NEXT: s_lshr_b32 s1, s2, 24
; GFX7-HSA-NEXT: s_bfe_u32 s3, s2, 0x80010		; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s2
; GFX7-HSA-NEXT: s_and_b32 s2, s2, 0xff		; GFX7-HSA-NEXT: s_and_b32 s2, s2, 0xff
; GFX7-HSA-NEXT: s_and_b32 s1, s1, 0xff0000
; GFX7-HSA-NEXT: s_lshl_b32 s0, s0, 8		; GFX7-HSA-NEXT: s_lshl_b32 s0, s0, 8
; GFX7-HSA-NEXT: s_or_b32 s1, s3, s1		; GFX7-HSA-NEXT: v_alignbit_b32 v2, s1, v2, 16
; GFX7-HSA-NEXT: s_or_b32 s0, s2, s0		; GFX7-HSA-NEXT: s_or_b32 s0, s2, s0
		; GFX7-HSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v2
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s0
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s1
; GFX7-HSA-NEXT: flat_store_dwordx2 v[0:1], v[2:3]		; GFX7-HSA-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
; GFX7-HSA-NEXT: s_endpgm		; GFX7-HSA-NEXT: s_endpgm
;		;
; GFX8-NOHSA-LABEL: constant_zextload_v4i8_to_v4i16:		; GFX8-NOHSA-LABEL: constant_zextload_v4i8_to_v4i16:
; GFX8-NOHSA: ; %bb.0:		; GFX8-NOHSA: ; %bb.0:
; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NOHSA-NEXT: s_load_dword s2, s[2:3], 0x0		; GFX8-NOHSA-NEXT: s_load_dword s2, s[2:3], 0x0
▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines

define amdgpu_kernel void @constant_zextload_v8i8_to_v8i16(ptr addrspace(1) %out, ptr addrspace(4) %in) #0 {		define amdgpu_kernel void @constant_zextload_v8i8_to_v8i16(ptr addrspace(1) %out, ptr addrspace(4) %in) #0 {
; GFX6-NOHSA-LABEL: constant_zextload_v8i8_to_v8i16:		; GFX6-NOHSA-LABEL: constant_zextload_v8i8_to_v8i16:
; GFX6-NOHSA: ; %bb.0:		; GFX6-NOHSA: ; %bb.0:
; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_load_dwordx2 s[4:5], s[2:3], 0x0		; GFX6-NOHSA-NEXT: s_load_dwordx2 s[4:5], s[2:3], 0x0
; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000		; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000
		; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_and_b32 s2, s4, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s6, s4, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s6, s5, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s7, s4, 24
; GFX6-NOHSA-NEXT: s_lshr_b32 s7, s5, 8		; GFX6-NOHSA-NEXT: s_and_b32 s8, s5, 0xff00
; GFX6-NOHSA-NEXT: s_bfe_u32 s8, s5, 0x80010		; GFX6-NOHSA-NEXT: s_lshr_b32 s9, s5, 24
		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s5
; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s9, s4, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s4
; GFX6-NOHSA-NEXT: s_bfe_u32 s10, s4, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff
; GFX6-NOHSA-NEXT: s_and_b32 s7, s7, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v0, s9, v0, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s8, s8, 8
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v1, s7, v1, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s6, s6, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s6, s6, 8
; GFX6-NOHSA-NEXT: s_and_b32 s9, s9, 0xff0000		; GFX6-NOHSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
; GFX6-NOHSA-NEXT: s_lshl_b32 s2, s2, 8		; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s8
; GFX6-NOHSA-NEXT: s_or_b32 s7, s8, s7		; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s6
; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s6		; GFX6-NOHSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v1
; GFX6-NOHSA-NEXT: s_or_b32 s6, s10, s9
; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s2
; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s6
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s5		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s5
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s7
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX6-NOHSA-NEXT: s_endpgm		; GFX6-NOHSA-NEXT: s_endpgm
;		;
; GFX7-HSA-LABEL: constant_zextload_v8i8_to_v8i16:		; GFX7-HSA-LABEL: constant_zextload_v8i8_to_v8i16:
; GFX7-HSA: ; %bb.0:		; GFX7-HSA: ; %bb.0:
; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0		; GFX7-HSA-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_and_b32 s1, s3, 0xff00		; GFX7-HSA-NEXT: s_lshr_b32 s5, s3, 24
; GFX7-HSA-NEXT: s_lshr_b32 s4, s3, 8		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s3
; GFX7-HSA-NEXT: s_bfe_u32 s5, s3, 0x80010		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s5, v0, 16
; GFX7-HSA-NEXT: s_and_b32 s3, s3, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s1, 8
; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff00		; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s4, s4, 0xff0000		; GFX7-HSA-NEXT: s_lshr_b32 s1, s2, 24
; GFX7-HSA-NEXT: s_or_b32 s1, s3, s1		; GFX7-HSA-NEXT: s_and_b32 s4, s3, 0xff00
; GFX7-HSA-NEXT: s_lshr_b32 s3, s2, 8		; GFX7-HSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
; GFX7-HSA-NEXT: s_or_b32 s4, s5, s4		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s2
; GFX7-HSA-NEXT: s_and_b32 s3, s3, 0xff0000		; GFX7-HSA-NEXT: s_and_b32 s3, s3, 0xff
; GFX7-HSA-NEXT: s_bfe_u32 s5, s2, 0x80010		; GFX7-HSA-NEXT: s_lshl_b32 s4, s4, 8
; GFX7-HSA-NEXT: s_and_b32 s2, s2, 0xff		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s1, v0, 16
		; GFX7-HSA-NEXT: s_and_b32 s1, s2, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s0, s0, 8		; GFX7-HSA-NEXT: s_lshl_b32 s0, s0, 8
; GFX7-HSA-NEXT: s_or_b32 s3, s5, s3		; GFX7-HSA-NEXT: s_or_b32 s3, s3, s4
; GFX7-HSA-NEXT: s_or_b32 s0, s2, s0		; GFX7-HSA-NEXT: s_or_b32 s0, s1, s0
		; GFX7-HSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v0
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s0
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s3		; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s3
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s4
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX7-HSA-NEXT: s_endpgm		; GFX7-HSA-NEXT: s_endpgm
;		;
; GFX8-NOHSA-LABEL: constant_zextload_v8i8_to_v8i16:		; GFX8-NOHSA-LABEL: constant_zextload_v8i8_to_v8i16:
; GFX8-NOHSA: ; %bb.0:		; GFX8-NOHSA: ; %bb.0:
; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NOHSA-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0		; GFX8-NOHSA-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
; GFX6-NOHSA: ; %bb.0:		; GFX6-NOHSA: ; %bb.0:
; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9		; GFX6-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0		; GFX6-NOHSA-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0
; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000		; GFX6-NOHSA-NEXT: s_mov_b32 s3, 0xf000
; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1		; GFX6-NOHSA-NEXT: s_mov_b32 s2, -1
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_and_b32 s8, s6, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s8, s6, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s9, s7, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s9, s6, 24
; GFX6-NOHSA-NEXT: s_and_b32 s10, s4, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s10, s7, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s11, s5, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s11, s7, 24
; GFX6-NOHSA-NEXT: s_lshr_b32 s12, s5, 8		; GFX6-NOHSA-NEXT: s_and_b32 s12, s4, 0xff00
; GFX6-NOHSA-NEXT: s_bfe_u32 s13, s5, 0x80010		; GFX6-NOHSA-NEXT: s_lshr_b32 s13, s4, 24
		; GFX6-NOHSA-NEXT: s_and_b32 s14, s5, 0xff00
		; GFX6-NOHSA-NEXT: s_lshr_b32 s15, s5, 24
		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s5
; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s14, s4, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s4
; GFX6-NOHSA-NEXT: s_bfe_u32 s15, s4, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s16, s7, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s7
; GFX6-NOHSA-NEXT: s_bfe_u32 s17, s7, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s7, s7, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s7, s7, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s18, s6, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s6
; GFX6-NOHSA-NEXT: s_bfe_u32 s19, s6, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NOHSA-NEXT: s_and_b32 s12, s12, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v0, s15, v0, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s11, s11, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s14, s14, 8
; GFX6-NOHSA-NEXT: s_and_b32 s14, s14, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v1, s13, v1, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s12, s12, 8
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v2, s11, v2, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s10, s10, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s10, s10, 8
; GFX6-NOHSA-NEXT: s_and_b32 s16, s16, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v4, s9, v3, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s9, s9, 8
; GFX6-NOHSA-NEXT: s_and_b32 s18, s18, 0xff0000
; GFX6-NOHSA-NEXT: s_lshl_b32 s8, s8, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s8, s8, 8
; GFX6-NOHSA-NEXT: s_or_b32 s12, s13, s12		; GFX6-NOHSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s11		; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s14
; GFX6-NOHSA-NEXT: s_or_b32 s11, s15, s14		; GFX6-NOHSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v1
; GFX6-NOHSA-NEXT: s_or_b32 s13, s17, s16		; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s12
; GFX6-NOHSA-NEXT: s_or_b32 s7, s7, s9		; GFX6-NOHSA-NEXT: v_and_b32_e32 v7, 0xff00ff, v2
; GFX6-NOHSA-NEXT: s_or_b32 s9, s19, s18		; GFX6-NOHSA-NEXT: s_or_b32 s7, s7, s10
; GFX6-NOHSA-NEXT: s_or_b32 s6, s6, s8		; GFX6-NOHSA-NEXT: s_or_b32 s6, s6, s8
; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s10		; GFX6-NOHSA-NEXT: v_and_b32_e32 v5, 0xff00ff, v4
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s6		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v4, s6
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s9		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v6, s7
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s7		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s13
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GFX6-NOHSA-NEXT: s_waitcnt expcnt(0)
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s11
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s5		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s5
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s12
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX6-NOHSA-NEXT: s_endpgm		; GFX6-NOHSA-NEXT: s_endpgm
;		;
; GFX7-HSA-LABEL: constant_zextload_v16i8_to_v16i16:		; GFX7-HSA-LABEL: constant_zextload_v16i8_to_v16i16:
; GFX7-HSA: ; %bb.0:		; GFX7-HSA: ; %bb.0:
; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX7-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0		; GFX7-HSA-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_and_b32 s9, s5, 0xff00		; GFX7-HSA-NEXT: s_lshr_b32 s13, s5, 24
; GFX7-HSA-NEXT: s_lshr_b32 s10, s5, 8		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s5
; GFX7-HSA-NEXT: s_bfe_u32 s11, s5, 0x80010		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s13, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s11, s4, 24
		; GFX7-HSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s4
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s11, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s9, s7, 24
		; GFX7-HSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s7
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s9, v0, 16
		; GFX7-HSA-NEXT: s_and_b32 s2, s6, 0xff00
		; GFX7-HSA-NEXT: s_lshr_b32 s3, s6, 24
		; GFX7-HSA-NEXT: s_and_b32 s8, s7, 0xff00
		; GFX7-HSA-NEXT: s_and_b32 s10, s4, 0xff00
		; GFX7-HSA-NEXT: s_and_b32 s12, s5, 0xff00
		; GFX7-HSA-NEXT: v_and_b32_e32 v7, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s6
; GFX7-HSA-NEXT: s_and_b32 s5, s5, 0xff		; GFX7-HSA-NEXT: s_and_b32 s5, s5, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s9, s9, 8		; GFX7-HSA-NEXT: s_lshl_b32 s12, s12, 8
; GFX7-HSA-NEXT: s_and_b32 s8, s4, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s10, s10, 0xff0000
; GFX7-HSA-NEXT: s_or_b32 s5, s5, s9
; GFX7-HSA-NEXT: s_lshr_b32 s9, s4, 8
; GFX7-HSA-NEXT: s_and_b32 s3, s7, 0xff00
; GFX7-HSA-NEXT: s_or_b32 s10, s11, s10
; GFX7-HSA-NEXT: s_and_b32 s9, s9, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s11, s4, 0x80010
; GFX7-HSA-NEXT: s_and_b32 s4, s4, 0xff		; GFX7-HSA-NEXT: s_and_b32 s4, s4, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s8, s8, 8		; GFX7-HSA-NEXT: s_lshl_b32 s10, s10, 8
; GFX7-HSA-NEXT: s_or_b32 s9, s11, s9
; GFX7-HSA-NEXT: s_or_b32 s4, s4, s8
; GFX7-HSA-NEXT: s_lshr_b32 s8, s7, 8
; GFX7-HSA-NEXT: s_bfe_u32 s11, s7, 0x80010
; GFX7-HSA-NEXT: s_and_b32 s7, s7, 0xff		; GFX7-HSA-NEXT: s_and_b32 s7, s7, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s3, s3, 8		; GFX7-HSA-NEXT: s_lshl_b32 s8, s8, 8
; GFX7-HSA-NEXT: s_and_b32 s2, s6, 0xff00		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s3, v0, 16
; GFX7-HSA-NEXT: s_and_b32 s8, s8, 0xff0000		; GFX7-HSA-NEXT: s_and_b32 s3, s6, 0xff
; GFX7-HSA-NEXT: s_or_b32 s3, s7, s3
; GFX7-HSA-NEXT: s_lshr_b32 s7, s6, 8
; GFX7-HSA-NEXT: s_or_b32 s8, s11, s8
; GFX7-HSA-NEXT: s_and_b32 s7, s7, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s11, s6, 0x80010
; GFX7-HSA-NEXT: s_and_b32 s6, s6, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s2, s2, 8		; GFX7-HSA-NEXT: s_lshl_b32 s2, s2, 8
; GFX7-HSA-NEXT: s_or_b32 s7, s11, s7		; GFX7-HSA-NEXT: s_or_b32 s5, s5, s12
; GFX7-HSA-NEXT: s_or_b32 s2, s6, s2		; GFX7-HSA-NEXT: s_or_b32 s4, s4, s10
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s2		; GFX7-HSA-NEXT: s_or_b32 s7, s7, s8
		; GFX7-HSA-NEXT: s_or_b32 s2, s3, s2
		; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s2
; GFX7-HSA-NEXT: s_add_u32 s2, s0, 16		; GFX7-HSA-NEXT: s_add_u32 s2, s0, 16
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s3
; GFX7-HSA-NEXT: s_addc_u32 s3, s1, 0		; GFX7-HSA-NEXT: s_addc_u32 s3, s1, 0
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s3		; GFX7-HSA-NEXT: v_mov_b32_e32 v9, s3
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s7		; GFX7-HSA-NEXT: v_and_b32_e32 v5, 0xff00ff, v0
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s8		; GFX7-HSA-NEXT: v_mov_b32_e32 v6, s7
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s2		; GFX7-HSA-NEXT: v_mov_b32_e32 v8, s2
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s4		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s4
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s9		; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s5		; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s5
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s10
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX7-HSA-NEXT: s_endpgm		; GFX7-HSA-NEXT: s_endpgm
;		;
; GFX8-NOHSA-LABEL: constant_zextload_v16i8_to_v16i16:		; GFX8-NOHSA-LABEL: constant_zextload_v16i8_to_v16i16:
; GFX8-NOHSA: ; %bb.0:		; GFX8-NOHSA: ; %bb.0:
; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX8-NOHSA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 560 Lines • ▼ Show 20 Lines
; GFX6-NOHSA: ; %bb.0:		; GFX6-NOHSA: ; %bb.0:
; GFX6-NOHSA-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9		; GFX6-NOHSA-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0		; GFX6-NOHSA-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0
; GFX6-NOHSA-NEXT: s_mov_b32 s11, 0xf000		; GFX6-NOHSA-NEXT: s_mov_b32 s11, 0xf000
; GFX6-NOHSA-NEXT: s_mov_b32 s10, -1		; GFX6-NOHSA-NEXT: s_mov_b32 s10, -1
; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX6-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX6-NOHSA-NEXT: s_and_b32 s12, s6, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s12, s6, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s13, s7, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s13, s6, 24
; GFX6-NOHSA-NEXT: s_and_b32 s14, s4, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s14, s7, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s15, s5, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s15, s7, 24
; GFX6-NOHSA-NEXT: s_and_b32 s16, s2, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s16, s4, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s17, s3, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s17, s4, 24
; GFX6-NOHSA-NEXT: s_and_b32 s18, s0, 0xff00		; GFX6-NOHSA-NEXT: s_and_b32 s18, s5, 0xff00
; GFX6-NOHSA-NEXT: s_and_b32 s19, s1, 0xff00		; GFX6-NOHSA-NEXT: s_lshr_b32 s19, s5, 24
; GFX6-NOHSA-NEXT: s_lshr_b32 s20, s1, 8		; GFX6-NOHSA-NEXT: s_and_b32 s20, s2, 0xff00
; GFX6-NOHSA-NEXT: s_bfe_u32 s21, s1, 0x80010		; GFX6-NOHSA-NEXT: s_lshr_b32 s21, s2, 24
		; GFX6-NOHSA-NEXT: s_and_b32 s22, s3, 0xff00
		; GFX6-NOHSA-NEXT: s_lshr_b32 s23, s3, 24
		; GFX6-NOHSA-NEXT: s_and_b32 s24, s0, 0xff00
		; GFX6-NOHSA-NEXT: s_lshr_b32 s25, s0, 24
		; GFX6-NOHSA-NEXT: s_and_b32 s26, s1, 0xff00
		; GFX6-NOHSA-NEXT: s_lshr_b32 s27, s1, 24
		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s1
; GFX6-NOHSA-NEXT: s_and_b32 s1, s1, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s1, s1, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s22, s0, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s0
; GFX6-NOHSA-NEXT: s_bfe_u32 s23, s0, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s0, s0, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s0, s0, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s24, s3, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s3
; GFX6-NOHSA-NEXT: s_bfe_u32 s25, s3, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s3, s3, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s3, s3, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s26, s2, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s2
; GFX6-NOHSA-NEXT: s_bfe_u32 s27, s2, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s2, s2, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s2, s2, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s28, s5, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v4, s5
; GFX6-NOHSA-NEXT: s_bfe_u32 s29, s5, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s5, s5, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s30, s4, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v5, s4
; GFX6-NOHSA-NEXT: s_bfe_u32 s31, s4, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s4, s4, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s33, s7, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v6, s7
; GFX6-NOHSA-NEXT: s_bfe_u32 s34, s7, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s7, s7, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s7, s7, 0xff
; GFX6-NOHSA-NEXT: s_lshr_b32 s35, s6, 8		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v7, s6
; GFX6-NOHSA-NEXT: s_bfe_u32 s36, s6, 0x80010
; GFX6-NOHSA-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NOHSA-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NOHSA-NEXT: s_and_b32 s20, s20, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v0, s27, v0, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s19, s19, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s26, s26, 8
; GFX6-NOHSA-NEXT: s_and_b32 s22, s22, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v1, s25, v1, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s24, s24, 8
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v2, s23, v2, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s22, s22, 8
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v8, s21, v3, 16
		; GFX6-NOHSA-NEXT: s_lshl_b32 s20, s20, 8
		; GFX6-NOHSA-NEXT: v_alignbit_b32 v4, s19, v4, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s18, s18, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s18, s18, 8
; GFX6-NOHSA-NEXT: s_and_b32 s24, s24, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v9, s17, v5, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s17, s17, 8
; GFX6-NOHSA-NEXT: s_and_b32 s26, s26, 0xff0000
; GFX6-NOHSA-NEXT: s_lshl_b32 s16, s16, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s16, s16, 8
; GFX6-NOHSA-NEXT: s_and_b32 s28, s28, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v6, s15, v6, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s15, s15, 8
; GFX6-NOHSA-NEXT: s_and_b32 s30, s30, 0xff0000
; GFX6-NOHSA-NEXT: s_lshl_b32 s14, s14, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s14, s14, 8
; GFX6-NOHSA-NEXT: s_and_b32 s33, s33, 0xff0000		; GFX6-NOHSA-NEXT: v_alignbit_b32 v10, s13, v7, 16
; GFX6-NOHSA-NEXT: s_lshl_b32 s13, s13, 8
; GFX6-NOHSA-NEXT: s_and_b32 s35, s35, 0xff0000
; GFX6-NOHSA-NEXT: s_lshl_b32 s12, s12, 8		; GFX6-NOHSA-NEXT: s_lshl_b32 s12, s12, 8
; GFX6-NOHSA-NEXT: s_or_b32 s20, s21, s20		; GFX6-NOHSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
; GFX6-NOHSA-NEXT: s_or_b32 s1, s1, s19		; GFX6-NOHSA-NEXT: s_or_b32 s1, s1, s26
; GFX6-NOHSA-NEXT: s_or_b32 s19, s23, s22		; GFX6-NOHSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v1
; GFX6-NOHSA-NEXT: s_or_b32 s0, s0, s18		; GFX6-NOHSA-NEXT: s_or_b32 s0, s0, s24
; GFX6-NOHSA-NEXT: s_or_b32 s18, s25, s24		; GFX6-NOHSA-NEXT: v_and_b32_e32 v7, 0xff00ff, v2
; GFX6-NOHSA-NEXT: s_or_b32 s3, s3, s17		; GFX6-NOHSA-NEXT: s_or_b32 s3, s3, s22
; GFX6-NOHSA-NEXT: s_or_b32 s17, s27, s26		; GFX6-NOHSA-NEXT: v_and_b32_e32 v5, 0xff00ff, v8
; GFX6-NOHSA-NEXT: s_or_b32 s2, s2, s16		; GFX6-NOHSA-NEXT: s_or_b32 s2, s2, s20
; GFX6-NOHSA-NEXT: s_or_b32 s16, s29, s28		; GFX6-NOHSA-NEXT: v_and_b32_e32 v11, 0xff00ff, v4
; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s15		; GFX6-NOHSA-NEXT: s_or_b32 s5, s5, s18
; GFX6-NOHSA-NEXT: s_or_b32 s15, s31, s30		; GFX6-NOHSA-NEXT: v_and_b32_e32 v9, 0xff00ff, v9
; GFX6-NOHSA-NEXT: s_or_b32 s21, s34, s33		; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s16
; GFX6-NOHSA-NEXT: s_or_b32 s7, s7, s13		; GFX6-NOHSA-NEXT: v_and_b32_e32 v15, 0xff00ff, v6
; GFX6-NOHSA-NEXT: s_or_b32 s13, s36, s35		; GFX6-NOHSA-NEXT: s_or_b32 s7, s7, s14
; GFX6-NOHSA-NEXT: s_or_b32 s6, s6, s12		; GFX6-NOHSA-NEXT: s_or_b32 s6, s6, s12
; GFX6-NOHSA-NEXT: s_or_b32 s4, s4, s14		; GFX6-NOHSA-NEXT: v_and_b32_e32 v13, 0xff00ff, v10
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s6		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v12, s6
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s13		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v14, s7
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s7		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[12:15], off, s[8:11], 0 offset:48
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s21		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v8, s4
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0 offset:48		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v10, s5
; GFX6-NOHSA-NEXT: s_waitcnt expcnt(0)		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[8:11], off, s[8:11], 0 offset:32
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s4		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v4, s2
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s15		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v6, s3
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s5		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s16
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0 offset:32
; GFX6-NOHSA-NEXT: s_waitcnt expcnt(0)
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s2
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s17
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s3
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s18
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0 offset:16
; GFX6-NOHSA-NEXT: s_waitcnt expcnt(0)
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s0		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v0, s0
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v1, s19
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s1		; GFX6-NOHSA-NEXT: v_mov_b32_e32 v2, s1
; GFX6-NOHSA-NEXT: v_mov_b32_e32 v3, s20
; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; GFX6-NOHSA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; GFX6-NOHSA-NEXT: s_endpgm		; GFX6-NOHSA-NEXT: s_endpgm
;		;
; GFX7-HSA-LABEL: constant_zextload_v32i8_to_v32i16:		; GFX7-HSA-LABEL: constant_zextload_v32i8_to_v32i16:
; GFX7-HSA: ; %bb.0:		; GFX7-HSA: ; %bb.0:
; GFX7-HSA-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x0		; GFX7-HSA-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0		; GFX7-HSA-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0
; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-HSA-NEXT: s_and_b32 s17, s1, 0xff00		; GFX7-HSA-NEXT: s_lshr_b32 s25, s1, 24
; GFX7-HSA-NEXT: s_lshr_b32 s18, s1, 8		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s1
; GFX7-HSA-NEXT: s_bfe_u32 s19, s1, 0x80010		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s25, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s23, s0, 24
		; GFX7-HSA-NEXT: v_and_b32_e32 v3, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s0
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s23, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s21, s3, 24
		; GFX7-HSA-NEXT: v_and_b32_e32 v1, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s3
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s21, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s19, s2, 24
		; GFX7-HSA-NEXT: s_and_b32 s24, s1, 0xff00
		; GFX7-HSA-NEXT: v_and_b32_e32 v7, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s2
		; GFX7-HSA-NEXT: s_and_b32 s22, s0, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s1, s1, 0xff		; GFX7-HSA-NEXT: s_and_b32 s1, s1, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s17, s17, 8		; GFX7-HSA-NEXT: s_lshl_b32 s24, s24, 8
; GFX7-HSA-NEXT: s_and_b32 s18, s18, 0xff0000		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s19, v0, 16
; GFX7-HSA-NEXT: s_or_b32 s17, s1, s17		; GFX7-HSA-NEXT: s_lshr_b32 s17, s5, 24
; GFX7-HSA-NEXT: s_lshr_b32 s1, s0, 8		; GFX7-HSA-NEXT: s_and_b32 s20, s3, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s16, s0, 0xff00		; GFX7-HSA-NEXT: s_or_b32 s24, s1, s24
; GFX7-HSA-NEXT: s_or_b32 s18, s19, s18
; GFX7-HSA-NEXT: s_and_b32 s1, s1, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s19, s0, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s19, s19, s1
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff		; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s16, 8		; GFX7-HSA-NEXT: s_lshl_b32 s1, s22, 8
; GFX7-HSA-NEXT: s_or_b32 s16, s0, s1		; GFX7-HSA-NEXT: v_and_b32_e32 v5, 0xff00ff, v0
; GFX7-HSA-NEXT: s_lshr_b32 s0, s3, 8		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s5
; GFX7-HSA-NEXT: s_and_b32 s15, s3, 0xff00		; GFX7-HSA-NEXT: s_and_b32 s18, s2, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff0000		; GFX7-HSA-NEXT: s_or_b32 s22, s0, s1
; GFX7-HSA-NEXT: s_bfe_u32 s1, s3, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s20, s1, s0
; GFX7-HSA-NEXT: s_and_b32 s0, s3, 0xff		; GFX7-HSA-NEXT: s_and_b32 s0, s3, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s15, 8		; GFX7-HSA-NEXT: s_lshl_b32 s1, s20, 8
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s17, v0, 16
		; GFX7-HSA-NEXT: s_lshr_b32 s15, s4, 24
		; GFX7-HSA-NEXT: s_and_b32 s16, s5, 0xff00
; GFX7-HSA-NEXT: s_or_b32 s3, s0, s1		; GFX7-HSA-NEXT: s_or_b32 s3, s0, s1
; GFX7-HSA-NEXT: s_lshr_b32 s0, s2, 8
; GFX7-HSA-NEXT: s_and_b32 s14, s2, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s1, s2, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s15, s1, s0
; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff		; GFX7-HSA-NEXT: s_and_b32 s0, s2, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s14, 8		; GFX7-HSA-NEXT: s_lshl_b32 s1, s18, 8
		; GFX7-HSA-NEXT: v_and_b32_e32 v11, 0xff00ff, v0
		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s4
		; GFX7-HSA-NEXT: s_and_b32 s14, s4, 0xff00
; GFX7-HSA-NEXT: s_or_b32 s2, s0, s1		; GFX7-HSA-NEXT: s_or_b32 s2, s0, s1
; GFX7-HSA-NEXT: s_lshr_b32 s0, s5, 8
; GFX7-HSA-NEXT: s_and_b32 s13, s5, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s1, s5, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s14, s1, s0
; GFX7-HSA-NEXT: s_and_b32 s0, s5, 0xff		; GFX7-HSA-NEXT: s_and_b32 s0, s5, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s13, 8		; GFX7-HSA-NEXT: s_lshl_b32 s1, s16, 8
		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s15, v0, 16
		; GFX7-HSA-NEXT: s_and_b32 s12, s7, 0xff00
		; GFX7-HSA-NEXT: s_lshr_b32 s13, s7, 24
; GFX7-HSA-NEXT: s_or_b32 s5, s0, s1		; GFX7-HSA-NEXT: s_or_b32 s5, s0, s1
; GFX7-HSA-NEXT: s_lshr_b32 s0, s4, 8		; GFX7-HSA-NEXT: v_and_b32_e32 v9, 0xff00ff, v0
; GFX7-HSA-NEXT: s_and_b32 s12, s4, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s1, s4, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s13, s1, s0
; GFX7-HSA-NEXT: s_and_b32 s0, s4, 0xff		; GFX7-HSA-NEXT: s_and_b32 s0, s4, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s1, s12, 8		; GFX7-HSA-NEXT: s_lshl_b32 s1, s14, 8
; GFX7-HSA-NEXT: s_or_b32 s4, s0, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s7
; GFX7-HSA-NEXT: s_lshr_b32 s0, s7, 8
; GFX7-HSA-NEXT: s_and_b32 s11, s7, 0xff00
; GFX7-HSA-NEXT: s_and_b32 s0, s0, 0xff0000
; GFX7-HSA-NEXT: s_bfe_u32 s1, s7, 0x80010
; GFX7-HSA-NEXT: s_or_b32 s0, s1, s0
; GFX7-HSA-NEXT: s_and_b32 s1, s7, 0xff
; GFX7-HSA-NEXT: s_lshl_b32 s7, s11, 8
; GFX7-HSA-NEXT: s_and_b32 s10, s6, 0xff00		; GFX7-HSA-NEXT: s_and_b32 s10, s6, 0xff00
; GFX7-HSA-NEXT: s_or_b32 s1, s1, s7		; GFX7-HSA-NEXT: s_or_b32 s4, s0, s1
; GFX7-HSA-NEXT: s_lshr_b32 s7, s6, 8		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s13, v0, 16
; GFX7-HSA-NEXT: s_and_b32 s7, s7, 0xff0000		; GFX7-HSA-NEXT: s_and_b32 s0, s7, 0xff
; GFX7-HSA-NEXT: s_bfe_u32 s11, s6, 0x80010		; GFX7-HSA-NEXT: s_lshl_b32 s1, s12, 8
; GFX7-HSA-NEXT: s_and_b32 s6, s6, 0xff		; GFX7-HSA-NEXT: s_lshr_b32 s11, s6, 24
; GFX7-HSA-NEXT: s_lshl_b32 s10, s10, 8		; GFX7-HSA-NEXT: v_and_b32_e32 v15, 0xff00ff, v0
; GFX7-HSA-NEXT: s_or_b32 s7, s11, s7		; GFX7-HSA-NEXT: s_or_b32 s0, s0, s1
; GFX7-HSA-NEXT: s_or_b32 s6, s6, s10		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s6
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s0		; GFX7-HSA-NEXT: s_and_b32 s1, s6, 0xff
		; GFX7-HSA-NEXT: s_lshl_b32 s6, s10, 8
		; GFX7-HSA-NEXT: s_or_b32 s1, s1, s6
		; GFX7-HSA-NEXT: v_mov_b32_e32 v14, s0
; GFX7-HSA-NEXT: s_add_u32 s0, s8, 48		; GFX7-HSA-NEXT: s_add_u32 s0, s8, 48
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v12, s1
; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0		; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v17, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0		; GFX7-HSA-NEXT: v_alignbit_b32 v0, s11, v0, 16
		; GFX7-HSA-NEXT: v_mov_b32_e32 v16, s0
; GFX7-HSA-NEXT: s_add_u32 s0, s8, 32		; GFX7-HSA-NEXT: s_add_u32 s0, s8, 32
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s6		; GFX7-HSA-NEXT: v_and_b32_e32 v13, 0xff00ff, v0
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s7
; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0		; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[16:17], v[12:15]
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v8, s4
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v13, s1
		; GFX7-HSA-NEXT: v_mov_b32_e32 v12, s0
; GFX7-HSA-NEXT: s_add_u32 s0, s8, 16		; GFX7-HSA-NEXT: s_add_u32 s0, s8, 16
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s4		; GFX7-HSA-NEXT: v_mov_b32_e32 v10, s5
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s13
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s5
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s14
; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0		; GFX7-HSA-NEXT: s_addc_u32 s1, s9, 0
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[12:13], v[8:11]
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s1		; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s2
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s2		; GFX7-HSA-NEXT: v_mov_b32_e32 v9, s1
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s15		; GFX7-HSA-NEXT: v_mov_b32_e32 v6, s3
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s3		; GFX7-HSA-NEXT: v_mov_b32_e32 v8, s0
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s20		; GFX7-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s0		; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s22
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s8		; GFX7-HSA-NEXT: v_mov_b32_e32 v4, s8
; GFX7-HSA-NEXT: v_mov_b32_e32 v0, s16		; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s24
; GFX7-HSA-NEXT: v_mov_b32_e32 v1, s19
; GFX7-HSA-NEXT: v_mov_b32_e32 v2, s17
; GFX7-HSA-NEXT: v_mov_b32_e32 v3, s18
; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s9		; GFX7-HSA-NEXT: v_mov_b32_e32 v5, s9
; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX7-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX7-HSA-NEXT: s_endpgm		; GFX7-HSA-NEXT: s_endpgm
;		;
; GFX8-NOHSA-LABEL: constant_zextload_v32i8_to_v32i16:		; GFX8-NOHSA-LABEL: constant_zextload_v32i8_to_v32i16:
; GFX8-NOHSA: ; %bb.0:		; GFX8-NOHSA: ; %bb.0:
; GFX8-NOHSA-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24		; GFX8-NOHSA-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24
; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NOHSA-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 1,076 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/permute_i8.ll

Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4		store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4
ret void		ret void
}		}

define hidden void @shuffle1004(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {		define hidden void @shuffle1004(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {
; GFX10-LABEL: shuffle1004:		; GFX10-LABEL: shuffle1004:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: global_load_dword v6, v[0:1], off		; GFX10-NEXT: global_load_dword v6, v[2:3], off
; GFX10-NEXT: global_load_dword v7, v[2:3], off		; GFX10-NEXT: global_load_dword v7, v[0:1], off
		; GFX10-NEXT: s_waitcnt vmcnt(1)
		; GFX10-NEXT: v_lshlrev_b16 v0, 8, v6
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_perm_b32 v0, v6, v7, 0x40405		; GFX10-NEXT: v_perm_b32 v1, 0, v7, 0xc0c0001
		; GFX10-NEXT: v_or_b32_sdwa v0, v7, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX10-NEXT: v_or_b32_e32 v0, v1, v0
; GFX10-NEXT: global_store_dword v[4:5], v0, off		; GFX10-NEXT: global_store_dword v[4:5], v0, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: shuffle1004:		; GFX9-LABEL: shuffle1004:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v6, v[0:1], off		; GFX9-NEXT: global_load_dword v6, v[2:3], off
; GFX9-NEXT: global_load_dword v7, v[2:3], off		; GFX9-NEXT: global_load_dword v7, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, 0x40405		; GFX9-NEXT: s_mov_b32 s4, 0xc0c0001
		; GFX9-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v6
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_perm_b32 v0, v6, v7, s4		; GFX9-NEXT: v_or_b32_sdwa v0, v7, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NEXT: v_perm_b32 v1, 0, v7, s4
		; GFX9-NEXT: v_or_b32_e32 v0, v1, v0
; GFX9-NEXT: global_store_dword v[4:5], v0, off		; GFX9-NEXT: global_store_dword v[4:5], v0, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %in1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %in1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 1, i32 0, i32 0, i32 4>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 1, i32 0, i32 0, i32 4>
store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4		store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4
ret void		ret void
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
store <4 x i8> %shuffle0_0, ptr addrspace(0) %out0, align 4		store <4 x i8> %shuffle0_0, ptr addrspace(0) %out0, align 4
ret void		ret void
}		}

define hidden void @shuffle0554(ptr addrspace(3) %in0, ptr addrspace(3) %in1, ptr addrspace(3) %out0) {		define hidden void @shuffle0554(ptr addrspace(3) %in0, ptr addrspace(3) %in1, ptr addrspace(3) %out0) {
; GFX10-LABEL: shuffle0554:		; GFX10-LABEL: shuffle0554:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: ds_read_b32 v0, v0
; GFX10-NEXT: ds_read_b32 v1, v1		; GFX10-NEXT: ds_read_b32 v1, v1
		; GFX10-NEXT: ds_read_b32 v0, v0
		; GFX10-NEXT: s_waitcnt lgkmcnt(1)
		; GFX10-NEXT: v_and_b32_e32 v3, 0xffffff00, v1
		; GFX10-NEXT: v_perm_b32 v1, 0, v1, 0xc0c0001
		foadAuthorUnsubmitted Done Reply Inline Actions A bunch of regressions like this seem to be related to worse use of v_perm. foad: A bunch of regressions like this seem to be related to worse use of v_perm.
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: v_perm_b32 v0, v0, v1, 0x10104		; GFX10-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: ds_write_b32 v2, v0		; GFX10-NEXT: ds_write_b32 v2, v0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: shuffle0554:		; GFX9-LABEL: shuffle0554:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: ds_read_b32 v0, v0
; GFX9-NEXT: ds_read_b32 v1, v1		; GFX9-NEXT: ds_read_b32 v1, v1
; GFX9-NEXT: s_mov_b32 s4, 0x10104		; GFX9-NEXT: ds_read_b32 v0, v0
		; GFX9-NEXT: s_mov_b32 s4, 0xc0c0001
		; GFX9-NEXT: s_waitcnt lgkmcnt(1)
		; GFX9-NEXT: v_and_b32_e32 v3, 0xffffff00, v1
		; GFX9-NEXT: v_perm_b32 v1, 0, v1, s4
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_perm_b32 v0, v0, v1, s4		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9-NEXT: ds_write_b32 v2, v0		; GFX9-NEXT: ds_write_b32 v2, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%vec0 = load <4 x i8>, ptr addrspace(3) %in0, align 4		%vec0 = load <4 x i8>, ptr addrspace(3) %in0, align 4
%vec1 = load <4 x i8>, ptr addrspace(3) %in1, align 4		%vec1 = load <4 x i8>, ptr addrspace(3) %in1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 0, i32 5, i32 5, i32 4>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 0, i32 5, i32 5, i32 4>
store <4 x i8> %shuffle0_0, ptr addrspace(3) %out0, align 4		store <4 x i8> %shuffle0_0, ptr addrspace(3) %out0, align 4
ret void		ret void
▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
}		}

define hidden void @shuffle3263ud2(ptr addrspace(1) %in0, ptr addrspace(1) %out0) {		define hidden void @shuffle3263ud2(ptr addrspace(1) %in0, ptr addrspace(1) %out0) {
; GFX10-LABEL: shuffle3263ud2:		; GFX10-LABEL: shuffle3263ud2:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_perm_b32 v0, v0, v0, 0x7060607		; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
		; GFX10-NEXT: v_perm_b32 v1, 0, v1, 0xc0c0001
		; GFX10-NEXT: v_and_or_b32 v0, 0xffff0000, v0, v1
; GFX10-NEXT: global_store_dword v[2:3], v0, off		; GFX10-NEXT: global_store_dword v[2:3], v0, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: shuffle3263ud2:		; GFX9-LABEL: shuffle3263ud2:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, 0x7060607		; GFX9-NEXT: s_mov_b32 s4, 0xc0c0001
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_perm_b32 v0, v0, v0, s4		; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v0
		; GFX9-NEXT: v_perm_b32 v1, 0, v1, s4
		; GFX9-NEXT: s_mov_b32 s4, 0xffff0000
		; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
; GFX9-NEXT: global_store_dword v[2:3], v0, off		; GFX9-NEXT: global_store_dword v[2:3], v0, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> undef, <4 x i32> <i32 3, i32 2, i32 6, i32 3>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> undef, <4 x i32> <i32 3, i32 2, i32 6, i32 3>
store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4		store <4 x i8> %shuffle0_0, ptr addrspace(1) %out0, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 330 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: global_load_dword v4, v[0:1], off		; GFX10-NEXT: global_load_dword v4, v[0:1], off
; GFX10-NEXT: global_load_dword v9, v[2:3], off		; GFX10-NEXT: global_load_dword v9, v[2:3], off
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4		; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9		; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9
; GFX10-NEXT: v_lshrrev_b16 v2, 8, v4		; GFX10-NEXT: v_lshrrev_b16 v2, 8, v4
; GFX10-NEXT: v_add_nc_u16 v1, v0, v1		; GFX10-NEXT: v_add_nc_u16 v0, v0, v1
		; GFX10-NEXT: v_mov_b32_e32 v1, 0xffffff00
; GFX10-NEXT: v_add_nc_u16 v3, v2, v9		; GFX10-NEXT: v_add_nc_u16 v3, v2, v9
; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0		; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0
; GFX10-NEXT: v_lshlrev_b16 v1, 8, v1		; GFX10-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_e32 v0, v2, v0		; GFX10-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_e32 v1, v2, v1
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX10-NEXT: global_store_dword v[5:6], v1, off		; GFX10-NEXT: global_store_dword v[5:6], v0, off
; GFX10-NEXT: global_store_dword v[7:8], v0, off		; GFX10-NEXT: global_store_dword v[7:8], v1, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: add_store:		; GFX9-LABEL: add_store:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: global_load_dword v9, v[2:3], off		; GFX9-NEXT: global_load_dword v9, v[2:3], off
		; GFX9-NEXT: s_movk_i32 s4, 0xff00
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b16_e32 v0, 8, v4		; GFX9-NEXT: v_lshrrev_b16_e32 v0, 8, v4
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v4		; GFX9-NEXT: v_and_b32_sdwa v1, v4, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-NEXT: v_lshlrev_b16_e32 v2, 8, v1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u16_sdwa v1, v1, v9 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX9-NEXT: v_add_u16_sdwa v2, v4, v9 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_1
; GFX9-NEXT: v_add_u16_e32 v3, v0, v9		; GFX9-NEXT: v_or_b32_e32 v1, v0, v1
; GFX9-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_add_u16_e32 v0, v0, v9
; GFX9-NEXT: v_or_b32_e32 v0, v0, v2		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: global_store_dword v[5:6], v1, off		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: global_store_dword v[7:8], v0, off		; GFX9-NEXT: global_store_dword v[5:6], v0, off
		; GFX9-NEXT: global_store_dword v[7:8], v1, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %in0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %in1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %in1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 4>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 4>
%vecins = add <4 x i8> %shuffle0_0, %vec1		%vecins = add <4 x i8> %shuffle0_0, %vec1
store <4 x i8> %vecins, ptr addrspace(1) %out0		store <4 x i8> %vecins, ptr addrspace(1) %out0
store <4 x i8> %shuffle0_0, ptr addrspace(1) %out1		store <4 x i8> %shuffle0_0, ptr addrspace(1) %out1
Show All 13 Lines
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
; GFX10-NEXT: global_load_dword v4, v[0:1], off		; GFX10-NEXT: global_load_dword v4, v[0:1], off
; GFX10-NEXT: global_load_dword v9, v[2:3], off		; GFX10-NEXT: global_load_dword v9, v[2:3], off
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4		; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9		; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9
; GFX10-NEXT: v_lshrrev_b16 v2, 8, v4		; GFX10-NEXT: v_lshrrev_b16 v2, 8, v4
; GFX10-NEXT: v_add_nc_u16 v1, v0, v1		; GFX10-NEXT: v_add_nc_u16 v0, v0, v1
		; GFX10-NEXT: v_mov_b32_e32 v1, 0xffffff00
; GFX10-NEXT: v_add_nc_u16 v3, v2, v9		; GFX10-NEXT: v_add_nc_u16 v3, v2, v9
; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0		; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0
; GFX10-NEXT: v_lshlrev_b16 v1, 8, v1		; GFX10-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_e32 v0, v2, v0		; GFX10-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_e32 v1, v2, v1
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX10-NEXT: global_store_dword v[5:6], v1, off		; GFX10-NEXT: global_store_dword v[5:6], v0, off
; GFX10-NEXT: global_store_dword v[7:8], v0, off		; GFX10-NEXT: global_store_dword v[7:8], v1, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: add_store_div_16:		; GFX9-LABEL: add_store_div_16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v9, v[0:1], off		; GFX9-NEXT: global_load_dword v9, v[0:1], off
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v2, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
		; GFX9-NEXT: s_movk_i32 s4, 0xff00
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b16_e32 v1, 8, v9		; GFX9-NEXT: v_lshrrev_b16_e32 v1, 8, v9
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v9		; GFX9-NEXT: v_and_b32_sdwa v2, v9, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-NEXT: v_lshlrev_b16_e32 v3, 8, v2		; GFX9-NEXT: v_or_b32_e32 v2, v1, v2
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u16_sdwa v2, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX9-NEXT: v_add_u16_sdwa v3, v9, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_1
; GFX9-NEXT: v_add_u16_e32 v0, v1, v0		; GFX9-NEXT: v_add_u16_e32 v0, v1, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX9-NEXT: global_store_dword v[5:6], v0, off		; GFX9-NEXT: global_store_dword v[5:6], v0, off
; GFX9-NEXT: global_store_dword v[7:8], v1, off		; GFX9-NEXT: global_store_dword v[7:8], v1, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid		%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid
%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4
Show All 13 Lines
; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4		; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo
; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
; GFX10-NEXT: global_load_dword v4, v[0:1], off		; GFX10-NEXT: global_load_dword v4, v[0:1], off
; GFX10-NEXT: global_load_dword v9, v[2:3], off		; GFX10-NEXT: global_load_dword v9, v[2:3], off
		; GFX10-NEXT: v_mov_b32_e32 v3, 0xffffff00
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4		; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v4
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9		; GFX10-NEXT: v_lshrrev_b16 v1, 8, v9
; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v9		; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v9
; GFX10-NEXT: v_lshrrev_b16 v3, 8, v4		; GFX10-NEXT: v_lshrrev_b16 v10, 8, v4
; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v9		; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v9
		; GFX10-NEXT: v_and_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX10-NEXT: v_add_nc_u16 v0, v0, v1		; GFX10-NEXT: v_add_nc_u16 v0, v0, v1
; GFX10-NEXT: v_add_nc_u16 v2, v9, v2		; GFX10-NEXT: v_add_nc_u16 v2, v9, v2
; GFX10-NEXT: v_add_nc_u16 v3, v3, v9		; GFX10-NEXT: v_add_nc_u16 v4, v10, v9
; GFX10-NEXT: v_add_nc_u16 v1, v1, v10		; GFX10-NEXT: v_add_nc_u16 v1, v1, v11
		; GFX10-NEXT: v_perm_b32 v9, 0, v9, 0xc0c0001
; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0		; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0
; GFX10-NEXT: v_lshlrev_b16 v2, 8, v2		; GFX10-NEXT: v_lshlrev_b16 v2, 8, v2
; GFX10-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_e32 v3, v10, v3
		; GFX10-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v9
; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: v_perm_b32 v1, v4, v9, 0x10705		; GFX10-NEXT: v_or_b32_sdwa v1, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: global_store_dword v[5:6], v0, off		; GFX10-NEXT: global_store_dword v[5:6], v0, off
; GFX10-NEXT: global_store_dword v[7:8], v1, off		; GFX10-NEXT: global_store_dword v[7:8], v1, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: add_store_div:		; GFX9-LABEL: add_store_div:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v4, v[2:3], off
; GFX9-NEXT: global_load_dword v9, v[0:1], off		; GFX9-NEXT: global_load_dword v9, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, 0x10705		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v2, v4
		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v3, vcc
		; GFX9-NEXT: global_load_dword v0, v[0:1], off
		; GFX9-NEXT: s_movk_i32 s4, 0xff00
		; GFX9-NEXT: s_mov_b32 s5, 0xc0c0001
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b16_e32 v0, 8, v4		; GFX9-NEXT: v_lshrrev_b16_e32 v1, 8, v9
		; GFX9-NEXT: v_and_b32_sdwa v2, v9, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_e32 v2, v1, v2
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_perm_b32 v1, v9, v4, s4		; GFX9-NEXT: v_lshrrev_b16_e32 v3, 8, v0
; GFX9-NEXT: v_add_u16_sdwa v2, v9, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD		; GFX9-NEXT: v_perm_b32 v4, 0, v0, s5
; GFX9-NEXT: v_add_u16_sdwa v3, v4, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_add_u16_sdwa v10, v0, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_add_u16_sdwa v9, v9, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX9-NEXT: v_add_u16_sdwa v9, v9, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX9-NEXT: v_add_u16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_add_u16_e32 v1, v1, v0
; GFX9-NEXT: v_or_b32_sdwa v2, v2, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_add_u16_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 16, v4
		; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9-NEXT: global_store_dword v[5:6], v0, off		; GFX9-NEXT: global_store_dword v[5:6], v0, off
; GFX9-NEXT: global_store_dword v[7:8], v1, off		; GFX9-NEXT: global_store_dword v[7:8], v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid		%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid
%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 1, i32 3, i32 5, i32 4>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 1, i32 3, i32 5, i32 4>
%vecins = add <4 x i8> %shuffle0_0, %vec1		%vecins = add <4 x i8> %shuffle0_0, %vec1
store <4 x i8> %vecins, ptr addrspace(1) %out0		store <4 x i8> %vecins, ptr addrspace(1) %out0
store <4 x i8> %shuffle0_0, ptr addrspace(1) %out1		store <4 x i8> %shuffle0_0, ptr addrspace(1) %out1
ret void		ret void
}		}

define hidden void @and_store_div(ptr addrspace(1) %in0, ptr addrspace(1) %in1, i8 %elt, ptr addrspace(1) %out0, ptr addrspace(1) %out1) {		define hidden void @and_store_div(ptr addrspace(1) %in0, ptr addrspace(1) %in1, i8 %elt, ptr addrspace(1) %out0, ptr addrspace(1) %out1) {
; GFX10-LABEL: and_store_div:		; GFX10-LABEL: and_store_div:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo
; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
; GFX10-NEXT: global_load_dword v4, v[0:1], off		; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4
; GFX10-NEXT: global_load_dword v9, v[2:3], off		; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo
		; GFX10-NEXT: global_load_dword v4, v[2:3], off
		; GFX10-NEXT: global_load_dword v9, v[0:1], off
; GFX10-NEXT: v_mov_b32_e32 v0, 2		; GFX10-NEXT: v_mov_b32_e32 v0, 2
; GFX10-NEXT: v_mov_b32_e32 v1, 1		; GFX10-NEXT: v_mov_b32_e32 v1, 1
; GFX10-NEXT: v_mov_b32_e32 v3, 0x102
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_and_b32_e32 v2, 0x100, v4		; GFX10-NEXT: v_and_b32_sdwa v2, v4, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_and_b32_sdwa v0, v9, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: v_and_b32_sdwa v1, v9, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX10-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-NEXT: v_and_b32_e32 v3, 0x100, v9
; GFX10-NEXT: v_or_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX10-NEXT: v_and_b32_sdwa v0, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_e32 v0, v1, v0		; GFX10-NEXT: v_or_b32_e32 v1, v1, v2
; GFX10-NEXT: v_and_b32_sdwa v1, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: v_perm_b32 v1, v4, v9, 0x5070006		; GFX10-NEXT: v_perm_b32 v1, v9, v4, 0x5070006
; GFX10-NEXT: global_store_dword v[5:6], v0, off		; GFX10-NEXT: global_store_dword v[5:6], v0, off
; GFX10-NEXT: global_store_dword v[7:8], v1, off		; GFX10-NEXT: global_store_dword v[7:8], v1, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: and_store_div:		; GFX9-LABEL: and_store_div:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: global_load_dword v9, v[2:3], off		; GFX9-NEXT: global_load_dword v9, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x5070006
; GFX9-NEXT: v_mov_b32_e32 v0, 2		; GFX9-NEXT: v_mov_b32_e32 v0, 2
; GFX9-NEXT: v_mov_b32_e32 v1, 1		; GFX9-NEXT: v_mov_b32_e32 v1, 1
; GFX9-NEXT: s_movk_i32 s5, 0x102
; GFX9-NEXT: s_mov_b32 s4, 0x5070006
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_and_b32_e32 v2, 0x100, v4
; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v0, v9, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_or_b32_e32 v0, v1, v0		; GFX9-NEXT: v_perm_b32 v2, v4, v9, s4
; GFX9-NEXT: v_and_b32_sdwa v1, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_and_b32_sdwa v3, v9, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX9-NEXT: v_and_b32_e32 v9, 0x100, v4
; GFX9-NEXT: v_perm_b32 v3, v4, v9, s4		; GFX9-NEXT: v_and_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9-NEXT: global_store_dword v[5:6], v0, off		; GFX9-NEXT: global_store_dword v[5:6], v0, off
; GFX9-NEXT: global_store_dword v[7:8], v3, off		; GFX9-NEXT: global_store_dword v[7:8], v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid		%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid
%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 2, i32 4, i32 3, i32 1>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 2, i32 4, i32 3, i32 1>
Show All 9 Lines
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX10-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4		; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo
; GFX10-NEXT: global_load_dword v9, v[0:1], off		; GFX10-NEXT: global_load_dword v9, v[0:1], off
; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v2, v4		; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v2, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v3, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v3, vcc_lo
		; GFX10-NEXT: v_mov_b32_e32 v2, 26
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_ashrrev_i32_e32 v1, 24, v9		; GFX10-NEXT: v_bfe_i32 v1, v9, 0, 8
; GFX10-NEXT: v_bfe_i32 v2, v9, 0, 8		; GFX10-NEXT: v_ashrrev_i32_e32 v3, 24, v9
; GFX10-NEXT: v_lshlrev_b16 v3, 6, v1		; GFX10-NEXT: v_ashrrev_i32_sdwa v2, v2, v9 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: v_lshlrev_b16 v2, 7, v2		; GFX10-NEXT: v_lshlrev_b16 v1, 7, v1
; GFX10-NEXT: v_lshrrev_b16 v1, 1, v1		; GFX10-NEXT: v_lshrrev_b16 v3, 1, v3
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_ashrrev_i16 v4, 10, v0		; GFX10-NEXT: v_ashrrev_i16 v4, 10, v0
; GFX10-NEXT: v_perm_b32 v0, v9, v0, 0x4010707		; GFX10-NEXT: v_perm_b32 v0, v9, v0, 0x4010707
; GFX10-NEXT: v_and_b32_e32 v3, 0xffffff00, v3		; GFX10-NEXT: v_and_b32_e32 v1, 0xffffff00, v1
; GFX10-NEXT: v_and_b32_e32 v2, 0xffffff00, v2		; GFX10-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: global_store_dword v[5:6], v1, off		; GFX10-NEXT: global_store_dword v[5:6], v1, off
; GFX10-NEXT: global_store_dword v[7:8], v0, off		; GFX10-NEXT: global_store_dword v[7:8], v0, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: ashr_store_div:		; GFX9-LABEL: ashr_store_div:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: global_load_dword v4, v[0:1], off		; GFX9-NEXT: global_load_dword v4, v[0:1], off
; GFX9-NEXT: global_load_dword v9, v[2:3], off		; GFX9-NEXT: global_load_dword v9, v[2:3], off
		; GFX9-NEXT: v_mov_b32_e32 v0, 26
		; GFX9-NEXT: v_mov_b32_e32 v1, 1
		; GFX9-NEXT: v_mov_b32_e32 v2, 7
; GFX9-NEXT: s_mov_b32 s4, 0x4010707		; GFX9-NEXT: s_mov_b32 s4, 0x4010707
; GFX9-NEXT: v_mov_b32_e32 v0, 7
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_ashrrev_i32_e32 v1, 24, v4		; GFX9-NEXT: v_ashrrev_i32_sdwa v0, v0, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; GFX9-NEXT: v_lshrrev_b16_sdwa v1, v1, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
		; GFX9-NEXT: v_lshlrev_b16_sdwa v2, v2, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_perm_b32 v2, v4, v9, s4		; GFX9-NEXT: v_perm_b32 v3, v4, v9, s4
; GFX9-NEXT: v_lshlrev_b16_sdwa v0, v0, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX9-NEXT: v_ashrrev_i16_e32 v9, 10, v9
; GFX9-NEXT: v_lshlrev_b16_e32 v4, 6, v1		; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_ashrrev_i16_e32 v3, 10, v9		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff00, v2
; GFX9-NEXT: v_lshrrev_b16_e32 v1, 1, v1		; GFX9-NEXT: v_or_b32_sdwa v1, v9, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_and_b32_e32 v0, 0xffffff00, v0		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff00, v4
; GFX9-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9-NEXT: global_store_dword v[5:6], v0, off		; GFX9-NEXT: global_store_dword v[5:6], v0, off
; GFX9-NEXT: global_store_dword v[7:8], v2, off		; GFX9-NEXT: global_store_dword v[7:8], v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid		%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid
%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 3, i32 3, i32 5, i32 0>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 3, i32 3, i32 5, i32 0>
▲ Show 20 Lines • Show All 954 Lines • ▼ Show 20 Lines
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4		; GFX10-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4		; GFX10-NEXT: v_add_co_u32 v0, vcc_lo, v0, v4
; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo		; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, 0, v1, vcc_lo
; GFX10-NEXT: global_load_dword v2, v[2:3], off		; GFX10-NEXT: global_load_dword v2, v[2:3], off
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(1)		; GFX10-NEXT: s_waitcnt vmcnt(1)
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2
; GFX10-NEXT: v_lshrrev_b16 v3, 8, v2		; GFX10-NEXT: v_lshrrev_b16 v3, 8, v2
; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v2		; GFX10-NEXT: v_lshrrev_b32_e32 v4, 16, v2
		; GFX10-NEXT: v_sub_nc_u16 v2, v1, v2
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: v_sub_nc_u16 v3, v0, v3		; GFX10-NEXT: v_sub_nc_u16 v3, v0, v3
; GFX10-NEXT: v_sub_nc_u16 v9, v1, v4		; GFX10-NEXT: v_sub_nc_u16 v9, v4, v1
; GFX10-NEXT: v_sub_nc_u16 v10, v4, v2		; GFX10-NEXT: v_lshlrev_b16 v0, 8, v0
; GFX10-NEXT: v_sub_nc_u16 v1, v4, v1		; GFX10-NEXT: v_sub_nc_u16 v10, v1, v4
; GFX10-NEXT: v_perm_b32 v0, v2, v0, 0x6070007		; GFX10-NEXT: v_perm_b32 v4, 0, v4, 0xc0c0001
; GFX10-NEXT: v_lshlrev_b16 v3, 8, v3		; GFX10-NEXT: v_lshlrev_b16 v3, 8, v3
; GFX10-NEXT: v_lshlrev_b16 v4, 8, v9		; GFX10-NEXT: v_lshlrev_b16 v9, 8, v9
; GFX10-NEXT: v_or_b32_sdwa v3, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_e32 v0, v1, v0
; GFX10-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v1, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v2, v10, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v4
		; GFX10-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
		; GFX10-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-NEXT: global_store_dword v[5:6], v1, off		; GFX10-NEXT: global_store_dword v[5:6], v1, off
; GFX10-NEXT: global_store_dword v[7:8], v0, off		; GFX10-NEXT: global_store_dword v[7:8], v0, off
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: sub_store_div:		; GFX9-LABEL: sub_store_div:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31		; GFX9-NEXT: v_and_b32_e32 v4, 0x3ff, v31
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4		; GFX9-NEXT: v_lshlrev_b32_e32 v4, 2, v4
; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v4
; GFX9-NEXT: global_load_dword v2, v[2:3], off
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX9-NEXT: s_mov_b32 s4, 0x6070007		; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
		; GFX9-NEXT: global_load_dword v4, v[0:1], off
		; GFX9-NEXT: global_load_dword v9, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0xc0c0001
; GFX9-NEXT: s_waitcnt vmcnt(1)		; GFX9-NEXT: s_waitcnt vmcnt(1)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v2		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v4
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v2
; GFX9-NEXT: v_sub_u16_sdwa v9, v1, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_perm_b32 v4, v2, v0, s4		; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v9
; GFX9-NEXT: v_sub_u16_sdwa v0, v0, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v9
; GFX9-NEXT: v_sub_u16_e32 v2, v3, v2		; GFX9-NEXT: v_sub_u16_sdwa v3, v4, v9 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX9-NEXT: v_sub_u16_e32 v1, v3, v1		; GFX9-NEXT: v_or_b32_e32 v0, v1, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_sub_u16_e32 v9, v1, v9
; GFX9-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_sub_u16_sdwa v10, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX9-NEXT: v_sub_u16_e32 v1, v1, v2
; GFX9-NEXT: global_store_dword v[5:6], v0, off		; GFX9-NEXT: v_perm_b32 v4, 0, v2, s4
; GFX9-NEXT: global_store_dword v[7:8], v4, off		; GFX9-NEXT: v_or_b32_sdwa v3, v9, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_sdwa v1, v1, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4
		; GFX9-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
		; GFX9-NEXT: global_store_dword v[5:6], v1, off
		; GFX9-NEXT: global_store_dword v[7:8], v0, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid		%gep0 = getelementptr <4 x i8>, ptr addrspace(1) %in0, i32 %tid
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %in1, i32 %tid
%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4		%vec0 = load <4 x i8>, ptr addrspace(1) %gep0, align 4
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1, align 4
%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 7, i32 0, i32 7, i32 6>		%shuffle0_0 = shufflevector <4 x i8> %vec0, <4 x i8> %vec1, <4 x i32> <i32 7, i32 0, i32 7, i32 6>
▲ Show 20 Lines • Show All 596 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/reassoc-mul-add-1-to-mad.ll

Show First 20 Lines • Show All 1,592 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%i6 = add i32 %i3, 1		%i6 = add i32 %i3, 1
%i7 = mul i32 %i5, %i6		%i7 = mul i32 %i5, %i6
ret i32 %i7		ret i32 %i7
}		}
define <2 x i16> @v_mul_add_1_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_add_1_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_add_1_v2i16:		; GFX67-LABEL: v_mul_add_1_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0x10000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, 1, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_add_1_v2i16:		; GFX8-LABEL: v_mul_add_1_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 22 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%mul = mul <2 x i16> %x, %add		%mul = mul <2 x i16> %x, %add
ret <2 x i16> %mul		ret <2 x i16> %mul
}		}

define <2 x i16> @v_mul_add_1_v2i16_commute(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_add_1_v2i16_commute(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_add_1_v2i16_commute:		; GFX67-LABEL: v_mul_add_1_v2i16_commute:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, 1, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, 1, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0x10000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, 1, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v2, v0		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v2, v0
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v3, v1		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v3, v1
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_add_1_v2i16_commute:		; GFX8-LABEL: v_mul_add_1_v2i16_commute:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%add = add <2 x i16> %x, %mul		%add = add <2 x i16> %x, %mul
ret <2 x i16> %add		ret <2 x i16> %add
}		}

define <2 x i16> @v_mul_sub_1_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_sub_1_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_sub_1_v2i16:		; GFX67-LABEL: v_mul_sub_1_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, -1, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, -1, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0xffff0000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, -1, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_sub_1_v2i16:		; GFX8-LABEL: v_mul_sub_1_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 22 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%mul = mul <2 x i16> %x, %sub		%mul = mul <2 x i16> %x, %sub
ret <2 x i16> %mul		ret <2 x i16> %mul
}		}

define <2 x i16> @v_mul_sub_1_v2i16_commute(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_sub_1_v2i16_commute(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_sub_1_v2i16_commute:		; GFX67-LABEL: v_mul_sub_1_v2i16_commute:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, -1, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, -1, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0xffff0000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, -1, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v2, v0		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v2, v0
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v3, v1		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v3, v1
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_sub_1_v2i16_commute:		; GFX8-LABEL: v_mul_sub_1_v2i16_commute:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%sub = sub <2 x i16> %mul, %x		%sub = sub <2 x i16> %mul, %x
ret <2 x i16> %sub		ret <2 x i16> %sub
}		}

define <2 x i16> @v_mul_add_2_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_add_2_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_add_2_v2i16:		; GFX67-LABEL: v_mul_add_2_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, 2, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, 2, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0x20000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, 2, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_add_2_v2i16:		; GFX8-LABEL: v_mul_add_2_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 22 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%mul = mul <2 x i16> %x, %add		%mul = mul <2 x i16> %x, %add
ret <2 x i16> %mul		ret <2 x i16> %mul
}		}

define <2 x i16> @v_mul_sub_2_v2i16(<2 x i16> %x, <2 x i16> %y) {		define <2 x i16> @v_mul_sub_2_v2i16(<2 x i16> %x, <2 x i16> %y) {
; GFX67-LABEL: v_mul_sub_2_v2i16:		; GFX67-LABEL: v_mul_sub_2_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_add_i32_e32 v2, vcc, -2, v2		; GFX67-NEXT: v_add_i32_e32 v2, vcc, -2, v2
; GFX67-NEXT: v_add_i32_e32 v3, vcc, 0xfffe0000, v3		; GFX67-NEXT: v_add_i32_e32 v3, vcc, -2, v3
; GFX67-NEXT: v_lshrrev_b32_e32 v3, 16, v3
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX67-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX67-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2		; GFX67-NEXT: v_mul_u32_u24_e32 v0, v0, v2
; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3		; GFX67-NEXT: v_mul_u32_u24_e32 v1, v1, v3
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_sub_2_v2i16:		; GFX8-LABEL: v_mul_sub_2_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 745 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%add = add i16 %mul, 52		%add = add i16 %mul, 52
ret i16 %add		ret i16 %add
}		}

define <2 x i16> @v_mul_9_add_52_v2i16(<2 x i16> %arg) {		define <2 x i16> @v_mul_9_add_52_v2i16(<2 x i16> %arg) {
; GFX67-LABEL: v_mul_9_add_52_v2i16:		; GFX67-LABEL: v_mul_9_add_52_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_mul_u32_u24_e32 v1, 9, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-NEXT: v_mad_u32_u24 v1, v1, 9, 52
; GFX67-NEXT: v_mad_u32_u24 v0, v0, 9, 52		; GFX67-NEXT: v_mad_u32_u24 v0, v0, 9, 52
; GFX67-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_add_i32_e32 v1, vcc, 0x340000, v1		; GFX67-NEXT: v_or_b32_e32 v0, v0, v2
; GFX67-NEXT: v_or_b32_e32 v0, v0, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_9_add_52_v2i16:		; GFX8-LABEL: v_mul_9_add_52_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX8-NEXT: v_mad_u16 v1, v1, 9, 52		; GFX8-NEXT: v_mad_u16 v1, v1, 9, 52
; GFX8-NEXT: v_mad_u16 v0, v0, 9, 52		; GFX8-NEXT: v_mad_u16 v0, v0, 9, 52
▲ Show 20 Lines • Show All 210 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%add = add i16 %mul, 82		%add = add i16 %mul, 82
ret i16 %add		ret i16 %add
}		}

define <2 x i16> @v_mul_5_add_1_v2i16(<2 x i16> %arg) {		define <2 x i16> @v_mul_5_add_1_v2i16(<2 x i16> %arg) {
; GFX67-LABEL: v_mul_5_add_1_v2i16:		; GFX67-LABEL: v_mul_5_add_1_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_mul_u32_u24_e32 v1, 5, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX67-NEXT: v_mad_u32_u24 v1, v1, 5, 1
; GFX67-NEXT: v_mad_u32_u24 v0, v0, 5, 1		; GFX67-NEXT: v_mad_u32_u24 v0, v0, 5, 1
; GFX67-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX67-NEXT: v_add_i32_e32 v1, vcc, 0x10000, v1		; GFX67-NEXT: v_or_b32_e32 v0, v0, v2
; GFX67-NEXT: v_or_b32_e32 v0, v0, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_5_add_1_v2i16:		; GFX8-LABEL: v_mul_5_add_1_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX8-NEXT: v_mad_u16 v1, v1, 5, 1		; GFX8-NEXT: v_mad_u16 v1, v1, 5, 1
; GFX8-NEXT: v_mad_u16 v0, v0, 5, 1		; GFX8-NEXT: v_mad_u16 v0, v0, 5, 1
Show All 18 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%add = add <2 x i16> %mul, <i16 1, i16 1>		%add = add <2 x i16> %mul, <i16 1, i16 1>
ret <2 x i16> %add		ret <2 x i16> %add
}		}

define <2 x i16> @v_mul_284_add_82_v2i16(<2 x i16> %arg) {		define <2 x i16> @v_mul_284_add_82_v2i16(<2 x i16> %arg) {
; GFX67-LABEL: v_mul_284_add_82_v2i16:		; GFX67-LABEL: v_mul_284_add_82_v2i16:
; GFX67: ; %bb.0:		; GFX67: ; %bb.0:
; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX67-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX67-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX67-NEXT: s_movk_i32 s4, 0x11c		; GFX67-NEXT: s_movk_i32 s4, 0x11c
; GFX67-NEXT: v_mul_u32_u24_e32 v1, 0x11c, v1
; GFX67-NEXT: v_mov_b32_e32 v2, 0x52		; GFX67-NEXT: v_mov_b32_e32 v2, 0x52
		; GFX67-NEXT: v_mad_u32_u24 v1, v1, s4, v2
; GFX67-NEXT: v_mad_u32_u24 v0, v0, s4, v2		; GFX67-NEXT: v_mad_u32_u24 v0, v0, s4, v2
; GFX67-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX67-NEXT: v_lshlrev_b32_e32 v3, 16, v1
; GFX67-NEXT: v_and_b32_e32 v0, 0xfffe, v0		; GFX67-NEXT: v_and_b32_e32 v0, 0xfffe, v0
; GFX67-NEXT: v_add_i32_e32 v1, vcc, 0x520000, v1		; GFX67-NEXT: v_or_b32_e32 v0, v0, v3
; GFX67-NEXT: v_or_b32_e32 v0, v0, v1		; GFX67-NEXT: v_and_b32_e32 v1, 0xfffe, v1
; GFX67-NEXT: v_lshrrev_b32_e32 v1, 16, v1
; GFX67-NEXT: s_setpc_b64 s[30:31]		; GFX67-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_284_add_82_v2i16:		; GFX8-LABEL: v_mul_284_add_82_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX8-NEXT: s_movk_i32 s4, 0x11c		; GFX8-NEXT: s_movk_i32 s4, 0x11c
; GFX8-NEXT: v_mov_b32_e32 v2, 0x52		; GFX8-NEXT: v_mov_b32_e32 v2, 0x52
▲ Show 20 Lines • Show All 741 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @scalar_to_vector_v4i16() {			define amdgpu_kernel void @scalar_to_vector_v4i16() {
	; SI-LABEL: scalar_to_vector_v4i16:			; SI-LABEL: scalar_to_vector_v4i16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0
				; SI-NEXT: v_or_b32_e32 v2, v1, v0
				; SI-NEXT: v_and_b32_e32 v1, 0xff00, v2
				foadAuthorUnsubmitted Done Reply Inline Actions There are still some minor regressions like this one, but I'm inclined to waive them. In this case the v_and is redundant because the result is the same as v1. SimplifyDemandedBits would normally optimize this but in this case it gives up because v2 has multiple uses: https://github.com/llvm/llvm-project/blob/49364503f621d807c4ee80050ab7a0cdb2b05a60/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp#L1116 foad: There are still some minor regressions like this one, but I'm inclined to waive them. In this…
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v0
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v1, v0, v3
	; SI-NEXT: v_mov_b32_e32 v1, v0			; SI-NEXT: v_or_b32_e32 v0, v2, v3
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4i16:			; VI-LABEL: scalar_to_vector_v4i16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v0			; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v0
				; VI-NEXT: v_or_b32_e32 v2, v1, v0
				; VI-NEXT: v_and_b32_e32 v1, 0xffffff00, v2
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshlrev_b32_e32 v3, 16, v0
	; VI-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v1, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: v_mov_b32_e32 v1, v0			; VI-NEXT: v_or_b32_sdwa v0, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	bb:			bb:
	%tmp = load <2 x i8>, ptr addrspace(1) undef, align 1			%tmp = load <2 x i8>, ptr addrspace(1) undef, align 1
	%tmp1 = shufflevector <2 x i8> %tmp, <2 x i8> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp1 = shufflevector <2 x i8> %tmp, <2 x i8> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <8 x i32> <i32 0, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>			%tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <8 x i32> <i32 0, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>
	store <8 x i8> %tmp2, ptr addrspace(1) undef, align 8			store <8 x i8> %tmp2, ptr addrspace(1) undef, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @scalar_to_vector_v4f16() {			define amdgpu_kernel void @scalar_to_vector_v4f16() {
	; SI-LABEL: scalar_to_vector_v4f16:			; SI-LABEL: scalar_to_vector_v4f16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0
				; SI-NEXT: v_or_b32_e32 v2, v1, v0
				; SI-NEXT: v_and_b32_e32 v1, 0xff00, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v0
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v1, v0, v3
	; SI-NEXT: v_mov_b32_e32 v1, v0			; SI-NEXT: v_or_b32_e32 v0, v2, v3
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4f16:			; VI-LABEL: scalar_to_vector_v4f16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/usubsat.ll

Show First 20 Lines • Show All 201 Lines • ▼ Show 20 Lines	; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
%result = call i32 @llvm.usub.sat.i32(i32 %lhs, i32 %rhs)		%result = call i32 @llvm.usub.sat.i32(i32 %lhs, i32 %rhs)
ret i32 %result		ret i32 %result
}		}

define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v2i16:		; GFX6-LABEL: v_usubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v3		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_max_u32_e32 v1, v1, v4		; GFX6-NEXT: v_max_u32_e32 v1, v1, v3
; GFX6-NEXT: v_max_u32_e32 v0, v0, v2		; GFX6-NEXT: v_max_u32_e32 v0, v0, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_v2i16:		; GFX8-LABEL: v_usubsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_sub_u16_sdwa v2, v0, v1 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp		; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2		; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
▲ Show 20 Lines • Show All 494 Lines • Show Last 20 Lines