This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/GlobalISel/
-
CodeGen/
-
GlobalISel/
2/2
CombinerHelper.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
arm64-rev.ll
-
AMDGPU/GlobalISel/
-
GlobalISel/
-
combine-fsh.mir
-
combine-rot.mir
-
llvm.amdgcn.intersect_ray.ll
1/4
uaddsat.ll
-
usubsat.ll

Differential D116529

[GlobalISel] Fold or of shifts with constant amount to funnel shift.
ClosedPublic

Authored by abinavpp on Jan 3 2022, 2:34 AM.

Download Raw Diff

Details

Reviewers

aemerson
arsenm
foad
paquette

Commits

rG68b70d17d8de: [GlobalISel] Fold or of shifts with constant amount to funnel shift.

Summary

This change folds (or (shl x, C0), (lshr y, C1)) to funnel shift iff C0
and C1 are constants where C0 + C1 is the bit-width of the shift
instructions.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

abinavpp created this revision.Jan 3 2022, 2:34 AM

Herald added subscribers: kerbowa, hiraditya, rovka and 2 others. · View Herald TranscriptJan 3 2022, 2:34 AM

abinavpp requested review of this revision.Jan 3 2022, 2:34 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 3 2022, 2:34 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

abinavpp mentioned this in D114499: [GlobalISel] Fold or of shifts to funnel shifts..Jan 3 2022, 2:39 AM

Harbormaster completed remote builds in B141301: Diff 397024.Jan 3 2022, 3:20 AM

foad added inline comments.Jan 4 2022, 2:16 AM

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp
3901	I think this comment belongs just above the `FshOpc =` line.
3907–3910	Likewise.
llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
2219	Maybe not your fault, but it's a bad idea to use a VALU instruction for uniform values, especially if it means we need to insert readfirstlanes.

arsenm added inline comments.Jan 4 2022, 10:00 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
2219	should probably do this in the post-regbank combiner

Repositioned comments.

abinavpp marked 2 inline comments as done.Jan 20 2022, 4:24 AM

abinavpp added inline comments.

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
2219	We could maintain this generic combine and an AMDGPU specific post regbank-select version that bails out on an SGPR destination by reusing the match code. We'll need to exclude the generic combine until regbank-select in AMDGPUCombine.td. More importantly, is this worth the effort? The constant shift amt pattern looks bad for uniform, but the original pattern: define amdgpu_kernel void @fshr_v4i32(<4 x i32> %a, <4 x i32> %b, <4 x i32> %amt, <4 x i32> addrspace(1)* %m) { %sub = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %amt %shl = shl <4 x i32> %a, %sub %lshr = lshr <4 x i32> %b, %amt %ret = or <4 x i32> %shl, %lshr store <4 x i32> %ret, <4 x i32> addrspace(1)* %m ret void } has lesser instructions with the combine. How should we move forward?

foad added inline comments.Jan 20 2022, 4:54 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
2219	Can't we just do what this comment in RegBankSelect says: case AMDGPU::G_FSHR: // TODO: Expand for scalar maybe expanding it to S_LSHR_B64 and just taking the low part of the result? In any case I don't think this needs to block the current patch.

Harbormaster completed remote builds in B144552: Diff 401594.Jan 20 2022, 5:07 AM

On the AArch64 side this looks good to me?

This revision is now accepted and ready to land.Jan 21 2022, 2:39 PM

Closed by commit rG68b70d17d8de: [GlobalISel] Fold or of shifts with constant amount to funnel shift. (authored by abinavpp). · Explain WhyJan 23 2022, 9:22 PM

This revision was automatically updated to reflect the committed changes.

abinavpp added a commit: rG68b70d17d8de: [GlobalISel] Fold or of shifts with constant amount to funnel shift..

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

GlobalISel/

CombinerHelper.cpp

47 lines

test/

CodeGen/

AArch64/

arm64-rev.ll

7 lines

AMDGPU/

GlobalISel/

combine-fsh.mir

57 lines

combine-rot.mir

54 lines

llvm.amdgcn.intersect_ray.ll

24 lines

uaddsat.ll

146 lines

usubsat.ll

146 lines

Diff 402393

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

	Show First 20 Lines • Show All 3,872 Lines • ▼ Show 20 Lines
	bool CombinerHelper::matchOrShiftToFunnelShift(MachineInstr &MI,			bool CombinerHelper::matchOrShiftToFunnelShift(MachineInstr &MI,
	BuildFnTy &MatchInfo) {			BuildFnTy &MatchInfo) {
	assert(MI.getOpcode() == TargetOpcode::G_OR);			assert(MI.getOpcode() == TargetOpcode::G_OR);

	Register Dst = MI.getOperand(0).getReg();			Register Dst = MI.getOperand(0).getReg();
	LLT Ty = MRI.getType(Dst);			LLT Ty = MRI.getType(Dst);
	unsigned BitWidth = Ty.getScalarSizeInBits();			unsigned BitWidth = Ty.getScalarSizeInBits();

	Register ShlSrc, ShlAmt, LShrSrc, LShrAmt;			Register ShlSrc, ShlAmt, LShrSrc, LShrAmt, Amt;
	unsigned FshOpc = 0;			unsigned FshOpc = 0;

	// Match (or (shl x, amt), (lshr y, sub(bw, amt))).			// Match (or (shl ...), (lshr ...)).
	if (mi_match(			if (!mi_match(Dst, MRI,
	Dst, MRI,
	// m_GOr() handles the commuted version as well.			// m_GOr() handles the commuted version as well.
	m_GOr(m_GShl(m_Reg(ShlSrc), m_Reg(ShlAmt)),			m_GOr(m_GShl(m_Reg(ShlSrc), m_Reg(ShlAmt)),
	m_GLShr(m_Reg(LShrSrc), m_GSub(m_SpecificICstOrSplat(BitWidth),			m_GLShr(m_Reg(LShrSrc), m_Reg(LShrAmt)))))
	m_Reg(LShrAmt)))))) {			return false;

				// Given constants C0 and C1 such that C0 + C1 is bit-width:
				// (or (shl x, C0), (lshr y, C1)) -> (fshl x, y, C0) or (fshr x, y, C1)
				// TODO: Match constant splat.
				int64_t CstShlAmt, CstLShrAmt;
				if (mi_match(ShlAmt, MRI, m_ICst(CstShlAmt)) &&
				mi_match(LShrAmt, MRI, m_ICst(CstLShrAmt)) &&
				CstShlAmt + CstLShrAmt == BitWidth) {
				FshOpc = TargetOpcode::G_FSHR;
				Amt = LShrAmt;

				} else if (mi_match(LShrAmt, MRI,
				foadUnsubmitted Done Reply Inline Actions I think this comment belongs just above the `FshOpc =` line. foad: I think this comment belongs just above the `FshOpc = ` line.
				m_GSub(m_SpecificICstOrSplat(BitWidth), m_Reg(Amt))) &&
				ShlAmt == Amt) {
				// (or (shl x, amt), (lshr y, (sub bw, amt))) -> (fshl x, y, amt)
	FshOpc = TargetOpcode::G_FSHL;			FshOpc = TargetOpcode::G_FSHL;

	// Match (or (shl x, sub(bw, amt)), (lshr y, amt)).			} else if (mi_match(ShlAmt, MRI,
	} else if (mi_match(Dst, MRI,			m_GSub(m_SpecificICstOrSplat(BitWidth), m_Reg(Amt))) &&
	m_GOr(m_GLShr(m_Reg(LShrSrc), m_Reg(LShrAmt)),			LShrAmt == Amt) {
	m_GShl(m_Reg(ShlSrc),			// (or (shl x, (sub bw, amt)), (lshr y, amt)) -> (fshr x, y, amt)
				foadUnsubmitted Done Reply Inline Actions Likewise. foad: Likewise.
	m_GSub(m_SpecificICstOrSplat(BitWidth),
	m_Reg(ShlAmt)))))) {
	FshOpc = TargetOpcode::G_FSHR;			FshOpc = TargetOpcode::G_FSHR;

	} else {			} else {
	return false;			return false;
	}			}

	if (ShlAmt != LShrAmt)			LLT AmtTy = MRI.getType(Amt);
	return false;

	LLT AmtTy = MRI.getType(ShlAmt);
	if (!isLegalOrBeforeLegalizer({FshOpc, {Ty, AmtTy}}))			if (!isLegalOrBeforeLegalizer({FshOpc, {Ty, AmtTy}}))
	return false;			return false;

	MatchInfo = [=](MachineIRBuilder &B) {			MatchInfo = [=](MachineIRBuilder &B) {
	B.buildInstr(FshOpc, {Dst}, {ShlSrc, LShrSrc, ShlAmt});			B.buildInstr(FshOpc, {Dst}, {ShlSrc, LShrSrc, Amt});
	};			};
	return true;			return true;
	}			}

	/// Match an FSHL or FSHR that can be combined to a ROTR or ROTL rotate.			/// Match an FSHL or FSHR that can be combined to a ROTR or ROTL rotate.
	bool CombinerHelper::matchFunnelShiftToRotate(MachineInstr &MI) {			bool CombinerHelper::matchFunnelShiftToRotate(MachineInstr &MI) {
	unsigned Opc = MI.getOpcode();			unsigned Opc = MI.getOpcode();
	assert(Opc == TargetOpcode::G_FSHL \|\| Opc == TargetOpcode::G_FSHR);			assert(Opc == TargetOpcode::G_FSHL \|\| Opc == TargetOpcode::G_FSHR);
	▲ Show 20 Lines • Show All 1,443 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/arm64-rev.ll

	Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines
	; CHECK: // %bb.0: // %entry			; CHECK: // %bb.0: // %entry
	; CHECK-NEXT: rev x8, x0			; CHECK-NEXT: rev x8, x0
	; CHECK-NEXT: ror x0, x8, #16			; CHECK-NEXT: ror x0, x8, #16
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	;			;
	; GISEL-LABEL: test_rev16_x:			; GISEL-LABEL: test_rev16_x:
	; GISEL: // %bb.0: // %entry			; GISEL: // %bb.0: // %entry
	; GISEL-NEXT: rev x8, x0			; GISEL-NEXT: rev x8, x0
	; GISEL-NEXT: lsl x9, x8, #48			; GISEL-NEXT: ror x0, x8, #16
	; GISEL-NEXT: orr x0, x9, x8, lsr #16
	; GISEL-NEXT: ret			; GISEL-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.bswap.i64(i64 %a)			%0 = tail call i64 @llvm.bswap.i64(i64 %a)
	%1 = lshr i64 %0, 16			%1 = lshr i64 %0, 16
	%2 = shl i64 %0, 48			%2 = shl i64 %0, 48
	%3 = or i64 %1, %2			%3 = or i64 %1, %2
	ret i64 %3			ret i64 %3
	}			}

	define i64 @test_rev32_x(i64 %a) nounwind {			define i64 @test_rev32_x(i64 %a) nounwind {
	; CHECK-LABEL: test_rev32_x:			; CHECK-LABEL: test_rev32_x:
	; CHECK: // %bb.0: // %entry			; CHECK: // %bb.0: // %entry
	; CHECK-NEXT: rev32 x0, x0			; CHECK-NEXT: rev32 x0, x0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	;			;
	; GISEL-LABEL: test_rev32_x:			; GISEL-LABEL: test_rev32_x:
	; GISEL: // %bb.0: // %entry			; GISEL: // %bb.0: // %entry
	; GISEL-NEXT: rev x8, x0			; GISEL-NEXT: rev32 x0, x0
	; GISEL-NEXT: lsl x9, x8, #32
	; GISEL-NEXT: orr x0, x9, x8, lsr #32
	; GISEL-NEXT: ret			; GISEL-NEXT: ret
	entry:			entry:
	%0 = tail call i64 @llvm.bswap.i64(i64 %a)			%0 = tail call i64 @llvm.bswap.i64(i64 %a)
	%1 = lshr i64 %0, 32			%1 = lshr i64 %0, 32
	%2 = shl i64 %0, 32			%2 = shl i64 %0, 32
	%3 = or i64 %1, %2			%3 = or i64 %1, %2
	ret i64 %3			ret i64 %3
	}			}
	▲ Show 20 Lines • Show All 402 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fsh.mir

Show First 20 Lines • Show All 101 Lines • ▼ Show 20 Lines	bb.0:
%lshr:_(s32) = G_LSHR %b:_, %amt:_(s32)		%lshr:_(s32) = G_LSHR %b:_, %amt:_(s32)
%sub:_(s32) = G_SUB %bw:_, %amt:_		%sub:_(s32) = G_SUB %bw:_, %amt:_
%shl:_(s32) = G_SHL %a:_, %sub:_(s32)		%shl:_(s32) = G_SHL %a:_, %sub:_(s32)
%or:_(s32) = G_OR %shl:_, %lshr:_		%or:_(s32) = G_OR %shl:_, %lshr:_
$vgpr3 = COPY %or		$vgpr3 = COPY %or
...		...

---		---
name: fshl_i32_bad_const		name: fsh_i32_const
		tracksRegLiveness: true
		body: \|
		bb.0:
		liveins: $vgpr0, $vgpr1, $vgpr2

		; CHECK-LABEL: name: fsh_i32_const
		; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
		; CHECK-NEXT: %b:_(s32) = COPY $vgpr1
		; CHECK-NEXT: %amt1:_(s32) = G_CONSTANT i32 12
		; CHECK-NEXT: %or:_(s32) = G_FSHR %a, %b, %amt1(s32)
		; CHECK-NEXT: $vgpr2 = COPY %or(s32)
		%a:_(s32) = COPY $vgpr0
		%b:_(s32) = COPY $vgpr1
		%amt0:_(s32) = G_CONSTANT i32 20
		%amt1:_(s32) = G_CONSTANT i32 12
		%shl:_(s32) = G_SHL %a, %amt0
		%lshr:_(s32) = G_LSHR %b, %amt1
		%or:_(s32) = G_OR %shl, %lshr
		$vgpr2 = COPY %or
		...

		---
		name: fsh_i32_bad_const
		tracksRegLiveness: true
		body: \|
		bb.0:
		liveins: $vgpr0, $vgpr1, $vgpr2

		; CHECK-LABEL: name: fsh_i32_bad_const
		; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
		; CHECK-NEXT: %b:_(s32) = COPY $vgpr1
		; CHECK-NEXT: %amt0:_(s32) = G_CONSTANT i32 20
		; CHECK-NEXT: %amt1:_(s32) = G_CONSTANT i32 11
		; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt0(s32)
		; CHECK-NEXT: %lshr:_(s32) = G_LSHR %b, %amt1(s32)
		; CHECK-NEXT: %or:_(s32) = G_OR %shl, %lshr
		; CHECK-NEXT: $vgpr2 = COPY %or(s32)
		%a:_(s32) = COPY $vgpr0
		%b:_(s32) = COPY $vgpr1
		%amt0:_(s32) = G_CONSTANT i32 20
		%amt1:_(s32) = G_CONSTANT i32 11
		%shl:_(s32) = G_SHL %a, %amt0
		%lshr:_(s32) = G_LSHR %b, %amt1
		%or:_(s32) = G_OR %shl, %lshr
		$vgpr2 = COPY %or
		...

		---
		name: fshl_i32_bad_bw
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3		liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3

; CHECK-LABEL: name: fshl_i32_bad_const		; CHECK-LABEL: name: fshl_i32_bad_bw
; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3		; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: %a:_(s32) = COPY $vgpr0		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
; CHECK-NEXT: %b:_(s32) = COPY $vgpr1		; CHECK-NEXT: %b:_(s32) = COPY $vgpr1
; CHECK-NEXT: %amt:_(s32) = COPY $vgpr2		; CHECK-NEXT: %amt:_(s32) = COPY $vgpr2
; CHECK-NEXT: %bw:_(s32) = G_CONSTANT i32 31		; CHECK-NEXT: %bw:_(s32) = G_CONSTANT i32 31
; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt(s32)		; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt(s32)
; CHECK-NEXT: %sub:_(s32) = G_SUB %bw, %amt		; CHECK-NEXT: %sub:_(s32) = G_SUB %bw, %amt
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-rot.mir

Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines	bb.0:
%lshr:_(s32) = G_LSHR %a:_, %amt:_(s32)		%lshr:_(s32) = G_LSHR %a:_, %amt:_(s32)
%sub:_(s32) = G_SUB %bw:_, %amt:_		%sub:_(s32) = G_SUB %bw:_, %amt:_
%shl:_(s32) = G_SHL %a:_, %sub:_(s32)		%shl:_(s32) = G_SHL %a:_, %sub:_(s32)
%or:_(s32) = G_OR %shl:_, %lshr:_		%or:_(s32) = G_OR %shl:_, %lshr:_
$vgpr2 = COPY %or		$vgpr2 = COPY %or
...		...

---		---
name: rotl_i32_bad_const		name: rot_i32_const
		tracksRegLiveness: true
		body: \|
		bb.0:
		liveins: $vgpr0, $vgpr1

		; CHECK-LABEL: name: rot_i32_const
		; CHECK: liveins: $vgpr0, $vgpr1
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
		; CHECK-NEXT: %amt1:_(s32) = G_CONSTANT i32 12
		; CHECK-NEXT: %or:_(s32) = G_ROTR %a, %amt1(s32)
		; CHECK-NEXT: $vgpr1 = COPY %or(s32)
		%a:_(s32) = COPY $vgpr0
		%amt0:_(s32) = G_CONSTANT i32 20
		%amt1:_(s32) = G_CONSTANT i32 12
		%shl:_(s32) = G_SHL %a, %amt0
		%lshr:_(s32) = G_LSHR %a, %amt1
		%or:_(s32) = G_OR %shl, %lshr
		$vgpr1 = COPY %or
		...

		---
		name: rot_i32_bad_const
		tracksRegLiveness: true
		body: \|
		bb.0:
		liveins: $vgpr0, $vgpr1

		; CHECK-LABEL: name: rot_i32_bad_const
		; CHECK: liveins: $vgpr0, $vgpr1
		; CHECK-NEXT: {{ $}}
		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
		; CHECK-NEXT: %amt0:_(s32) = G_CONSTANT i32 20
		; CHECK-NEXT: %amt1:_(s32) = G_CONSTANT i32 11
		; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt0(s32)
		; CHECK-NEXT: %lshr:_(s32) = G_LSHR %a, %amt1(s32)
		; CHECK-NEXT: %or:_(s32) = G_OR %shl, %lshr
		; CHECK-NEXT: $vgpr1 = COPY %or(s32)
		%a:_(s32) = COPY $vgpr0
		%amt0:_(s32) = G_CONSTANT i32 20
		%amt1:_(s32) = G_CONSTANT i32 11
		%shl:_(s32) = G_SHL %a, %amt0
		%lshr:_(s32) = G_LSHR %a, %amt1
		%or:_(s32) = G_OR %shl, %lshr
		$vgpr1 = COPY %or
		...


		---
		name: rotl_i32_bad_bw
tracksRegLiveness: true		tracksRegLiveness: true
body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0, $vgpr1, $vgpr2		liveins: $vgpr0, $vgpr1, $vgpr2

; CHECK-LABEL: name: rotl_i32_bad_const		; CHECK-LABEL: name: rotl_i32_bad_bw
; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2		; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: %a:_(s32) = COPY $vgpr0		; CHECK-NEXT: %a:_(s32) = COPY $vgpr0
; CHECK-NEXT: %amt:_(s32) = COPY $vgpr1		; CHECK-NEXT: %amt:_(s32) = COPY $vgpr1
; CHECK-NEXT: %bw:_(s32) = G_CONSTANT i32 31		; CHECK-NEXT: %bw:_(s32) = G_CONSTANT i32 31
; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt(s32)		; CHECK-NEXT: %shl:_(s32) = G_SHL %a, %amt(s32)
; CHECK-NEXT: %sub:_(s32) = G_SUB %bw, %amt		; CHECK-NEXT: %sub:_(s32) = G_SUB %bw, %amt
; CHECK-NEXT: %lshr:_(s32) = G_LSHR %a, %sub(s32)		; CHECK-NEXT: %lshr:_(s32) = G_LSHR %a, %sub(s32)
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.intersect_ray.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @image_bvh_intersect_ray_a16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {			define amdgpu_ps <4 x float> @image_bvh_intersect_ray_a16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {
	; GCN-LABEL: image_bvh_intersect_ray_a16:			; GCN-LABEL: image_bvh_intersect_ray_a16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_mov_b32 s4, 0xffff			; GCN-NEXT: s_mov_b32 s4, 0xffff
	; GCN-NEXT: v_lshrrev_b32_e32 v9, 16, v5			; GCN-NEXT: v_lshrrev_b32_e32 v9, 16, v5
	; GCN-NEXT: v_and_b32_e32 v10, s4, v7			; GCN-NEXT: v_and_b32_e32 v10, s4, v7
	; GCN-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; GCN-NEXT: v_and_b32_e32 v8, s4, v8			; GCN-NEXT: v_and_b32_e32 v8, s4, v8
	; GCN-NEXT: v_lshlrev_b32_e32 v9, 16, v9			; GCN-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GCN-NEXT: v_lshlrev_b32_e32 v10, 16, v10			; GCN-NEXT: v_lshlrev_b32_e32 v10, 16, v10
	; GCN-NEXT: v_lshl_or_b32 v7, v8, 16, v7			; GCN-NEXT: v_alignbit_b32 v7, v8, v7, 16
	; GCN-NEXT: v_and_or_b32 v5, v5, s4, v9			; GCN-NEXT: v_and_or_b32 v5, v5, s4, v9
	; GCN-NEXT: v_and_or_b32 v6, v6, s4, v10			; GCN-NEXT: v_and_or_b32 v6, v6, s4, v10
	; GCN-NEXT: image_bvh_intersect_ray v[0:3], v[0:7], s[0:3] a16			; GCN-NEXT: image_bvh_intersect_ray v[0:3], v[0:7], s[0:3] a16
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)			%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i32.v4f16(i32 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)
	%r = bitcast <4 x i32> %v to <4 x float>			%r = bitcast <4 x i32> %v to <4 x float>
	ret <4 x float> %r			ret <4 x float> %r
	Show All 32 Lines
	}			}

	define amdgpu_ps <4 x float> @image_bvh64_intersect_ray_a16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {			define amdgpu_ps <4 x float> @image_bvh64_intersect_ray_a16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> inreg %tdescr) {
	; GCN-LABEL: image_bvh64_intersect_ray_a16:			; GCN-LABEL: image_bvh64_intersect_ray_a16:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_mov_b32 s4, 0xffff			; GCN-NEXT: s_mov_b32 s4, 0xffff
	; GCN-NEXT: v_lshrrev_b32_e32 v10, 16, v6			; GCN-NEXT: v_lshrrev_b32_e32 v10, 16, v6
	; GCN-NEXT: v_and_b32_e32 v11, s4, v8			; GCN-NEXT: v_and_b32_e32 v11, s4, v8
	; GCN-NEXT: v_lshrrev_b32_e32 v8, 16, v8
	; GCN-NEXT: v_and_b32_e32 v9, s4, v9			; GCN-NEXT: v_and_b32_e32 v9, s4, v9
	; GCN-NEXT: v_lshlrev_b32_e32 v10, 16, v10			; GCN-NEXT: v_lshlrev_b32_e32 v10, 16, v10
	; GCN-NEXT: v_lshlrev_b32_e32 v11, 16, v11			; GCN-NEXT: v_lshlrev_b32_e32 v11, 16, v11
	; GCN-NEXT: v_lshl_or_b32 v8, v9, 16, v8			; GCN-NEXT: v_alignbit_b32 v8, v9, v8, 16
	; GCN-NEXT: v_and_or_b32 v6, v6, s4, v10			; GCN-NEXT: v_and_or_b32 v6, v6, s4, v10
	; GCN-NEXT: v_and_or_b32 v7, v7, s4, v11			; GCN-NEXT: v_and_or_b32 v7, v7, s4, v11
	; GCN-NEXT: image_bvh64_intersect_ray v[0:3], v[0:15], s[0:3] a16			; GCN-NEXT: image_bvh64_intersect_ray v[0:3], v[0:15], s[0:3] a16
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)			%v = call <4 x i32> @llvm.amdgcn.image.bvh.intersect.ray.i64.v4f16(i64 %node_ptr, float %ray_extent, <3 x float> %ray_origin, <3 x half> %ray_dir, <3 x half> %ray_inv_dir, <4 x i32> %tdescr)
	%r = bitcast <4 x i32> %v to <4 x float>			%r = bitcast <4 x i32> %v to <4 x float>
	ret <4 x float> %r			ret <4 x float> %r
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; GFX1030-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:			; GFX1030-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_mov_b32 s0, 0xffff			; GFX1030-NEXT: s_mov_b32 s0, 0xffff
	; GFX1030-NEXT: v_mov_b32_e32 v13, v0			; GFX1030-NEXT: v_mov_b32_e32 v13, v0
	; GFX1030-NEXT: v_mov_b32_e32 v14, v1			; GFX1030-NEXT: v_mov_b32_e32 v14, v1
	; GFX1030-NEXT: v_lshrrev_b32_e32 v0, 16, v5			; GFX1030-NEXT: v_lshrrev_b32_e32 v0, 16, v5
	; GFX1030-NEXT: v_and_b32_e32 v1, s0, v7			; GFX1030-NEXT: v_and_b32_e32 v1, s0, v7
	; GFX1030-NEXT: v_mov_b32_e32 v15, v2			; GFX1030-NEXT: v_mov_b32_e32 v15, v2
				; GFX1030-NEXT: v_and_b32_e32 v2, s0, v8
	; GFX1030-NEXT: v_mov_b32_e32 v16, v3			; GFX1030-NEXT: v_mov_b32_e32 v16, v3
	; GFX1030-NEXT: v_lshrrev_b32_e32 v2, 16, v7
	; GFX1030-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX1030-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX1030-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX1030-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX1030-NEXT: v_and_b32_e32 v3, s0, v8
	; GFX1030-NEXT: v_mov_b32_e32 v17, v4			; GFX1030-NEXT: v_mov_b32_e32 v17, v4
				; GFX1030-NEXT: v_alignbit_b32 v20, v2, v7, 16
	; GFX1030-NEXT: s_mov_b32 s1, exec_lo			; GFX1030-NEXT: s_mov_b32 s1, exec_lo
	; GFX1030-NEXT: v_and_or_b32 v18, v5, s0, v0			; GFX1030-NEXT: v_and_or_b32 v18, v5, s0, v0
	; GFX1030-NEXT: v_and_or_b32 v19, v6, s0, v1			; GFX1030-NEXT: v_and_or_b32 v19, v6, s0, v1
	; GFX1030-NEXT: v_lshl_or_b32 v20, v3, 16, v2
	; GFX1030-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1			; GFX1030-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1
	; GFX1030-NEXT: v_readfirstlane_b32 s4, v9			; GFX1030-NEXT: v_readfirstlane_b32 s4, v9
	; GFX1030-NEXT: v_readfirstlane_b32 s5, v10			; GFX1030-NEXT: v_readfirstlane_b32 s5, v10
	; GFX1030-NEXT: v_readfirstlane_b32 s6, v11			; GFX1030-NEXT: v_readfirstlane_b32 s6, v11
	; GFX1030-NEXT: v_readfirstlane_b32 s7, v12			; GFX1030-NEXT: v_readfirstlane_b32 s7, v12
	; GFX1030-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]			; GFX1030-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]
	; GFX1030-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[11:12]			; GFX1030-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[11:12]
	; GFX1030-NEXT: s_and_b32 s0, s0, vcc_lo			; GFX1030-NEXT: s_and_b32 s0, s0, vcc_lo
	Show All 16 Lines
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: ; return to shader part epilog			; GFX1030-NEXT: ; return to shader part epilog
	;			;
	; GFX1013-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:			; GFX1013-LABEL: image_bvh_intersect_ray_a16_vgpr_descr:
	; GFX1013: ; %bb.0:			; GFX1013: ; %bb.0:
	; GFX1013-NEXT: s_mov_b32 s0, 0xffff			; GFX1013-NEXT: s_mov_b32 s0, 0xffff
	; GFX1013-NEXT: v_lshrrev_b32_e32 v13, 16, v5			; GFX1013-NEXT: v_lshrrev_b32_e32 v13, 16, v5
	; GFX1013-NEXT: v_and_b32_e32 v14, s0, v7			; GFX1013-NEXT: v_and_b32_e32 v14, s0, v7
	; GFX1013-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; GFX1013-NEXT: v_and_b32_e32 v8, s0, v8			; GFX1013-NEXT: v_and_b32_e32 v8, s0, v8
	; GFX1013-NEXT: s_mov_b32 s1, exec_lo			; GFX1013-NEXT: s_mov_b32 s1, exec_lo
	; GFX1013-NEXT: v_lshlrev_b32_e32 v13, 16, v13			; GFX1013-NEXT: v_lshlrev_b32_e32 v13, 16, v13
	; GFX1013-NEXT: v_lshlrev_b32_e32 v14, 16, v14			; GFX1013-NEXT: v_lshlrev_b32_e32 v14, 16, v14
	; GFX1013-NEXT: v_lshl_or_b32 v7, v8, 16, v7			; GFX1013-NEXT: v_alignbit_b32 v7, v8, v7, 16
	; GFX1013-NEXT: v_and_or_b32 v5, v5, s0, v13			; GFX1013-NEXT: v_and_or_b32 v5, v5, s0, v13
	; GFX1013-NEXT: v_and_or_b32 v6, v6, s0, v14			; GFX1013-NEXT: v_and_or_b32 v6, v6, s0, v14
	; GFX1013-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1			; GFX1013-NEXT: .LBB7_1: ; =>This Inner Loop Header: Depth=1
	; GFX1013-NEXT: v_readfirstlane_b32 s4, v9			; GFX1013-NEXT: v_readfirstlane_b32 s4, v9
	; GFX1013-NEXT: v_readfirstlane_b32 s5, v10			; GFX1013-NEXT: v_readfirstlane_b32 s5, v10
	; GFX1013-NEXT: v_readfirstlane_b32 s6, v11			; GFX1013-NEXT: v_readfirstlane_b32 s6, v11
	; GFX1013-NEXT: v_readfirstlane_b32 s7, v12			; GFX1013-NEXT: v_readfirstlane_b32 s7, v12
	; GFX1013-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]			; GFX1013-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[9:10]
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; GFX1030-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:			; GFX1030-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_mov_b32 s0, 0xffff			; GFX1030-NEXT: s_mov_b32 s0, 0xffff
	; GFX1030-NEXT: v_mov_b32_e32 v14, v0			; GFX1030-NEXT: v_mov_b32_e32 v14, v0
	; GFX1030-NEXT: v_mov_b32_e32 v15, v1			; GFX1030-NEXT: v_mov_b32_e32 v15, v1
	; GFX1030-NEXT: v_lshrrev_b32_e32 v0, 16, v6			; GFX1030-NEXT: v_lshrrev_b32_e32 v0, 16, v6
	; GFX1030-NEXT: v_and_b32_e32 v1, s0, v8			; GFX1030-NEXT: v_and_b32_e32 v1, s0, v8
	; GFX1030-NEXT: v_mov_b32_e32 v16, v2			; GFX1030-NEXT: v_mov_b32_e32 v16, v2
				; GFX1030-NEXT: v_and_b32_e32 v2, s0, v9
	; GFX1030-NEXT: v_mov_b32_e32 v17, v3			; GFX1030-NEXT: v_mov_b32_e32 v17, v3
	; GFX1030-NEXT: v_lshrrev_b32_e32 v2, 16, v8
	; GFX1030-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX1030-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX1030-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX1030-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX1030-NEXT: v_and_b32_e32 v3, s0, v9
	; GFX1030-NEXT: v_mov_b32_e32 v18, v4			; GFX1030-NEXT: v_mov_b32_e32 v18, v4
	; GFX1030-NEXT: v_mov_b32_e32 v19, v5			; GFX1030-NEXT: v_mov_b32_e32 v19, v5
				; GFX1030-NEXT: v_alignbit_b32 v22, v2, v8, 16
	; GFX1030-NEXT: v_and_or_b32 v20, v6, s0, v0			; GFX1030-NEXT: v_and_or_b32 v20, v6, s0, v0
	; GFX1030-NEXT: v_and_or_b32 v21, v7, s0, v1			; GFX1030-NEXT: v_and_or_b32 v21, v7, s0, v1
	; GFX1030-NEXT: v_lshl_or_b32 v22, v3, 16, v2
	; GFX1030-NEXT: s_mov_b32 s1, exec_lo			; GFX1030-NEXT: s_mov_b32 s1, exec_lo
	; GFX1030-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1			; GFX1030-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1
	; GFX1030-NEXT: v_readfirstlane_b32 s4, v10			; GFX1030-NEXT: v_readfirstlane_b32 s4, v10
	; GFX1030-NEXT: v_readfirstlane_b32 s5, v11			; GFX1030-NEXT: v_readfirstlane_b32 s5, v11
	; GFX1030-NEXT: v_readfirstlane_b32 s6, v12			; GFX1030-NEXT: v_readfirstlane_b32 s6, v12
	; GFX1030-NEXT: v_readfirstlane_b32 s7, v13			; GFX1030-NEXT: v_readfirstlane_b32 s7, v13
	; GFX1030-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[10:11]			; GFX1030-NEXT: v_cmp_eq_u64_e32 vcc_lo, s[4:5], v[10:11]
	; GFX1030-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[12:13]			; GFX1030-NEXT: v_cmp_eq_u64_e64 s0, s[6:7], v[12:13]
	Show All 20 Lines
	;			;
	; GFX1013-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:			; GFX1013-LABEL: image_bvh64_intersect_ray_a16_vgpr_descr:
	; GFX1013: ; %bb.0:			; GFX1013: ; %bb.0:
	; GFX1013-NEXT: s_mov_b32 s0, 0xffff			; GFX1013-NEXT: s_mov_b32 s0, 0xffff
	; GFX1013-NEXT: v_mov_b32_e32 v16, v10			; GFX1013-NEXT: v_mov_b32_e32 v16, v10
	; GFX1013-NEXT: v_mov_b32_e32 v17, v11			; GFX1013-NEXT: v_mov_b32_e32 v17, v11
	; GFX1013-NEXT: v_lshrrev_b32_e32 v10, 16, v6			; GFX1013-NEXT: v_lshrrev_b32_e32 v10, 16, v6
	; GFX1013-NEXT: v_and_b32_e32 v11, s0, v8			; GFX1013-NEXT: v_and_b32_e32 v11, s0, v8
	; GFX1013-NEXT: v_lshrrev_b32_e32 v8, 16, v8
	; GFX1013-NEXT: v_and_b32_e32 v9, s0, v9			; GFX1013-NEXT: v_and_b32_e32 v9, s0, v9
	; GFX1013-NEXT: v_mov_b32_e32 v18, v12			; GFX1013-NEXT: v_mov_b32_e32 v18, v12
				; GFX1013-NEXT: v_mov_b32_e32 v19, v13
	; GFX1013-NEXT: v_lshlrev_b32_e32 v10, 16, v10			; GFX1013-NEXT: v_lshlrev_b32_e32 v10, 16, v10
	; GFX1013-NEXT: v_lshlrev_b32_e32 v11, 16, v11			; GFX1013-NEXT: v_lshlrev_b32_e32 v11, 16, v11
	; GFX1013-NEXT: v_mov_b32_e32 v19, v13			; GFX1013-NEXT: v_alignbit_b32 v8, v9, v8, 16
	; GFX1013-NEXT: v_lshl_or_b32 v8, v9, 16, v8
	; GFX1013-NEXT: s_mov_b32 s1, exec_lo			; GFX1013-NEXT: s_mov_b32 s1, exec_lo
	; GFX1013-NEXT: v_and_or_b32 v6, v6, s0, v10			; GFX1013-NEXT: v_and_or_b32 v6, v6, s0, v10
	; GFX1013-NEXT: v_and_or_b32 v7, v7, s0, v11			; GFX1013-NEXT: v_and_or_b32 v7, v7, s0, v11
	; GFX1013-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1			; GFX1013-NEXT: .LBB9_1: ; =>This Inner Loop Header: Depth=1
	; GFX1013-NEXT: v_readfirstlane_b32 s4, v16			; GFX1013-NEXT: v_readfirstlane_b32 s4, v16
	; GFX1013-NEXT: v_readfirstlane_b32 s5, v17			; GFX1013-NEXT: v_readfirstlane_b32 s5, v17
	; GFX1013-NEXT: v_readfirstlane_b32 s6, v18			; GFX1013-NEXT: v_readfirstlane_b32 s6, v18
	; GFX1013-NEXT: v_readfirstlane_b32 s7, v19			; GFX1013-NEXT: v_readfirstlane_b32 s7, v19
	▲ Show 20 Lines • Show All 399 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

	Show First 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v6			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX6-NEXT: v_xor_b32_e32 v5, -1, v2			; GFX6-NEXT: v_xor_b32_e32 v5, -1, v2
	; GFX6-NEXT: v_min_u32_e32 v3, v5, v3			; GFX6-NEXT: v_min_u32_e32 v3, v5, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX6-NEXT: v_xor_b32_e32 v5, -1, v3			; GFX6-NEXT: v_xor_b32_e32 v5, -1, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_min_u32_e32 v4, v5, v4			; GFX6-NEXT: v_min_u32_e32 v4, v5, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 24
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_uaddsat_v4i8:			; GFX8-LABEL: v_uaddsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b32 s2, s3, 24			; GFX6-NEXT: s_lshl_b32 s2, s3, 24
	; GFX6-NEXT: s_lshl_b32 s3, s6, 24			; GFX6-NEXT: s_lshl_b32 s3, s6, 24
	; GFX6-NEXT: s_not_b32 s5, s2			; GFX6-NEXT: s_not_b32 s5, s2
	; GFX6-NEXT: s_min_u32 s3, s5, s3			; GFX6-NEXT: s_min_u32 s3, s5, s3
	; GFX6-NEXT: s_add_i32 s2, s2, s3			; GFX6-NEXT: s_add_i32 s2, s2, s3
	; GFX6-NEXT: s_lshl_b32 s3, s4, 24			; GFX6-NEXT: s_lshl_b32 s3, s4, 24
	; GFX6-NEXT: s_lshl_b32 s4, s7, 24			; GFX6-NEXT: s_lshl_b32 s4, s7, 24
	; GFX6-NEXT: s_not_b32 s5, s3			; GFX6-NEXT: s_not_b32 s5, s3
	; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: s_min_u32 s4, s5, s4			; GFX6-NEXT: s_min_u32 s4, s5, s4
	; GFX6-NEXT: s_lshr_b32 s0, s0, 24			; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: s_lshr_b32 s2, s2, 24			; GFX6-NEXT: s_lshr_b32 s2, s2, 24
	; GFX6-NEXT: s_add_i32 s3, s3, s4			; GFX6-NEXT: s_add_i32 s3, s3, s4
	; GFX6-NEXT: s_lshl_b32 s1, s1, 8			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshr_b32 s3, s3, 24			; GFX6-NEXT: s_lshr_b32 s3, s3, 24
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 24
	; GFX6-NEXT: s_lshl_b32 s1, s2, 16			; GFX6-NEXT: s_lshl_b32 s0, s2, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 24			; GFX6-NEXT: s_lshl_b32 s0, s3, 24
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_uaddsat_v4i8:			; GFX8-LABEL: s_uaddsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_bfe_u32 s8, 8, 0x100000			; GFX8-NEXT: s_bfe_u32 s8, 8, 0x100000
	; GFX8-NEXT: s_lshr_b32 s5, s1, 8			; GFX8-NEXT: s_lshr_b32 s5, s1, 8
	; GFX8-NEXT: s_lshr_b32 s6, s1, 16			; GFX8-NEXT: s_lshr_b32 s6, s1, 16
	; GFX8-NEXT: s_lshr_b32 s7, s1, 24			; GFX8-NEXT: s_lshr_b32 s7, s1, 24
	▲ Show 20 Lines • Show All 1,252 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_min_u32 s2, s4, s2			; GFX6-NEXT: s_min_u32 s2, s4, s2
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshl_b32 s1, s1, 16
	; GFX6-NEXT: s_add_i32 s0, s0, s2			; GFX6-NEXT: s_add_i32 s0, s0, s2
	; GFX6-NEXT: s_lshl_b32 s2, s3, 16			; GFX6-NEXT: s_lshl_b32 s2, s3, 16
	; GFX6-NEXT: s_not_b32 s3, s1			; GFX6-NEXT: s_not_b32 s3, s1
	; GFX6-NEXT: s_min_u32 s2, s3, s2			; GFX6-NEXT: s_min_u32 s2, s3, s2
	; GFX6-NEXT: s_add_i32 s1, s1, s2			; GFX6-NEXT: s_add_i32 s1, s1, s2
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_uaddsat_v2i16:			; GFX8-LABEL: s_uaddsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s3, s1, 16			; GFX8-NEXT: s_lshr_b32 s3, s1, 16
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_lshr_b32 s2, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mov_b32_e32 v0, s1			; GFX8-NEXT: v_mov_b32_e32 v0, s1
	Show All 31 Lines
	; GFX6-NEXT: v_min_u32_e32 v0, s2, v0			; GFX6-NEXT: v_min_u32_e32 v0, s2, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: s_not_b32 s1, s0			; GFX6-NEXT: s_not_b32 s1, s0
	; GFX6-NEXT: v_min_u32_e32 v1, s1, v1			; GFX6-NEXT: v_min_u32_e32 v1, s1, v1
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, s0, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, s0, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: uaddsat_v2i16_sv:			; GFX8-LABEL: uaddsat_v2i16_sv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v2, s1			; GFX8-NEXT: v_mov_b32_e32 v2, s1
	; GFX8-NEXT: v_add_u16_e64 v1, s0, v0 clamp			; GFX8-NEXT: v_add_u16_e64 v1, s0, v0 clamp
	; GFX8-NEXT: v_add_u16_sdwa v0, v2, v0 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v0, v2, v0 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	Show All 25 Lines
	; GFX6-NEXT: v_min_u32_e32 v2, s0, v2			; GFX6-NEXT: v_min_u32_e32 v2, s0, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_xor_b32_e32 v2, -1, v1			; GFX6-NEXT: v_xor_b32_e32 v2, -1, v1
	; GFX6-NEXT: v_min_u32_e32 v2, s0, v2			; GFX6-NEXT: v_min_u32_e32 v2, s0, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: uaddsat_v2i16_vs:			; GFX8-LABEL: uaddsat_v2i16_vs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v2, s1			; GFX8-NEXT: v_mov_b32_e32 v2, s1
	; GFX8-NEXT: v_add_u16_e64 v1, v0, s0 clamp			; GFX8-NEXT: v_add_u16_e64 v1, v0, s0 clamp
	; GFX8-NEXT: v_add_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v6			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v6
	; GFX6-NEXT: v_xor_b32_e32 v5, -1, v2			; GFX6-NEXT: v_xor_b32_e32 v5, -1, v2
	; GFX6-NEXT: v_min_u32_e32 v4, v5, v4			; GFX6-NEXT: v_min_u32_e32 v4, v5, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7
	; GFX6-NEXT: v_xor_b32_e32 v5, -1, v3			; GFX6-NEXT: v_xor_b32_e32 v5, -1, v3
	; GFX6-NEXT: v_min_u32_e32 v4, v5, v4			; GFX6-NEXT: v_min_u32_e32 v4, v5, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_uaddsat_v4i16:			; GFX8-LABEL: v_uaddsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u16_e64 v4, v0, v2 clamp			; GFX8-NEXT: v_add_u16_e64 v4, v0, v2 clamp
	; GFX8-NEXT: v_add_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_u16_e64 v2, v1, v3 clamp			; GFX8-NEXT: v_add_u16_e64 v2, v1, v3 clamp
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b32 s4, s6, 16			; GFX6-NEXT: s_lshl_b32 s4, s6, 16
	; GFX6-NEXT: s_not_b32 s5, s2			; GFX6-NEXT: s_not_b32 s5, s2
	; GFX6-NEXT: s_min_u32 s4, s5, s4			; GFX6-NEXT: s_min_u32 s4, s5, s4
	; GFX6-NEXT: s_lshl_b32 s3, s3, 16			; GFX6-NEXT: s_lshl_b32 s3, s3, 16
	; GFX6-NEXT: s_add_i32 s2, s2, s4			; GFX6-NEXT: s_add_i32 s2, s2, s4
	; GFX6-NEXT: s_lshl_b32 s4, s7, 16			; GFX6-NEXT: s_lshl_b32 s4, s7, 16
	; GFX6-NEXT: s_not_b32 s5, s3			; GFX6-NEXT: s_not_b32 s5, s3
	; GFX6-NEXT: s_min_u32 s4, s5, s4			; GFX6-NEXT: s_min_u32 s4, s5, s4
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_add_i32 s3, s3, s4			; GFX6-NEXT: s_add_i32 s3, s3, s4
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_uaddsat_v4i16:			; GFX8-LABEL: s_uaddsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s6, s2, 16			; GFX8-NEXT: s_lshr_b32 s6, s2, 16
	; GFX8-NEXT: s_lshr_b32 s4, s0, 16			; GFX8-NEXT: s_lshr_b32 s4, s0, 16
	; GFX8-NEXT: s_lshr_b32 s7, s3, 16			; GFX8-NEXT: s_lshr_b32 s7, s3, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s6			; GFX8-NEXT: v_mov_b32_e32 v1, s6
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v10			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v10
	; GFX6-NEXT: v_xor_b32_e32 v7, -1, v4			; GFX6-NEXT: v_xor_b32_e32 v7, -1, v4
	; GFX6-NEXT: v_min_u32_e32 v6, v7, v6			; GFX6-NEXT: v_min_u32_e32 v6, v7, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11
	; GFX6-NEXT: v_xor_b32_e32 v7, -1, v5			; GFX6-NEXT: v_xor_b32_e32 v7, -1, v5
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_u32_e32 v6, v7, v6			; GFX6-NEXT: v_min_u32_e32 v6, v7, v6
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_alignbit_b32 v2, v5, v4, 16
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_uaddsat_v6i16:			; GFX8-LABEL: v_uaddsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u16_e64 v6, v0, v3 clamp			; GFX8-NEXT: v_add_u16_e64 v6, v0, v3 clamp
	; GFX8-NEXT: v_add_u16_sdwa v0, v0, v3 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v0, v0, v3 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_u16_e64 v3, v1, v4 clamp			; GFX8-NEXT: v_add_u16_e64 v3, v1, v4 clamp
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_add_i32 s3, s3, s6			; GFX6-NEXT: s_add_i32 s3, s3, s6
	; GFX6-NEXT: s_lshl_b32 s6, s10, 16			; GFX6-NEXT: s_lshl_b32 s6, s10, 16
	; GFX6-NEXT: s_not_b32 s7, s4			; GFX6-NEXT: s_not_b32 s7, s4
	; GFX6-NEXT: s_min_u32 s6, s7, s6			; GFX6-NEXT: s_min_u32 s6, s7, s6
	; GFX6-NEXT: s_lshl_b32 s5, s5, 16			; GFX6-NEXT: s_lshl_b32 s5, s5, 16
	; GFX6-NEXT: s_add_i32 s4, s4, s6			; GFX6-NEXT: s_add_i32 s4, s4, s6
	; GFX6-NEXT: s_lshl_b32 s6, s11, 16			; GFX6-NEXT: s_lshl_b32 s6, s11, 16
	; GFX6-NEXT: s_not_b32 s7, s5			; GFX6-NEXT: s_not_b32 s7, s5
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_min_u32 s6, s7, s6			; GFX6-NEXT: s_min_u32 s6, s7, s6
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_add_i32 s5, s5, s6			; GFX6-NEXT: s_add_i32 s5, s5, s6
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshr_b32 s5, s5, 16			; GFX6-NEXT: s_lshr_b32 s5, s5, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s4, s4, 16			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
				foadUnsubmitted Not Done Reply Inline Actions Maybe not your fault, but it's a bad idea to use a VALU instruction for uniform values, especially if it means we need to insert readfirstlanes. foad: Maybe not your fault, but it's a bad idea to use a VALU instruction for uniform values…
				arsenmUnsubmitted Not Done Reply Inline Actions should probably do this in the post-regbank combiner arsenm: should probably do this in the post-regbank combiner
				abinavppAuthorUnsubmitted Done Reply Inline Actions We could maintain this generic combine and an AMDGPU specific post regbank-select version that bails out on an SGPR destination by reusing the match code. We'll need to exclude the generic combine until regbank-select in AMDGPUCombine.td. More importantly, is this worth the effort? The constant shift amt pattern looks bad for uniform, but the original pattern: define amdgpu_kernel void @fshr_v4i32(<4 x i32> %a, <4 x i32> %b, <4 x i32> %amt, <4 x i32> addrspace(1)* %m) { %sub = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %amt %shl = shl <4 x i32> %a, %sub %lshr = lshr <4 x i32> %b, %amt %ret = or <4 x i32> %shl, %lshr store <4 x i32> %ret, <4 x i32> addrspace(1)* %m ret void } has lesser instructions with the combine. How should we move forward? abinavpp: We could maintain this generic combine and an AMDGPU specific post regbank-select version that…
				foadUnsubmitted Not Done Reply Inline Actions Can't we just do what this comment in RegBankSelect says: case AMDGPU::G_FSHR: // TODO: Expand for scalar maybe expanding it to S_LSHR_B64 and just taking the low part of the result? In any case I don't think this needs to block the current patch. foad: Can't we just do what this comment in RegBankSelect says: ``` case AMDGPU::G_FSHR: // TODO…
	; GFX6-NEXT: s_lshl_b32 s2, s5, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_or_b32 s2, s4, s2			; GFX6-NEXT: v_alignbit_b32 v2, s5, v2, 16
				; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
				; GFX6-NEXT: v_readfirstlane_b32 s2, v2
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_uaddsat_v6i16:			; GFX8-LABEL: s_uaddsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s9, s3, 16			; GFX8-NEXT: s_lshr_b32 s9, s3, 16
	; GFX8-NEXT: s_lshr_b32 s6, s0, 16			; GFX8-NEXT: s_lshr_b32 s6, s0, 16
	; GFX8-NEXT: s_lshr_b32 s10, s4, 16			; GFX8-NEXT: s_lshr_b32 s10, s4, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s9			; GFX8-NEXT: v_mov_b32_e32 v1, s9
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v8			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v14			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v14
	; GFX6-NEXT: v_xor_b32_e32 v9, -1, v6			; GFX6-NEXT: v_xor_b32_e32 v9, -1, v6
	; GFX6-NEXT: v_min_u32_e32 v8, v9, v8			; GFX6-NEXT: v_min_u32_e32 v8, v9, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15
	; GFX6-NEXT: v_xor_b32_e32 v9, -1, v7			; GFX6-NEXT: v_xor_b32_e32 v9, -1, v7
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_u32_e32 v8, v9, v8			; GFX6-NEXT: v_min_u32_e32 v8, v9, v8
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_add_i32_e32 v7, vcc, v7, v8			; GFX6-NEXT: v_add_i32_e32 v7, vcc, v7, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_lshrrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_alignbit_b32 v2, v5, v4, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v6, 16, v6			; GFX6-NEXT: v_alignbit_b32 v3, v7, v6, 16
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7
	; GFX6-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX6-NEXT: v_or_b32_e32 v3, v6, v3
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_uaddsat_v8i16:			; GFX8-LABEL: v_uaddsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_add_u16_e64 v8, v0, v4 clamp			; GFX8-NEXT: v_add_u16_e64 v8, v0, v4 clamp
	; GFX8-NEXT: v_add_u16_sdwa v0, v0, v4 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v0, v0, v4 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_add_u16_e64 v4, v1, v5 clamp			; GFX8-NEXT: v_add_u16_e64 v4, v1, v5 clamp
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_add_i32 s5, s5, s8			; GFX6-NEXT: s_add_i32 s5, s5, s8
	; GFX6-NEXT: s_lshl_b32 s8, s14, 16			; GFX6-NEXT: s_lshl_b32 s8, s14, 16
	; GFX6-NEXT: s_not_b32 s9, s6			; GFX6-NEXT: s_not_b32 s9, s6
	; GFX6-NEXT: s_min_u32 s8, s9, s8			; GFX6-NEXT: s_min_u32 s8, s9, s8
	; GFX6-NEXT: s_lshl_b32 s7, s7, 16			; GFX6-NEXT: s_lshl_b32 s7, s7, 16
	; GFX6-NEXT: s_add_i32 s6, s6, s8			; GFX6-NEXT: s_add_i32 s6, s6, s8
	; GFX6-NEXT: s_lshl_b32 s8, s15, 16			; GFX6-NEXT: s_lshl_b32 s8, s15, 16
	; GFX6-NEXT: s_not_b32 s9, s7			; GFX6-NEXT: s_not_b32 s9, s7
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_min_u32 s8, s9, s8			; GFX6-NEXT: s_min_u32 s8, s9, s8
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_add_i32 s7, s7, s8			; GFX6-NEXT: s_add_i32 s7, s7, s8
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshr_b32 s5, s5, 16			; GFX6-NEXT: s_lshr_b32 s5, s5, 16
	; GFX6-NEXT: s_lshr_b32 s7, s7, 16			; GFX6-NEXT: s_lshr_b32 s7, s7, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s4, s4, 16			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: s_lshr_b32 s6, s6, 16			; GFX6-NEXT: v_mov_b32_e32 v3, s6
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_lshl_b32 s2, s5, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_lshl_b32 s3, s7, 16			; GFX6-NEXT: v_alignbit_b32 v2, s5, v2, 16
	; GFX6-NEXT: s_or_b32 s2, s4, s2			; GFX6-NEXT: v_alignbit_b32 v3, s7, v3, 16
	; GFX6-NEXT: s_or_b32 s3, s6, s3			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
				; GFX6-NEXT: v_readfirstlane_b32 s2, v2
				; GFX6-NEXT: v_readfirstlane_b32 s3, v3
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_uaddsat_v8i16:			; GFX8-LABEL: s_uaddsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s12, s4, 16			; GFX8-NEXT: s_lshr_b32 s12, s4, 16
	; GFX8-NEXT: s_lshr_b32 s8, s0, 16			; GFX8-NEXT: s_lshr_b32 s8, s0, 16
	; GFX8-NEXT: s_lshr_b32 s13, s5, 16			; GFX8-NEXT: s_lshr_b32 s13, s5, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s12			; GFX8-NEXT: v_mov_b32_e32 v1, s12
	▲ Show 20 Lines • Show All 1,345 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

	Show First 20 Lines • Show All 365 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_min_u32_e32 v2, v1, v2			; GFX6-NEXT: v_min_u32_e32 v2, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v6			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX6-NEXT: v_min_u32_e32 v3, v2, v3			; GFX6-NEXT: v_min_u32_e32 v3, v2, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_min_u32_e32 v4, v3, v4			; GFX6-NEXT: v_min_u32_e32 v4, v3, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 24
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_usubsat_v4i8:			; GFX8-LABEL: v_usubsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_min_u32 s2, s1, s2			; GFX6-NEXT: s_min_u32 s2, s1, s2
	; GFX6-NEXT: s_sub_i32 s1, s1, s2			; GFX6-NEXT: s_sub_i32 s1, s1, s2
	; GFX6-NEXT: s_lshl_b32 s2, s3, 24			; GFX6-NEXT: s_lshl_b32 s2, s3, 24
	; GFX6-NEXT: s_lshl_b32 s3, s6, 24			; GFX6-NEXT: s_lshl_b32 s3, s6, 24
	; GFX6-NEXT: s_min_u32 s3, s2, s3			; GFX6-NEXT: s_min_u32 s3, s2, s3
	; GFX6-NEXT: s_sub_i32 s2, s2, s3			; GFX6-NEXT: s_sub_i32 s2, s2, s3
	; GFX6-NEXT: s_lshl_b32 s3, s4, 24			; GFX6-NEXT: s_lshl_b32 s3, s4, 24
	; GFX6-NEXT: s_lshl_b32 s4, s7, 24			; GFX6-NEXT: s_lshl_b32 s4, s7, 24
	; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: s_min_u32 s4, s3, s4			; GFX6-NEXT: s_min_u32 s4, s3, s4
	; GFX6-NEXT: s_lshr_b32 s0, s0, 24			; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: s_lshr_b32 s2, s2, 24			; GFX6-NEXT: s_lshr_b32 s2, s2, 24
	; GFX6-NEXT: s_sub_i32 s3, s3, s4			; GFX6-NEXT: s_sub_i32 s3, s3, s4
	; GFX6-NEXT: s_lshl_b32 s1, s1, 8			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshr_b32 s3, s3, 24			; GFX6-NEXT: s_lshr_b32 s3, s3, 24
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 24
	; GFX6-NEXT: s_lshl_b32 s1, s2, 16			; GFX6-NEXT: s_lshl_b32 s0, s2, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 24			; GFX6-NEXT: s_lshl_b32 s0, s3, 24
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_or_b32_e32 v0, s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_usubsat_v4i8:			; GFX8-LABEL: s_usubsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_bfe_u32 s8, 8, 0x100000			; GFX8-NEXT: s_bfe_u32 s8, 8, 0x100000
	; GFX8-NEXT: s_lshr_b32 s5, s1, 8			; GFX8-NEXT: s_lshr_b32 s5, s1, 8
	; GFX8-NEXT: s_lshr_b32 s6, s1, 16			; GFX8-NEXT: s_lshr_b32 s6, s1, 16
	; GFX8-NEXT: s_lshr_b32 s7, s1, 24			; GFX8-NEXT: s_lshr_b32 s7, s1, 24
	▲ Show 20 Lines • Show All 1,178 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b32 s2, s2, 16			; GFX6-NEXT: s_lshl_b32 s2, s2, 16
	; GFX6-NEXT: s_min_u32 s2, s0, s2			; GFX6-NEXT: s_min_u32 s2, s0, s2
	; GFX6-NEXT: s_sub_i32 s0, s0, s2			; GFX6-NEXT: s_sub_i32 s0, s0, s2
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshl_b32 s1, s1, 16
	; GFX6-NEXT: s_lshl_b32 s2, s3, 16			; GFX6-NEXT: s_lshl_b32 s2, s3, 16
	; GFX6-NEXT: s_min_u32 s2, s1, s2			; GFX6-NEXT: s_min_u32 s2, s1, s2
	; GFX6-NEXT: s_sub_i32 s1, s1, s2			; GFX6-NEXT: s_sub_i32 s1, s1, s2
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_usubsat_v2i16:			; GFX8-LABEL: s_usubsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s3, s1, 16			; GFX8-NEXT: s_lshr_b32 s3, s1, 16
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_lshr_b32 s2, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mov_b32_e32 v0, s1			; GFX8-NEXT: v_mov_b32_e32 v0, s1
	Show All 29 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_min_u32_e32 v0, s0, v0			; GFX6-NEXT: v_min_u32_e32 v0, s0, v0
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s0, v0
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_u32_e32 v1, s0, v1			; GFX6-NEXT: v_min_u32_e32 v1, s0, v1
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: usubsat_v2i16_sv:			; GFX8-LABEL: usubsat_v2i16_sv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v2, s1			; GFX8-NEXT: v_mov_b32_e32 v2, s1
	; GFX8-NEXT: v_sub_u16_e64 v1, s0, v0 clamp			; GFX8-NEXT: v_sub_u16_e64 v1, s0, v0 clamp
	; GFX8-NEXT: v_sub_u16_sdwa v0, v2, v0 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_sub_u16_sdwa v0, v2, v0 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	Show All 23 Lines
	; GFX6-NEXT: s_lshl_b32 s0, s0, 16			; GFX6-NEXT: s_lshl_b32 s0, s0, 16
	; GFX6-NEXT: v_min_u32_e32 v2, s0, v0			; GFX6-NEXT: v_min_u32_e32 v2, s0, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_u32_e32 v2, s0, v1			; GFX6-NEXT: v_min_u32_e32 v2, s0, v1
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: usubsat_v2i16_vs:			; GFX8-LABEL: usubsat_v2i16_vs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v2, s1			; GFX8-NEXT: v_mov_b32_e32 v2, s1
	; GFX8-NEXT: v_sub_u16_e64 v1, v0, s0 clamp			; GFX8-NEXT: v_sub_u16_e64 v1, v0, s0 clamp
	; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v6			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v6
	; GFX6-NEXT: v_min_u32_e32 v4, v2, v4			; GFX6-NEXT: v_min_u32_e32 v4, v2, v4
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7
	; GFX6-NEXT: v_min_u32_e32 v4, v3, v4			; GFX6-NEXT: v_min_u32_e32 v4, v3, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_usubsat_v4i16:			; GFX8-LABEL: v_usubsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_u16_e64 v4, v0, v2 clamp			; GFX8-NEXT: v_sub_u16_e64 v4, v0, v2 clamp
	; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v2 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_u16_e64 v2, v1, v3 clamp			; GFX8-NEXT: v_sub_u16_e64 v2, v1, v3 clamp
	Show All 37 Lines
	; GFX6-NEXT: s_sub_i32 s1, s1, s4			; GFX6-NEXT: s_sub_i32 s1, s1, s4
	; GFX6-NEXT: s_lshl_b32 s2, s2, 16			; GFX6-NEXT: s_lshl_b32 s2, s2, 16
	; GFX6-NEXT: s_lshl_b32 s4, s6, 16			; GFX6-NEXT: s_lshl_b32 s4, s6, 16
	; GFX6-NEXT: s_min_u32 s4, s2, s4			; GFX6-NEXT: s_min_u32 s4, s2, s4
	; GFX6-NEXT: s_sub_i32 s2, s2, s4			; GFX6-NEXT: s_sub_i32 s2, s2, s4
	; GFX6-NEXT: s_lshl_b32 s3, s3, 16			; GFX6-NEXT: s_lshl_b32 s3, s3, 16
	; GFX6-NEXT: s_lshl_b32 s4, s7, 16			; GFX6-NEXT: s_lshl_b32 s4, s7, 16
	; GFX6-NEXT: s_min_u32 s4, s3, s4			; GFX6-NEXT: s_min_u32 s4, s3, s4
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_sub_i32 s3, s3, s4			; GFX6-NEXT: s_sub_i32 s3, s3, s4
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_usubsat_v4i16:			; GFX8-LABEL: s_usubsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s6, s2, 16			; GFX8-NEXT: s_lshr_b32 s6, s2, 16
	; GFX8-NEXT: s_lshr_b32 s4, s0, 16			; GFX8-NEXT: s_lshr_b32 s4, s0, 16
	; GFX8-NEXT: s_lshr_b32 s7, s3, 16			; GFX8-NEXT: s_lshr_b32 s7, s3, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s6			; GFX8-NEXT: v_mov_b32_e32 v1, s6
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_min_u32_e32 v6, v3, v6			; GFX6-NEXT: v_min_u32_e32 v6, v3, v6
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v10			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v10
	; GFX6-NEXT: v_min_u32_e32 v6, v4, v6			; GFX6-NEXT: v_min_u32_e32 v6, v4, v6
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_u32_e32 v6, v5, v6			; GFX6-NEXT: v_min_u32_e32 v6, v5, v6
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_alignbit_b32 v2, v5, v4, 16
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_usubsat_v6i16:			; GFX8-LABEL: v_usubsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_u16_e64 v6, v0, v3 clamp			; GFX8-NEXT: v_sub_u16_e64 v6, v0, v3 clamp
	; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v3 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v3 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_u16_e64 v3, v1, v4 clamp			; GFX8-NEXT: v_sub_u16_e64 v3, v1, v4 clamp
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_min_u32 s6, s3, s6			; GFX6-NEXT: s_min_u32 s6, s3, s6
	; GFX6-NEXT: s_sub_i32 s3, s3, s6			; GFX6-NEXT: s_sub_i32 s3, s3, s6
	; GFX6-NEXT: s_lshl_b32 s4, s4, 16			; GFX6-NEXT: s_lshl_b32 s4, s4, 16
	; GFX6-NEXT: s_lshl_b32 s6, s10, 16			; GFX6-NEXT: s_lshl_b32 s6, s10, 16
	; GFX6-NEXT: s_min_u32 s6, s4, s6			; GFX6-NEXT: s_min_u32 s6, s4, s6
	; GFX6-NEXT: s_sub_i32 s4, s4, s6			; GFX6-NEXT: s_sub_i32 s4, s4, s6
	; GFX6-NEXT: s_lshl_b32 s5, s5, 16			; GFX6-NEXT: s_lshl_b32 s5, s5, 16
	; GFX6-NEXT: s_lshl_b32 s6, s11, 16			; GFX6-NEXT: s_lshl_b32 s6, s11, 16
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_min_u32 s6, s5, s6			; GFX6-NEXT: s_min_u32 s6, s5, s6
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_sub_i32 s5, s5, s6			; GFX6-NEXT: s_sub_i32 s5, s5, s6
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshr_b32 s5, s5, 16			; GFX6-NEXT: s_lshr_b32 s5, s5, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s4, s4, 16			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_lshl_b32 s2, s5, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_or_b32 s2, s4, s2			; GFX6-NEXT: v_alignbit_b32 v2, s5, v2, 16
				; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
				; GFX6-NEXT: v_readfirstlane_b32 s2, v2
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_usubsat_v6i16:			; GFX8-LABEL: s_usubsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s9, s3, 16			; GFX8-NEXT: s_lshr_b32 s9, s3, 16
	; GFX8-NEXT: s_lshr_b32 s6, s0, 16			; GFX8-NEXT: s_lshr_b32 s6, s0, 16
	; GFX8-NEXT: s_lshr_b32 s10, s4, 16			; GFX8-NEXT: s_lshr_b32 s10, s4, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s9			; GFX8-NEXT: v_mov_b32_e32 v1, s9
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_min_u32_e32 v8, v5, v8			; GFX6-NEXT: v_min_u32_e32 v8, v5, v8
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v8			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v14			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v14
	; GFX6-NEXT: v_min_u32_e32 v8, v6, v8			; GFX6-NEXT: v_min_u32_e32 v8, v6, v8
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_u32_e32 v8, v7, v8			; GFX6-NEXT: v_min_u32_e32 v8, v7, v8
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v8			; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5			; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v5
	; GFX6-NEXT: v_lshrrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_alignbit_b32 v0, v1, v0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX6-NEXT: v_alignbit_b32 v1, v3, v2, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_alignbit_b32 v2, v5, v4, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v6, 16, v6			; GFX6-NEXT: v_alignbit_b32 v3, v7, v6, 16
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7
	; GFX6-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX6-NEXT: v_or_b32_e32 v3, v6, v3
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_usubsat_v8i16:			; GFX8-LABEL: v_usubsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sub_u16_e64 v8, v0, v4 clamp			; GFX8-NEXT: v_sub_u16_e64 v8, v0, v4 clamp
	; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v4 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v4 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_sub_u16_e64 v4, v1, v5 clamp			; GFX8-NEXT: v_sub_u16_e64 v4, v1, v5 clamp
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_min_u32 s8, s5, s8			; GFX6-NEXT: s_min_u32 s8, s5, s8
	; GFX6-NEXT: s_sub_i32 s5, s5, s8			; GFX6-NEXT: s_sub_i32 s5, s5, s8
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_lshl_b32 s8, s14, 16			; GFX6-NEXT: s_lshl_b32 s8, s14, 16
	; GFX6-NEXT: s_min_u32 s8, s6, s8			; GFX6-NEXT: s_min_u32 s8, s6, s8
	; GFX6-NEXT: s_sub_i32 s6, s6, s8			; GFX6-NEXT: s_sub_i32 s6, s6, s8
	; GFX6-NEXT: s_lshl_b32 s7, s7, 16			; GFX6-NEXT: s_lshl_b32 s7, s7, 16
	; GFX6-NEXT: s_lshl_b32 s8, s15, 16			; GFX6-NEXT: s_lshl_b32 s8, s15, 16
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_min_u32 s8, s7, s8			; GFX6-NEXT: s_min_u32 s8, s7, s8
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_sub_i32 s7, s7, s8			; GFX6-NEXT: s_sub_i32 s7, s7, s8
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: s_lshr_b32 s3, s3, 16
	; GFX6-NEXT: s_lshr_b32 s5, s5, 16			; GFX6-NEXT: s_lshr_b32 s5, s5, 16
	; GFX6-NEXT: s_lshr_b32 s7, s7, 16			; GFX6-NEXT: s_lshr_b32 s7, s7, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: s_lshl_b32 s1, s3, 16			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s4, s4, 16			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: s_lshr_b32 s6, s6, 16			; GFX6-NEXT: v_mov_b32_e32 v3, s6
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: v_alignbit_b32 v0, s1, v0, 16
	; GFX6-NEXT: s_lshl_b32 s2, s5, 16			; GFX6-NEXT: v_alignbit_b32 v1, s3, v1, 16
	; GFX6-NEXT: s_lshl_b32 s3, s7, 16			; GFX6-NEXT: v_alignbit_b32 v2, s5, v2, 16
	; GFX6-NEXT: s_or_b32 s2, s4, s2			; GFX6-NEXT: v_alignbit_b32 v3, s7, v3, 16
	; GFX6-NEXT: s_or_b32 s3, s6, s3			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
				; GFX6-NEXT: v_readfirstlane_b32 s1, v1
				; GFX6-NEXT: v_readfirstlane_b32 s2, v2
				; GFX6-NEXT: v_readfirstlane_b32 s3, v3
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_usubsat_v8i16:			; GFX8-LABEL: s_usubsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s12, s4, 16			; GFX8-NEXT: s_lshr_b32 s12, s4, 16
	; GFX8-NEXT: s_lshr_b32 s8, s0, 16			; GFX8-NEXT: s_lshr_b32 s8, s0, 16
	; GFX8-NEXT: s_lshr_b32 s13, s5, 16			; GFX8-NEXT: s_lshr_b32 s13, s5, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s12			; GFX8-NEXT: v_mov_b32_e32 v1, s12
	▲ Show 20 Lines • Show All 1,345 Lines • Show Last 20 Lines