Diff 505395

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

	Show First 20 Lines • Show All 281 Lines • ▼ Show 20 Lines
	def cashr_rev_#width : PatFrag <(ops node:$src0, node:$src1),			def cashr_rev_#width : PatFrag <(ops node:$src0, node:$src1),
	(csra $src1, $src0)>;			(csra $src1, $src0)>;
	} // end foreach width			} // end foreach width

	def srl_16 : PatFrag<			def srl_16 : PatFrag<
	(ops node:$src0), (srl_oneuse node:$src0, (i32 16))			(ops node:$src0), (srl_oneuse node:$src0, (i32 16))
	>;			>;

				def clamp_s16_u8 : PatFrag<
				(ops node:$src),
				(i16 (AMDGPUsmed3 $src, (i16 0), (i16 255)))
				>;
				foadUnsubmitted Done Reply Inline Actions Do you also need to match them the other way round: `(smin (smax $src, (i16 0)), (i16 255))`? foad: Do you also need to match them the other way round: `(smin (smax $src, (i16 0)), (i16 255))`?
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions I thought so too, but the other way around is always folded to smed3 it seems Pierre-vh: I thought so too, but the other way around is always folded to smed3 it seems
				foadUnsubmitted Not Done Reply Inline Actions That raises the question, why aren't both ways folded to smed3? foad: That raises the question, why aren't both ways folded to smed3?
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions I am not sure if this is intentional or if it's a missed opportunity @arsenm is there any reason why we can't fold smax/smin into med3 like we do for smin/smax? Pierre-vh: I am not sure if this is intentional or if it's a missed opportunity @arsenm is there any…
				arsenmUnsubmitted Done Reply Inline Actions We have the two cases handled in IntMed3Pat already. I guess that just wasn't applied to the 16-bit case? IIRC the 16-bit med3 was introduced after 16-bit min/max so it likely got missed whenever that happened arsenm: We have the two cases handled in IntMed3Pat already. I guess that just wasn't applied to the 16…
				arsenmUnsubmitted Done Reply Inline Actions Actually we have a separate Int16Med3Pat which handles both cases? arsenm: Actually we have a separate Int16Med3Pat which handles both cases?
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions That's separate, I meant the smed3 DAG op not the instruction. We only seem to match `min(max(x, K0), K1), K0 < K1 -> med3(x, K0, K1)` currently. Should we also be matching the commuted version? Then the pattern can just use smed3 directly and doesn't need this PatFrag. Pierre-vh: That's separate, I meant the smed3 DAG op not the instruction. We only seem to match `min(max(x…
				arsenmUnsubmitted Done Reply Inline Actions Yes, the combine should match both versions arsenm: Yes, the combine should match both versions
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions Is this correct for the commuted version? max(min(x, K0), K1), K1 < K0 -> med3(x, K0, K1) (= keep the max rhs < min rhs and don't just swap opcodes) Pierre-vh: Is this correct for the commuted version? ``` max(min(x, K0), K1), K1 < K0 -> med3(x, K0, K1)…
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions See D145159 Pierre-vh: See D145159

	def hi_i16_elt : PatFrag<			def hi_i16_elt : PatFrag<
	(ops node:$src0), (i16 (trunc (i32 (srl_16 node:$src0))))			(ops node:$src0), (i16 (trunc (i32 (srl_16 node:$src0))))
	>;			>;


	def hi_f16_elt : PatLeaf<			def hi_f16_elt : PatLeaf<
	(vt), [{			(vt), [{
	▲ Show 20 Lines • Show All 542 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

//===-- SIInstructions.td - SI Instruction Definitions --------------------===//		//===-- SIInstructions.td - SI Instruction Definitions --------------------===//
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// This file was originally auto-generated from a GPU register header file and		// This file was originally auto-generated from a GPU register header file and
// all the instruction definitions were originally commented out. Instructions		// all the instruction definitions were originally commented out. Instructions
// that are not yet supported remain commented out.		// that are not yet supported remain commented out.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

class GCNPat<dag pattern, dag result> : Pat<pattern, result>, GCNPredicateControl {		class GCNPat<dag pattern, dag result> : Pat<pattern, result>, GCNPredicateControl, GISelFlags;

}		let GIIgnoreCopies = 1 in
		class GCNPatIgnoreCopies<dag pattern, dag result> : GCNPat<pattern, result>;

class UniformSextInreg<ValueType VT> : PatFrag<		class UniformSextInreg<ValueType VT> : PatFrag<
(ops node:$src),		(ops node:$src),
(sext_inreg $src, VT),		(sext_inreg $src, VT),
[{ return !N->isDivergent(); }]>;		[{ return !N->isDivergent(); }]>;

class DivergentSextInreg<ValueType VT> : PatFrag<		class DivergentSextInreg<ValueType VT> : PatFrag<
(ops node:$src),		(ops node:$src),
▲ Show 20 Lines • Show All 2,896 Lines • ▼ Show 20 Lines	def : GCNPat <
(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)		(S_PACK_LL_B32_B16 SReg_32:$src0, SReg_32:$src1)
>;		>;

def : GCNPat <		def : GCNPat <
(v2i16 (DivergentBinFrag<build_vector> (i16 VGPR_32:$src0), (i16 VGPR_32:$src1))),		(v2i16 (DivergentBinFrag<build_vector> (i16 VGPR_32:$src0), (i16 VGPR_32:$src1))),
(v2i16 (V_LSHL_OR_B32_e64 $src1, (i32 16), (i32 (V_AND_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), $src0))))		(v2i16 (V_LSHL_OR_B32_e64 $src1, (i32 16), (i32 (V_AND_B32_e64 (i32 (V_MOV_B32_e32 (i32 0xffff))), $src0))))
>;		>;

		multiclass V_SAT_PK_Pat<Instruction inst> {
		foadUnsubmitted Done Reply Inline Actions Probably should not generate any VALU instructions without a DivergentFrag check. foad:* Probably should not generate any VALU instructions without a Divergent*Frag check.
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions Should this only be for vector operations? (use DivergentBinFrag?) Pierre-vh: Should this only be for vector operations? (use DivergentBinFrag?)
		foadUnsubmitted Done Reply Inline Actions You have added trailing whitespace on a few lines in this file. foad: You have added trailing whitespace on a few lines in this file.
		def: GCNPat<
		(v2i16 (DivergentBinFrag<build_vector> (clamp_s16_u8 i16:$lo), (clamp_s16_u8 i16:$hi))),
		foadUnsubmitted Not Done Reply Inline Actions Looking at this again, I don't think these patterns match what the instruction does. The instruction puts the two 8-bit results in bits [15..8] and [7..0], not in bits [23..16] and [7..0]. foad: Looking at this again, I don't think these patterns match what the instruction does. The…
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions Oh I see, right. Not sure what the right pattern is then. All of the patterns are wrong in that case. Maybe it needs to match an additional trunc to v2i8 after the build_vector? Pierre-vh: Oh I see, right. Not sure what the right pattern is then. All of the patterns are wrong in that…
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions I took a look and adding a trunc <2xi16> to <2xi8> causes the following: DAG uses bitwise operations instead in the first testcase, I think that can still be matched easily. GISel on the other hand doesn't seem to pack the values in 16 bits and returns 2 vgprs each containing 8 bits. Without the trunc though it still packs both 16 bit values in one register. I think some GISel work may be needed, or we shouldn't use a trunc. Pierre-vh: I took a look and adding a trunc <2xi16> to <2xi8> causes the following: - DAG uses bitwise…
		(inst
		(V_LSHL_OR_B32_e64 VGPR_32:$hi, (S_MOV_B32 (i32 16)),
		(V_AND_B32_e64 VGPR_32:$lo, (S_MOV_B32 (i32 0xFFFF)))))
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions Is it worth adding a GFX11/UniformBinFrag variant with S_PACK_LL? Pierre-vh: Is it worth adding a GFX11/UniformBinFrag variant with S_PACK_LL?
		>;

		def: GCNPatIgnoreCopies<
		(v2i16 (DivergentBinFrag<smin> (smax v2i16:$src, (build_vector (i16 0), (i16 0))), (build_vector (i16 255), (i16 255)))),
		(inst VGPR_32:$src)
		>;

		def: GCNPatIgnoreCopies<
		(v2i16 (DivergentBinFrag<smax> (smin v2i16:$src, (build_vector (i16 255), (i16 255))), (build_vector (i16 0), (i16 0)))),
		(inst VGPR_32:$src)
		>;
		}

		let OtherPredicates = [HasTrue16BitInsts] in
		defm : V_SAT_PK_Pat<V_SAT_PK_U8_I16_t16_e64>;

		let OtherPredicates = [NotHasTrue16BitInsts] in
		defm : V_SAT_PK_Pat<V_SAT_PK_U8_I16_e64>;

// With multiple uses of the shift, this will duplicate the shift and		// With multiple uses of the shift, this will duplicate the shift and
// increase register pressure.		// increase register pressure.
def : GCNPat <		def : GCNPat <
(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),		(v2i16 (UniformBinFrag<build_vector> (i16 SReg_32:$src0), (i16 (trunc (srl_oneuse SReg_32:$src1, (i32 16)))))),
(v2i16 (S_PACK_LH_B32_B16 SReg_32:$src0, SReg_32:$src1))		(v2i16 (S_PACK_LH_B32_B16 SReg_32:$src0, SReg_32:$src1))
>;		>;

def : GCNPat <		def : GCNPat <
▲ Show 20 Lines • Show All 712 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll

	Show All 24 Lines
	; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0			; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0
	; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1			; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1
	; SDAG-VI-NEXT: s_setpc_b64 s[30:31]			; SDAG-VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: basic_smax_smin:			; GFX9-LABEL: basic_smax_smin:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_med3_i16 v0, v0, 0, v2			; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX9-NEXT: v_med3_i16 v1, v1, 0, v2			; GFX9-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: basic_smax_smin:			; GFX11-LABEL: basic_smax_smin:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_med3_i16 v0, v0, 0, 0xff			; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: v_med3_i16 v1, v1, 0, 0xff			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100			; GFX11-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GISEL-VI-LABEL: basic_smax_smin:			; GISEL-VI-LABEL: basic_smax_smin:
	; GISEL-VI: ; %bb.0:			; GISEL-VI: ; %bb.0:
	; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-VI-NEXT: v_max_i16_e32 v0, 0, v0			; GISEL-VI-NEXT: v_max_i16_e32 v0, 0, v0
	; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1			; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff
	▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines
	; SDAG-VI-NEXT: v_max_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; SDAG-VI-NEXT: v_max_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0			; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0
	; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1			; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1
	; SDAG-VI-NEXT: s_setpc_b64 s[30:31]			; SDAG-VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: basic_smin_smax:			; GFX9-LABEL: basic_smin_smax:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_med3_i16 v0, v0, 0, v2			; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX9-NEXT: v_med3_i16 v1, v1, 0, v2			; GFX9-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: basic_smin_smax:			; GFX11-LABEL: basic_smin_smax:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_med3_i16 v0, v0, 0, 0xff			; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: v_med3_i16 v1, v1, 0, 0xff			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100			; GFX11-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GISEL-VI-LABEL: basic_smin_smax:			; GISEL-VI-LABEL: basic_smin_smax:
	; GISEL-VI: ; %bb.0:			; GISEL-VI: ; %bb.0:
	; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-VI-NEXT: v_min_i16_e32 v0, 0xff, v0			; GISEL-VI-NEXT: v_min_i16_e32 v0, 0xff, v0
	; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v1			; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v1
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0
	Show All 20 Lines
	; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0			; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0
	; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1			; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1
	; SDAG-VI-NEXT: s_setpc_b64 s[30:31]			; SDAG-VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: basic_smin_smax_combined:			; GFX9-LABEL: basic_smin_smax_combined:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_med3_i16 v0, v0, 0, v2			; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX9-NEXT: v_med3_i16 v1, v1, 0, v2			; GFX9-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s4, 0x5040100
	; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: basic_smin_smax_combined:			; GFX11-LABEL: basic_smin_smax_combined:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_med3_i16 v0, v0, 0, 0xff			; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-NEXT: v_med3_i16 v1, v1, 0, 0xff			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: v_perm_b32 v0, v1, v0, 0x5040100			; GFX11-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GISEL-VI-LABEL: basic_smin_smax_combined:			; GISEL-VI-LABEL: basic_smin_smax_combined:
	; GISEL-VI: ; %bb.0:			; GISEL-VI: ; %bb.0:
	; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-VI-NEXT: v_min_i16_e32 v0, 0xff, v0			; GISEL-VI-NEXT: v_min_i16_e32 v0, 0xff, v0
	; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1			; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff
	Show All 18 Lines
	; SDAG-VI-NEXT: v_max_i16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; SDAG-VI-NEXT: v_max_i16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0			; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0
	; SDAG-VI-NEXT: v_mov_b32_e32 v2, 0xff			; SDAG-VI-NEXT: v_mov_b32_e32 v2, 0xff
	; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0			; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0
	; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; SDAG-VI-NEXT: v_min_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1			; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1
	; SDAG-VI-NEXT: s_setpc_b64 s[30:31]			; SDAG-VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SDAG-GFX9-LABEL: vec_smax_smin:			; GFX9-LABEL: vec_smax_smin:
	; SDAG-GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; SDAG-GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SDAG-GFX9-NEXT: v_pk_max_i16 v0, v0, 0			; GFX9-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; SDAG-GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_setpc_b64 s[30:31]
	; SDAG-GFX9-NEXT: v_pk_min_i16 v0, v0, s4 op_sel_hi:[1,0]
	; SDAG-GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: vec_smax_smin:			; GFX11-LABEL: vec_smax_smin:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_pk_max_i16 v0, v0, 0			; GFX11-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_pk_min_i16 v0, 0xff, v0 op_sel_hi:[0,1]
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GISEL-VI-LABEL: vec_smax_smin:			; GISEL-VI-LABEL: vec_smax_smin:
	; GISEL-VI: ; %bb.0:			; GISEL-VI: ; %bb.0:
	; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0
	; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v0			; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v0
	; GISEL-VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GISEL-VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff
	; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v1			; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v1
	; GISEL-VI-NEXT: v_min_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GISEL-VI-NEXT: v_min_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GISEL-VI-NEXT: v_or_b32_e32 v0, v1, v0			; GISEL-VI-NEXT: v_or_b32_e32 v0, v1, v0
	; GISEL-VI-NEXT: s_setpc_b64 s[30:31]			; GISEL-VI-NEXT: s_setpc_b64 s[30:31]
	;
	; GISEL-GFX9-LABEL: vec_smax_smin:
	; GISEL-GFX9: ; %bb.0:
	; GISEL-GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX9-NEXT: v_pk_max_i16 v0, v0, 0
	; GISEL-GFX9-NEXT: v_mov_b32_e32 v1, 0xff00ff
	; GISEL-GFX9-NEXT: v_pk_min_i16 v0, v0, v1
	; GISEL-GFX9-NEXT: s_setpc_b64 s[30:31]
	%src.max = call <2 x i16> @llvm.smax.v2i16(<2 x i16> %src, <2 x i16> <i16 0, i16 0>)			%src.max = call <2 x i16> @llvm.smax.v2i16(<2 x i16> %src, <2 x i16> <i16 0, i16 0>)
	%src.clamp = call <2 x i16> @llvm.smin.v2i16(<2 x i16> %src.max, <2 x i16> <i16 255, i16 255>)			%src.clamp = call <2 x i16> @llvm.smin.v2i16(<2 x i16> %src.max, <2 x i16> <i16 255, i16 255>)
	ret <2 x i16> %src.clamp			ret <2 x i16> %src.clamp
	}			}

	; Check that we don't emit a VALU instruction for SGPR inputs.			; Check that we don't emit a VALU instruction for SGPR inputs.
	define amdgpu_kernel void @vec_smax_smin_sgpr(ptr addrspace(1) %out, <2 x i16> inreg %src) {			define amdgpu_kernel void @vec_smax_smin_sgpr(ptr addrspace(1) %out, <2 x i16> inreg %src) {
	; SDAG-VI-LABEL: vec_smax_smin_sgpr:			; SDAG-VI-LABEL: vec_smax_smin_sgpr:
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; SDAG-VI-NEXT: v_min_i16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; SDAG-VI-NEXT: v_min_i16_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0			; SDAG-VI-NEXT: v_min_i16_e32 v0, 0xff, v0
	; SDAG-VI-NEXT: v_mov_b32_e32 v2, 0			; SDAG-VI-NEXT: v_mov_b32_e32 v2, 0
	; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0			; SDAG-VI-NEXT: v_max_i16_e32 v0, 0, v0
	; SDAG-VI-NEXT: v_max_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; SDAG-VI-NEXT: v_max_i16_sdwa v1, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1			; SDAG-VI-NEXT: v_or_b32_e32 v0, v0, v1
	; SDAG-VI-NEXT: s_setpc_b64 s[30:31]			; SDAG-VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; SDAG-GFX9-LABEL: vec_smin_smax:			; GFX9-LABEL: vec_smin_smax:
	; SDAG-GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; SDAG-GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SDAG-GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; SDAG-GFX9-NEXT: v_pk_min_i16 v0, v0, s4 op_sel_hi:[1,0]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	; SDAG-GFX9-NEXT: v_pk_max_i16 v0, v0, 0
	; SDAG-GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: vec_smin_smax:			; GFX11-LABEL: vec_smin_smax:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_pk_min_i16 v0, 0xff, v0 op_sel_hi:[0,1]			; GFX11-NEXT: v_sat_pk_u8_i16_e32 v0, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_pk_max_i16 v0, v0, 0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GISEL-VI-LABEL: vec_smin_smax:			; GISEL-VI-LABEL: vec_smin_smax:
	; GISEL-VI: ; %bb.0:			; GISEL-VI: ; %bb.0:
	; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0xff
	; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v0			; GISEL-VI-NEXT: v_min_i16_e32 v1, 0xff, v0
	; GISEL-VI-NEXT: v_min_i16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GISEL-VI-NEXT: v_min_i16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0			; GISEL-VI-NEXT: v_mov_b32_e32 v2, 0
	; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1			; GISEL-VI-NEXT: v_max_i16_e32 v1, 0, v1
	; GISEL-VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GISEL-VI-NEXT: v_max_i16_sdwa v0, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GISEL-VI-NEXT: v_or_b32_e32 v0, v1, v0			; GISEL-VI-NEXT: v_or_b32_e32 v0, v1, v0
	; GISEL-VI-NEXT: s_setpc_b64 s[30:31]			; GISEL-VI-NEXT: s_setpc_b64 s[30:31]
	;
	; GISEL-GFX9-LABEL: vec_smin_smax:
	; GISEL-GFX9: ; %bb.0:
	; GISEL-GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX9-NEXT: v_mov_b32_e32 v1, 0xff00ff
	; GISEL-GFX9-NEXT: v_pk_min_i16 v0, v0, v1
	; GISEL-GFX9-NEXT: v_pk_max_i16 v0, v0, 0
	; GISEL-GFX9-NEXT: s_setpc_b64 s[30:31]
	%src.min = call <2 x i16> @llvm.smin.v2i16(<2 x i16> %src, <2 x i16> <i16 255, i16 255>)			%src.min = call <2 x i16> @llvm.smin.v2i16(<2 x i16> %src, <2 x i16> <i16 255, i16 255>)
	%src.clamp = call <2 x i16> @llvm.smax.v2i16(<2 x i16> %src.min, <2 x i16> <i16 0, i16 0>)			%src.clamp = call <2 x i16> @llvm.smax.v2i16(<2 x i16> %src.min, <2 x i16> <i16 0, i16 0>)
	ret <2 x i16> %src.clamp			ret <2 x i16> %src.clamp
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Select v_sat_pk_u8_i16
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 505395

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Select v_sat_pk_u8_i16ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 505395

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll

[AMDGPU] Select v_sat_pk_u8_i16
ClosedPublic