This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
1/2
AMDGPUInstructions.td
-
SOPInstructions.td
-
VOP2Instructions.td
-
VOP3Instructions.td
-
VOP3PInstructions.td
-
VOPInstructions.td
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
fshl.ll
-
fshr.ll
-
constrained-shift.ll
-
fshr.ll
-
shift-i64-opts.ll

Differential D110231

[AMDGPU] Add constrained shift pattern matches.
ClosedPublic

Authored by abinavpp on Sep 22 2021, 4:27 AM.

Download Raw Diff

Details

Reviewers

arsenm
foad
rampitec

Commits

rG61e3b9fefe13: [AMDGPU] Add constrained shift pattern matches.

Summary

The motivation for this is due to clang's conformance to
https://www.khronos.org/registry/OpenCL/specs/3.0-unified/html/OpenCL_C.html#operators-shift
which makes clang emit (<shift> a, (and b, <width> - 1)) for a <shift> b
in OpenCL where a is an int of bit width <width>.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

abinavpp created this revision.Sep 22 2021, 4:27 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptSep 22 2021, 4:27 AM

abinavpp requested review of this revision.Sep 22 2021, 4:27 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 22 2021, 4:27 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

abinavpp mentioned this in D109671: [AMDGPU] Add BFE pattern matches for constrained shifts..Sep 22 2021, 4:29 AM

Harbormaster completed remote builds in B125087: Diff 374181.Sep 22 2021, 4:51 AM

Also should test globalisel

llvm/lib/Target/AMDGPU/SIInstructions.td
2520 ↗	(On Diff #374181)	Should also handle scalar cases. Also consider handling 32-bit and 16-bit shifts
llvm/test/CodeGen/AMDGPU/shift-opts.ll
13–14 ↗	(On Diff #374181)	I would prefer to split each case into a separate function. Should also test the scalar cases

Would it be better to do this as some kind of DAGCombine, so that other patterns involving shifts (like for v_lshl_add etc instructions) can take advantage of it too? I wonder how other targets do this. I see X86 has isUnneededShiftMask() which is used in PatFrags for shift instruction selection.

llvm/lib/Target/AMDGPU/SIInstructions.td
2520 ↗	(On Diff #374181)	And 64-bit.

In D110231#3015225, @foad wrote:

Would it be better to do this as some kind of DAGCombine, so that other patterns involving shifts (like for v_lshl_add etc instructions) can take advantage of it too? I wonder how other targets do this. I see X86 has isUnneededShiftMask() which is used in PatFrags for shift instruction selection.

A combine would be painful because then we have to have custom nodes with these semantics. IIRC X86ISelDAGToDAG does the same basic thing

In D110231#3015515, @arsenm wrote:

In D110231#3015225, @foad wrote:

Would it be better to do this as some kind of DAGCombine, so that other patterns involving shifts (like for v_lshl_add etc instructions) can take advantage of it too? I wonder how other targets do this. I see X86 has isUnneededShiftMask() which is used in PatFrags for shift instruction selection.

A combine would be painful because then we have to have custom nodes with these semantics. IIRC X86ISelDAGToDAG does the same basic thing

Fair enough. How about some handy patfrags that we can use in all isel patterns that involve shifts?

In D110231#3015540, @foad wrote:

In D110231#3015515, @arsenm wrote:

In D110231#3015225, @foad wrote:

Would it be better to do this as some kind of DAGCombine, so that other patterns involving shifts (like for v_lshl_add etc instructions) can take advantage of it too? I wonder how other targets do this. I see X86 has isUnneededShiftMask() which is used in PatFrags for shift instruction selection.

A combine would be painful because then we have to have custom nodes with these semantics. IIRC X86ISelDAGToDAG does the same basic thing

Fair enough. How about some handy patfrags that we can use in all isel patterns that involve shifts?

That should work

Rebased; Did not address all review comments since I'm not sure about the
best approach.

I'm still confused between the generic fold approach and the PatFrags approach.

I think the PatFrags approach makes sense, but I'm a bit worried about the large
scale substitution we have to do in all the generic shift opcode references in
all the Target/AMDGPU .td files.

As @foad mentioned, it will be neater if we do (<shift> a, (and b, <width> - 1))
-> (<shift> a, b) in AMDGPU specific compilation where the target <shift> is
generic so that the other generic shift based pattern match (like the v_lshl_add
pattern match) will work. The problem here is that we'll be violating the
generic shift's semantics and, as @arsenm mentioned, creating custom nodes will
be painful.

Is there a situation where the aforementioned folding can go wrong in the AMDGPU
compilation? Also, is there a pre-isel, global-isel and selection-dag-isel
compatible, AMDGPU specific, tablegen way of generating (<shift> a, (and b,
<width> - 1)) -> (<shift> a, b)?

abinavpp added inline comments.Sep 29 2021, 3:20 AM

llvm/lib/Target/AMDGPU/SIInstructions.td
2529 ↗	(On Diff #375823)	Why can't I see the OPC_MorphNodeTo1 in the MatcherTable array of the generated GenDAGISel.inc for the 64 bit patterns?

Harbormaster completed remote builds in B126281: Diff 375823.Sep 29 2021, 3:22 AM

abinavpp planned changes to this revision.Sep 29 2021, 3:39 AM

foad added inline comments.Sep 29 2021, 7:00 AM

llvm/lib/Target/AMDGPU/SIInstructions.td
2516 ↗	(On Diff #375823)	`!sub(!shl(1, width), 1)`, surely?

I think the PatFrags approach makes sense, but I'm a bit worried about the large
scale substitution we have to do in all the generic shift opcode references in
all the Target/AMDGPU .td files.

I was hoping we could define something like this (I'm not sure of the exact syntax):

def ShiftAmount32 : PatFrags<(ops node:$src), [(i32 $src), (and (i32 $src), 31)]>;

This would match either a raw shift amount or a shift amount ANDed with 31. Then we could change every pattern that currently contains (shl $a, $b) to (shl $a, (ShiftAmount32 $b)) instead. Yes this will touch every pattern that mentions a generic shift opcode, but I think it's the right thing to do.

As @foad mentioned, it will be neater if we do (<shift> a, (and b, <width> - 1))
-> (<shift> a, b) in AMDGPU specific compilation where the target <shift> is
generic so that the other generic shift based pattern match (like the v_lshl_add
pattern match) will work. The problem here is that we'll be violating the
generic shift's semantics and, as @arsenm mentioned, creating custom nodes will
be painful.

I agree with Matt that this was not a good idea.

abinavpp added inline comments.Sep 29 2021, 6:49 PM

llvm/lib/Target/AMDGPU/SIInstructions.td
2516 ↗	(On Diff #375823)	This mask is used to perform modulo width using `and`, i.e. 'RHS % width'. See clang's ScalarExprEmitter::ConstrainShiftValue() which is invoked by shift codegen `if (CGF.getLangOpts().OpenCL)`.

foad added inline comments.Sep 30 2021, 1:18 AM

llvm/lib/Target/AMDGPU/SIInstructions.td
2516 ↗	(On Diff #375823)	You are right of course, sorry for the noise.

Changed to the PatFrags approach.

Harbormaster completed remote builds in B130356: Diff 381841.Oct 24 2021, 11:55 PM

LGTM, thanks!

Possible future improvement: apply this to other instructions like s_bfm and v_alignbit, which have an operand that works like a shift amount.

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td
249	Possible future improvement: instead of ignoring AND with mask, ignore AND with any value that has all those bits set, but possibly more. For example you could ignore AND with 0xFF here. X86 isUnneededShiftMask does this.

foad accepted this revision.Oct 25 2021, 7:35 AM

This revision is now accepted and ready to land.Oct 25 2021, 7:35 AM

Closed by commit rG61e3b9fefe13: [AMDGPU] Add constrained shift pattern matches. (authored by abinavpp). · Explain WhyOct 26 2021, 6:38 AM

This revision was automatically updated to reflect the committed changes.

abinavpp added a commit: rG61e3b9fefe13: [AMDGPU] Add constrained shift pattern matches..

abinavpp added inline comments.Nov 8 2021, 6:28 PM

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td
249	See D113448.

foad mentioned this in D113448: [AMDGPU] Check for unneeded shift mask in shift PatFrags..Nov 29 2021, 2:54 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUInstructions.td

30 lines

12 lines

30 lines

18 lines

6 lines

5 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

135 lines

130 lines

197 lines

226 lines

3 lines

Diff 382291

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

	Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	def srl_oneuse : HasOneUseBinOp<srl>;			def srl_oneuse : HasOneUseBinOp<srl>;
	def shl_oneuse : HasOneUseBinOp<shl>;			def shl_oneuse : HasOneUseBinOp<shl>;

	def select_oneuse : HasOneUseTernaryOp<select>;			def select_oneuse : HasOneUseTernaryOp<select>;

	def AMDGPUmul_u24_oneuse : HasOneUseBinOp<AMDGPUmul_u24>;			def AMDGPUmul_u24_oneuse : HasOneUseBinOp<AMDGPUmul_u24>;
	def AMDGPUmul_i24_oneuse : HasOneUseBinOp<AMDGPUmul_i24>;			def AMDGPUmul_i24_oneuse : HasOneUseBinOp<AMDGPUmul_i24>;

				//===----------------------------------------------------------------------===//
				// PatFrags for shifts
				//===----------------------------------------------------------------------===//

				// Constrained shift PatFrags.
				foreach width = [16, 32, 64] in {
				defvar mask = !sub(width, 1);

				def cshl_#width : PatFrags<(ops node:$src0, node:$src1),
				[(shl node:$src0, node:$src1), (shl node:$src0, (and node:$src1, mask))]>;
				foadUnsubmitted Not Done Reply Inline Actions Possible future improvement: instead of ignoring AND with mask, ignore AND with any value that has all those bits set, but possibly more. For example you could ignore AND with 0xFF here. X86 isUnneededShiftMask does this. foad: Possible future improvement: instead of ignoring AND with mask, ignore AND with any value that…
				abinavppAuthorUnsubmitted Done Reply Inline Actions See D113448. abinavpp: See D113448.
				defvar cshl = !cast<SDPatternOperator>("cshl_"#width);
				def cshl_#width#_oneuse : HasOneUseBinOp<cshl>;
				def clshl_rev_#width : PatFrag <(ops node:$src0, node:$src1),
				(cshl $src1, $src0)>;

				def csrl_#width : PatFrags<(ops node:$src0, node:$src1),
				[(srl node:$src0, node:$src1), (srl node:$src0, (and node:$src1, mask))]>;
				defvar csrl = !cast<SDPatternOperator>("csrl_"#width);
				def csrl_#width#_oneuse : HasOneUseBinOp<csrl>;
				def clshr_rev_#width : PatFrag <(ops node:$src0, node:$src1),
				(csrl $src1, $src0)>;

				def csra_#width : PatFrags<(ops node:$src0, node:$src1),
				[(sra node:$src0, node:$src1), (sra node:$src0, (and node:$src1, mask))]>;
				defvar csra = !cast<SDPatternOperator>("csra_"#width);
				def csra_#width#_oneuse : HasOneUseBinOp<csra>;
				def cashr_rev_#width : PatFrag <(ops node:$src0, node:$src1),
				(csra $src1, $src0)>;
				} // end foreach width

	def srl_16 : PatFrag<			def srl_16 : PatFrag<
	(ops node:$src0), (srl_oneuse node:$src0, (i32 16))			(ops node:$src0), (srl_oneuse node:$src0, (i32 16))
	>;			>;


	def hi_i16_elt : PatFrag<			def hi_i16_elt : PatFrag<
	(ops node:$src0), (i16 (trunc (i32 (srl_16 node:$src0))))			(ops node:$src0), (i16 (trunc (i32 (srl_16 node:$src0))))
	>;			>;
	▲ Show 20 Lines • Show All 457 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 592 Lines • ▼ Show 20 Lines
	} // End Defs = [SCC]			} // End Defs = [SCC]

	// Use added complexity so these patterns are preferred to the VALU patterns.			// Use added complexity so these patterns are preferred to the VALU patterns.
	let AddedComplexity = 1 in {			let AddedComplexity = 1 in {

	let Defs = [SCC] in {			let Defs = [SCC] in {
	// TODO: b64 versions require VOP3 change since v_lshlrev_b64 is VOP3			// TODO: b64 versions require VOP3 change since v_lshlrev_b64 is VOP3
	def S_LSHL_B32 : SOP2_32 <"s_lshl_b32",			def S_LSHL_B32 : SOP2_32 <"s_lshl_b32",
	[(set SReg_32:$sdst, (UniformBinFrag<shl> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_32:$sdst, (UniformBinFrag<cshl_32> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	def S_LSHL_B64 : SOP2_64_32 <"s_lshl_b64",			def S_LSHL_B64 : SOP2_64_32 <"s_lshl_b64",
	[(set SReg_64:$sdst, (UniformBinFrag<shl> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_64:$sdst, (UniformBinFrag<cshl_64> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	def S_LSHR_B32 : SOP2_32 <"s_lshr_b32",			def S_LSHR_B32 : SOP2_32 <"s_lshr_b32",
	[(set SReg_32:$sdst, (UniformBinFrag<srl> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_32:$sdst, (UniformBinFrag<csrl_32> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	def S_LSHR_B64 : SOP2_64_32 <"s_lshr_b64",			def S_LSHR_B64 : SOP2_64_32 <"s_lshr_b64",
	[(set SReg_64:$sdst, (UniformBinFrag<srl> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_64:$sdst, (UniformBinFrag<csrl_64> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	def S_ASHR_I32 : SOP2_32 <"s_ashr_i32",			def S_ASHR_I32 : SOP2_32 <"s_ashr_i32",
	[(set SReg_32:$sdst, (UniformBinFrag<sra> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_32:$sdst, (UniformBinFrag<csra_32> (i32 SSrc_b32:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	def S_ASHR_I64 : SOP2_64_32 <"s_ashr_i64",			def S_ASHR_I64 : SOP2_64_32 <"s_ashr_i64",
	[(set SReg_64:$sdst, (UniformBinFrag<sra> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]			[(set SReg_64:$sdst, (UniformBinFrag<csra_64> (i64 SSrc_b64:$src0), (i32 SSrc_b32:$src1)))]
	>;			>;
	} // End Defs = [SCC]			} // End Defs = [SCC]

	let isReMaterializable = 1 in {			let isReMaterializable = 1 in {
	def S_BFM_B32 : SOP2_32 <"s_bfm_b32",			def S_BFM_B32 : SOP2_32 <"s_bfm_b32",
	[(set i32:$sdst, (UniformBinFrag<AMDGPUbfm> i32:$src0, i32:$src1))]>;			[(set i32:$sdst, (UniformBinFrag<AMDGPUbfm> i32:$src0, i32:$src1))]>;
	def S_BFM_B64 : SOP2_64_32_32 <"s_bfm_b64">;			def S_BFM_B64 : SOP2_64_32_32 <"s_bfm_b64">;

	▲ Show 20 Lines • Show All 1,413 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/VOP2Instructions.td

	Show First 20 Lines • Show All 495 Lines • ▼ Show 20 Lines
	defm V_MUL_U32_U24 : VOP2Inst <"v_mul_u32_u24", VOP_I32_I32_I32_ARITH, AMDGPUmul_u24>;			defm V_MUL_U32_U24 : VOP2Inst <"v_mul_u32_u24", VOP_I32_I32_I32_ARITH, AMDGPUmul_u24>;
	defm V_MUL_HI_U32_U24 : VOP2Inst <"v_mul_hi_u32_u24", VOP_I32_I32_I32, AMDGPUmulhi_u24>;			defm V_MUL_HI_U32_U24 : VOP2Inst <"v_mul_hi_u32_u24", VOP_I32_I32_I32, AMDGPUmulhi_u24>;
	defm V_MIN_F32 : VOP2Inst <"v_min_f32", VOP_F32_F32_F32, fminnum_like>;			defm V_MIN_F32 : VOP2Inst <"v_min_f32", VOP_F32_F32_F32, fminnum_like>;
	defm V_MAX_F32 : VOP2Inst <"v_max_f32", VOP_F32_F32_F32, fmaxnum_like>;			defm V_MAX_F32 : VOP2Inst <"v_max_f32", VOP_F32_F32_F32, fmaxnum_like>;
	defm V_MIN_I32 : VOP2Inst <"v_min_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, smin>;			defm V_MIN_I32 : VOP2Inst <"v_min_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, smin>;
	defm V_MAX_I32 : VOP2Inst <"v_max_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, smax>;			defm V_MAX_I32 : VOP2Inst <"v_max_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, smax>;
	defm V_MIN_U32 : VOP2Inst <"v_min_u32", VOP_PAT_GEN<VOP_I32_I32_I32>, umin>;			defm V_MIN_U32 : VOP2Inst <"v_min_u32", VOP_PAT_GEN<VOP_I32_I32_I32>, umin>;
	defm V_MAX_U32 : VOP2Inst <"v_max_u32", VOP_PAT_GEN<VOP_I32_I32_I32>, umax>;			defm V_MAX_U32 : VOP2Inst <"v_max_u32", VOP_PAT_GEN<VOP_I32_I32_I32>, umax>;
	defm V_LSHRREV_B32 : VOP2Inst <"v_lshrrev_b32", VOP_I32_I32_I32, lshr_rev, "v_lshr_b32">;			defm V_LSHRREV_B32 : VOP2Inst <"v_lshrrev_b32", VOP_I32_I32_I32, clshr_rev_32, "v_lshr_b32">;
	defm V_ASHRREV_I32 : VOP2Inst <"v_ashrrev_i32", VOP_I32_I32_I32, ashr_rev, "v_ashr_i32">;			defm V_ASHRREV_I32 : VOP2Inst <"v_ashrrev_i32", VOP_I32_I32_I32, cashr_rev_32, "v_ashr_i32">;
	defm V_LSHLREV_B32 : VOP2Inst <"v_lshlrev_b32", VOP_I32_I32_I32, lshl_rev, "v_lshl_b32">;			defm V_LSHLREV_B32 : VOP2Inst <"v_lshlrev_b32", VOP_I32_I32_I32, clshl_rev_32, "v_lshl_b32">;
	defm V_AND_B32 : VOP2Inst <"v_and_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, and>;			defm V_AND_B32 : VOP2Inst <"v_and_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, and>;
	defm V_OR_B32 : VOP2Inst <"v_or_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, or>;			defm V_OR_B32 : VOP2Inst <"v_or_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, or>;
	defm V_XOR_B32 : VOP2Inst <"v_xor_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, xor>;			defm V_XOR_B32 : VOP2Inst <"v_xor_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, xor>;
	} // End isReMaterializable = 1			} // End isReMaterializable = 1

	let mayRaiseFPException = 0 in {			let mayRaiseFPException = 0 in {
	let OtherPredicates = [HasMadMacF32Insts] in {			let OtherPredicates = [HasMadMacF32Insts] in {
	let Constraints = "$vdst = $src2", DisableEncoding="$src2",			let Constraints = "$vdst = $src2", DisableEncoding="$src2",
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines

	let SubtargetPredicate = isGFX6GFX7 in {			let SubtargetPredicate = isGFX6GFX7 in {
	defm V_MIN_LEGACY_F32 : VOP2Inst <"v_min_legacy_f32", VOP_F32_F32_F32, AMDGPUfmin_legacy>;			defm V_MIN_LEGACY_F32 : VOP2Inst <"v_min_legacy_f32", VOP_F32_F32_F32, AMDGPUfmin_legacy>;
	defm V_MAX_LEGACY_F32 : VOP2Inst <"v_max_legacy_f32", VOP_F32_F32_F32, AMDGPUfmax_legacy>;			defm V_MAX_LEGACY_F32 : VOP2Inst <"v_max_legacy_f32", VOP_F32_F32_F32, AMDGPUfmax_legacy>;
	} // End SubtargetPredicate = isGFX6GFX7			} // End SubtargetPredicate = isGFX6GFX7

	let isCommutable = 1 in {			let isCommutable = 1 in {
	let SubtargetPredicate = isGFX6GFX7 in {			let SubtargetPredicate = isGFX6GFX7 in {
	defm V_LSHR_B32 : VOP2Inst <"v_lshr_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, srl>;			defm V_LSHR_B32 : VOP2Inst <"v_lshr_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, csrl_32>;
	defm V_ASHR_I32 : VOP2Inst <"v_ashr_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, sra>;			defm V_ASHR_I32 : VOP2Inst <"v_ashr_i32", VOP_PAT_GEN<VOP_I32_I32_I32>, csra_32>;
	defm V_LSHL_B32 : VOP2Inst <"v_lshl_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, shl>;			defm V_LSHL_B32 : VOP2Inst <"v_lshl_b32", VOP_PAT_GEN<VOP_I32_I32_I32>, cshl_32>;
	} // End SubtargetPredicate = isGFX6GFX7			} // End SubtargetPredicate = isGFX6GFX7
	} // End isCommutable = 1			} // End isCommutable = 1
	} // End isReMaterializable = 1			} // End isReMaterializable = 1

	defm V_CVT_PKACCUM_U8_F32 : VOP2Inst <"v_cvt_pkaccum_u8_f32", VOP_NO_EXT<VOP_I32_F32_I32>>; // TODO: set "Uses = dst"			defm V_CVT_PKACCUM_U8_F32 : VOP2Inst <"v_cvt_pkaccum_u8_f32", VOP_NO_EXT<VOP_I32_F32_I32>>; // TODO: set "Uses = dst"

	class DivergentBinOp<SDPatternOperator Op, VOP_Pseudo Inst> :			class DivergentBinOp<SDPatternOperator Op, VOP_Pseudo Inst> :
	GCNPat<			GCNPat<
	(getDivergentFrag<Op>.ret Inst.Pfl.Src0VT:$src0, Inst.Pfl.Src1VT:$src1),			(getDivergentFrag<Op>.ret Inst.Pfl.Src0VT:$src0, Inst.Pfl.Src1VT:$src1),
	!if(!cast<Commutable_REV>(Inst).IsOrig,			!if(!cast<Commutable_REV>(Inst).IsOrig,
	(Inst $src0, $src1),			(Inst $src0, $src1),
	(Inst $src1, $src0)			(Inst $src1, $src0)
	)			)
	>;			>;

	class DivergentClampingBinOp<SDPatternOperator Op, VOP_Pseudo Inst> :			class DivergentClampingBinOp<SDPatternOperator Op, VOP_Pseudo Inst> :
	GCNPat<			GCNPat<
	(getDivergentFrag<Op>.ret Inst.Pfl.Src0VT:$src0, Inst.Pfl.Src1VT:$src1),			(getDivergentFrag<Op>.ret Inst.Pfl.Src0VT:$src0, Inst.Pfl.Src1VT:$src1),
	!if(!cast<Commutable_REV>(Inst).IsOrig,			!if(!cast<Commutable_REV>(Inst).IsOrig,
	(Inst $src0, $src1, 0),			(Inst $src0, $src1, 0),
	(Inst $src1, $src0, 0)			(Inst $src1, $src0, 0)
	)			)
	>;			>;

	def : DivergentBinOp<srl, V_LSHRREV_B32_e64>;			def : DivergentBinOp<csrl_32, V_LSHRREV_B32_e64>;
	def : DivergentBinOp<sra, V_ASHRREV_I32_e64>;			def : DivergentBinOp<csra_32, V_ASHRREV_I32_e64>;
	def : DivergentBinOp<shl, V_LSHLREV_B32_e64>;			def : DivergentBinOp<cshl_32, V_LSHLREV_B32_e64>;

	let SubtargetPredicate = HasAddNoCarryInsts in {			let SubtargetPredicate = HasAddNoCarryInsts in {
	def : DivergentClampingBinOp<add, V_ADD_U32_e64>;			def : DivergentClampingBinOp<add, V_ADD_U32_e64>;
	def : DivergentClampingBinOp<sub, V_SUB_U32_e64>;			def : DivergentClampingBinOp<sub, V_SUB_U32_e64>;
	}			}

	let SubtargetPredicate = isGFX6GFX7GFX8GFX9, Predicates = [isGFX6GFX7GFX8GFX9] in {			let SubtargetPredicate = isGFX6GFX7GFX8GFX9, Predicates = [isGFX6GFX7GFX8GFX9] in {
	def : DivergentClampingBinOp<add, V_ADD_CO_U32_e64>;			def : DivergentClampingBinOp<add, V_ADD_CO_U32_e64>;
	Show All 24 Lines

	let SubtargetPredicate = Has16BitInsts in {			let SubtargetPredicate = Has16BitInsts in {

	let FPDPRounding = 1 in {			let FPDPRounding = 1 in {
	def V_MADMK_F16 : VOP2_Pseudo <"v_madmk_f16", VOP_MADMK_F16, [], "">;			def V_MADMK_F16 : VOP2_Pseudo <"v_madmk_f16", VOP_MADMK_F16, [], "">;
	defm V_LDEXP_F16 : VOP2Inst <"v_ldexp_f16", VOP_F16_F16_I32, AMDGPUldexp>;			defm V_LDEXP_F16 : VOP2Inst <"v_ldexp_f16", VOP_F16_F16_I32, AMDGPUldexp>;
	} // End FPDPRounding = 1			} // End FPDPRounding = 1

	defm V_LSHLREV_B16 : VOP2Inst <"v_lshlrev_b16", VOP_I16_I16_I16, lshl_rev>;			defm V_LSHLREV_B16 : VOP2Inst <"v_lshlrev_b16", VOP_I16_I16_I16, clshl_rev_16>;
	defm V_LSHRREV_B16 : VOP2Inst <"v_lshrrev_b16", VOP_I16_I16_I16, lshr_rev>;			defm V_LSHRREV_B16 : VOP2Inst <"v_lshrrev_b16", VOP_I16_I16_I16, clshr_rev_16>;
	defm V_ASHRREV_I16 : VOP2Inst <"v_ashrrev_i16", VOP_I16_I16_I16, ashr_rev>;			defm V_ASHRREV_I16 : VOP2Inst <"v_ashrrev_i16", VOP_I16_I16_I16, cashr_rev_16>;

	let isCommutable = 1 in {			let isCommutable = 1 in {
	let FPDPRounding = 1 in {			let FPDPRounding = 1 in {
	defm V_ADD_F16 : VOP2Inst <"v_add_f16", VOP_F16_F16_F16, any_fadd>;			defm V_ADD_F16 : VOP2Inst <"v_add_f16", VOP_F16_F16_F16, any_fadd>;
	defm V_SUB_F16 : VOP2Inst <"v_sub_f16", VOP_F16_F16_F16, any_fsub>;			defm V_SUB_F16 : VOP2Inst <"v_sub_f16", VOP_F16_F16_F16, any_fsub>;
	defm V_SUBREV_F16 : VOP2Inst <"v_subrev_f16", VOP_F16_F16_F16, null_frag, "v_sub_f16">;			defm V_SUBREV_F16 : VOP2Inst <"v_subrev_f16", VOP_F16_F16_F16, null_frag, "v_sub_f16">;
	defm V_MUL_F16 : VOP2Inst <"v_mul_f16", VOP_F16_F16_F16, any_fmul>;			defm V_MUL_F16 : VOP2Inst <"v_mul_f16", VOP_F16_F16_F16, any_fmul>;

	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines

	defm : Arithmetic_i16_0Hi_Pats<add, V_ADD_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<add, V_ADD_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<mul, V_MUL_LO_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<mul, V_MUL_LO_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<sub, V_SUB_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<sub, V_SUB_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<smin, V_MIN_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<smin, V_MIN_I16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<smax, V_MAX_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<smax, V_MAX_I16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<umin, V_MIN_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<umin, V_MIN_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<umax, V_MAX_U16_e64>;			defm : Arithmetic_i16_0Hi_Pats<umax, V_MAX_U16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<lshl_rev, V_LSHLREV_B16_e64>;			defm : Arithmetic_i16_0Hi_Pats<clshl_rev_16, V_LSHLREV_B16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<lshr_rev, V_LSHRREV_B16_e64>;			defm : Arithmetic_i16_0Hi_Pats<clshr_rev_16, V_LSHRREV_B16_e64>;
	defm : Arithmetic_i16_0Hi_Pats<ashr_rev, V_ASHRREV_I16_e64>;			defm : Arithmetic_i16_0Hi_Pats<cashr_rev_16, V_ASHRREV_I16_e64>;
	} // End Predicates = [Has16BitInsts, isGFX7GFX8GFX9]			} // End Predicates = [Has16BitInsts, isGFX7GFX8GFX9]

	def : ZExt_i16_i1_Pat<zext>;			def : ZExt_i16_i1_Pat<zext>;
	def : ZExt_i16_i1_Pat<anyext>;			def : ZExt_i16_i1_Pat<anyext>;

	def : GCNPat <			def : GCNPat <
	(i16 (sext i1:$src)),			(i16 (sext i1:$src)),
	(V_CNDMASK_B32_e64 /src0mod/(i32 0), /src0/(i32 0),			(V_CNDMASK_B32_e64 /src0mod/(i32 0), /src0/(i32 0),
	▲ Show 20 Lines • Show All 880 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/VOP3Instructions.td

	Show First 20 Lines • Show All 394 Lines • ▼ Show 20 Lines

	let isReMaterializable = 1 in {			let isReMaterializable = 1 in {
	let SchedRW = [WriteDouble] in {			let SchedRW = [WriteDouble] in {
	defm V_TRIG_PREOP_F64 : VOP3Inst <"v_trig_preop_f64", VOP3_Profile<VOP_F64_F64_I32>, int_amdgcn_trig_preop>;			defm V_TRIG_PREOP_F64 : VOP3Inst <"v_trig_preop_f64", VOP3_Profile<VOP_F64_F64_I32>, int_amdgcn_trig_preop>;
	} // End SchedRW = [WriteDouble]			} // End SchedRW = [WriteDouble]

	let SchedRW = [Write64Bit] in {			let SchedRW = [Write64Bit] in {
	let SubtargetPredicate = isGFX6GFX7 in {			let SubtargetPredicate = isGFX6GFX7 in {
	defm V_LSHL_B64 : VOP3Inst <"v_lshl_b64", VOP3_Profile<VOP_I64_I64_I32>, shl>;			defm V_LSHL_B64 : VOP3Inst <"v_lshl_b64", VOP3_Profile<VOP_I64_I64_I32>, cshl_64>;
	defm V_LSHR_B64 : VOP3Inst <"v_lshr_b64", VOP3_Profile<VOP_I64_I64_I32>, srl>;			defm V_LSHR_B64 : VOP3Inst <"v_lshr_b64", VOP3_Profile<VOP_I64_I64_I32>, csrl_64>;
	defm V_ASHR_I64 : VOP3Inst <"v_ashr_i64", VOP3_Profile<VOP_I64_I64_I32>, sra>;			defm V_ASHR_I64 : VOP3Inst <"v_ashr_i64", VOP3_Profile<VOP_I64_I64_I32>, csra_64>;
	} // End SubtargetPredicate = isGFX6GFX7			} // End SubtargetPredicate = isGFX6GFX7

	let SubtargetPredicate = isGFX8Plus in {			let SubtargetPredicate = isGFX8Plus in {
	defm V_LSHLREV_B64 : VOP3Inst <"v_lshlrev_b64", VOP3_Profile<VOP_I64_I32_I64>, lshl_rev>;			defm V_LSHLREV_B64 : VOP3Inst <"v_lshlrev_b64", VOP3_Profile<VOP_I64_I32_I64>, clshl_rev_64>;
	defm V_LSHRREV_B64 : VOP3Inst <"v_lshrrev_b64", VOP3_Profile<VOP_I64_I32_I64>, lshr_rev>;			defm V_LSHRREV_B64 : VOP3Inst <"v_lshrrev_b64", VOP3_Profile<VOP_I64_I32_I64>, clshr_rev_64>;
	defm V_ASHRREV_I64 : VOP3Inst <"v_ashrrev_i64", VOP3_Profile<VOP_I64_I32_I64>, ashr_rev>;			defm V_ASHRREV_I64 : VOP3Inst <"v_ashrrev_i64", VOP3_Profile<VOP_I64_I32_I64>, cashr_rev_64>;
	} // End SubtargetPredicate = isGFX8Plus			} // End SubtargetPredicate = isGFX8Plus
	} // End SchedRW = [Write64Bit]			} // End SchedRW = [Write64Bit]
	} // End isReMaterializable = 1			} // End isReMaterializable = 1

	def : GCNPat<			def : GCNPat<
	(i32 (getDivergentFrag<sext>.ret i16:$src)),			(i32 (getDivergentFrag<sext>.ret i16:$src)),
	(i32 (V_BFE_I32_e64 $src, (S_MOV_B32 (i32 0)), (S_MOV_B32 (i32 0x10))))			(i32 (V_BFE_I32_e64 $src, (S_MOV_B32 (i32 0)), (S_MOV_B32 (i32 0x10))))
	>;			>;
	▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines


	class ThreeOp_i32_Pats <SDPatternOperator op1, SDPatternOperator op2, Instruction inst> : GCNPat <			class ThreeOp_i32_Pats <SDPatternOperator op1, SDPatternOperator op2, Instruction inst> : GCNPat <
	// This matches (op2 (op1 i32:$src0, i32:$src1), i32:$src2) with conditions.			// This matches (op2 (op1 i32:$src0, i32:$src1), i32:$src2) with conditions.
	(ThreeOpFrag<op1, op2> i32:$src0, i32:$src1, i32:$src2),			(ThreeOpFrag<op1, op2> i32:$src0, i32:$src1, i32:$src2),
	(inst VSrc_b32:$src0, VSrc_b32:$src1, VSrc_b32:$src2)			(inst VSrc_b32:$src0, VSrc_b32:$src1, VSrc_b32:$src2)
	>;			>;

	def : ThreeOp_i32_Pats<shl, add, V_LSHL_ADD_U32_e64>;			def : ThreeOp_i32_Pats<cshl_32, add, V_LSHL_ADD_U32_e64>;
	def : ThreeOp_i32_Pats<add, shl, V_ADD_LSHL_U32_e64>;			def : ThreeOp_i32_Pats<add, cshl_32, V_ADD_LSHL_U32_e64>;
	def : ThreeOp_i32_Pats<add, add, V_ADD3_U32_e64>;			def : ThreeOp_i32_Pats<add, add, V_ADD3_U32_e64>;
	def : ThreeOp_i32_Pats<shl, or, V_LSHL_OR_B32_e64>;			def : ThreeOp_i32_Pats<cshl_32, or, V_LSHL_OR_B32_e64>;
	def : ThreeOp_i32_Pats<and, or, V_AND_OR_B32_e64>;			def : ThreeOp_i32_Pats<and, or, V_AND_OR_B32_e64>;
	def : ThreeOp_i32_Pats<or, or, V_OR3_B32_e64>;			def : ThreeOp_i32_Pats<or, or, V_OR3_B32_e64>;
	def : ThreeOp_i32_Pats<xor, add, V_XAD_U32_e64>;			def : ThreeOp_i32_Pats<xor, add, V_XAD_U32_e64>;

	def : VOPBinOpClampPat<saddsat, V_ADD_I32_e64, i32>;			def : VOPBinOpClampPat<saddsat, V_ADD_I32_e64, i32>;
	def : VOPBinOpClampPat<ssubsat, V_SUB_I32_e64, i32>;			def : VOPBinOpClampPat<ssubsat, V_SUB_I32_e64, i32>;

	def : GCNPat<(getDivergentFrag<or>.ret (or_oneuse i64:$src0, i64:$src1), i64:$src2),			def : GCNPat<(getDivergentFrag<or>.ret (or_oneuse i64:$src0, i64:$src1), i64:$src2),
	▲ Show 20 Lines • Show All 605 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/VOP3PInstructions.td

	Show First 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	defm V_PK_MIN_U16 : VOP3PInst<"v_pk_min_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, umin>;			defm V_PK_MIN_U16 : VOP3PInst<"v_pk_min_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, umin>;
	defm V_PK_MAX_I16 : VOP3PInst<"v_pk_max_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, smax>;			defm V_PK_MAX_I16 : VOP3PInst<"v_pk_max_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, smax>;
	defm V_PK_MAX_U16 : VOP3PInst<"v_pk_max_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, umax>;			defm V_PK_MAX_U16 : VOP3PInst<"v_pk_max_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, umax>;
	}			}

	defm V_PK_SUB_U16 : VOP3PInst<"v_pk_sub_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>>;			defm V_PK_SUB_U16 : VOP3PInst<"v_pk_sub_u16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>>;
	defm V_PK_SUB_I16 : VOP3PInst<"v_pk_sub_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, sub>;			defm V_PK_SUB_I16 : VOP3PInst<"v_pk_sub_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, sub>;

	defm V_PK_LSHLREV_B16 : VOP3PInst<"v_pk_lshlrev_b16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, lshl_rev>;			defm V_PK_LSHLREV_B16 : VOP3PInst<"v_pk_lshlrev_b16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, clshl_rev_16>;
	defm V_PK_ASHRREV_I16 : VOP3PInst<"v_pk_ashrrev_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, ashr_rev>;			defm V_PK_ASHRREV_I16 : VOP3PInst<"v_pk_ashrrev_i16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, cashr_rev_16>;
	defm V_PK_LSHRREV_B16 : VOP3PInst<"v_pk_lshrrev_b16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, lshr_rev>;			defm V_PK_LSHRREV_B16 : VOP3PInst<"v_pk_lshrrev_b16", VOP3_Profile<VOP_V2I16_V2I16_V2I16>, clshr_rev_16>;


	let SubtargetPredicate = HasVOP3PInsts in {			let SubtargetPredicate = HasVOP3PInsts in {

	// Undo sub x, c -> add x, -c canonicalization since c is more likely			// Undo sub x, c -> add x, -c canonicalization since c is more likely
	// an inline immediate than -c.			// an inline immediate than -c.
	// The constant will be emitted as a mov, and folded later.			// The constant will be emitted as a mov, and folded later.
	// TODO: We could directly encode the immediate now			// TODO: We could directly encode the immediate now
	▲ Show 20 Lines • Show All 603 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/VOPInstructions.td

	Show First 20 Lines • Show All 753 Lines • ▼ Show 20 Lines
	}			}

	class getNumNodeArgs<SDPatternOperator Op> {			class getNumNodeArgs<SDPatternOperator Op> {
	SDNode N = !cast<SDNode>(Op);			SDNode N = !cast<SDNode>(Op);
	SDTypeProfile TP = N.TypeProfile;			SDTypeProfile TP = N.TypeProfile;
	int ret = TP.NumOperands;			int ret = TP.NumOperands;
	}			}


	class getDivergentFrag<SDPatternOperator Op> {			class getDivergentFrag<SDPatternOperator Op> {
				assert !or(!isa<SDNode>(Op), !isa<PatFrags>(Op)), "Expected SDNode or PatFrags";

	int NumSrcArgs = getNumNodeArgs<Op>.ret;			int NumSrcArgs = !if(!isa<SDNode>(Op), getNumNodeArgs<Op>.ret,
				!size(!cast<PatFrags>(Op).Operands));
	PatFrag ret = PatFrag <			PatFrag ret = PatFrag <
	!if(!eq(NumSrcArgs, 1),			!if(!eq(NumSrcArgs, 1),
	(ops node:$src0),			(ops node:$src0),
	!if(!eq(NumSrcArgs, 2),			!if(!eq(NumSrcArgs, 2),
	(ops node:$src0, node:$src1),			(ops node:$src0, node:$src1),
	(ops node:$src0, node:$src1, node:$src2))),			(ops node:$src0, node:$src1, node:$src2))),
	!if(!eq(NumSrcArgs, 1),			!if(!eq(NumSrcArgs, 1),
	(Op $src0),			(Op $src0),
	▲ Show 20 Lines • Show All 63 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 2,892 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fshl_i16:			; GFX8-LABEL: v_fshl_i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, 15, v2			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, v2, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshl_i16:			; GFX9-LABEL: v_fshl_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v2			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-NEXT: v_lshrrev_b16_e32 v1, 1, v1			; GFX9-NEXT: v_lshrrev_b16_e32 v1, 1, v1
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v2, v0
	; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1			; GFX9-NEXT: v_lshrrev_b16_e32 v1, v3, v1
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fshl_i16:			; GFX10-LABEL: v_fshl_i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2			; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX10-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-NEXT: v_lshrrev_b16 v1, 1, v1			; GFX10-NEXT: v_lshrrev_b16 v1, 1, v1
	; GFX10-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-NEXT: v_lshlrev_b16 v0, v2, v0			; GFX10-NEXT: v_lshlrev_b16 v0, v2, v0
	; GFX10-NEXT: v_lshrrev_b16 v1, v3, v1			; GFX10-NEXT: v_lshrrev_b16 v1, v3, v1
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)			%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)
	ret i16 %result			ret i16 %result
	}			}

	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_bfe_u32 s0, s1, 0xf0001			; GFX6-NEXT: s_bfe_u32 s0, s1, 0xf0001
	; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
	; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0			; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v1, v0			; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: v_fshl_i16_ssv:			; GFX8-LABEL: v_fshl_i16_ssv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_and_b32_e32 v1, 15, v0			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0
	; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s0
	; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000			; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000
	; GFX8-NEXT: s_bfe_u32 s1, 1, 0x100000			; GFX8-NEXT: s_bfe_u32 s1, 1, 0x100000
	; GFX8-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX8-NEXT: s_lshr_b32 s0, s0, s1			; GFX8-NEXT: s_lshr_b32 s0, s0, s1
	; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s0			; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: v_fshl_i16_ssv:			; GFX9-LABEL: v_fshl_i16_ssv:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_and_b32_e32 v1, 15, v0			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX9-NEXT: v_lshlrev_b16_e64 v0, v0, s0
	; GFX9-NEXT: v_lshlrev_b16_e64 v1, v1, s0
	; GFX9-NEXT: s_bfe_u32 s0, s1, 0x100000			; GFX9-NEXT: s_bfe_u32 s0, s1, 0x100000
	; GFX9-NEXT: s_bfe_u32 s1, 1, 0x100000			; GFX9-NEXT: s_bfe_u32 s1, 1, 0x100000
	; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX9-NEXT: s_lshr_b32 s0, s0, s1			; GFX9-NEXT: s_lshr_b32 s0, s0, s1
	; GFX9-NEXT: v_lshrrev_b16_e64 v0, v0, s0			; GFX9-NEXT: v_lshrrev_b16_e64 v1, v1, s0
	; GFX9-NEXT: v_or_b32_e32 v0, v1, v0			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: v_fshl_i16_ssv:			; GFX10-LABEL: v_fshl_i16_ssv:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0			; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000			; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000
	; GFX10-NEXT: s_bfe_u32 s2, 1, 0x100000			; GFX10-NEXT: s_bfe_u32 s2, 1, 0x100000
	; GFX10-NEXT: s_lshr_b32 s1, s1, s2
	; GFX10-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX10-NEXT: v_lshlrev_b16 v0, v0, s0			; GFX10-NEXT: v_lshlrev_b16 v0, v0, s0
				; GFX10-NEXT: s_lshr_b32 s1, s1, s2
	; GFX10-NEXT: v_lshrrev_b16 v1, v1, s1			; GFX10-NEXT: v_lshrrev_b16 v1, v1, s1
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)			%result = call i16 @llvm.fshl.i16(i16 %lhs, i16 %rhs, i16 %amt)
	%cast.result = bitcast i16 %result to half			%cast.result = bitcast i16 %result to half
	ret half %cast.result			ret half %cast.result
	}			}

	▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_bfe_u32 v3, v4, 0, 16			; GFX6-NEXT: v_bfe_u32 v3, v4, 0, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fshl_v2i16:			; GFX8-LABEL: v_fshl_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; GFX8-NEXT: v_xor_b32_e32 v4, -1, v2
	; GFX8-NEXT: v_and_b32_e32 v4, 15, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX8-NEXT: v_lshrrev_b16_e32 v5, 1, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v5, 1, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v4, v4, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; GFX8-NEXT: v_lshrrev_b16_e32 v2, v2, v5			; GFX8-NEXT: v_lshlrev_b16_e32 v2, v2, v0
	; GFX8-NEXT: v_or_b32_e32 v2, v4, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v4, v4, v5
	; GFX8-NEXT: v_and_b32_e32 v4, 15, v3			; GFX8-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v4, -1, v3
	; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v4, 1			; GFX8-NEXT: v_mov_b32_e32 v3, 1
	; GFX8-NEXT: v_and_b32_e32 v3, 15, v3			; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, v4, v1
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v1, 16			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshl_v2i16:			; GFX9-LABEL: v_fshl_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
	; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_u32 v0, v0, 0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: v_fshl_v2i16_ssv:			; GFX8-LABEL: v_fshl_v2i16_ssv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v0
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_lshr_b32 s2, s0, 16
	; GFX8-NEXT: s_lshr_b32 s3, s1, 16			; GFX8-NEXT: s_lshr_b32 s3, s1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v0
	; GFX8-NEXT: v_lshlrev_b16_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0
	; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000			; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000
	; GFX8-NEXT: s_bfe_u32 s1, 1, 0x100000			; GFX8-NEXT: s_bfe_u32 s1, 1, 0x100000
	; GFX8-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX8-NEXT: s_lshr_b32 s0, s0, s1			; GFX8-NEXT: s_lshr_b32 s0, s0, s1
	; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s0			; GFX8-NEXT: v_lshrrev_b16_e64 v2, v2, s0
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v1			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX8-NEXT: s_lshr_b32 s0, s3, s1			; GFX8-NEXT: s_lshr_b32 s0, s3, s1
	; GFX8-NEXT: v_lshlrev_b16_e64 v2, v2, s2			; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s2
	; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s0			; GFX8-NEXT: v_lshrrev_b16_e64 v2, v2, s0
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v1			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 16			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: v_fshl_v2i16_ssv:			; GFX9-LABEL: v_fshl_v2i16_ssv:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s2, 0xf000f			; GFX9-NEXT: s_mov_b32 s2, 0xf000f
	▲ Show 20 Lines • Show All 462 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_bfe_u32 v5, v5, 0, 16			; GFX6-NEXT: v_bfe_u32 v5, v5, 0, 16
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, v5, v4			; GFX6-NEXT: v_lshrrev_b32_e32 v4, v5, v4
	; GFX6-NEXT: v_or_b32_e32 v3, v3, v4			; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fshl_v4i16:			; GFX8-LABEL: v_fshl_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; GFX8-NEXT: v_xor_b32_e32 v8, -1, v4
	; GFX8-NEXT: v_and_b32_e32 v8, 15, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, -1, v4
	; GFX8-NEXT: v_and_b32_e32 v4, 15, v4
	; GFX8-NEXT: v_lshrrev_b16_e32 v9, 1, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v9, 1, v2
	; GFX8-NEXT: v_lshlrev_b16_e32 v8, v8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v4
	; GFX8-NEXT: v_lshrrev_b16_e32 v4, v4, v9			; GFX8-NEXT: v_lshlrev_b16_e32 v4, v4, v0
	; GFX8-NEXT: v_or_b32_e32 v4, v8, v4			; GFX8-NEXT: v_lshrrev_b16_e32 v8, v8, v9
	; GFX8-NEXT: v_and_b32_e32 v8, 15, v6			; GFX8-NEXT: v_or_b32_e32 v4, v4, v8
	; GFX8-NEXT: v_xor_b32_e32 v6, -1, v6			; GFX8-NEXT: v_xor_b32_e32 v8, -1, v6
	; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v8, 1			; GFX8-NEXT: v_mov_b32_e32 v6, 1
	; GFX8-NEXT: v_and_b32_e32 v6, 15, v6			; GFX8-NEXT: v_lshrrev_b16_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_e32 v2, v8, v2
	; GFX8-NEXT: v_lshrrev_b16_e32 v2, v6, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v5			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v5
	; GFX8-NEXT: v_xor_b32_e32 v5, -1, v5			; GFX8-NEXT: v_lshrrev_b16_e32 v8, 1, v3
	; GFX8-NEXT: v_and_b32_e32 v5, 15, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v5
	; GFX8-NEXT: v_lshrrev_b16_e32 v6, 1, v3			; GFX8-NEXT: v_lshlrev_b16_e32 v5, v5, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v2, v2, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v2, v2, v8
	; GFX8-NEXT: v_lshrrev_b16_e32 v5, v5, v6			; GFX8-NEXT: v_or_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v5			; GFX8-NEXT: v_xor_b32_e32 v5, -1, v7
	; GFX8-NEXT: v_and_b32_e32 v5, 15, v7			; GFX8-NEXT: v_lshrrev_b16_sdwa v3, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_xor_b32_e32 v6, -1, v7			; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX8-NEXT: v_mov_b32_e32 v5, 1
	; GFX8-NEXT: v_and_b32_e32 v6, 15, v6
	; GFX8-NEXT: v_lshrrev_b16_sdwa v3, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_e32 v3, v6, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_mov_b32_e32 v3, 16			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	▲ Show 20 Lines • Show All 2,488 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 2,745 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fshr_i16:			; GFX8-LABEL: v_fshr_i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, 15, v2			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, v2, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, v3, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_i16:			; GFX9-LABEL: v_fshr_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v2			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v2, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_lshrrev_b16_e32 v1, v3, v1			; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fshr_i16:			; GFX10-LABEL: v_fshr_i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2			; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX10-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-NEXT: v_lshrrev_b16 v1, v2, v1			; GFX10-NEXT: v_lshrrev_b16 v1, v2, v1
	; GFX10-NEXT: v_lshlrev_b16 v0, v3, v0			; GFX10-NEXT: v_lshlrev_b16 v0, v3, v0
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)			%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)
	ret i16 %result			ret i16 %result
	}			}

	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_u32 v1, v1, 0, 16
	; GFX6-NEXT: s_and_b32 s0, s1, 0xffff			; GFX6-NEXT: s_and_b32 s0, s1, 0xffff
	; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1			; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: v_fshr_i16_ssv:			; GFX8-LABEL: v_fshr_i16_ssv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_and_b32_e32 v1, 15, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: s_bfe_u32 s2, 1, 0x100000			; GFX8-NEXT: s_bfe_u32 s2, 1, 0x100000
	; GFX8-NEXT: v_and_b32_e32 v0, 15, v0			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s0, s0, s2
	; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0			; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s0
	; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s1			; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: v_fshr_i16_ssv:			; GFX9-LABEL: v_fshr_i16_ssv:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_and_b32_e32 v1, 15, v0
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX9-NEXT: s_bfe_u32 s2, 1, 0x100000			; GFX9-NEXT: s_bfe_u32 s2, 1, 0x100000
	; GFX9-NEXT: v_and_b32_e32 v0, 15, v0			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX9-NEXT: s_lshl_b32 s0, s0, s2			; GFX9-NEXT: s_lshl_b32 s0, s0, s2
	; GFX9-NEXT: v_lshlrev_b16_e64 v0, v0, s0			; GFX9-NEXT: v_lshlrev_b16_e64 v1, v1, s0
	; GFX9-NEXT: v_lshrrev_b16_e64 v1, v1, s1			; GFX9-NEXT: v_lshrrev_b16_e64 v0, v0, s1
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: v_fshr_i16_ssv:			; GFX10-LABEL: v_fshr_i16_ssv:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0			; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX10-NEXT: s_bfe_u32 s2, 1, 0x100000			; GFX10-NEXT: s_bfe_u32 s2, 1, 0x100000
	; GFX10-NEXT: s_lshl_b32 s0, s0, s2
	; GFX10-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX10-NEXT: v_lshrrev_b16 v0, v0, s1			; GFX10-NEXT: v_lshrrev_b16 v0, v0, s1
				; GFX10-NEXT: s_lshl_b32 s0, s0, s2
	; GFX10-NEXT: v_lshlrev_b16 v1, v1, s0			; GFX10-NEXT: v_lshlrev_b16 v1, v1, s0
	; GFX10-NEXT: v_or_b32_e32 v0, v1, v0			; GFX10-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)			%result = call i16 @llvm.fshr.i16(i16 %lhs, i16 %rhs, i16 %amt)
	%cast.result = bitcast i16 %result to half			%cast.result = bitcast i16 %result to half
	ret half %cast.result			ret half %cast.result
	}			}

	▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, 1, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v3, 1, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v4, 15, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v4, 15, v1
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 1			; GFX8-NEXT: v_mov_b32_e32 v4, 1
	; GFX8-NEXT: v_mov_b32_e32 v5, 15			; GFX8-NEXT: v_mov_b32_e32 v5, 15
	; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_lshlrev_b16_e32 v5, 1, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v5, 1, v1
				; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX8-NEXT: v_and_b32_e32 v6, 15, v2			; GFX8-NEXT: v_xor_b32_e32 v6, -1, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_lshlrev_b16_e32 v2, v2, v3
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v3, 1, v5
	; GFX8-NEXT: v_lshrrev_b16_e32 v5, 1, v5			; GFX8-NEXT: v_lshrrev_b16_e32 v3, v6, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, v6, v3			; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX8-NEXT: v_lshrrev_b16_e32 v2, v2, v5			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_and_b32_e32 v3, 15, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, -1, v4
	; GFX8-NEXT: v_and_b32_e32 v4, 15, v4
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, v4, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v1, v4, v1			; GFX8-NEXT: v_lshrrev_b16_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v1, 16			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v2i16:			; GFX9-LABEL: v_fshr_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; GFX8-LABEL: v_fshr_v2i16_ssv:			; GFX8-LABEL: v_fshr_v2i16_ssv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_bfe_u32 s4, 1, 0x100000			; GFX8-NEXT: s_bfe_u32 s4, 1, 0x100000
	; GFX8-NEXT: s_bfe_u32 s5, s1, 0x100000			; GFX8-NEXT: s_bfe_u32 s5, s1, 0x100000
	; GFX8-NEXT: s_bfe_u32 s6, 15, 0x100000			; GFX8-NEXT: s_bfe_u32 s6, 15, 0x100000
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_lshr_b32 s2, s0, 16
	; GFX8-NEXT: s_lshl_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s0, s0, s4
	; GFX8-NEXT: s_lshr_b32 s5, s5, s6			; GFX8-NEXT: s_lshr_b32 s5, s5, s6
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: s_lshr_b32 s3, s1, 16			; GFX8-NEXT: s_lshr_b32 s3, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s5			; GFX8-NEXT: s_or_b32 s0, s0, s5
	; GFX8-NEXT: s_lshl_b32 s1, s1, s4			; GFX8-NEXT: s_lshl_b32 s1, s1, s4
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: v_lshlrev_b16_e64 v2, v2, s0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
				; GFX8-NEXT: v_xor_b32_e32 v2, -1, v0
				; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0
	; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000			; GFX8-NEXT: s_bfe_u32 s0, s1, 0x100000
	; GFX8-NEXT: v_and_b32_e32 v0, 15, v0
	; GFX8-NEXT: s_lshr_b32 s0, s0, s4
	; GFX8-NEXT: s_lshr_b32 s5, s3, s6			; GFX8-NEXT: s_lshr_b32 s5, s3, s6
	; GFX8-NEXT: s_lshl_b32 s3, s3, s4			; GFX8-NEXT: s_lshl_b32 s3, s3, s4
	; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s0			; GFX8-NEXT: s_lshr_b32 s0, s0, s4
	; GFX8-NEXT: s_lshl_b32 s2, s2, s4			; GFX8-NEXT: s_lshl_b32 s2, s2, s4
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0			; GFX8-NEXT: v_lshrrev_b16_e64 v2, v2, s0
	; GFX8-NEXT: v_and_b32_e32 v2, 15, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: s_bfe_u32 s0, s3, 0x100000			; GFX8-NEXT: s_bfe_u32 s0, s3, 0x100000
	; GFX8-NEXT: s_or_b32 s2, s2, s5			; GFX8-NEXT: s_or_b32 s2, s2, s5
	; GFX8-NEXT: v_and_b32_e32 v1, 15, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX8-NEXT: v_xor_b32_e32 v2, -1, v1
	; GFX8-NEXT: s_lshr_b32 s0, s0, s4			; GFX8-NEXT: s_lshr_b32 s0, s0, s4
	; GFX8-NEXT: v_lshlrev_b16_e64 v2, v2, s2			; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s2
	; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s0			; GFX8-NEXT: v_lshrrev_b16_e64 v2, v2, s0
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v1			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 16			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: v_fshr_v2i16_ssv:			; GFX9-LABEL: v_fshr_v2i16_ssv:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s2, 0xf000f			; GFX9-NEXT: s_mov_b32 s2, 0xf000f
	▲ Show 20 Lines • Show All 607 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshlrev_b16_e32 v6, 1, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v6, 1, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v7, 15, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v7, 15, v2
	; GFX8-NEXT: v_or_b32_e32 v6, v6, v7			; GFX8-NEXT: v_or_b32_e32 v6, v6, v7
	; GFX8-NEXT: v_mov_b32_e32 v7, 1			; GFX8-NEXT: v_mov_b32_e32 v7, 1
	; GFX8-NEXT: v_mov_b32_e32 v8, 15			; GFX8-NEXT: v_mov_b32_e32 v8, 15
	; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_sdwa v9, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_sdwa v9, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_xor_b32_e32 v4, -1, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v9			; GFX8-NEXT: v_or_b32_e32 v0, v0, v9
	; GFX8-NEXT: v_lshlrev_b16_e32 v9, 1, v2			; GFX8-NEXT: v_lshlrev_b16_e32 v9, 1, v2
				; GFX8-NEXT: v_xor_b32_e32 v4, -1, v4
	; GFX8-NEXT: v_lshlrev_b16_sdwa v2, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v2, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX8-NEXT: v_and_b32_e32 v10, 15, v4			; GFX8-NEXT: v_xor_b32_e32 v10, -1, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, -1, v4			; GFX8-NEXT: v_lshlrev_b16_e32 v4, v4, v6
	; GFX8-NEXT: v_and_b32_e32 v4, 15, v4			; GFX8-NEXT: v_lshrrev_b16_e32 v6, 1, v9
	; GFX8-NEXT: v_lshrrev_b16_e32 v9, 1, v9			; GFX8-NEXT: v_lshrrev_b16_e32 v6, v10, v6
	; GFX8-NEXT: v_lshlrev_b16_e32 v6, v10, v6			; GFX8-NEXT: v_or_b32_e32 v4, v4, v6
	; GFX8-NEXT: v_lshrrev_b16_e32 v4, v4, v9			; GFX8-NEXT: v_xor_b32_e32 v6, -1, v7
	; GFX8-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX8-NEXT: v_and_b32_e32 v6, 15, v7
	; GFX8-NEXT: v_xor_b32_e32 v7, -1, v7
	; GFX8-NEXT: v_and_b32_e32 v7, 15, v7
	; GFX8-NEXT: v_lshrrev_b16_e32 v2, 1, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v2, 1, v2
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, v6, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, v7, v0
	; GFX8-NEXT: v_lshrrev_b16_e32 v2, v7, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v2, v6, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 16			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b16_e32 v4, 1, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v4, 1, v1
	; GFX8-NEXT: v_lshrrev_b16_e32 v6, 15, v3			; GFX8-NEXT: v_lshrrev_b16_e32 v6, 15, v3
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v6			; GFX8-NEXT: v_or_b32_e32 v4, v4, v6
	; GFX8-NEXT: v_mov_b32_e32 v6, 1			; GFX8-NEXT: v_mov_b32_e32 v6, 1
	; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b16_sdwa v7, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshrrev_b16_sdwa v7, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_xor_b32_e32 v5, -1, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v7			; GFX8-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX8-NEXT: v_lshlrev_b16_e32 v7, 1, v3			; GFX8-NEXT: v_lshlrev_b16_e32 v7, 1, v3
				; GFX8-NEXT: v_xor_b32_e32 v5, -1, v5
	; GFX8-NEXT: v_lshlrev_b16_sdwa v3, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_lshlrev_b16_sdwa v3, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX8-NEXT: v_and_b32_e32 v8, 15, v5			; GFX8-NEXT: v_xor_b32_e32 v8, -1, v5
	; GFX8-NEXT: v_xor_b32_e32 v5, -1, v5			; GFX8-NEXT: v_lshlrev_b16_e32 v4, v5, v4
	; GFX8-NEXT: v_and_b32_e32 v5, 15, v5			; GFX8-NEXT: v_lshrrev_b16_e32 v5, 1, v7
	; GFX8-NEXT: v_lshrrev_b16_e32 v7, 1, v7			; GFX8-NEXT: v_lshrrev_b16_e32 v5, v8, v5
	; GFX8-NEXT: v_lshlrev_b16_e32 v4, v8, v4
	; GFX8-NEXT: v_lshrrev_b16_e32 v5, v5, v7
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v5			; GFX8-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX8-NEXT: v_and_b32_e32 v5, 15, v6			; GFX8-NEXT: v_xor_b32_e32 v5, -1, v6
	; GFX8-NEXT: v_xor_b32_e32 v6, -1, v6
	; GFX8-NEXT: v_and_b32_e32 v6, 15, v6
	; GFX8-NEXT: v_lshrrev_b16_e32 v3, 1, v3			; GFX8-NEXT: v_lshrrev_b16_e32 v3, 1, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, v5, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, v6, v1
	; GFX8-NEXT: v_lshrrev_b16_e32 v3, v6, v3			; GFX8-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v4i16:			; GFX9-LABEL: v_fshr_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 2,518 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/constrained-shift.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -march=amdgcn -mcpu=gfx900 < %s \| FileCheck %s

				define i16 @csh_16(i16 %a, i16 %b) {
				; CHECK-LABEL: csh_16:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshlrev_b16_e32 v2, v1, v0
				; CHECK-NEXT: v_lshrrev_b16_e32 v3, v1, v0
				; CHECK-NEXT: v_ashrrev_i16_e32 v0, v1, v0
				; CHECK-NEXT: v_add_u16_e32 v1, v2, v3
				; CHECK-NEXT: v_add_u16_e32 v0, v1, v0
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and i16 %b, 15
				%shl = shl i16 %a, %and
				%lshr = lshr i16 %a, %and
				%ashr = ashr i16 %a, %and
				%ret.0 = add i16 %shl, %lshr
				%ret = add i16 %ret.0, %ashr
				ret i16 %ret
				}

				define i32 @csh_32(i32 %a, i32 %b) {
				; CHECK-LABEL: csh_32:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshlrev_b32_e32 v2, v1, v0
				; CHECK-NEXT: v_lshrrev_b32_e32 v3, v1, v0
				; CHECK-NEXT: v_ashrrev_i32_e32 v0, v1, v0
				; CHECK-NEXT: v_add3_u32 v0, v2, v3, v0
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and i32 %b, 31
				%shl = shl i32 %a, %and
				%lshr = lshr i32 %a, %and
				%ashr = ashr i32 %a, %and
				%ret.0 = add i32 %shl, %lshr
				%ret = add i32 %ret.0, %ashr
				ret i32 %ret
				}

				define amdgpu_ps i32 @s_csh_32(i32 inreg %a, i32 inreg %b) {
				; CHECK-LABEL: s_csh_32:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_lshl_b32 s2, s0, s1
				; CHECK-NEXT: s_lshr_b32 s3, s0, s1
				; CHECK-NEXT: s_ashr_i32 s0, s0, s1
				; CHECK-NEXT: s_add_i32 s1, s2, s3
				; CHECK-NEXT: s_add_i32 s0, s1, s0
				; CHECK-NEXT: ; return to shader part epilog
				%and = and i32 %b, 31
				%shl = shl i32 %a, %and
				%lshr = lshr i32 %a, %and
				%ashr = ashr i32 %a, %and
				%ret.0 = add i32 %shl, %lshr
				%ret = add i32 %ret.0, %ashr
				ret i32 %ret
				}

				define <4 x i32> @csh_v4i32(<4 x i32> %a, <4 x i32> %b) {
				; CHECK-LABEL: csh_v4i32:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshlrev_b32_e32 v8, v7, v3
				; CHECK-NEXT: v_lshlrev_b32_e32 v9, v6, v2
				; CHECK-NEXT: v_lshlrev_b32_e32 v10, v5, v1
				; CHECK-NEXT: v_lshlrev_b32_e32 v11, v4, v0
				; CHECK-NEXT: v_lshrrev_b32_e32 v12, v7, v3
				; CHECK-NEXT: v_lshrrev_b32_e32 v13, v6, v2
				; CHECK-NEXT: v_lshrrev_b32_e32 v14, v5, v1
				; CHECK-NEXT: v_lshrrev_b32_e32 v15, v4, v0
				; CHECK-NEXT: v_ashrrev_i32_e32 v3, v7, v3
				; CHECK-NEXT: v_ashrrev_i32_e32 v2, v6, v2
				; CHECK-NEXT: v_ashrrev_i32_e32 v1, v5, v1
				; CHECK-NEXT: v_ashrrev_i32_e32 v0, v4, v0
				; CHECK-NEXT: v_add3_u32 v0, v11, v15, v0
				; CHECK-NEXT: v_add3_u32 v1, v10, v14, v1
				; CHECK-NEXT: v_add3_u32 v2, v9, v13, v2
				; CHECK-NEXT: v_add3_u32 v3, v8, v12, v3
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and <4 x i32> %b, <i32 31, i32 31, i32 31, i32 31>
				%shl = shl <4 x i32> %a, %and
				%lshr = lshr <4 x i32> %a, %and
				%ashr = ashr <4 x i32> %a, %and
				%ret.0 = add <4 x i32> %shl, %lshr
				%ret = add <4 x i32> %ret.0, %ashr
				ret <4 x i32> %ret
				}

				define amdgpu_ps <4 x i32> @s_csh_v4i32(<4 x i32> inreg %a, <4 x i32> inreg %b) {
				; CHECK-LABEL: s_csh_v4i32:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_lshl_b32 s8, s0, s4
				; CHECK-NEXT: s_lshl_b32 s9, s1, s5
				; CHECK-NEXT: s_lshl_b32 s10, s2, s6
				; CHECK-NEXT: s_lshl_b32 s11, s3, s7
				; CHECK-NEXT: s_lshr_b32 s12, s0, s4
				; CHECK-NEXT: s_lshr_b32 s13, s1, s5
				; CHECK-NEXT: s_lshr_b32 s14, s2, s6
				; CHECK-NEXT: s_lshr_b32 s15, s3, s7
				; CHECK-NEXT: s_ashr_i32 s3, s3, s7
				; CHECK-NEXT: s_ashr_i32 s2, s2, s6
				; CHECK-NEXT: s_ashr_i32 s1, s1, s5
				; CHECK-NEXT: s_ashr_i32 s0, s0, s4
				; CHECK-NEXT: s_add_i32 s4, s11, s15
				; CHECK-NEXT: s_add_i32 s5, s10, s14
				; CHECK-NEXT: s_add_i32 s6, s9, s13
				; CHECK-NEXT: s_add_i32 s7, s8, s12
				; CHECK-NEXT: s_add_i32 s0, s7, s0
				; CHECK-NEXT: s_add_i32 s1, s6, s1
				; CHECK-NEXT: s_add_i32 s2, s5, s2
				; CHECK-NEXT: s_add_i32 s3, s4, s3
				; CHECK-NEXT: ; return to shader part epilog
				%and = and <4 x i32> %b, <i32 31, i32 31, i32 31, i32 31>
				%shl = shl <4 x i32> %a, %and
				%lshr = lshr <4 x i32> %a, %and
				%ashr = ashr <4 x i32> %a, %and
				%ret.0 = add <4 x i32> %shl, %lshr
				%ret = add <4 x i32> %ret.0, %ashr
				ret <4 x i32> %ret
				}

				define i64 @csh_64(i64 %a, i64 %b) {
				; CHECK-LABEL: csh_64:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshlrev_b64 v[3:4], v2, v[0:1]
				; CHECK-NEXT: v_lshrrev_b64 v[5:6], v2, v[0:1]
				; CHECK-NEXT: v_ashrrev_i64 v[0:1], v2, v[0:1]
				; CHECK-NEXT: v_add_co_u32_e32 v2, vcc, v3, v5
				; CHECK-NEXT: v_addc_co_u32_e32 v3, vcc, v4, v6, vcc
				; CHECK-NEXT: v_add_co_u32_e32 v0, vcc, v2, v0
				; CHECK-NEXT: v_addc_co_u32_e32 v1, vcc, v3, v1, vcc
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and i64 %b, 63
				%shl = shl i64 %a, %and
				%lshr = lshr i64 %a, %and
				%ashr = ashr i64 %a, %and
				%ret.0 = add i64 %shl, %lshr
				%ret = add i64 %ret.0, %ashr
				ret i64 %ret
				}

				define amdgpu_ps i64 @s_csh_64(i64 inreg %a, i64 inreg %b) {
				; CHECK-LABEL: s_csh_64:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_lshl_b64 s[4:5], s[0:1], s2
				; CHECK-NEXT: s_lshr_b64 s[6:7], s[0:1], s2
				; CHECK-NEXT: s_ashr_i64 s[0:1], s[0:1], s2
				; CHECK-NEXT: s_add_u32 s2, s4, s6
				; CHECK-NEXT: s_addc_u32 s3, s5, s7
				; CHECK-NEXT: s_add_u32 s0, s2, s0
				; CHECK-NEXT: s_addc_u32 s1, s3, s1
				; CHECK-NEXT: ; return to shader part epilog
				%and = and i64 %b, 63
				%shl = shl i64 %a, %and
				%lshr = lshr i64 %a, %and
				%ashr = ashr i64 %a, %and
				%ret.0 = add i64 %shl, %lshr
				%ret = add i64 %ret.0, %ashr
				ret i64 %ret
				}

				define i32 @cshl_or(i32 %a, i32 %b) {
				; CHECK-LABEL: cshl_or:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshl_or_b32 v0, v0, v1, v0
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and i32 %b, 31
				%shl = shl i32 %a, %and
				%or = or i32 %shl, %a
				ret i32 %or
				}

				define i32 @cshl_add(i32 %a, i32 %b, i32 %c) {
				; CHECK-LABEL: cshl_add:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_lshl_add_u32 v0, v0, v1, v2
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%and = and i32 %b, 31
				%shl = shl i32 %a, %and
				%add = add i32 %shl, %c
				ret i32 %add
				}

				define i32 @add_cshl(i32 %a, i32 %b) {
				; CHECK-LABEL: add_cshl:
				; CHECK: ; %bb.0:
				; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; CHECK-NEXT: v_add_lshl_u32 v0, v0, v1, v1
				; CHECK-NEXT: s_setpc_b64 s[30:31]
				%add = add i32 %a, %b
				%and = and i32 %b, 31
				%shl = shl i32 %add, %and
				ret i32 %shl
				}

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 633 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_or_b32_e32 v2, 16, v2			; SI-NEXT: v_or_b32_e32 v2, 16, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_alignbit_b32 v0, v0, v1, v2			; SI-NEXT: v_alignbit_b32 v0, v0, v1, v2
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_i16:			; VI-LABEL: v_fshr_i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_xor_b32_e32 v3, -1, v2
	; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; VI-NEXT: v_and_b32_e32 v3, 15, v3			; VI-NEXT: v_xor_b32_e32 v3, -1, v2
	; VI-NEXT: v_and_b32_e32 v2, 15, v2
	; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; VI-NEXT: v_lshrrev_b16_e32 v1, v2, v1			; VI-NEXT: v_lshrrev_b16_e32 v1, v2, v1
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_i16:			; GFX9-LABEL: v_fshr_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v3			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 15, v2
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1			; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_i16:			; R600-LABEL: v_fshr_i16:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_i16:			; GFX10-LABEL: v_fshr_i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_and_b32_e32 v2, 15, v2			; GFX10-NEXT: v_xor_b32_e32 v3, -1, v2
	; GFX10-NEXT: v_and_b32_e32 v3, 15, v3
	; GFX10-NEXT: v_lshrrev_b16 v1, v2, v1			; GFX10-NEXT: v_lshrrev_b16 v1, v2, v1
	; GFX10-NEXT: v_lshlrev_b16 v0, v3, v0			; GFX10-NEXT: v_lshlrev_b16 v0, v3, v0
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%ret = call i16 @llvm.fshr.i16(i16 %src0, i16 %src1, i16 %src2)			%ret = call i16 @llvm.fshr.i16(i16 %src0, i16 %src1, i16 %src2)
	ret i16 %ret			ret i16 %ret
	}			}

	Show All 12 Lines
	; SI-NEXT: v_or_b32_e32 v0, v0, v1			; SI-NEXT: v_or_b32_e32 v0, v0, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v2i16:			; VI-LABEL: v_fshr_v2i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; VI-NEXT: v_and_b32_e32 v4, 15, v3
	; VI-NEXT: v_mov_b32_e32 v5, 1			; VI-NEXT: v_mov_b32_e32 v5, 1
	; VI-NEXT: v_xor_b32_e32 v3, -1, v3			; VI-NEXT: v_lshrrev_b16_sdwa v4, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_and_b32_e32 v3, 15, v3			; VI-NEXT: v_xor_b32_e32 v3, -1, v3
	; VI-NEXT: v_lshrrev_b16_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_e32 v3, v3, v5			; VI-NEXT: v_lshlrev_b16_e32 v3, v3, v5
	; VI-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_xor_b32_e32 v4, -1, v2
	; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; VI-NEXT: v_and_b32_e32 v4, 15, v4			; VI-NEXT: v_xor_b32_e32 v4, -1, v2
	; VI-NEXT: v_and_b32_e32 v2, 15, v2
	; VI-NEXT: v_lshlrev_b16_e32 v0, v4, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, v4, v0
	; VI-NEXT: v_lshrrev_b16_e32 v1, v2, v1			; VI-NEXT: v_lshrrev_b16_e32 v1, v2, v1
	; VI-NEXT: v_or_b32_e32 v0, v0, v1			; VI-NEXT: v_or_b32_e32 v0, v0, v1
	; VI-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v2i16:			; GFX9-LABEL: v_fshr_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_and_b32_e32 v2, s4, v3			; SI-NEXT: v_and_b32_e32 v2, s4, v3
	; SI-NEXT: v_alignbit_b32 v1, v3, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v3, v1, 16
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v3i16:			; VI-LABEL: v_fshr_v3i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v4
	; VI-NEXT: v_and_b32_e32 v7, 15, v6
	; VI-NEXT: v_mov_b32_e32 v8, 1			; VI-NEXT: v_mov_b32_e32 v8, 1
	; VI-NEXT: v_xor_b32_e32 v6, -1, v6			; VI-NEXT: v_lshrrev_b16_sdwa v7, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_and_b32_e32 v6, 15, v6			; VI-NEXT: v_xor_b32_e32 v6, -1, v6
	; VI-NEXT: v_lshrrev_b16_sdwa v7, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_e32 v6, v6, v8			; VI-NEXT: v_lshlrev_b16_e32 v6, v6, v8
	; VI-NEXT: v_or_b32_sdwa v6, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v6, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_xor_b32_e32 v7, -1, v5
	; VI-NEXT: v_lshlrev_b16_e32 v1, 1, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, 1, v1
	; VI-NEXT: v_and_b32_e32 v7, 15, v7			; VI-NEXT: v_xor_b32_e32 v7, -1, v5
	; VI-NEXT: v_and_b32_e32 v5, 15, v5
	; VI-NEXT: v_lshlrev_b16_e32 v1, v7, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, v7, v1
	; VI-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; VI-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; VI-NEXT: v_or_b32_e32 v1, v1, v3			; VI-NEXT: v_or_b32_e32 v1, v1, v3
	; VI-NEXT: v_xor_b32_e32 v3, -1, v4
	; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; VI-NEXT: v_and_b32_e32 v3, 15, v3			; VI-NEXT: v_xor_b32_e32 v3, -1, v4
	; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; VI-NEXT: v_and_b32_e32 v3, 15, v4			; VI-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; VI-NEXT: v_lshrrev_b16_e32 v2, v3, v2
	; VI-NEXT: v_or_b32_e32 v0, v0, v2			; VI-NEXT: v_or_b32_e32 v0, v0, v2
	; VI-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v3i16:			; GFX9-LABEL: v_fshr_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v4
	; GFX9-NEXT: v_and_b32_e32 v7, 15, v6
	; GFX9-NEXT: v_mov_b32_e32 v8, 1			; GFX9-NEXT: v_mov_b32_e32 v8, 1
	; GFX9-NEXT: v_xor_b32_e32 v6, -1, v6			; GFX9-NEXT: v_lshrrev_b16_sdwa v7, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_and_b32_e32 v6, 15, v6			; GFX9-NEXT: v_xor_b32_e32 v6, -1, v6
	; GFX9-NEXT: v_lshrrev_b16_sdwa v7, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_e32 v6, v6, v8			; GFX9-NEXT: v_lshlrev_b16_e32 v6, v6, v8
	; GFX9-NEXT: v_or_b32_e32 v6, v6, v7			; GFX9-NEXT: v_or_b32_e32 v6, v6, v7
	; GFX9-NEXT: v_xor_b32_e32 v7, -1, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, 1, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, 1, v1
	; GFX9-NEXT: v_and_b32_e32 v7, 15, v7			; GFX9-NEXT: v_xor_b32_e32 v7, -1, v5
	; GFX9-NEXT: v_and_b32_e32 v5, 15, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, v7, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, v7, v1
	; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v3			; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v3			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v4			; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; GFX9-NEXT: v_lshrrev_b16_e32 v2, v3, v2
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v2			; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v6, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v6, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v3i16:			; R600-LABEL: v_fshr_v3i16:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_v3i16:			; GFX10-LABEL: v_fshr_v3i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v4
	; GFX10-NEXT: v_xor_b32_e32 v8, -1, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v0
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_and_b32_e32 v4, 15, v4			; GFX10-NEXT: v_xor_b32_e32 v8, -1, v4
	; GFX10-NEXT: v_and_b32_e32 v9, 15, v6			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 16, v2
	; GFX10-NEXT: v_xor_b32_e32 v6, -1, v6			; GFX10-NEXT: v_xor_b32_e32 v10, -1, v6
	; GFX10-NEXT: v_and_b32_e32 v8, 15, v8			; GFX10-NEXT: v_lshlrev_b16 v7, 1, v7
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX10-NEXT: v_lshlrev_b16 v10, 1, v10
	; GFX10-NEXT: v_xor_b32_e32 v11, -1, v5
	; GFX10-NEXT: v_and_b32_e32 v6, 15, v6
	; GFX10-NEXT: v_lshlrev_b16 v0, v8, v0
	; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2			; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2
	; GFX10-NEXT: v_lshrrev_b16 v4, v9, v7			; GFX10-NEXT: v_lshlrev_b16 v0, v8, v0
				; GFX10-NEXT: v_lshrrev_b16 v4, v6, v9
	; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX10-NEXT: v_lshlrev_b16 v6, v6, v10			; GFX10-NEXT: v_lshlrev_b16 v6, v10, v7
	; GFX10-NEXT: v_and_b32_e32 v7, 15, v11			; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v2			; GFX10-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX10-NEXT: v_and_b32_e32 v2, 15, v5			; GFX10-NEXT: v_xor_b32_e32 v2, -1, v5
	; GFX10-NEXT: v_or_b32_e32 v4, v6, v4			; GFX10-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX10-NEXT: v_lshlrev_b16 v1, v7, v1
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX10-NEXT: v_lshrrev_b16 v2, v2, v3			; GFX10-NEXT: v_lshlrev_b16 v1, v2, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v2			; GFX10-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%ret = call <3 x i16> @llvm.fshr.v3i16(<3 x i16> %src0, <3 x i16> %src1, <3 x i16> %src2)			%ret = call <3 x i16> @llvm.fshr.v3i16(<3 x i16> %src0, <3 x i16> %src1, <3 x i16> %src2)
	ret <3 x i16> %ret			ret <3 x i16> %ret
	}			}

	define <4 x i16> @v_fshr_v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2) {			define <4 x i16> @v_fshr_v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2) {
	; SI-LABEL: v_fshr_v4i16:			; SI-LABEL: v_fshr_v4i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	Show All 20 Lines
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v4i16:			; VI-LABEL: v_fshr_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; VI-NEXT: v_and_b32_e32 v7, 15, v6
	; VI-NEXT: v_mov_b32_e32 v8, 1			; VI-NEXT: v_mov_b32_e32 v8, 1
	; VI-NEXT: v_xor_b32_e32 v6, -1, v6			; VI-NEXT: v_lshrrev_b16_sdwa v7, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_sdwa v9, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v9, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_and_b32_e32 v6, 15, v6			; VI-NEXT: v_xor_b32_e32 v6, -1, v6
	; VI-NEXT: v_lshrrev_b16_sdwa v7, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshlrev_b16_e32 v6, v6, v9			; VI-NEXT: v_lshlrev_b16_e32 v6, v6, v9
	; VI-NEXT: v_or_b32_sdwa v6, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v6, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; VI-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; VI-NEXT: v_and_b32_e32 v9, 15, v7			; VI-NEXT: v_lshrrev_b16_sdwa v9, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_xor_b32_e32 v7, -1, v7
	; VI-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_and_b32_e32 v7, 15, v7			; VI-NEXT: v_xor_b32_e32 v7, -1, v7
	; VI-NEXT: v_lshlrev_b16_e32 v7, v7, v8			; VI-NEXT: v_lshlrev_b16_e32 v7, v7, v8
	; VI-NEXT: v_xor_b32_e32 v8, -1, v5
	; VI-NEXT: v_lshlrev_b16_e32 v1, 1, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, 1, v1
	; VI-NEXT: v_and_b32_e32 v8, 15, v8			; VI-NEXT: v_xor_b32_e32 v8, -1, v5
	; VI-NEXT: v_and_b32_e32 v5, 15, v5
	; VI-NEXT: v_lshlrev_b16_e32 v1, v8, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, v8, v1
	; VI-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; VI-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; VI-NEXT: v_or_b32_e32 v1, v1, v3			; VI-NEXT: v_or_b32_e32 v1, v1, v3
	; VI-NEXT: v_xor_b32_e32 v3, -1, v4
	; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; VI-NEXT: v_and_b32_e32 v3, 15, v3			; VI-NEXT: v_xor_b32_e32 v3, -1, v4
	; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; VI-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; VI-NEXT: v_and_b32_e32 v3, 15, v4			; VI-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; VI-NEXT: v_lshrrev_b16_sdwa v9, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-NEXT: v_lshrrev_b16_e32 v2, v3, v2
	; VI-NEXT: v_or_b32_sdwa v7, v7, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v7, v7, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_or_b32_e32 v0, v0, v2			; VI-NEXT: v_or_b32_e32 v0, v0, v2
	; VI-NEXT: v_or_b32_sdwa v0, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v0, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v4i16:			; GFX9-LABEL: v_fshr_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	; GFX9-NEXT: v_and_b32_e32 v7, 15, v6
	; GFX9-NEXT: v_mov_b32_e32 v8, 1			; GFX9-NEXT: v_mov_b32_e32 v8, 1
	; GFX9-NEXT: v_xor_b32_e32 v6, -1, v6			; GFX9-NEXT: v_lshrrev_b16_sdwa v7, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_sdwa v9, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_sdwa v9, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_and_b32_e32 v6, 15, v6			; GFX9-NEXT: v_xor_b32_e32 v6, -1, v6
	; GFX9-NEXT: v_lshrrev_b16_sdwa v7, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshlrev_b16_e32 v6, v6, v9			; GFX9-NEXT: v_lshlrev_b16_e32 v6, v6, v9
	; GFX9-NEXT: v_or_b32_e32 v6, v6, v7			; GFX9-NEXT: v_or_b32_e32 v6, v6, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX9-NEXT: v_and_b32_e32 v9, 15, v7			; GFX9-NEXT: v_lshrrev_b16_sdwa v9, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_xor_b32_e32 v7, -1, v7
	; GFX9-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_lshlrev_b16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_and_b32_e32 v7, 15, v7			; GFX9-NEXT: v_xor_b32_e32 v7, -1, v7
	; GFX9-NEXT: v_lshlrev_b16_e32 v7, v7, v8			; GFX9-NEXT: v_lshlrev_b16_e32 v7, v7, v8
	; GFX9-NEXT: v_xor_b32_e32 v8, -1, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, 1, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, 1, v1
	; GFX9-NEXT: v_and_b32_e32 v8, 15, v8			; GFX9-NEXT: v_xor_b32_e32 v8, -1, v5
	; GFX9-NEXT: v_and_b32_e32 v5, 15, v5
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1			; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1
	; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3			; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v3			; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v3			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0			; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
	; GFX9-NEXT: v_and_b32_e32 v3, 15, v4			; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2
	; GFX9-NEXT: v_lshrrev_b16_sdwa v9, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshrrev_b16_e32 v2, v3, v2
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v2			; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: v_or_b32_e32 v7, v7, v9			; GFX9-NEXT: v_or_b32_e32 v7, v7, v9
	; GFX9-NEXT: v_and_b32_e32 v0, v2, v0			; GFX9-NEXT: v_and_b32_e32 v0, v2, v0
	; GFX9-NEXT: v_and_b32_e32 v1, v2, v1			; GFX9-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v4i16:			; R600-LABEL: v_fshr_v4i16:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_v4i16:			; GFX10-LABEL: v_fshr_v4i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 16, v0
	; GFX10-NEXT: v_xor_b32_e32 v9, -1, v6
	; GFX10-NEXT: v_and_b32_e32 v6, 15, v6
	; GFX10-NEXT: v_lshlrev_b16 v8, 1, v8
	; GFX10-NEXT: v_and_b32_e32 v13, 15, v10
	; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1			; GFX10-NEXT: v_lshlrev_b16 v1, 1, v1
	; GFX10-NEXT: v_and_b32_e32 v9, 15, v9			; GFX10-NEXT: v_lshlrev_b16 v6, 1, v6
	; GFX10-NEXT: v_lshrrev_b16 v6, v6, v7			; GFX10-NEXT: v_xor_b32_e32 v9, -1, v7
				; GFX10-NEXT: v_lshrrev_b16 v7, v7, v8
				; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v0
	; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b16 v0, 1, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 16, v2			; GFX10-NEXT: v_xor_b32_e32 v12, -1, v5
	; GFX10-NEXT: v_lshlrev_b16 v11, 1, v11			; GFX10-NEXT: v_lshlrev_b16 v6, v9, v6
	; GFX10-NEXT: v_lshlrev_b16 v7, v9, v8			; GFX10-NEXT: v_xor_b32_e32 v9, -1, v4
	; GFX10-NEXT: v_xor_b32_e32 v8, -1, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 16, v2
	; GFX10-NEXT: v_xor_b32_e32 v9, -1, v10			; GFX10-NEXT: v_lshlrev_b16 v8, 1, v8
	; GFX10-NEXT: v_xor_b32_e32 v10, -1, v5			; GFX10-NEXT: v_xor_b32_e32 v13, -1, v11
	; GFX10-NEXT: v_and_b32_e32 v4, 15, v4
	; GFX10-NEXT: v_and_b32_e32 v5, 15, v5
	; GFX10-NEXT: v_and_b32_e32 v8, 15, v8
	; GFX10-NEXT: v_and_b32_e32 v9, 15, v9
	; GFX10-NEXT: v_and_b32_e32 v10, 15, v10
	; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2			; GFX10-NEXT: v_lshrrev_b16 v2, v4, v2
				; GFX10-NEXT: v_lshlrev_b16 v0, v9, v0
				; GFX10-NEXT: v_lshlrev_b16 v1, v12, v1
	; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3			; GFX10-NEXT: v_lshrrev_b16 v3, v5, v3
	; GFX10-NEXT: v_lshlrev_b16 v0, v8, v0			; GFX10-NEXT: v_lshrrev_b16 v4, v11, v10
	; GFX10-NEXT: v_lshrrev_b16 v4, v13, v12			; GFX10-NEXT: v_lshlrev_b16 v5, v13, v8
	; GFX10-NEXT: v_lshlrev_b16 v1, v10, v1
	; GFX10-NEXT: v_lshlrev_b16 v5, v9, v11
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v2			; GFX10-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v3			; GFX10-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX10-NEXT: v_or_b32_e32 v3, v7, v6			; GFX10-NEXT: v_or_b32_e32 v3, v6, v7
	; GFX10-NEXT: v_or_b32_e32 v4, v5, v4			; GFX10-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX10-NEXT: v_and_b32_e32 v0, v2, v0			; GFX10-NEXT: v_and_b32_e32 v0, v2, v0
	; GFX10-NEXT: v_and_b32_e32 v1, v2, v1			; GFX10-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%ret = call <4 x i16> @llvm.fshr.v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2)			%ret = call <4 x i16> @llvm.fshr.v4i16(<4 x i16> %src0, <4 x i16> %src1, <4 x i16> %src2)
	ret <4 x i16> %ret			ret <4 x i16> %ret
	}			}

	define i64 @v_fshr_i64(i64 %src0, i64 %src1, i64 %src2) {			define i64 @v_fshr_i64(i64 %src0, i64 %src1, i64 %src2) {
	; SI-LABEL: v_fshr_i64:			; SI-LABEL: v_fshr_i64:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_and_b32_e32 v5, 63, v4
	; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1			; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
				; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], v4
	; SI-NEXT: v_not_b32_e32 v4, v4			; SI-NEXT: v_not_b32_e32 v4, v4
	; SI-NEXT: v_and_b32_e32 v4, 63, v4
	; SI-NEXT: v_lshr_b64 v[2:3], v[2:3], v5
	; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], v4			; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], v4
	; SI-NEXT: v_or_b32_e32 v1, v1, v3			; SI-NEXT: v_or_b32_e32 v1, v1, v3
	; SI-NEXT: v_or_b32_e32 v0, v0, v2			; SI-NEXT: v_or_b32_e32 v0, v0, v2
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_i64:			; VI-LABEL: v_fshr_i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_and_b32_e32 v5, 63, v4
	; VI-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; VI-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
				; VI-NEXT: v_lshrrev_b64 v[2:3], v4, v[2:3]
	; VI-NEXT: v_not_b32_e32 v4, v4			; VI-NEXT: v_not_b32_e32 v4, v4
	; VI-NEXT: v_and_b32_e32 v4, 63, v4
	; VI-NEXT: v_lshrrev_b64 v[2:3], v5, v[2:3]
	; VI-NEXT: v_lshlrev_b64 v[0:1], v4, v[0:1]			; VI-NEXT: v_lshlrev_b64 v[0:1], v4, v[0:1]
	; VI-NEXT: v_or_b32_e32 v1, v1, v3			; VI-NEXT: v_or_b32_e32 v1, v1, v3
	; VI-NEXT: v_or_b32_e32 v0, v0, v2			; VI-NEXT: v_or_b32_e32 v0, v0, v2
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_i64:			; GFX9-LABEL: v_fshr_i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v5, 63, v4
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
				; GFX9-NEXT: v_lshrrev_b64 v[2:3], v4, v[2:3]
	; GFX9-NEXT: v_not_b32_e32 v4, v4			; GFX9-NEXT: v_not_b32_e32 v4, v4
	; GFX9-NEXT: v_and_b32_e32 v4, 63, v4
	; GFX9-NEXT: v_lshrrev_b64 v[2:3], v5, v[2:3]
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], v4, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], v4, v[0:1]
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v3			; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v2			; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_i64:			; R600-LABEL: v_fshr_i64:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_i64:			; GFX10-LABEL: v_fshr_i64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_not_b32_e32 v5, v4
	; GFX10-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; GFX10-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
	; GFX10-NEXT: v_and_b32_e32 v4, 63, v4			; GFX10-NEXT: v_not_b32_e32 v5, v4
	; GFX10-NEXT: v_and_b32_e32 v5, 63, v5
	; GFX10-NEXT: v_lshrrev_b64 v[2:3], v4, v[2:3]			; GFX10-NEXT: v_lshrrev_b64 v[2:3], v4, v[2:3]
	; GFX10-NEXT: v_lshlrev_b64 v[0:1], v5, v[0:1]			; GFX10-NEXT: v_lshlrev_b64 v[0:1], v5, v[0:1]
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v2			; GFX10-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v3			; GFX10-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%ret = call i64 @llvm.fshr.i64(i64 %src0, i64 %src1, i64 %src2)			%ret = call i64 @llvm.fshr.i64(i64 %src0, i64 %src1, i64 %src2)
	ret i64 %ret			ret i64 %ret
	}			}

	define <2 x i64> @v_fshr_v2i64(<2 x i64> %src0, <2 x i64> %src1, <2 x i64> %src2) {			define <2 x i64> @v_fshr_v2i64(<2 x i64> %src0, <2 x i64> %src1, <2 x i64> %src2) {
	; SI-LABEL: v_fshr_v2i64:			; SI-LABEL: v_fshr_v2i64:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_and_b32_e32 v9, 63, v8
	; SI-NEXT: v_not_b32_e32 v8, v8
	; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1			; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
	; SI-NEXT: v_and_b32_e32 v8, 63, v8			; SI-NEXT: v_lshr_b64 v[4:5], v[4:5], v8
	; SI-NEXT: v_lshr_b64 v[4:5], v[4:5], v9			; SI-NEXT: v_not_b32_e32 v8, v8
	; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], v8			; SI-NEXT: v_lshl_b64 v[0:1], v[0:1], v8
	; SI-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; SI-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; SI-NEXT: v_or_b32_e32 v1, v1, v5			; SI-NEXT: v_or_b32_e32 v1, v1, v5
	; SI-NEXT: v_and_b32_e32 v5, 63, v10			; SI-NEXT: v_lshr_b64 v[5:6], v[6:7], v10
	; SI-NEXT: v_lshr_b64 v[5:6], v[6:7], v5
	; SI-NEXT: v_not_b32_e32 v7, v10			; SI-NEXT: v_not_b32_e32 v7, v10
	; SI-NEXT: v_and_b32_e32 v7, 63, v7
	; SI-NEXT: v_lshl_b64 v[2:3], v[2:3], v7			; SI-NEXT: v_lshl_b64 v[2:3], v[2:3], v7
	; SI-NEXT: v_or_b32_e32 v0, v0, v4			; SI-NEXT: v_or_b32_e32 v0, v0, v4
	; SI-NEXT: v_or_b32_e32 v3, v3, v6			; SI-NEXT: v_or_b32_e32 v3, v3, v6
	; SI-NEXT: v_or_b32_e32 v2, v2, v5			; SI-NEXT: v_or_b32_e32 v2, v2, v5
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_fshr_v2i64:			; VI-LABEL: v_fshr_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; VI-NEXT: v_and_b32_e32 v9, 63, v8
	; VI-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; VI-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
				; VI-NEXT: v_lshrrev_b64 v[4:5], v8, v[4:5]
	; VI-NEXT: v_not_b32_e32 v8, v8			; VI-NEXT: v_not_b32_e32 v8, v8
	; VI-NEXT: v_and_b32_e32 v8, 63, v8
	; VI-NEXT: v_lshrrev_b64 v[4:5], v9, v[4:5]
	; VI-NEXT: v_lshlrev_b64 v[0:1], v8, v[0:1]			; VI-NEXT: v_lshlrev_b64 v[0:1], v8, v[0:1]
	; VI-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]			; VI-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
	; VI-NEXT: v_or_b32_e32 v1, v1, v5			; VI-NEXT: v_or_b32_e32 v1, v1, v5
	; VI-NEXT: v_and_b32_e32 v5, 63, v10			; VI-NEXT: v_lshrrev_b64 v[5:6], v10, v[6:7]
	; VI-NEXT: v_lshrrev_b64 v[5:6], v5, v[6:7]
	; VI-NEXT: v_not_b32_e32 v7, v10			; VI-NEXT: v_not_b32_e32 v7, v10
	; VI-NEXT: v_and_b32_e32 v7, 63, v7
	; VI-NEXT: v_lshlrev_b64 v[2:3], v7, v[2:3]			; VI-NEXT: v_lshlrev_b64 v[2:3], v7, v[2:3]
	; VI-NEXT: v_or_b32_e32 v0, v0, v4			; VI-NEXT: v_or_b32_e32 v0, v0, v4
	; VI-NEXT: v_or_b32_e32 v3, v3, v6			; VI-NEXT: v_or_b32_e32 v3, v3, v6
	; VI-NEXT: v_or_b32_e32 v2, v2, v5			; VI-NEXT: v_or_b32_e32 v2, v2, v5
	; VI-NEXT: s_setpc_b64 s[30:31]			; VI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fshr_v2i64:			; GFX9-LABEL: v_fshr_v2i64:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v9, 63, v8
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
				; GFX9-NEXT: v_lshrrev_b64 v[4:5], v8, v[4:5]
	; GFX9-NEXT: v_not_b32_e32 v8, v8			; GFX9-NEXT: v_not_b32_e32 v8, v8
	; GFX9-NEXT: v_and_b32_e32 v8, 63, v8
	; GFX9-NEXT: v_lshrrev_b64 v[4:5], v9, v[4:5]
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], v8, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], v8, v[0:1]
	; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]			; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
	; GFX9-NEXT: v_or_b32_e32 v1, v1, v5			; GFX9-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX9-NEXT: v_and_b32_e32 v5, 63, v10			; GFX9-NEXT: v_lshrrev_b64 v[5:6], v10, v[6:7]
	; GFX9-NEXT: v_lshrrev_b64 v[5:6], v5, v[6:7]
	; GFX9-NEXT: v_not_b32_e32 v7, v10			; GFX9-NEXT: v_not_b32_e32 v7, v10
	; GFX9-NEXT: v_and_b32_e32 v7, 63, v7
	; GFX9-NEXT: v_lshlrev_b64 v[2:3], v7, v[2:3]			; GFX9-NEXT: v_lshlrev_b64 v[2:3], v7, v[2:3]
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v4			; GFX9-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX9-NEXT: v_or_b32_e32 v3, v3, v6			; GFX9-NEXT: v_or_b32_e32 v3, v3, v6
	; GFX9-NEXT: v_or_b32_e32 v2, v2, v5			; GFX9-NEXT: v_or_b32_e32 v2, v2, v5
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v2i64:			; R600-LABEL: v_fshr_v2i64:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	;			;
	; GFX10-LABEL: v_fshr_v2i64:			; GFX10-LABEL: v_fshr_v2i64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_not_b32_e32 v9, v8
	; GFX10-NEXT: v_not_b32_e32 v11, v10
	; GFX10-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]			; GFX10-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
	; GFX10-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]			; GFX10-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
	; GFX10-NEXT: v_and_b32_e32 v8, 63, v8			; GFX10-NEXT: v_not_b32_e32 v9, v8
	; GFX10-NEXT: v_and_b32_e32 v9, 63, v9			; GFX10-NEXT: v_not_b32_e32 v11, v10
	; GFX10-NEXT: v_and_b32_e32 v10, 63, v10
	; GFX10-NEXT: v_and_b32_e32 v11, 63, v11
	; GFX10-NEXT: v_lshrrev_b64 v[4:5], v8, v[4:5]			; GFX10-NEXT: v_lshrrev_b64 v[4:5], v8, v[4:5]
	; GFX10-NEXT: v_lshlrev_b64 v[0:1], v9, v[0:1]
	; GFX10-NEXT: v_lshrrev_b64 v[6:7], v10, v[6:7]			; GFX10-NEXT: v_lshrrev_b64 v[6:7], v10, v[6:7]
				; GFX10-NEXT: v_lshlrev_b64 v[0:1], v9, v[0:1]
	; GFX10-NEXT: v_lshlrev_b64 v[2:3], v11, v[2:3]			; GFX10-NEXT: v_lshlrev_b64 v[2:3], v11, v[2:3]
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v4			; GFX10-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX10-NEXT: v_or_b32_e32 v1, v1, v5			; GFX10-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX10-NEXT: v_or_b32_e32 v2, v2, v6			; GFX10-NEXT: v_or_b32_e32 v2, v2, v6
	; GFX10-NEXT: v_or_b32_e32 v3, v3, v7			; GFX10-NEXT: v_or_b32_e32 v3, v3, v7
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %src0, <2 x i64> %src1, <2 x i64> %src2)			%ret = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %src0, <2 x i64> %src1, <2 x i64> %src2)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shift-i64-opts.ll

Show First 20 Lines • Show All 239 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @trunc_shl_31_i32_i64_multi_use(i32 addrspace(1)* %out, i64 addrspace(1)* %in) {
%shl = shl i64 %val, 31		%shl = shl i64 %val, 31
%trunc = trunc i64 %shl to i32		%trunc = trunc i64 %shl to i32
store volatile i32 %trunc, i32 addrspace(1)* %out		store volatile i32 %trunc, i32 addrspace(1)* %out
store volatile i64 %shl, i64 addrspace(1)* %in		store volatile i64 %shl, i64 addrspace(1)* %in
ret void		ret void
}		}

; GCN-LABEL: {{^}}trunc_shl_and31:		; GCN-LABEL: {{^}}trunc_shl_and31:
; GCN: s_and_b32 s[[AMT:[0-9]+]], s{{[0-9]+}}, 31		; GCN: v_lshlrev_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
; GCN: v_lshlrev_b32_e32 v{{[0-9]+}}, s[[AMT]], v{{[0-9]+}}
; GCN-NOT: v_lshl_b64		; GCN-NOT: v_lshl_b64
; GCN-NOT: v_lshlrev_b64		; GCN-NOT: v_lshlrev_b64
define amdgpu_kernel void @trunc_shl_and31(i64 addrspace(1)* nocapture readonly %arg, i32 addrspace(1)* nocapture %arg1, i32 %arg2) {		define amdgpu_kernel void @trunc_shl_and31(i64 addrspace(1)* nocapture readonly %arg, i32 addrspace(1)* nocapture %arg1, i32 %arg2) {
bb:		bb:
%tmp = load i64, i64 addrspace(1)* %arg, align 8		%tmp = load i64, i64 addrspace(1)* %arg, align 8
%tmp3 = and i32 %arg2, 31		%tmp3 = and i32 %arg2, 31
%tmp4 = zext i32 %tmp3 to i64		%tmp4 = zext i32 %tmp3 to i64
%tmp5 = shl i64 %tmp, %tmp4		%tmp5 = shl i64 %tmp, %tmp4
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines