This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/
-
llvm/
-
CodeGen/GlobalISel/
-
GlobalISel/
-
CombinerHelper.h
-
Target/GlobalISel/
-
GlobalISel/
-
Combine.td
-
lib/
-
CodeGen/GlobalISel/
-
GlobalISel/
3/4
CombinerHelper.cpp
1/4
LegalizerHelper.cpp
-
Target/
-
AArch64/
-
AArch64Combine.td
-
GISel/
-
AArch64PostLegalizerCombiner.cpp
-
AMDGPU/
-
AMDGPUISelLowering.h
-
AMDGPUISelLowering.cpp
-
AMDGPUInstructionSelector.h
2
AMDGPUInstructionSelector.cpp
1/1
AMDGPULegalizerInfo.cpp
-
AMDGPURegisterBankInfo.h
9/14
AMDGPURegisterBankInfo.cpp
-
test/CodeGen/AMDGPU/GlobalISel/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
ashr.ll
-
cvt_f32_ubyte.ll
-
extractelement-stack-lower.ll
-
extractelement.i8.ll
2/2
fshl.ll
-
fshr.ll
-
insertelement.i8.ll
1/2
inst-select-sbfx.mir
2/3
inst-select-ubfx.mir
-
legalize-sbfx.mir
1/3
legalize-ubfx.mir
-
llvm.amdgcn.ubfe.ll
-
llvm.amdgcn.workitem.id.ll
-
postlegalizercombiner-sbfx.mir
-
postlegalizercombiner-ubfx.mir
-
regbankselect-sbfx.mir
1/1
regbankselect-ubfx.mir
-
saddsat.ll
-
sbfx.ll
-
sdivrem.ll
-
ssubsat.ll
-
uaddsat.ll
-
ubfx.ll
-
udivrem.ll
-
usubsat.ll

Differential D100149

[AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFX
ClosedPublic

Authored by bcahoon on Apr 8 2021, 3:50 PM.

Download Raw Diff

Details

Reviewers

arsenm
aemerson
paquette
foad

Commits

rGf9f5d415453b: [AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFX

Summary

Adds legalizer, register bank select, and instruction
select support for G_SBFX and G_UBFX. These opcodes generate
the scalar or vector ALU bitfield extract instructions. The
instructions allow both constant or register values for the
offset and width operands.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

bcahoon created this revision.Apr 8 2021, 3:50 PM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptApr 8 2021, 3:50 PM

bcahoon requested review of this revision.Apr 8 2021, 3:50 PM

Herald added a project: Restricted Project. · View Herald TranscriptApr 8 2021, 3:50 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

arsenm added inline comments.Apr 8 2021, 4:06 PM

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
2034	Extra space before )
llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
771	Typo scslar
781–801	It would be better to handle this operand packing in RegBankSelect applyMappingImpl. We can get simplifications after the fact if you emit the generic bit operations. If the offset/width are really constants, this won't end up constant folding them (actually today SIFoldOperands should constant fold them, but the only reason it tries to do this is a hack for SelectionDAG)

Harbormaster completed remote builds in B97833: Diff 336248.Apr 8 2021, 4:36 PM

Updates based upon initial review. The code that expands G_SBFX/G_UBFX
instructions is moved to regbankselect. This version also expands the 64-bit
vector version of the bitfield extract opcodes. For this, the expansion uses
shifts and masks to perform the 64-bit vector bitfield extract.

Harbormaster completed remote builds in B98508: Diff 337189.Apr 13 2021, 3:48 PM

Should have some end to end IR tests for all of these. Also would like to see if the constant cases get appropriately constant folded without special casing it. Another case to look out for is when the offset is known if we can reduce the 64-bit shift to 32-bits (it won't happen now, but theoretically it should trigger in the post-regbank combiner)

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1661	Also needs to scalarize vectors
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1560	I don't like creating single use MachineIRBuilders, but you have to do this right now
1621	This dropped the result register
llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-sbfx.mir
66	Doesn't cover the scalar cases
llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-ubfx.mir
4	There's no real reason to check both wave sizes here
66	Doesn't cover the scalar cases
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-ubfx.mir
70	Should also test s16 which is more interesting. Also some vectors, in particular <2 x s32>, <2 x s16>, <3 x s16> and <4 x s16>
llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-ubfx.mir
27	You can technically get away with this now, but I would prefer to have a use for all of the results. The other passes all tend to DCE instructions as they go, and someday regbankselect may start doing this

Added ability to use G_SBFX/G_UBFX in end-to-end cases.
This enables additional test cases. To do this, this patch moves
the AArch64 code that creates G_SBFX for shift+sext_inreg to
CombinerHelper.cpp so that it can be used by AMDGPU (and
other targets). Also, added the ability to create G_UBFX from
shift+and in CombinerHelper.cpp. This works on cases when
the offset and width are constants, since the general case is
not supported on AArch64.

The ability to generate G_SBFX/G_UBFX causes multiple existing
global-isel test cases to change. These test cases have been updated.

bcahoon marked 4 inline comments as done.May 1 2021, 11:23 AM

bcahoon added inline comments.

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-sbfx.mir
66	Scalar cases are expanded in the RegBankSelect pass.
llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-ubfx.mir
66	Scalar cases are expanded during the RegBankSelect pass.
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-ubfx.mir
70	Vector cases are disallowed for G_SBFX/G_UBFX by an explicit check in the MachineVerifier.

Harbormaster completed remote builds in B102116: Diff 342165.May 1 2021, 11:50 AM

LGTM with some nits. There are a few codesize regressions where a shift would work just as well but I'm not sure if there's anything you should be doing about it here

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp
3973–3975	Don't need to check this. It would be illegal mir to have a non-immediate here. All G_* opcode operands are always required to be the same operand kind
3990	Isn't there a buildSBfx? If not there should be
4024	Isn't there a buildUbfx? If not there should be
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1550	Spaces around +
1551	Spaces around +
llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll
554	This is worse for codesize
676	This is worse for codesize. Is this just missing another simplify bits combine somewhere?
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-ubfx.mir
70	That doesn't make much sense but OK

Added cases for G_SBFX and G_UBFX to GISelKnownBits, which
helps improve code generation.

Harbormaster completed remote builds in B105490: Diff 346833.May 20 2021, 1:41 PM

foad added a subscriber: foad.May 21 2021, 3:18 AM

foad added inline comments.

llvm/lib/CodeGen/GlobalISel/GISelKnownBits.cpp
498–499 ↗	(On Diff #346833)	This should really go in as a separate patch with unit tests in unittests/CodeGen/GlobalISel/KnownBitsTest.cpp.
518 ↗	(On Diff #346833)	This looks technically correct but I can't help feeling you'd get more precise results (when Width isn't exactly known) from a specialized KnownBits::sext function. On the other hand, maybe it's not worth optimizing for the case where Width isn't exactly known.

bcahoon marked 5 inline comments as done.May 22 2021, 10:53 AM

bcahoon added inline comments.

llvm/lib/CodeGen/GlobalISel/GISelKnownBits.cpp
498–499 ↗	(On Diff #346833)	Good idea - added https://reviews.llvm.org/D102969
518 ↗	(On Diff #346833)	My initial feeling was that it wasn't worth adding this to KnownBits, but I'm open to it.

Created a separate patch for the changes to computeKnownBits.

Harbormaster completed remote builds in B105770: Diff 347210.May 22 2021, 12:02 PM

foad added inline comments.May 24 2021, 6:29 AM

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1589	Typo uppoer.
1612	Looks like you're missing the sign extension here for the sbfe/sbfx case?

I assume we don't have any execution tests for this, but could really use some

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1612	Yes, this looks suspicious

foad added inline comments.Jun 3 2021, 7:54 AM

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1612	I would suggest that if width is not a constant, you instead expand to `Src >> Offset << (64 - Width) >> (64 - Width)` where the last shift is signed for G_SBFX, and the first shift might disappear if Offset happens to be 0. I'm assuming the result is undefined if Width is not in the range 1..BitWidth inclusive but the definition of these opcodes does not make that clear.

Rebased due to recent related commits and updated with review comments.
Fixed the 64-bit non-constant code generation for bitfield extract.

bcahoon marked 4 inline comments as done.Jun 7 2021, 8:47 AM

bcahoon added inline comments.

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1612	Thanks for pointing this out and for the suggestion. I've implemented your suggestion.

Harbormaster completed remote builds in B108003: Diff 350313.Jun 7 2021, 9:20 AM

foad added inline comments.Jun 8 2021, 1:57 AM

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp
4045	You've now got different doxygen comments on the declaration and definition of this function.
llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
2034	Should this be `TypeIdx == 0 \|\| TypeIdx == 1`?
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1577	I think this needs to be `<= 32`. At least, the `else` case won't correctly handle a signed extract with width == 32.
1602	The fact that it's undefined if Width>64 is not really surprising. The things that might be surprising are (a) it's defined if Width==64 and (b) it's undefined if Width==0. Especially the latter, since some people might expect to be able to do an unsigned zero-width extract and rely on the result being zero. TODO: make these rules clear in the definition of the G_*BFX opcodes.

Addressed review comments. Fixed doxygen comment, and a check for width <= 32. Also, when converting the G_SBFX/G_UBFX to a shift sequence for the sign extend, clarify that the expectation is that the width range is between 1 and 64-Offset.

bcahoon marked an inline comment as done.Jun 13 2021, 6:31 PM

bcahoon added inline comments.

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
2034	I believe that TypeIdx 0 is for the destination and source operands. And, TypeIdx 1 is for the offset and width operands, which should be zero extended.
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1577	Thanks for point this out!
1602	Ah right, good point. I've updated the comment and added the TODO. Let me know if you'd prefer more details in the comment. I can follow up with another PR to update the G_SBFX/G_UBFX opcodes.

Harbormaster completed remote builds in B109038: Diff 351759.Jun 13 2021, 7:09 PM

LGTM for AMDGPU, and I guess you haven't changed the behaviour for AArch64. What about other GlobalISel targets like MIPS and X86? Will they suddenly start seeing G_SBFX/G_UBSX where they weren't expecting them? Anyway I've added a couple more globalisel reviewers.

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
2034	Oh yes, you're right. I had not realized that these type indices refer back to "type0" and "type1" in the definition of G_SBFX/G_UBFX.
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1602	I can follow up with another PR to update the G_SBFX/G_UBFX opcodes. Yes please!

Rebased

Harbormaster completed remote builds in B110839: Diff 354264.Jun 24 2021, 9:07 AM

In D100149#2816330, @foad wrote:

LGTM for AMDGPU, and I guess you haven't changed the behaviour for AArch64. What about other GlobalISel targets like MIPS and X86? Will they suddenly start seeing G_SBFX/G_UBSX where they weren't expecting them? Anyway I've added a couple more globalisel reviewers.

Just to follow up on the question - Neither MIPS nor X86 have added support for G_SBFX and G_UBFX, so they shouldn't see them. The target independent parts that convert to G_SBFX/G_UBFX are guarded by isLegalOrCustom() checks.

foad accepted this revision.Jun 26 2021, 11:52 PM

This revision is now accepted and ready to land.Jun 26 2021, 11:52 PM

This revision was landed with ongoing or failed builds.Jun 28 2021, 6:13 AM

Closed by commit rGf9f5d415453b: [AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFX (authored by bcahoon). · Explain Why

This revision was automatically updated to reflect the committed changes.

bcahoon added a commit: rGf9f5d415453b: [AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFX.

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

GlobalISel/

CombinerHelper.h

2 lines

Target/

GlobalISel/

Combine.td

11 lines

lib/

CodeGen/

GlobalISel/

CombinerHelper.cpp

35 lines

LegalizerHelper.cpp

15 lines

Target/

AArch64/

AArch64Combine.td

9 lines

GISel/

AArch64PostLegalizerCombiner.cpp

28 lines

AMDGPU/

AMDGPUISelLowering.h

3 lines

AMDGPUISelLowering.cpp

5 lines

AMDGPUInstructionSelector.h

1 line

AMDGPUInstructionSelector.cpp

27 lines

AMDGPULegalizerInfo.cpp

7 lines

AMDGPURegisterBankInfo.h

3 lines

AMDGPURegisterBankInfo.cpp

78 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

ashr.ll

135 lines

cvt_f32_ubyte.ll

158 lines

extractelement-stack-lower.ll

3 lines

3860 lines

445 lines

664 lines

8046 lines

50 lines

78 lines

104 lines

105 lines

3 lines

llvm.amdgcn.workitem.id.ll

14 lines

postlegalizercombiner-sbfx.mir

151 lines

postlegalizercombiner-ubfx.mir

103 lines

regbankselect-sbfx.mir

342 lines

regbankselect-ubfx.mir

342 lines

160 lines

202 lines

410 lines

160 lines

160 lines

112 lines

260 lines

160 lines

Diff 354870

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

Show First 20 Lines • Show All 516 Lines • ▼ Show 20 Lines	public:
void applyFunnelShiftToRotate(MachineInstr &MI);		void applyFunnelShiftToRotate(MachineInstr &MI);
bool matchRotateOutOfRange(MachineInstr &MI);		bool matchRotateOutOfRange(MachineInstr &MI);
void applyRotateOutOfRange(MachineInstr &MI);		void applyRotateOutOfRange(MachineInstr &MI);

/// \returns true if a G_ICMP instruction \p MI can be replaced with a true		/// \returns true if a G_ICMP instruction \p MI can be replaced with a true
/// or false constant based off of KnownBits information.		/// or false constant based off of KnownBits information.
bool matchICmpToTrueFalseKnownBits(MachineInstr &MI, int64_t &MatchInfo);		bool matchICmpToTrueFalseKnownBits(MachineInstr &MI, int64_t &MatchInfo);

		bool matchBitfieldExtractFromSExtInReg(
		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo);
/// Match: and (lshr x, cst), mask -> ubfx x, cst, width		/// Match: and (lshr x, cst), mask -> ubfx x, cst, width
bool matchBitfieldExtractFromAnd(		bool matchBitfieldExtractFromAnd(
MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo);		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo);

/// Try to transform \p MI by using all of the above		/// Try to transform \p MI by using all of the above
/// combine functions. Returns true if changed.		/// combine functions. Returns true if changed.
bool tryCombine(MachineInstr &MI);		bool tryCombine(MachineInstr &MI);

▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/include/llvm/Target/GlobalISel/Combine.td

Show First 20 Lines • Show All 631 Lines • ▼ Show 20 Lines
def bitfield_extract_from_and : GICombineRule<		def bitfield_extract_from_and : GICombineRule<
(defs root:$root, build_fn_matchinfo:$info),		(defs root:$root, build_fn_matchinfo:$info),
(match (wip_match_opcode G_AND):$root,		(match (wip_match_opcode G_AND):$root,
[{ return Helper.matchBitfieldExtractFromAnd(*${root}, ${info}); }]),		[{ return Helper.matchBitfieldExtractFromAnd(*${root}, ${info}); }]),
(apply [{ return Helper.applyBuildFn(*${root}, ${info}); }])>;		(apply [{ return Helper.applyBuildFn(*${root}, ${info}); }])>;

def funnel_shift_combines : GICombineGroup<[funnel_shift_to_rotate]>;		def funnel_shift_combines : GICombineGroup<[funnel_shift_to_rotate]>;

		def bitfield_extract_from_sext_inreg : GICombineRule<
		(defs root:$root, build_fn_matchinfo:$info),
		(match (wip_match_opcode G_SEXT_INREG):$root,
		[{ return Helper.matchBitfieldExtractFromSExtInReg(*${root}, ${info}); }]),
		(apply [{ return Helper.applyBuildFn(*${root}, ${info}); }])>;

		def form_bitfield_extract : GICombineGroup<[bitfield_extract_from_sext_inreg,
		bitfield_extract_from_and]>;

// FIXME: These should use the custom predicate feature once it lands.		// FIXME: These should use the custom predicate feature once it lands.
def undef_combines : GICombineGroup<[undef_to_fp_zero, undef_to_int_zero,		def undef_combines : GICombineGroup<[undef_to_fp_zero, undef_to_int_zero,
undef_to_negative_one,		undef_to_negative_one,
binop_left_undef_to_zero,		binop_left_undef_to_zero,
propagate_undef_any_op,		propagate_undef_any_op,
propagate_undef_all_ops,		propagate_undef_all_ops,
propagate_undef_shuffle_mask,		propagate_undef_shuffle_mask,
erase_undef_store]>;		erase_undef_store]>;
Show All 27 Lines	def all_combines : GICombineGroup<[trivial_combines, insert_vec_elt_combines,
shl_ashr_to_sext_inreg, sext_inreg_of_load,		shl_ashr_to_sext_inreg, sext_inreg_of_load,
width_reduction_combines, select_combines,		width_reduction_combines, select_combines,
known_bits_simplifications, ext_ext_fold,		known_bits_simplifications, ext_ext_fold,
not_cmp_fold, opt_brcond_by_inverting_cond,		not_cmp_fold, opt_brcond_by_inverting_cond,
unmerge_merge, fabs_fabs_fold, unmerge_cst, unmerge_dead_to_trunc,		unmerge_merge, fabs_fabs_fold, unmerge_cst, unmerge_dead_to_trunc,
unmerge_zext_to_zext, trunc_ext_fold, trunc_shl,		unmerge_zext_to_zext, trunc_ext_fold, trunc_shl,
const_combines, xor_of_and_with_same_reg, ptr_add_with_zero,		const_combines, xor_of_and_with_same_reg, ptr_add_with_zero,
shift_immed_chain, shift_of_shifted_logic_chain, load_or_combine,		shift_immed_chain, shift_of_shifted_logic_chain, load_or_combine,
div_rem_to_divrem, funnel_shift_combines, bitfield_extract_from_and]>;		div_rem_to_divrem, funnel_shift_combines, form_bitfield_extract]>;

// A combine group used to for prelegalizer combiners at -O0. The combines in		// A combine group used to for prelegalizer combiners at -O0. The combines in
// this group have been selected based on experiments to balance code size and		// this group have been selected based on experiments to balance code size and
// compile time performance.		// compile time performance.
def optnone_combines : GICombineGroup<[trivial_combines,		def optnone_combines : GICombineGroup<[trivial_combines,
ptr_add_immed_chain, combines_for_extload,		ptr_add_immed_chain, combines_for_extload,
not_cmp_fold, opt_brcond_by_inverting_cond]>;		not_cmp_fold, opt_brcond_by_inverting_cond]>;

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

Show First 20 Lines • Show All 3,964 Lines • ▼ Show 20 Lines	bool CombinerHelper::matchICmpToTrueFalseKnownBits(MachineInstr &MI,
assert(MI.getOpcode() == TargetOpcode::G_ICMP);		assert(MI.getOpcode() == TargetOpcode::G_ICMP);
auto Pred = static_cast<CmpInst::Predicate>(MI.getOperand(1).getPredicate());		auto Pred = static_cast<CmpInst::Predicate>(MI.getOperand(1).getPredicate());
auto KnownLHS = KB->getKnownBits(MI.getOperand(2).getReg());		auto KnownLHS = KB->getKnownBits(MI.getOperand(2).getReg());
auto KnownRHS = KB->getKnownBits(MI.getOperand(3).getReg());		auto KnownRHS = KB->getKnownBits(MI.getOperand(3).getReg());
Optional<bool> KnownVal;		Optional<bool> KnownVal;
switch (Pred) {		switch (Pred) {
default:		default:
llvm_unreachable("Unexpected G_ICMP predicate?");		llvm_unreachable("Unexpected G_ICMP predicate?");
case CmpInst::ICMP_EQ:		case CmpInst::ICMP_EQ:
KnownVal = KnownBits::eq(KnownLHS, KnownRHS);		KnownVal = KnownBits::eq(KnownLHS, KnownRHS);
break;		break;
		arsenmUnsubmitted Done Reply Inline Actions Don't need to check this. It would be illegal mir to have a non-immediate here. All G_* opcode operands are always required to be the same operand kind arsenm: Don't need to check this. It would be illegal mir to have a non-immediate here. All G_* opcode…
case CmpInst::ICMP_NE:		case CmpInst::ICMP_NE:
KnownVal = KnownBits::ne(KnownLHS, KnownRHS);		KnownVal = KnownBits::ne(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_SGE:		case CmpInst::ICMP_SGE:
KnownVal = KnownBits::sge(KnownLHS, KnownRHS);		KnownVal = KnownBits::sge(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_SGT:		case CmpInst::ICMP_SGT:
KnownVal = KnownBits::sgt(KnownLHS, KnownRHS);		KnownVal = KnownBits::sgt(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_SLE:		case CmpInst::ICMP_SLE:
KnownVal = KnownBits::sle(KnownLHS, KnownRHS);		KnownVal = KnownBits::sle(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_SLT:		case CmpInst::ICMP_SLT:
KnownVal = KnownBits::slt(KnownLHS, KnownRHS);		KnownVal = KnownBits::slt(KnownLHS, KnownRHS);
break;		break;
		arsenmUnsubmitted Done Reply Inline Actions Isn't there a buildSBfx? If not there should be arsenm: Isn't there a buildSBfx? If not there should be
case CmpInst::ICMP_UGE:		case CmpInst::ICMP_UGE:
KnownVal = KnownBits::uge(KnownLHS, KnownRHS);		KnownVal = KnownBits::uge(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_UGT:		case CmpInst::ICMP_UGT:
KnownVal = KnownBits::ugt(KnownLHS, KnownRHS);		KnownVal = KnownBits::ugt(KnownLHS, KnownRHS);
break;		break;
case CmpInst::ICMP_ULE:		case CmpInst::ICMP_ULE:
KnownVal = KnownBits::ule(KnownLHS, KnownRHS);		KnownVal = KnownBits::ule(KnownLHS, KnownRHS);
Show All 9 Lines	MatchInfo =
? getICmpTrueVal(getTargetLowering(),		? getICmpTrueVal(getTargetLowering(),
/IsVector = /		/IsVector = /
MRI.getType(MI.getOperand(0).getReg()).isVector(),		MRI.getType(MI.getOperand(0).getReg()).isVector(),
/* IsFP = */ false)		/* IsFP = */ false)
: 0;		: 0;
return true;		return true;
}		}

		/// Form a G_SBFX from a G_SEXT_INREG fed by a right shift.
		bool CombinerHelper::matchBitfieldExtractFromSExtInReg(
		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {
		assert(MI.getOpcode() == TargetOpcode::G_SEXT_INREG);
		Register Dst = MI.getOperand(0).getReg();
		Register Src = MI.getOperand(1).getReg();
		LLT Ty = MRI.getType(Src);
		LLT ExtractTy = getTargetLowering().getPreferredShiftAmountTy(Ty);
		if (!LI \|\| !LI->isLegalOrCustom({TargetOpcode::G_SBFX, {Ty, ExtractTy}}))
		arsenmUnsubmitted Done Reply Inline Actions Isn't there a buildUbfx? If not there should be arsenm: Isn't there a buildUbfx? If not there should be
		return false;
		int64_t Width = MI.getOperand(2).getImm();
		Register ShiftSrc;
		int64_t ShiftImm;
		if (!mi_match(
		Src, MRI,
		m_OneNonDBGUse(m_any_of(m_GAShr(m_Reg(ShiftSrc), m_ICst(ShiftImm)),
		m_GLShr(m_Reg(ShiftSrc), m_ICst(ShiftImm))))))
		return false;
		if (ShiftImm < 0 \|\| ShiftImm + Width > Ty.getScalarSizeInBits())
		return false;

		MatchInfo = [=](MachineIRBuilder &B) {
		auto Cst1 = B.buildConstant(ExtractTy, ShiftImm);
		auto Cst2 = B.buildConstant(ExtractTy, Width);
		B.buildSbfx(Dst, ShiftSrc, Cst1, Cst2);
		};
		return true;
		}

		/// Form a G_UBFX from "(a srl b) & mask", where b and mask are constants.
		foadUnsubmitted Not Done Reply Inline Actions You've now got different doxygen comments on the declaration and definition of this function. foad: You've now got different doxygen comments on the declaration and definition of this function.
bool CombinerHelper::matchBitfieldExtractFromAnd(		bool CombinerHelper::matchBitfieldExtractFromAnd(
MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {
assert(MI.getOpcode() == TargetOpcode::G_AND);		assert(MI.getOpcode() == TargetOpcode::G_AND);
Register Dst = MI.getOperand(0).getReg();		Register Dst = MI.getOperand(0).getReg();
LLT Ty = MRI.getType(Dst);		LLT Ty = MRI.getType(Dst);
if (!getTargetLowering().isConstantUnsignedBitfieldExtactLegal(		if (!getTargetLowering().isConstantUnsignedBitfieldExtactLegal(
TargetOpcode::G_UBFX, Ty, Ty))		TargetOpcode::G_UBFX, Ty, Ty))
return false;		return false;
Show All 10 Lines	bool CombinerHelper::matchBitfieldExtractFromAnd(
auto MaybeMask = static_cast<uint64_t>(AndImm);		auto MaybeMask = static_cast<uint64_t>(AndImm);
if (MaybeMask & (MaybeMask + 1))		if (MaybeMask & (MaybeMask + 1))
return false;		return false;

// LSB must fit within the register.		// LSB must fit within the register.
if (static_cast<uint64_t>(LSBImm) >= Size)		if (static_cast<uint64_t>(LSBImm) >= Size)
return false;		return false;

		LLT ExtractTy = getTargetLowering().getPreferredShiftAmountTy(Ty);
uint64_t Width = APInt(Size, AndImm).countTrailingOnes();		uint64_t Width = APInt(Size, AndImm).countTrailingOnes();
MatchInfo = [=](MachineIRBuilder &B) {		MatchInfo = [=](MachineIRBuilder &B) {
auto WidthCst = B.buildConstant(Ty, Width);		auto WidthCst = B.buildConstant(ExtractTy, Width);
auto LSBCst = B.buildConstant(Ty, LSBImm);		auto LSBCst = B.buildConstant(ExtractTy, LSBImm);
B.buildInstr(TargetOpcode::G_UBFX, {Dst}, {ShiftSrc, LSBCst, WidthCst});		B.buildInstr(TargetOpcode::G_UBFX, {Dst}, {ShiftSrc, LSBCst, WidthCst});
};		};
return true;		return true;
}		}

bool CombinerHelper::tryCombine(MachineInstr &MI) {		bool CombinerHelper::tryCombine(MachineInstr &MI) {
if (tryCombineCopy(MI))		if (tryCombineCopy(MI))
return true;		return true;
if (tryCombineExtendingLoads(MI))		if (tryCombineExtendingLoads(MI))
return true;		return true;
if (tryCombineIndexedLoadStore(MI))		if (tryCombineIndexedLoadStore(MI))
return true;		return true;
return false;		return false;
}		}

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp

Show First 20 Lines • Show All 2,021 Lines • ▼ Show 20 Lines	case TargetOpcode::G_SUB:
// original type.		// original type.
Observer.changingInstr(MI);		Observer.changingInstr(MI);
widenScalarSrc(MI, WideTy, 1, TargetOpcode::G_ANYEXT);		widenScalarSrc(MI, WideTy, 1, TargetOpcode::G_ANYEXT);
widenScalarSrc(MI, WideTy, 2, TargetOpcode::G_ANYEXT);		widenScalarSrc(MI, WideTy, 2, TargetOpcode::G_ANYEXT);
widenScalarDst(MI, WideTy);		widenScalarDst(MI, WideTy);
Observer.changedInstr(MI);		Observer.changedInstr(MI);
return Legalized;		return Legalized;

		case TargetOpcode::G_SBFX:
		case TargetOpcode::G_UBFX:
		Observer.changingInstr(MI);

		if (TypeIdx == 0) {
		arsenmUnsubmitted Not Done Reply Inline Actions Extra space before ) arsenm: Extra space before )
		foadUnsubmitted Not Done Reply Inline Actions Should this be `TypeIdx == 0 \|\| TypeIdx == 1`? foad: Should this be `TypeIdx == 0 \|\| TypeIdx == 1`?
		bcahoonAuthorUnsubmitted Done Reply Inline Actions I believe that TypeIdx 0 is for the destination and source operands. And, TypeIdx 1 is for the offset and width operands, which should be zero extended. bcahoon: I believe that TypeIdx 0 is for the destination and source operands. And, TypeIdx 1 is for the…
		foadUnsubmitted Not Done Reply Inline Actions Oh yes, you're right. I had not realized that these type indices refer back to "type0" and "type1" in the definition of G_SBFX/G_UBFX. foad: Oh yes, you're right. I had not realized that these type indices refer back to "type0" and…
		widenScalarSrc(MI, WideTy, 1, TargetOpcode::G_ANYEXT);
		widenScalarDst(MI, WideTy);
		} else {
		widenScalarSrc(MI, WideTy, 2, TargetOpcode::G_ZEXT);
		widenScalarSrc(MI, WideTy, 3, TargetOpcode::G_ZEXT);
		}

		Observer.changedInstr(MI);
		return Legalized;

case TargetOpcode::G_SHL:		case TargetOpcode::G_SHL:
Observer.changingInstr(MI);		Observer.changingInstr(MI);

if (TypeIdx == 0) {		if (TypeIdx == 0) {
widenScalarSrc(MI, WideTy, 1, TargetOpcode::G_ANYEXT);		widenScalarSrc(MI, WideTy, 1, TargetOpcode::G_ANYEXT);
widenScalarDst(MI, WideTy);		widenScalarDst(MI, WideTy);
} else {		} else {
assert(TypeIdx == 1);		assert(TypeIdx == 1);
▲ Show 20 Lines • Show All 4,996 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64Combine.td

Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines	def build_vector_to_dup : GICombineRule<
(defs root:$root),		(defs root:$root),
(match (wip_match_opcode G_BUILD_VECTOR):$root,		(match (wip_match_opcode G_BUILD_VECTOR):$root,
[{ return matchBuildVectorToDup(*${root}, MRI); }]),		[{ return matchBuildVectorToDup(*${root}, MRI); }]),
(apply [{ return applyBuildVectorToDup(*${root}, MRI, B); }])		(apply [{ return applyBuildVectorToDup(*${root}, MRI, B); }])
>;		>;

def build_vector_lowering : GICombineGroup<[build_vector_to_dup]>;		def build_vector_lowering : GICombineGroup<[build_vector_to_dup]>;

def bitfield_extract_from_sext_inreg : GICombineRule<
(defs root:$root, build_fn_matchinfo:$info),
(match (wip_match_opcode G_SEXT_INREG):$root,
[{ return matchBitfieldExtractFromSExtInReg(*${root}, MRI, ${info}); }]),
(apply [{ return Helper.applyBuildFn(*${root}, ${info}); }])>;

def form_bitfield_extract : GICombineGroup<[bitfield_extract_from_sext_inreg,
bitfield_extract_from_and]>;

def lower_vector_fcmp : GICombineRule<		def lower_vector_fcmp : GICombineRule<
(defs root:$root),		(defs root:$root),
(match (wip_match_opcode G_FCMP):$root,		(match (wip_match_opcode G_FCMP):$root,
[{ return lowerVectorFCMP(*${root}, MRI, B); }]),		[{ return lowerVectorFCMP(*${root}, MRI, B); }]),
(apply [{}])>;		(apply [{}])>;

def form_truncstore_matchdata : GIDefMatchData<"Register">;		def form_truncstore_matchdata : GIDefMatchData<"Register">;
def form_truncstore : GICombineRule<		def form_truncstore : GICombineRule<
Show All 30 Lines

llvm/lib/Target/AArch64/GISel/AArch64PostLegalizerCombiner.cpp

Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines	bool applyAArch64MulConstCombine(
MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B,		MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B,
std::function<void(MachineIRBuilder &B, Register DstReg)> &ApplyFn) {		std::function<void(MachineIRBuilder &B, Register DstReg)> &ApplyFn) {
B.setInstrAndDebugLoc(MI);		B.setInstrAndDebugLoc(MI);
ApplyFn(B, MI.getOperand(0).getReg());		ApplyFn(B, MI.getOperand(0).getReg());
MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

/// Form a G_SBFX from a G_SEXT_INREG fed by a right shift.
static bool matchBitfieldExtractFromSExtInReg(
MachineInstr &MI, MachineRegisterInfo &MRI,
std::function<void(MachineIRBuilder &)> &MatchInfo) {
assert(MI.getOpcode() == TargetOpcode::G_SEXT_INREG);
Register Dst = MI.getOperand(0).getReg();
Register Src = MI.getOperand(1).getReg();
int64_t Width = MI.getOperand(2).getImm();
LLT Ty = MRI.getType(Src);
assert((Ty == LLT::scalar(32) \|\| Ty == LLT::scalar(64)) &&
"Unexpected type for G_SEXT_INREG?");
Register ShiftSrc;
int64_t ShiftImm;
if (!mi_match(
Src, MRI,
m_OneNonDBGUse(m_any_of(m_GAShr(m_Reg(ShiftSrc), m_ICst(ShiftImm)),
m_GLShr(m_Reg(ShiftSrc), m_ICst(ShiftImm))))))
return false;
if (ShiftImm < 0 \|\| ShiftImm + Width > Ty.getSizeInBits())
return false;
MatchInfo = [=](MachineIRBuilder &B) {
auto Cst1 = B.buildConstant(Ty, ShiftImm);
auto Cst2 = B.buildConstant(Ty, Width);
B.buildInstr(TargetOpcode::G_SBFX, {Dst}, {ShiftSrc, Cst1, Cst2});
};
return true;
}

#define AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS		#define AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS
#include "AArch64GenPostLegalizeGICombiner.inc"		#include "AArch64GenPostLegalizeGICombiner.inc"
#undef AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS		#undef AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_DEPS

namespace {		namespace {
#define AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H		#define AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H
#include "AArch64GenPostLegalizeGICombiner.inc"		#include "AArch64GenPostLegalizeGICombiner.inc"
#undef AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H		#undef AARCH64POSTLEGALIZERCOMBINERHELPER_GENCOMBINERHELPER_H
▲ Show 20 Lines • Show All 112 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 321 Lines • ▼ Show 20 Lines	public:
uint32_t getImplicitParameterOffset(const MachineFunction &MF,		uint32_t getImplicitParameterOffset(const MachineFunction &MF,
const ImplicitParameter Param) const;		const ImplicitParameter Param) const;

MVT getFenceOperandTy(const DataLayout &DL) const override {		MVT getFenceOperandTy(const DataLayout &DL) const override {
return MVT::i32;		return MVT::i32;
}		}

AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;		AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;

		bool isConstantUnsignedBitfieldExtactLegal(unsigned Opc, LLT Ty1,
		LLT Ty2) const override;
};		};

namespace AMDGPUISD {		namespace AMDGPUISD {

enum NodeType : unsigned {		enum NodeType : unsigned {
// AMDIL ISD Opcodes		// AMDIL ISD Opcodes
FIRST_NUMBER = ISD::BUILTIN_OP_END,		FIRST_NUMBER = ISD::BUILTIN_OP_END,
UMUL, // 32bit unsigned multiplication		UMUL, // 32bit unsigned multiplication
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 4,821 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::shouldExpandAtomicRMWInIR(AtomicRMWInst *RMW) const {
case AtomicRMWInst::Nand:		case AtomicRMWInst::Nand:
case AtomicRMWInst::FAdd:		case AtomicRMWInst::FAdd:
case AtomicRMWInst::FSub:		case AtomicRMWInst::FSub:
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;
default:		default:
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;
}		}
}		}

		bool AMDGPUTargetLowering::isConstantUnsignedBitfieldExtactLegal(
		unsigned Opc, LLT Ty1, LLT Ty2) const {
		return Ty1 == Ty2 && (Ty1 == LLT::scalar(32) \|\| Ty1 == LLT::scalar(64));
		}

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines	private:
bool selectG_UADDO_USUBO_UADDE_USUBE(MachineInstr &I) const;		bool selectG_UADDO_USUBO_UADDE_USUBE(MachineInstr &I) const;
bool selectG_EXTRACT(MachineInstr &I) const;		bool selectG_EXTRACT(MachineInstr &I) const;
bool selectG_MERGE_VALUES(MachineInstr &I) const;		bool selectG_MERGE_VALUES(MachineInstr &I) const;
bool selectG_UNMERGE_VALUES(MachineInstr &I) const;		bool selectG_UNMERGE_VALUES(MachineInstr &I) const;
bool selectG_BUILD_VECTOR_TRUNC(MachineInstr &I) const;		bool selectG_BUILD_VECTOR_TRUNC(MachineInstr &I) const;
bool selectG_PTR_ADD(MachineInstr &I) const;		bool selectG_PTR_ADD(MachineInstr &I) const;
bool selectG_IMPLICIT_DEF(MachineInstr &I) const;		bool selectG_IMPLICIT_DEF(MachineInstr &I) const;
bool selectG_INSERT(MachineInstr &I) const;		bool selectG_INSERT(MachineInstr &I) const;
		bool selectG_SBFX_UBFX(MachineInstr &I) const;

bool selectInterpP1F16(MachineInstr &MI) const;		bool selectInterpP1F16(MachineInstr &MI) const;
bool selectWritelane(MachineInstr &MI) const;		bool selectWritelane(MachineInstr &MI) const;
bool selectDivScale(MachineInstr &MI) const;		bool selectDivScale(MachineInstr &MI) const;
bool selectIntrinsicIcmp(MachineInstr &MI) const;		bool selectIntrinsicIcmp(MachineInstr &MI) const;
bool selectBallot(MachineInstr &I) const;		bool selectBallot(MachineInstr &I) const;
bool selectRelocConstant(MachineInstr &I) const;		bool selectRelocConstant(MachineInstr &I) const;
bool selectGroupStaticSize(MachineInstr &I) const;		bool selectGroupStaticSize(MachineInstr &I) const;
▲ Show 20 Lines • Show All 205 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

Show First 20 Lines • Show All 749 Lines • ▼ Show 20 Lines	BuildMI(*BB, &I, DL, TII.get(TargetOpcode::INSERT_SUBREG), DstReg)
.addReg(Src0Reg)		.addReg(Src0Reg)
.addReg(Src1Reg)		.addReg(Src1Reg)
.addImm(SubReg);		.addImm(SubReg);

I.eraseFromParent();		I.eraseFromParent();
return true;		return true;
}		}

		bool AMDGPUInstructionSelector::selectG_SBFX_UBFX(MachineInstr &MI) const {
		Register DstReg = MI.getOperand(0).getReg();
		Register SrcReg = MI.getOperand(1).getReg();
		Register OffsetReg = MI.getOperand(2).getReg();
		Register WidthReg = MI.getOperand(3).getReg();

		assert(RBI.getRegBank(DstReg, *MRI, TRI)->getID() == AMDGPU::VGPRRegBankID &&
		"scalar BFX instructions are expanded in regbankselect");
		assert(MRI->getType(MI.getOperand(0).getReg()).getSizeInBits() == 32 &&
		"64-bit vector BFX instructions are expanded in regbankselect");

		const DebugLoc &DL = MI.getDebugLoc();
		MachineBasicBlock *MBB = MI.getParent();

		arsenmUnsubmitted Not Done Reply Inline Actions Typo scslar arsenm: Typo scslar
		bool IsSigned = MI.getOpcode() == TargetOpcode::G_SBFX;
		unsigned Opc = IsSigned ? AMDGPU::V_BFE_I32_e64 : AMDGPU::V_BFE_U32_e64;
		auto MIB = BuildMI(*MBB, &MI, DL, TII.get(Opc), DstReg)
		.addReg(SrcReg)
		.addReg(OffsetReg)
		.addReg(WidthReg);
		MI.eraseFromParent();
		return constrainSelectedInstRegOperands(*MIB, TII, TRI, RBI);
		}

bool AMDGPUInstructionSelector::selectInterpP1F16(MachineInstr &MI) const {		bool AMDGPUInstructionSelector::selectInterpP1F16(MachineInstr &MI) const {
if (STI.getLDSBankCount() != 16)		if (STI.getLDSBankCount() != 16)
return selectImpl(MI, *CoverageInfo);		return selectImpl(MI, *CoverageInfo);

Register Dst = MI.getOperand(0).getReg();		Register Dst = MI.getOperand(0).getReg();
Register Src0 = MI.getOperand(2).getReg();		Register Src0 = MI.getOperand(2).getReg();
Register M0Val = MI.getOperand(6).getReg();		Register M0Val = MI.getOperand(6).getReg();
if (!RBI.constrainGenericRegister(M0Val, AMDGPU::SReg_32RegClass, *MRI) \|\|		if (!RBI.constrainGenericRegister(M0Val, AMDGPU::SReg_32RegClass, *MRI) \|\|
!RBI.constrainGenericRegister(Dst, AMDGPU::VGPR_32RegClass, *MRI) \|\|		!RBI.constrainGenericRegister(Dst, AMDGPU::VGPR_32RegClass, *MRI) \|\|
!RBI.constrainGenericRegister(Src0, AMDGPU::VGPR_32RegClass, *MRI))		!RBI.constrainGenericRegister(Src0, AMDGPU::VGPR_32RegClass, *MRI))
return false;		return false;

// This requires 2 instructions. It is possible to write a pattern to support		// This requires 2 instructions. It is possible to write a pattern to support
// this, but the generated isel emitter doesn't correctly deal with multiple		// this, but the generated isel emitter doesn't correctly deal with multiple
// output instructions using the same physical register input. The copy to m0		// output instructions using the same physical register input. The copy to m0
// is incorrectly placed before the second instruction.		// is incorrectly placed before the second instruction.
//		//
// TODO: Match source modifiers.		// TODO: Match source modifiers.

Register InterpMov = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);		Register InterpMov = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
		arsenmUnsubmitted Not Done Reply Inline Actions It would be better to handle this operand packing in RegBankSelect applyMappingImpl. We can get simplifications after the fact if you emit the generic bit operations. If the offset/width are really constants, this won't end up constant folding them (actually today SIFoldOperands should constant fold them, but the only reason it tries to do this is a hack for SelectionDAG) arsenm: It would be better to handle this operand packing in RegBankSelect applyMappingImpl. We can get…
const DebugLoc &DL = MI.getDebugLoc();		const DebugLoc &DL = MI.getDebugLoc();
MachineBasicBlock *MBB = MI.getParent();		MachineBasicBlock *MBB = MI.getParent();

BuildMI(*MBB, &MI, DL, TII.get(AMDGPU::COPY), AMDGPU::M0)		BuildMI(*MBB, &MI, DL, TII.get(AMDGPU::COPY), AMDGPU::M0)
.addReg(M0Val);		.addReg(M0Val);
BuildMI(*MBB, &MI, DL, TII.get(AMDGPU::V_INTERP_MOV_F32), InterpMov)		BuildMI(*MBB, &MI, DL, TII.get(AMDGPU::V_INTERP_MOV_F32), InterpMov)
.addImm(2)		.addImm(2)
.addImm(MI.getOperand(4).getImm()) // $attr		.addImm(MI.getOperand(4).getImm()) // $attr
▲ Show 20 Lines • Show All 2,398 Lines • ▼ Show 20 Lines	const AMDGPU::ImageDimIntrinsicInfo *Intr
= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());		= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());
assert(Intr && "not an image intrinsic with image pseudo");		assert(Intr && "not an image intrinsic with image pseudo");
return selectImageIntrinsic(I, Intr);		return selectImageIntrinsic(I, Intr);
}		}
case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:
return selectBVHIntrinsic(I);		return selectBVHIntrinsic(I);
case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:		case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:
return selectAMDGPU_BUFFER_ATOMIC_FADD(I);		return selectAMDGPU_BUFFER_ATOMIC_FADD(I);
		case AMDGPU::G_SBFX:
		case AMDGPU::G_UBFX:
		return selectG_SBFX_UBFX(I);
default:		default:
return selectImpl(I, *CoverageInfo);		return selectImpl(I, *CoverageInfo);
}		}
return false;		return false;
}		}

InstructionSelector::ComplexRendererFns		InstructionSelector::ComplexRendererFns
AMDGPUInstructionSelector::selectVCSRC(MachineOperand &Root) const {		AMDGPUInstructionSelector::selectVCSRC(MachineOperand &Root) const {
▲ Show 20 Lines • Show All 1,207 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

	Show First 20 Lines • Show All 1,648 Lines • ▼ Show 20 Lines
	getActionDefinitionsBuilder(G_FENCE)			getActionDefinitionsBuilder(G_FENCE)
	.alwaysLegal();			.alwaysLegal();

	getActionDefinitionsBuilder({G_SMULO, G_UMULO})			getActionDefinitionsBuilder({G_SMULO, G_UMULO})
	.scalarize(0)			.scalarize(0)
	.minScalar(0, S32)			.minScalar(0, S32)
	.lower();			.lower();

				getActionDefinitionsBuilder({G_SBFX, G_UBFX})
				.legalFor({{S32, S32}, {S64, S32}})
				.clampScalar(1, S32, S32)
				.clampScalar(0, S32, S64)
				.widenScalarToNextPow2(0)
				arsenmUnsubmitted Done Reply Inline Actions Also needs to scalarize vectors arsenm: Also needs to scalarize vectors
				.scalarize(0);

	getActionDefinitionsBuilder({			getActionDefinitionsBuilder({
	// TODO: Verify V_BFI_B32 is generated from expanded bit ops			// TODO: Verify V_BFI_B32 is generated from expanded bit ops
	G_FCOPYSIGN,			G_FCOPYSIGN,

	G_ATOMIC_CMPXCHG_WITH_SUCCESS,			G_ATOMIC_CMPXCHG_WITH_SUCCESS,
	G_ATOMICRMW_NAND,			G_ATOMICRMW_NAND,
	G_ATOMICRMW_FSUB,			G_ATOMICRMW_FSUB,
	G_READ_REGISTER,			G_READ_REGISTER,
	▲ Show 20 Lines • Show All 3,361 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.h

Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	bool applyMappingLoad(MachineInstr &MI,
const OperandsMapper &OpdMapper,		const OperandsMapper &OpdMapper,
MachineRegisterInfo &MRI) const;		MachineRegisterInfo &MRI) const;
bool		bool
applyMappingImage(MachineInstr &MI,		applyMappingImage(MachineInstr &MI,
const OperandsMapper &OpdMapper,		const OperandsMapper &OpdMapper,
MachineRegisterInfo &MRI, int RSrcIdx) const;		MachineRegisterInfo &MRI, int RSrcIdx) const;
bool applyMappingSBufferLoad(const OperandsMapper &OpdMapper) const;		bool applyMappingSBufferLoad(const OperandsMapper &OpdMapper) const;

bool applyMappingBFEIntrinsic(const OperandsMapper &OpdMapper,		bool applyMappingBFE(const OperandsMapper &OpdMapper, bool Signed) const;
bool Signed) const;

Register handleD16VData(MachineIRBuilder &B, MachineRegisterInfo &MRI,		Register handleD16VData(MachineIRBuilder &B, MachineRegisterInfo &MRI,
Register Reg) const;		Register Reg) const;

std::pair<Register, unsigned>		std::pair<Register, unsigned>
splitBufferOffsets(MachineIRBuilder &B, Register Offset) const;		splitBufferOffsets(MachineIRBuilder &B, Register Offset) const;

MachineInstr *selectStoreIntrinsic(MachineIRBuilder &B,		MachineInstr *selectStoreIntrinsic(MachineIRBuilder &B,
▲ Show 20 Lines • Show All 99 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 1,526 Lines • ▼ Show 20 Lines	bool AMDGPURegisterBankInfo::applyMappingSBufferLoad(

// We removed the instruction earlier with a waterfall loop.		// We removed the instruction earlier with a waterfall loop.
if (RSrcBank == &AMDGPU::SGPRRegBank)		if (RSrcBank == &AMDGPU::SGPRRegBank)
MI.eraseFromParent();		MI.eraseFromParent();

return true;		return true;
}		}

bool AMDGPURegisterBankInfo::applyMappingBFEIntrinsic(		bool AMDGPURegisterBankInfo::applyMappingBFE(const OperandsMapper &OpdMapper,
const OperandsMapper &OpdMapper, bool Signed) const {		bool Signed) const {
MachineInstr &MI = OpdMapper.getMI();		MachineInstr &MI = OpdMapper.getMI();
MachineRegisterInfo &MRI = OpdMapper.getMRI();		MachineRegisterInfo &MRI = OpdMapper.getMRI();

// Insert basic copies		// Insert basic copies
applyDefaultMapping(OpdMapper);		applyDefaultMapping(OpdMapper);

Register DstReg = MI.getOperand(0).getReg();		Register DstReg = MI.getOperand(0).getReg();
LLT Ty = MRI.getType(DstReg);		LLT Ty = MRI.getType(DstReg);

const LLT S32 = LLT::scalar(32);		const LLT S32 = LLT::scalar(32);

		unsigned FirstOpnd = MI.getOpcode() == AMDGPU::G_INTRINSIC ? 2 : 1;
		Register SrcReg = MI.getOperand(FirstOpnd).getReg();
		Register OffsetReg = MI.getOperand(FirstOpnd + 1).getReg();
		arsenmUnsubmitted Not Done Reply Inline Actions Spaces around + arsenm: Spaces around +
		Register WidthReg = MI.getOperand(FirstOpnd + 2).getReg();
		arsenmUnsubmitted Not Done Reply Inline Actions Spaces around + arsenm: Spaces around +

const RegisterBank *DstBank =		const RegisterBank *DstBank =
OpdMapper.getInstrMapping().getOperandMapping(0).BreakDown[0].RegBank;		OpdMapper.getInstrMapping().getOperandMapping(0).BreakDown[0].RegBank;
if (DstBank == &AMDGPU::VGPRRegBank) {		if (DstBank == &AMDGPU::VGPRRegBank) {
if (Ty == S32)		if (Ty == S32)
return true;		return true;

// TODO: 64-bit version is scalar only, so we need to expand this.		// There is no 64-bit vgpr bitfield extract instructions so the operation
return false;		// is expanded to a sequence of instructions that implement the operation.
		arsenmUnsubmitted Not Done Reply Inline Actions I don't like creating single use MachineIRBuilders, but you have to do this right now arsenm: I don't like creating single use MachineIRBuilders, but you have to do this right now
		ApplyRegBankMapping ApplyBank(*this, MRI, &AMDGPU::VGPRRegBank);
		MachineIRBuilder B(MI, ApplyBank);

		const LLT S64 = LLT::scalar(64);
		// Shift the source operand so that extracted bits start at bit 0.
		auto ShiftOffset = Signed ? B.buildAShr(S64, SrcReg, OffsetReg)
		: B.buildLShr(S64, SrcReg, OffsetReg);
		auto UnmergeSOffset = B.buildUnmerge({S32, S32}, ShiftOffset);

		// A 64-bit bitfield extract uses the 32-bit bitfield extract instructions
		// if the width is a constant.
		if (auto ConstWidth = getConstantVRegValWithLookThrough(WidthReg, MRI)) {
		// Use the 32-bit bitfield extract instruction if the width is a constant.
		// Depending on the width size, use either the low or high 32-bits.
		auto Zero = B.buildConstant(S32, 0);
		auto WidthImm = ConstWidth->Value.getZExtValue();
		if (WidthImm <= 32) {
		foadUnsubmitted Done Reply Inline Actions I think this needs to be `<= 32`. At least, the `else` case won't correctly handle a signed extract with width == 32. foad: I think this needs to be `<= 32`. At least, the `else` case won't correctly handle a signed…
		bcahoonAuthorUnsubmitted Done Reply Inline Actions Thanks for point this out! bcahoon: Thanks for point this out!
		// Use bitfield extract on the lower 32-bit source, and then sign-extend
		// or clear the upper 32-bits.
		auto Extract =
		Signed ? B.buildSbfx(S32, UnmergeSOffset.getReg(0), Zero, WidthReg)
		: B.buildUbfx(S32, UnmergeSOffset.getReg(0), Zero, WidthReg);
		auto Extend =
		Signed ? B.buildAShr(S32, Extract, B.buildConstant(S32, 31)) : Zero;
		B.buildMerge(DstReg, {Extract, Extend});
		} else {
		// Use bitfield extract on upper 32-bit source, and combine with lower
		// 32-bit source.
		auto UpperWidth = B.buildConstant(S32, WidthImm - 32);
		foadUnsubmitted Done Reply Inline Actions Typo uppoer. foad: Typo uppoer.
		auto Extract =
		Signed
		? B.buildSbfx(S32, UnmergeSOffset.getReg(1), Zero, UpperWidth)
		: B.buildUbfx(S32, UnmergeSOffset.getReg(1), Zero, UpperWidth);
		B.buildMerge(DstReg, {UnmergeSOffset.getReg(0), Extract});
		}
		MI.eraseFromParent();
		return true;
}		}

Register SrcReg = MI.getOperand(2).getReg();		// Expand to Src >> Offset << (64 - Width) >> (64 - Width) using 64-bit
Register OffsetReg = MI.getOperand(3).getReg();		// operations.
Register WidthReg = MI.getOperand(4).getReg();		auto ExtShift = B.buildSub(S32, B.buildConstant(S32, 64), WidthReg);
		foadUnsubmitted Not Done Reply Inline Actions The fact that it's undefined if Width>64 is not really surprising. The things that might be surprising are (a) it's defined if Width==64 and (b) it's undefined if Width==0. Especially the latter, since some people might expect to be able to do an unsigned zero-width extract and rely on the result being zero. TODO: make these rules clear in the definition of the G_BFX opcodes. foad:* The fact that it's undefined if Width>64 is not really surprising. The things that might be…
		bcahoonAuthorUnsubmitted Done Reply Inline Actions Ah right, good point. I've updated the comment and added the TODO. Let me know if you'd prefer more details in the comment. I can follow up with another PR to update the G_SBFX/G_UBFX opcodes. bcahoon: Ah right, good point. I've updated the comment and added the TODO. Let me know if you'd prefer…
		foadUnsubmitted Not Done Reply Inline Actions I can follow up with another PR to update the G_SBFX/G_UBFX opcodes. Yes please! foad: > I can follow up with another PR to update the G_SBFX/G_UBFX opcodes. Yes please!
		auto SignBit = B.buildShl(S64, ShiftOffset, ExtShift);
		if (Signed)
		B.buildAShr(S64, SignBit, ExtShift);
		else
		B.buildLShr(S64, SignBit, ExtShift);
		MI.eraseFromParent();
		return true;
		}

// The scalar form packs the offset and width in a single operand.		// The scalar form packs the offset and width in a single operand.
		foadUnsubmitted Done Reply Inline Actions Looks like you're missing the sign extension here for the sbfe/sbfx case? foad: Looks like you're missing the sign extension here for the sbfe/sbfx case?
		arsenmUnsubmitted Done Reply Inline Actions Yes, this looks suspicious arsenm: Yes, this looks suspicious
		foadUnsubmitted Done Reply Inline Actions I would suggest that if width is not a constant, you instead expand to `Src >> Offset << (64 - Width) >> (64 - Width)` where the last shift is signed for G_SBFX, and the first shift might disappear if Offset happens to be 0. I'm assuming the result is undefined if Width is not in the range 1..BitWidth inclusive but the definition of these opcodes does not make that clear. foad: I would suggest that if width is not a constant, you instead expand to `Src >> Offset << (64…
		bcahoonAuthorUnsubmitted Done Reply Inline Actions Thanks for pointing this out and for the suggestion. I've implemented your suggestion. bcahoon: Thanks for pointing this out and for the suggestion. I've implemented your suggestion.

ApplyRegBankMapping ApplyBank(*this, MRI, &AMDGPU::SGPRRegBank);		ApplyRegBankMapping ApplyBank(*this, MRI, &AMDGPU::SGPRRegBank);
MachineIRBuilder B(MI, ApplyBank);		MachineIRBuilder B(MI, ApplyBank);

// Ensure the high bits are clear to insert the offset.		// Ensure the high bits are clear to insert the offset.
auto OffsetMask = B.buildConstant(S32, maskTrailingOnes<unsigned>(6));		auto OffsetMask = B.buildConstant(S32, maskTrailingOnes<unsigned>(6));
auto ClampOffset = B.buildAnd(S32, OffsetReg, OffsetMask);		auto ClampOffset = B.buildAnd(S32, OffsetReg, OffsetMask);

// Zeros out the low bits, so don't bother clamping the input value.		// Zeros out the low bits, so don't bother clamping the input value.
		arsenmUnsubmitted Done Reply Inline Actions This dropped the result register arsenm: This dropped the result register
auto ShiftWidth = B.buildShl(S32, WidthReg, B.buildConstant(S32, 16));		auto ShiftWidth = B.buildShl(S32, WidthReg, B.buildConstant(S32, 16));

// Transformation function, pack the offset and width of a BFE into		// Transformation function, pack the offset and width of a BFE into
// the format expected by the S_BFE_I32 / S_BFE_U32. In the second		// the format expected by the S_BFE_I32 / S_BFE_U32. In the second
// source, bits [5:0] contain the offset and bits [22:16] the width.		// source, bits [5:0] contain the offset and bits [22:16] the width.
auto MergedInputs = B.buildOr(S32, ClampOffset, ShiftWidth);		auto MergedInputs = B.buildOr(S32, ClampOffset, ShiftWidth);

// TODO: It might be worth using a pseudo here to avoid scc clobber and		// TODO: It might be worth using a pseudo here to avoid scc clobber and
▲ Show 20 Lines • Show All 1,375 Lines • ▼ Show 20 Lines	case Intrinsic::amdgcn_permlanex16: {
// Doing a waterfall loop over these wouldn't make any sense.		// Doing a waterfall loop over these wouldn't make any sense.
substituteSimpleCopyRegs(OpdMapper, 2);		substituteSimpleCopyRegs(OpdMapper, 2);
substituteSimpleCopyRegs(OpdMapper, 3);		substituteSimpleCopyRegs(OpdMapper, 3);
constrainOpWithReadfirstlane(MI, MRI, 4);		constrainOpWithReadfirstlane(MI, MRI, 4);
constrainOpWithReadfirstlane(MI, MRI, 5);		constrainOpWithReadfirstlane(MI, MRI, 5);
return;		return;
}		}
case Intrinsic::amdgcn_sbfe:		case Intrinsic::amdgcn_sbfe:
applyMappingBFEIntrinsic(OpdMapper, true);		applyMappingBFE(OpdMapper, true);
return;		return;
case Intrinsic::amdgcn_ubfe:		case Intrinsic::amdgcn_ubfe:
applyMappingBFEIntrinsic(OpdMapper, false);		applyMappingBFE(OpdMapper, false);
return;		return;
case Intrinsic::amdgcn_ballot:		case Intrinsic::amdgcn_ballot:
// Use default handling and insert copy to vcc source.		// Use default handling and insert copy to vcc source.
break;		break;
}		}
break;		break;
}		}
case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD:		case AMDGPU::G_AMDGPU_INTRIN_IMAGE_LOAD:
▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	void AMDGPURegisterBankInfo::applyMappingImpl(
case AMDGPU::G_SEXTLOAD: {		case AMDGPU::G_SEXTLOAD: {
if (applyMappingLoad(MI, OpdMapper, MRI))		if (applyMappingLoad(MI, OpdMapper, MRI))
return;		return;
break;		break;
}		}
case AMDGPU::G_DYN_STACKALLOC:		case AMDGPU::G_DYN_STACKALLOC:
applyMappingDynStackAlloc(MI, OpdMapper, MRI);		applyMappingDynStackAlloc(MI, OpdMapper, MRI);
return;		return;
		case AMDGPU::G_SBFX:
		applyMappingBFE(OpdMapper, /Signed/ true);
		return;
		case AMDGPU::G_UBFX:
		applyMappingBFE(OpdMapper, /Signed/ false);
		return;
default:		default:
break;		break;
}		}

return applyDefaultMapping(OpdMapper);		return applyDefaultMapping(OpdMapper);
}		}

// vgpr, sgpr -> vgpr		// vgpr, sgpr -> vgpr
▲ Show 20 Lines • Show All 458 Lines • ▼ Show 20 Lines	AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const {
case AMDGPU::G_USUBE:		case AMDGPU::G_USUBE:
case AMDGPU::G_SSUBE:		case AMDGPU::G_SSUBE:
case AMDGPU::G_SMIN:		case AMDGPU::G_SMIN:
case AMDGPU::G_SMAX:		case AMDGPU::G_SMAX:
case AMDGPU::G_UMIN:		case AMDGPU::G_UMIN:
case AMDGPU::G_UMAX:		case AMDGPU::G_UMAX:
case AMDGPU::G_ABS:		case AMDGPU::G_ABS:
case AMDGPU::G_SHUFFLE_VECTOR:		case AMDGPU::G_SHUFFLE_VECTOR:
		case AMDGPU::G_SBFX:
		case AMDGPU::G_UBFX:
if (isSALUMapping(MI))		if (isSALUMapping(MI))
return getDefaultMappingSOP(MI);		return getDefaultMappingSOP(MI);
LLVM_FALLTHROUGH;		LLVM_FALLTHROUGH;

case AMDGPU::G_SADDSAT: // FIXME: Could lower sat ops for SALU		case AMDGPU::G_SADDSAT: // FIXME: Could lower sat ops for SALU
case AMDGPU::G_SSUBSAT:		case AMDGPU::G_SSUBSAT:
case AMDGPU::G_UADDSAT:		case AMDGPU::G_UADDSAT:
case AMDGPU::G_USUBSAT:		case AMDGPU::G_USUBSAT:
▲ Show 20 Lines • Show All 901 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

	Show First 20 Lines • Show All 802 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_and_b32 s1, s1, s4			; GFX6-NEXT: s_and_b32 s1, s1, s4
	; GFX6-NEXT: s_and_b32 s0, s0, s4			; GFX6-NEXT: s_and_b32 s0, s0, s4
	; GFX6-NEXT: s_lshl_b32 s1, s1, 16			; GFX6-NEXT: s_lshl_b32 s1, s1, 16
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: s_or_b32 s0, s0, s1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_ashr_v2i16:			; GFX8-LABEL: s_ashr_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_mov_b32 s3, 0x100010
	; GFX8-NEXT: s_lshr_b32 s3, s1, 16			; GFX8-NEXT: s_sext_i32_i16 s2, s0
	; GFX8-NEXT: s_sext_i32_i16 s0, s0			; GFX8-NEXT: s_sext_i32_i16 s4, s1
	; GFX8-NEXT: s_sext_i32_i16 s1, s1			; GFX8-NEXT: s_bfe_i32 s0, s0, s3
	; GFX8-NEXT: s_sext_i32_i16 s2, s2			; GFX8-NEXT: s_bfe_i32 s1, s1, s3
	; GFX8-NEXT: s_sext_i32_i16 s3, s3
	; GFX8-NEXT: s_ashr_i32 s0, s0, s1			; GFX8-NEXT: s_ashr_i32 s0, s0, s1
	; GFX8-NEXT: s_ashr_i32 s1, s2, s3			; GFX8-NEXT: s_ashr_i32 s2, s2, s4
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_and_b32 s0, s0, 0xffff			; GFX8-NEXT: s_and_b32 s1, s2, 0xffff
	; GFX8-NEXT: s_or_b32 s0, s1, s0			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_ashr_v2i16:			; GFX9-LABEL: s_ashr_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_sext_i32_i16 s2, s0			; GFX9-NEXT: s_sext_i32_i16 s2, s0
	; GFX9-NEXT: s_sext_i32_i16 s3, s1			; GFX9-NEXT: s_sext_i32_i16 s3, s1
	; GFX9-NEXT: s_ashr_i32 s0, s0, 16			; GFX9-NEXT: s_ashr_i32 s0, s0, 16
	; GFX9-NEXT: s_ashr_i32 s1, s1, 16			; GFX9-NEXT: s_ashr_i32 s1, s1, 16
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_and_b32 s1, s2, s8			; GFX6-NEXT: s_and_b32 s1, s2, s8
	; GFX6-NEXT: s_and_b32 s2, s3, s8			; GFX6-NEXT: s_and_b32 s2, s3, s8
	; GFX6-NEXT: s_lshl_b32 s2, s2, 16			; GFX6-NEXT: s_lshl_b32 s2, s2, 16
	; GFX6-NEXT: s_or_b32 s1, s1, s2			; GFX6-NEXT: s_or_b32 s1, s1, s2
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_ashr_v4i16:			; GFX8-LABEL: s_ashr_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s4, s0, 16			; GFX8-NEXT: s_mov_b32 s5, 0x100010
	; GFX8-NEXT: s_lshr_b32 s6, s2, 16			; GFX8-NEXT: s_sext_i32_i16 s4, s0
	; GFX8-NEXT: s_lshr_b32 s5, s1, 16			; GFX8-NEXT: s_sext_i32_i16 s7, s2
	; GFX8-NEXT: s_lshr_b32 s7, s3, 16			; GFX8-NEXT: s_sext_i32_i16 s6, s1
	; GFX8-NEXT: s_sext_i32_i16 s0, s0			; GFX8-NEXT: s_sext_i32_i16 s8, s3
	; GFX8-NEXT: s_sext_i32_i16 s2, s2			; GFX8-NEXT: s_bfe_i32 s0, s0, s5
	; GFX8-NEXT: s_sext_i32_i16 s4, s4			; GFX8-NEXT: s_bfe_i32 s2, s2, s5
	; GFX8-NEXT: s_sext_i32_i16 s6, s6			; GFX8-NEXT: s_bfe_i32 s1, s1, s5
				; GFX8-NEXT: s_bfe_i32 s3, s3, s5
	; GFX8-NEXT: s_ashr_i32 s0, s0, s2			; GFX8-NEXT: s_ashr_i32 s0, s0, s2
	; GFX8-NEXT: s_ashr_i32 s2, s4, s6
	; GFX8-NEXT: s_mov_b32 s4, 0xffff
	; GFX8-NEXT: s_sext_i32_i16 s1, s1
	; GFX8-NEXT: s_sext_i32_i16 s3, s3
	; GFX8-NEXT: s_sext_i32_i16 s5, s5
	; GFX8-NEXT: s_sext_i32_i16 s7, s7
	; GFX8-NEXT: s_ashr_i32 s1, s1, s3			; GFX8-NEXT: s_ashr_i32 s1, s1, s3
	; GFX8-NEXT: s_ashr_i32 s3, s5, s7			; GFX8-NEXT: s_ashr_i32 s4, s4, s7
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_mov_b32 s3, 0xffff
	; GFX8-NEXT: s_and_b32 s0, s0, s4			; GFX8-NEXT: s_ashr_i32 s2, s6, s8
	; GFX8-NEXT: s_or_b32 s0, s2, s0			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s2, s3, 16			; GFX8-NEXT: s_and_b32 s4, s4, s3
	; GFX8-NEXT: s_and_b32 s1, s1, s4			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s1, s2, s1			; GFX8-NEXT: s_and_b32 s2, s2, s3
				; GFX8-NEXT: s_or_b32 s0, s0, s4
				; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_ashr_v4i16:			; GFX9-LABEL: s_ashr_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_sext_i32_i16 s4, s0			; GFX9-NEXT: s_sext_i32_i16 s4, s0
	; GFX9-NEXT: s_sext_i32_i16 s5, s2			; GFX9-NEXT: s_sext_i32_i16 s5, s2
	; GFX9-NEXT: s_ashr_i32 s0, s0, 16			; GFX9-NEXT: s_ashr_i32 s0, s0, 16
	; GFX9-NEXT: s_ashr_i32 s2, s2, 16			; GFX9-NEXT: s_ashr_i32 s2, s2, 16
	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_or_b32 s2, s2, s3			; GFX6-NEXT: s_or_b32 s2, s2, s3
	; GFX6-NEXT: s_and_b32 s3, s6, s16			; GFX6-NEXT: s_and_b32 s3, s6, s16
	; GFX6-NEXT: s_lshl_b32 s4, s4, 16			; GFX6-NEXT: s_lshl_b32 s4, s4, 16
	; GFX6-NEXT: s_or_b32 s3, s3, s4			; GFX6-NEXT: s_or_b32 s3, s3, s4
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_ashr_v8i16:			; GFX8-LABEL: s_ashr_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s8, s0, 16			; GFX8-NEXT: s_mov_b32 s9, 0x100010
	; GFX8-NEXT: s_lshr_b32 s12, s4, 16			; GFX8-NEXT: s_sext_i32_i16 s8, s0
	; GFX8-NEXT: s_lshr_b32 s9, s1, 16			; GFX8-NEXT: s_sext_i32_i16 s13, s4
	; GFX8-NEXT: s_lshr_b32 s13, s5, 16			; GFX8-NEXT: s_sext_i32_i16 s10, s1
	; GFX8-NEXT: s_sext_i32_i16 s0, s0			; GFX8-NEXT: s_sext_i32_i16 s12, s3
	; GFX8-NEXT: s_sext_i32_i16 s4, s4			; GFX8-NEXT: s_sext_i32_i16 s14, s5
	; GFX8-NEXT: s_sext_i32_i16 s8, s8			; GFX8-NEXT: s_sext_i32_i16 s16, s7
	; GFX8-NEXT: s_sext_i32_i16 s12, s12			; GFX8-NEXT: s_bfe_i32 s0, s0, s9
	; GFX8-NEXT: s_lshr_b32 s10, s2, 16			; GFX8-NEXT: s_bfe_i32 s4, s4, s9
	; GFX8-NEXT: s_lshr_b32 s14, s6, 16			; GFX8-NEXT: s_bfe_i32 s1, s1, s9
				; GFX8-NEXT: s_bfe_i32 s5, s5, s9
				; GFX8-NEXT: s_bfe_i32 s3, s3, s9
				; GFX8-NEXT: s_bfe_i32 s7, s7, s9
	; GFX8-NEXT: s_ashr_i32 s0, s0, s4			; GFX8-NEXT: s_ashr_i32 s0, s0, s4
	; GFX8-NEXT: s_ashr_i32 s4, s8, s12			; GFX8-NEXT: s_ashr_i32 s3, s3, s7
	; GFX8-NEXT: s_mov_b32 s8, 0xffff
	; GFX8-NEXT: s_sext_i32_i16 s1, s1
	; GFX8-NEXT: s_sext_i32_i16 s5, s5
	; GFX8-NEXT: s_sext_i32_i16 s9, s9
	; GFX8-NEXT: s_sext_i32_i16 s13, s13
	; GFX8-NEXT: s_lshr_b32 s11, s3, 16
	; GFX8-NEXT: s_lshr_b32 s15, s7, 16
	; GFX8-NEXT: s_ashr_i32 s1, s1, s5			; GFX8-NEXT: s_ashr_i32 s1, s1, s5
	; GFX8-NEXT: s_sext_i32_i16 s2, s2			; GFX8-NEXT: s_sext_i32_i16 s11, s2
	; GFX8-NEXT: s_sext_i32_i16 s6, s6			; GFX8-NEXT: s_sext_i32_i16 s15, s6
	; GFX8-NEXT: s_sext_i32_i16 s10, s10			; GFX8-NEXT: s_bfe_i32 s2, s2, s9
	; GFX8-NEXT: s_sext_i32_i16 s14, s14			; GFX8-NEXT: s_bfe_i32 s6, s6, s9
	; GFX8-NEXT: s_ashr_i32 s5, s9, s13			; GFX8-NEXT: s_ashr_i32 s4, s10, s14
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_mov_b32 s7, 0xffff
	; GFX8-NEXT: s_and_b32 s0, s0, s8
	; GFX8-NEXT: s_ashr_i32 s2, s2, s6			; GFX8-NEXT: s_ashr_i32 s2, s2, s6
	; GFX8-NEXT: s_or_b32 s0, s4, s0			; GFX8-NEXT: s_ashr_i32 s5, s11, s15
	; GFX8-NEXT: s_sext_i32_i16 s3, s3			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_sext_i32_i16 s7, s7			; GFX8-NEXT: s_and_b32 s4, s4, s7
	; GFX8-NEXT: s_sext_i32_i16 s11, s11			; GFX8-NEXT: s_ashr_i32 s8, s8, s13
	; GFX8-NEXT: s_sext_i32_i16 s15, s15			; GFX8-NEXT: s_or_b32 s1, s1, s4
	; GFX8-NEXT: s_ashr_i32 s6, s10, s14			; GFX8-NEXT: s_ashr_i32 s6, s12, s16
	; GFX8-NEXT: s_lshl_b32 s4, s5, 16			; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_and_b32 s1, s1, s8			; GFX8-NEXT: s_and_b32 s4, s5, s7
	; GFX8-NEXT: s_ashr_i32 s3, s3, s7			; GFX8-NEXT: s_or_b32 s2, s2, s4
	; GFX8-NEXT: s_or_b32 s1, s4, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_ashr_i32 s7, s11, s15			; GFX8-NEXT: s_and_b32 s8, s8, s7
	; GFX8-NEXT: s_lshl_b32 s4, s6, 16			; GFX8-NEXT: s_lshl_b32 s3, s3, 16
	; GFX8-NEXT: s_and_b32 s2, s2, s8			; GFX8-NEXT: s_and_b32 s4, s6, s7
	; GFX8-NEXT: s_or_b32 s2, s4, s2			; GFX8-NEXT: s_or_b32 s0, s0, s8
	; GFX8-NEXT: s_lshl_b32 s4, s7, 16			; GFX8-NEXT: s_or_b32 s3, s3, s4
	; GFX8-NEXT: s_and_b32 s3, s3, s8
	; GFX8-NEXT: s_or_b32 s3, s4, s3
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_ashr_v8i16:			; GFX9-LABEL: s_ashr_v8i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_sext_i32_i16 s8, s0			; GFX9-NEXT: s_sext_i32_i16 s8, s0
	; GFX9-NEXT: s_sext_i32_i16 s9, s4			; GFX9-NEXT: s_sext_i32_i16 s9, s4
	; GFX9-NEXT: s_ashr_i32 s0, s0, 16			; GFX9-NEXT: s_ashr_i32 s0, s0, 16
	; GFX9-NEXT: s_ashr_i32 s4, s4, 16			; GFX9-NEXT: s_ashr_i32 s4, s4, 16
	▲ Show 20 Lines • Show All 386 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/cvt_f32_ubyte.ll

Show All 36 Lines
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%masked = and i32 %arg0, 255		%masked = and i32 %arg0, 255
%cvt = sitofp i32 %masked to float		%cvt = sitofp i32 %masked to float
ret float %cvt		ret float %cvt
}		}

define float @v_uitofp_to_f32_lshr7_mask255(i32 %arg0) nounwind {		define float @v_uitofp_to_f32_lshr7_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f32_lshr7_mask255:		; GCN-LABEL: v_uitofp_to_f32_lshr7_mask255:
; SI: ; %bb.0:		; GCN: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 7, v0		; GCN-NEXT: v_bfe_u32 v0, v0, 7, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0		; GCN-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; GCN-NEXT: s_setpc_b64 s[30:31]
; SI-NEXT: s_setpc_b64 s[30:31]
;
; VI-LABEL: v_uitofp_to_f32_lshr7_mask255:
; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v0, 7, v0
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.7 = lshr i32 %arg0, 7		%lshr.7 = lshr i32 %arg0, 7
%masked = and i32 %lshr.7, 255		%masked = and i32 %lshr.7, 255
%cvt = uitofp i32 %masked to float		%cvt = uitofp i32 %masked to float
ret float %cvt		ret float %cvt
}		}

define float @v_uitofp_to_f32_lshr8_mask255(i32 %arg0) nounwind {		define float @v_uitofp_to_f32_lshr8_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f32_lshr8_mask255:		; SI-LABEL: v_uitofp_to_f32_lshr8_mask255:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; SI-NEXT: v_bfe_u32 v0, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_to_f32_lshr8_mask255:		; VI-LABEL: v_uitofp_to_f32_lshr8_mask255:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.8 = lshr i32 %arg0, 8		%lshr.8 = lshr i32 %arg0, 8
%masked = and i32 %lshr.8, 255		%masked = and i32 %lshr.8, 255
%cvt = uitofp i32 %masked to float		%cvt = uitofp i32 %masked to float
ret float %cvt		ret float %cvt
}		}

define float @v_uitofp_to_f32_multi_use_lshr8_mask255(i32 %arg0) nounwind {		define float @v_uitofp_to_f32_multi_use_lshr8_mask255(i32 %arg0) nounwind {
Show All 24 Lines	; VI-NEXT: s_setpc_b64 s[30:31]
%cvt = uitofp i32 %masked to float		%cvt = uitofp i32 %masked to float
ret float %cvt		ret float %cvt
}		}

define float @v_uitofp_to_f32_lshr16_mask255(i32 %arg0) nounwind {		define float @v_uitofp_to_f32_lshr16_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f32_lshr16_mask255:		; SI-LABEL: v_uitofp_to_f32_lshr16_mask255:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_bfe_u32 v0, v0, 16, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_to_f32_lshr16_mask255:		; VI-LABEL: v_uitofp_to_f32_lshr16_mask255:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, 0xff		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.16 = lshr i32 %arg0, 16		%lshr.16 = lshr i32 %arg0, 16
%masked = and i32 %lshr.16, 255		%masked = and i32 %lshr.16, 255
%cvt = uitofp i32 %masked to float		%cvt = uitofp i32 %masked to float
ret float %cvt		ret float %cvt
}		}

define float @v_uitofp_to_f32_lshr24_mask255(i32 %arg0) nounwind {		define float @v_uitofp_to_f32_lshr24_mask255(i32 %arg0) nounwind {
Show All 24 Lines	; VI-NEXT: s_setpc_b64 s[30:31]
%cvt = uitofp i8 %arg0 to float		%cvt = uitofp i8 %arg0 to float
ret float %cvt		ret float %cvt
}		}

define <2 x float> @v_uitofp_v2i8_to_v2f32(i16 %arg0) nounwind {		define <2 x float> @v_uitofp_v2i8_to_v2f32(i16 %arg0) nounwind {
; SI-LABEL: v_uitofp_v2i8_to_v2f32:		; SI-LABEL: v_uitofp_v2i8_to_v2f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; SI-NEXT: v_and_b32_e32 v1, 0xff, v0
; SI-NEXT: s_movk_i32 s4, 0xff		; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v1
; SI-NEXT: v_and_b32_e32 v0, s4, v0		; SI-NEXT: v_bfe_u32 v0, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v1, s4, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_mov_b32_e32 v0, v2
; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_v2i8_to_v2f32:		; VI-LABEL: v_uitofp_v2i8_to_v2f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_mov_b32_e32 v0, v2
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%val = bitcast i16 %arg0 to <2 x i8>		%val = bitcast i16 %arg0 to <2 x i8>
%cvt = uitofp <2 x i8> %val to <2 x float>		%cvt = uitofp <2 x i8> %val to <2 x float>
ret <2 x float> %cvt		ret <2 x float> %cvt
}		}

define <3 x float> @v_uitofp_v3i8_to_v3f32(i32 %arg0) nounwind {		define <3 x float> @v_uitofp_v3i8_to_v3f32(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_v3i8_to_v3f32:		; SI-LABEL: v_uitofp_v3i8_to_v3f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; SI-NEXT: v_and_b32_e32 v1, 0xff, v0
; SI-NEXT: s_movk_i32 s4, 0xff		; SI-NEXT: v_cvt_f32_ubyte0_e32 v3, v1
; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; SI-NEXT: v_bfe_u32 v1, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v0, s4, v0		; SI-NEXT: v_bfe_u32 v0, v0, 16, 8
; SI-NEXT: v_and_b32_e32 v1, s4, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0
; SI-NEXT: v_and_b32_e32 v2, s4, v2
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2		; SI-NEXT: v_mov_b32_e32 v0, v3
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_v3i8_to_v3f32:		; VI-LABEL: v_uitofp_v3i8_to_v3f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_movk_i32 s4, 0xff
; VI-NEXT: v_mov_b32_e32 v2, s4
; VI-NEXT: v_lshrrev_b32_e32 v1, 8, v0
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_and_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_mov_b32_e32 v0, v3		; VI-NEXT: v_mov_b32_e32 v0, v3
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%trunc = trunc i32 %arg0 to i24		%trunc = trunc i32 %arg0 to i24
%val = bitcast i24 %trunc to <3 x i8>		%val = bitcast i24 %trunc to <3 x i8>
%cvt = uitofp <3 x i8> %val to <3 x float>		%cvt = uitofp <3 x i8> %val to <3 x float>
ret <3 x float> %cvt		ret <3 x float> %cvt
}		}

define <4 x float> @v_uitofp_v4i8_to_v4f32(i32 %arg0) nounwind {		define <4 x float> @v_uitofp_v4i8_to_v4f32(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_v4i8_to_v4f32:		; SI-LABEL: v_uitofp_v4i8_to_v4f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: s_movk_i32 s4, 0xff		; SI-NEXT: v_and_b32_e32 v1, 0xff, v0
; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; SI-NEXT: v_bfe_u32 v2, v0, 16, 8
; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v1
; SI-NEXT: v_and_b32_e32 v3, s4, v0		; SI-NEXT: v_bfe_u32 v1, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v1, s4, v1
; SI-NEXT: v_and_b32_e32 v2, s4, v2
; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v3
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2		; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
; SI-NEXT: v_mov_b32_e32 v0, v4		; SI-NEXT: v_mov_b32_e32 v0, v4
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_v4i8_to_v4f32:		; VI-LABEL: v_uitofp_v4i8_to_v4f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_movk_i32 s4, 0xff
; VI-NEXT: v_mov_b32_e32 v2, s4
; VI-NEXT: v_lshrrev_b32_e32 v1, 8, v0
; VI-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
; VI-NEXT: v_mov_b32_e32 v0, v4		; VI-NEXT: v_mov_b32_e32 v0, v4
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%val = bitcast i32 %arg0 to <4 x i8>		%val = bitcast i32 %arg0 to <4 x i8>
%cvt = uitofp <4 x i8> %val to <4 x float>		%cvt = uitofp <4 x i8> %val to <4 x float>
ret <4 x float> %cvt		ret <4 x float> %cvt
}		}

define <4 x float> @v_uitofp_unpack_i32_to_v4f32(i32 %arg0) nounwind {		define <4 x float> @v_uitofp_unpack_i32_to_v4f32(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_unpack_i32_to_v4f32:		; SI-LABEL: v_uitofp_unpack_i32_to_v4f32:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: s_movk_i32 s4, 0xff		; SI-NEXT: v_and_b32_e32 v1, 0xff, v0
; SI-NEXT: v_and_b32_e32 v1, s4, v0		; SI-NEXT: v_bfe_u32 v2, v0, 16, 8
; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v4, v1
; SI-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; SI-NEXT: v_bfe_u32 v1, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v1, s4, v1
; SI-NEXT: v_and_b32_e32 v2, s4, v2
; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1		; SI-NEXT: v_cvt_f32_ubyte0_e32 v1, v1
; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2		; SI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
; SI-NEXT: v_mov_b32_e32 v0, v4		; SI-NEXT: v_mov_b32_e32 v0, v4
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_unpack_i32_to_v4f32:		; VI-LABEL: v_uitofp_unpack_i32_to_v4f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_movk_i32 s4, 0xff
; VI-NEXT: v_mov_b32_e32 v2, s4
; VI-NEXT: v_lshrrev_b32_e32 v1, 8, v0
; VI-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0		; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v0
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2
; VI-NEXT: v_mov_b32_e32 v0, v4		; VI-NEXT: v_mov_b32_e32 v0, v4
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%mask.arg0 = and i32 %arg0, 255		%mask.arg0 = and i32 %arg0, 255
%cvt0 = uitofp i32 %mask.arg0 to float		%cvt0 = uitofp i32 %mask.arg0 to float

%lshr.8 = lshr i32 %arg0, 8		%lshr.8 = lshr i32 %arg0, 8
%mask.lshr.8 = and i32 %lshr.8, 255		%mask.lshr.8 = and i32 %lshr.8, 255
%cvt1 = uitofp i32 %mask.lshr.8 to float		%cvt1 = uitofp i32 %mask.lshr.8 to float
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	; VI-NEXT: s_setpc_b64 s[30:31]
%cvt = sitofp i32 %masked to half		%cvt = sitofp i32 %masked to half
ret half %cvt		ret half %cvt
}		}

define half @v_uitofp_to_f16_lshr8_mask255(i32 %arg0) nounwind {		define half @v_uitofp_to_f16_lshr8_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f16_lshr8_mask255:		; SI-LABEL: v_uitofp_to_f16_lshr8_mask255:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; SI-NEXT: v_bfe_u32 v0, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_to_f16_lshr8_mask255:		; VI-LABEL: v_uitofp_to_f16_lshr8_mask255:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_cvt_f16_f32_e32 v0, v0		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.8 = lshr i32 %arg0, 8		%lshr.8 = lshr i32 %arg0, 8
%masked = and i32 %lshr.8, 255		%masked = and i32 %lshr.8, 255
%cvt = uitofp i32 %masked to half		%cvt = uitofp i32 %masked to half
ret half %cvt		ret half %cvt
}		}

define half @v_uitofp_to_f16_lshr16_mask255(i32 %arg0) nounwind {		define half @v_uitofp_to_f16_lshr16_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f16_lshr16_mask255:		; SI-LABEL: v_uitofp_to_f16_lshr16_mask255:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_bfe_u32 v0, v0, 16, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_uitofp_to_f16_lshr16_mask255:		; VI-LABEL: v_uitofp_to_f16_lshr16_mask255:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, 0xff		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; VI-NEXT: v_cvt_f16_f32_e32 v0, v0		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.16 = lshr i32 %arg0, 16		%lshr.16 = lshr i32 %arg0, 16
%masked = and i32 %lshr.16, 255		%masked = and i32 %lshr.16, 255
%cvt = uitofp i32 %masked to half		%cvt = uitofp i32 %masked to half
ret half %cvt		ret half %cvt
}		}

Show All 40 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
%cvt = uitofp i32 %masked to double		%cvt = uitofp i32 %masked to double
ret double %cvt		ret double %cvt
}		}

define double @v_uitofp_to_f64_lshr8_mask255(i32 %arg0) nounwind {		define double @v_uitofp_to_f64_lshr8_mask255(i32 %arg0) nounwind {
; GCN-LABEL: v_uitofp_to_f64_lshr8_mask255:		; GCN-LABEL: v_uitofp_to_f64_lshr8_mask255:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; GCN-NEXT: v_bfe_u32 v0, v0, 8, 8
; GCN-NEXT: v_and_b32_e32 v0, 0xff, v0
; GCN-NEXT: v_cvt_f64_u32_e32 v[0:1], v0		; GCN-NEXT: v_cvt_f64_u32_e32 v[0:1], v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%lshr.8 = lshr i32 %arg0, 8		%lshr.8 = lshr i32 %arg0, 8
%masked = and i32 %lshr.8, 255		%masked = and i32 %lshr.8, 255
%cvt = uitofp i32 %masked to double		%cvt = uitofp i32 %masked to double
ret double %cvt		ret double %cvt
}		}

define double @v_uitofp_to_f64_lshr16_mask255(i32 %arg0) nounwind {		define double @v_uitofp_to_f64_lshr16_mask255(i32 %arg0) nounwind {
; SI-LABEL: v_uitofp_to_f64_lshr16_mask255:		; GCN-LABEL: v_uitofp_to_f64_lshr16_mask255:
; SI: ; %bb.0:		; GCN: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; GCN-NEXT: v_bfe_u32 v0, v0, 16, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0		; GCN-NEXT: v_cvt_f64_u32_e32 v[0:1], v0
; SI-NEXT: v_cvt_f64_u32_e32 v[0:1], v0		; GCN-NEXT: s_setpc_b64 s[30:31]
; SI-NEXT: s_setpc_b64 s[30:31]
;
; VI-LABEL: v_uitofp_to_f64_lshr16_mask255:
; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, 0xff
; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_cvt_f64_u32_e32 v[0:1], v0
; VI-NEXT: s_setpc_b64 s[30:31]
%lshr.16 = lshr i32 %arg0, 16		%lshr.16 = lshr i32 %arg0, 16
%masked = and i32 %lshr.16, 255		%masked = and i32 %lshr.16, 255
%cvt = uitofp i32 %masked to double		%cvt = uitofp i32 %masked to double
ret double %cvt		ret double %cvt
}		}

define double @v_uitofp_to_f64_lshr24_mask255(i32 %arg0) nounwind {		define double @v_uitofp_to_f64_lshr24_mask255(i32 %arg0) nounwind {
; GCN-LABEL: v_uitofp_to_f64_lshr24_mask255:		; GCN-LABEL: v_uitofp_to_f64_lshr24_mask255:
▲ Show 20 Lines • Show All 468 Lines • ▼ Show 20 Lines
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s2, 0
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b64 s[6:7], s[2:3]		; SI-NEXT: s_mov_b64 s[6:7], s[2:3]
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; SI-NEXT: v_bfe_u32 v0, v0, 8, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte1_to_f32:		; VI-LABEL: extract_byte1_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2		; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: s_waitcnt vmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v0, 8, v0		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: v_mov_b32_e32 v0, s2
; VI-NEXT: v_mov_b32_e32 v1, s3		; VI-NEXT: v_mov_b32_e32 v1, s3
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%srl = lshr i32 %val, 8		%srl = lshr i32 %val, 8
Show All 12 Lines
; SI-NEXT: v_mov_b32_e32 v1, 0		; SI-NEXT: v_mov_b32_e32 v1, 0
; SI-NEXT: s_mov_b32 s2, 0		; SI-NEXT: s_mov_b32 s2, 0
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; SI-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: s_mov_b64 s[6:7], s[2:3]		; SI-NEXT: s_mov_b64 s[6:7], s[2:3]
; SI-NEXT: s_waitcnt vmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0)
; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0		; SI-NEXT: v_bfe_u32 v0, v0, 16, 8
; SI-NEXT: v_and_b32_e32 v0, 0xff, v0
; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0		; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0		; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: extract_byte2_to_f32:		; VI-LABEL: extract_byte2_to_f32:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x2c
; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2		; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; VI-NEXT: flat_load_dword v0, v[0:1]		; VI-NEXT: flat_load_dword v0, v[0:1]
; VI-NEXT: v_mov_b32_e32 v1, 0xff
; VI-NEXT: s_waitcnt vmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0)
; VI-NEXT: v_and_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-NEXT: v_cvt_f32_ubyte0_sdwa v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v0
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: v_mov_b32_e32 v0, s2
; VI-NEXT: v_mov_b32_e32 v1, s3		; VI-NEXT: v_mov_b32_e32 v1, s3
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid		%gep = getelementptr i32, i32 addrspace(1)* %in, i32 %tid
%val = load i32, i32 addrspace(1)* %gep		%val = load i32, i32 addrspace(1)* %gep
%srl = lshr i32 %val, 16		%srl = lshr i32 %val, 16
▲ Show 20 Lines • Show All 276 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

	Show First 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; GCN-NEXT: global_load_dwordx4 v[44:47], v[3:4], off offset:16			; GCN-NEXT: global_load_dwordx4 v[44:47], v[3:4], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[48:51], v[3:4], off offset:32			; GCN-NEXT: global_load_dwordx4 v[48:51], v[3:4], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[52:55], v[3:4], off offset:48			; GCN-NEXT: global_load_dwordx4 v[52:55], v[3:4], off offset:48
	; GCN-NEXT: s_movk_i32 s4, 0xc0			; GCN-NEXT: s_movk_i32 s4, 0xc0
	; GCN-NEXT: v_mov_b32_e32 v6, s5			; GCN-NEXT: v_mov_b32_e32 v6, s5
	; GCN-NEXT: v_mov_b32_e32 v5, s4			; GCN-NEXT: v_mov_b32_e32 v5, s4
	; GCN-NEXT: v_add_co_u32_e32 v60, vcc, v0, v5			; GCN-NEXT: v_add_co_u32_e32 v60, vcc, v0, v5
	; GCN-NEXT: v_addc_co_u32_e32 v61, vcc, v1, v6, vcc			; GCN-NEXT: v_addc_co_u32_e32 v61, vcc, v1, v6, vcc
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 1, v2			; GCN-NEXT: v_bfe_u32 v0, v2, 1, 6
	; GCN-NEXT: v_and_b32_e32 v0, 63, v0
	; GCN-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GCN-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GCN-NEXT: v_and_b32_e32 v1, 1, v2			; GCN-NEXT: v_and_b32_e32 v1, 1, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GCN-NEXT: s_add_i32 s32, s32, 0x10000			; GCN-NEXT: s_add_i32 s32, s32, 0x10000
	; GCN-NEXT: s_add_i32 s32, s32, 0xffff0000			; GCN-NEXT: s_add_i32 s32, s32, 0xffff0000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	▲ Show 20 Lines • Show All 470 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_sgpr_idx(<4 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_sgpr_idx(<4 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {
	; GCN-LABEL: extractelement_sgpr_v4i8_sgpr_idx:			; GCN-LABEL: extractelement_sgpr_v4i8_sgpr_idx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dword s0, s[2:3], 0x0			; GCN-NEXT: s_load_dword s0, s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s5, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s1, s0, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s1, s1, s5			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s2, s0, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s0, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s0, s0, s5			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s1, s1, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_and_b32 s1, s2, s5			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_and_b32 s1, s4, 3			; GCN-NEXT: s_and_b32 s1, s4, 3
	; GCN-NEXT: s_lshl_b32 s1, s1, 3			; GCN-NEXT: s_lshl_b32 s1, s1, 3
	; GCN-NEXT: s_lshr_b32 s0, s0, s1			; GCN-NEXT: s_lshr_b32 s0, s0, s1
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_sgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v4i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s1, s0, 24
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s2, s0, 0xff
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24			; GFX10-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s0, s0, s1			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_and_b32 s1, s3, s1			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_or_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s2, s0
	; GFX10-NEXT: s_lshl_b32 s2, s5, 24			; GFX10-NEXT: s_and_b32 s2, s4, 3
	; GFX10-NEXT: s_or_b32 s0, s0, s1			; GFX10-NEXT: s_or_b32 s0, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s4, 3			; GFX10-NEXT: s_lshl_b32 s1, s2, 3
	; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3
	; GFX10-NEXT: s_lshr_b32 s0, s0, s1			; GFX10-NEXT: s_lshr_b32 s0, s0, s1
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 %idx			%element = extractelement <4 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_vgpr_v4i8_sgpr_idx(<4 x i8> addrspace(1)* %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_vgpr_v4i8_sgpr_idx(<4 x i8> addrspace(1)* %ptr, i32 inreg %idx) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_sgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v4i8_sgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_and_b32 s2, s2, 3			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_and_b32 s0, s2, 3
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: s_lshl_b32 s0, s0, 3
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: s_lshl_b32 s0, s2, 3			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i8_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_and_b32 s0, s2, 3			; GFX8-NEXT: s_and_b32 s0, s2, 3
	; GFX8-NEXT: s_lshl_b32 s0, s0, 3			; GFX8-NEXT: s_lshl_b32 s0, s0, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v4i8_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_and_b32 s0, s2, 3
	; GFX7-NEXT: s_and_b32 s1, s2, 3			; GFX7-NEXT: s_lshl_b32 s0, s0, 3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: s_lshl_b32 s0, s1, 3
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_sgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v4i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: s_and_b32 s0, s2, 3			; GFX10-NEXT: s_and_b32 s0, s2, 3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 3			; GFX10-NEXT: s_lshl_b32 s0, s0, 3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: s_waitcnt vmcnt(0)
				; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
				; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
				; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 %idx			%element = extractelement <4 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v4i8_vgpr_idx(<4 x i8> addrspace(1)* %ptr, i32 %idx) {			define i8 @extractelement_vgpr_v4i8_vgpr_idx(<4 x i8> addrspace(1)* %ptr, i32 %idx) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_vgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v4i8_vgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_and_b32_e32 v1, 3, v2			; GFX9-NEXT: v_mov_b32_e32 v3, 8
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 16
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v4, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v5
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v2			; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_or3_b32 v0, v0, v4, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v4i8_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, s4			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v3, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v4i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: v_and_b32_e32 v1, 3, v2			; GFX7-NEXT: v_and_b32_e32 v1, 3, v2
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v4, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_vgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v4i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: v_mov_b32_e32 v3, 16
				; GFX10-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX10-NEXT: v_and_b32_sdwa v4, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v4, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 %idx			%element = extractelement <4 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_vgpr_idx(<4 x i8> addrspace(4)* inreg %ptr, i32 %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_vgpr_idx(<4 x i8> addrspace(4)* inreg %ptr, i32 %idx) {
	; GFX9-LABEL: extractelement_sgpr_v4i8_vgpr_idx:			; GFX9-LABEL: extractelement_sgpr_v4i8_vgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_e32 v0, 3, v0			; GFX9-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s1, s0, 8			; GFX9-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX9-NEXT: s_and_b32 s1, s1, s4			; GFX9-NEXT: s_lshr_b32 s1, s0, 24
	; GFX9-NEXT: s_lshr_b32 s2, s0, 16			; GFX9-NEXT: s_and_b32 s2, s0, 0xff
	; GFX9-NEXT: s_lshr_b32 s3, s0, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX9-NEXT: s_and_b32 s0, s0, s4			; GFX9-NEXT: s_lshl_b32 s3, s3, 8
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_or_b32 s2, s2, s3
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s1, s2, s4			; GFX9-NEXT: s_or_b32 s0, s2, s0
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s3, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s0			; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_sgpr_v4i8_vgpr_idx:			; GFX8-LABEL: extractelement_sgpr_v4i8_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX8-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_and_b32_e32 v0, 3, v0			; GFX8-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s1, s0, 8			; GFX8-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX8-NEXT: s_and_b32 s1, s1, s4			; GFX8-NEXT: s_lshr_b32 s1, s0, 24
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_and_b32 s2, s0, 0xff
	; GFX8-NEXT: s_lshr_b32 s3, s0, 24			; GFX8-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX8-NEXT: s_and_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s3, s3, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_or_b32 s2, s2, s3
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_and_b32 s1, s2, s4			; GFX8-NEXT: s_or_b32 s0, s2, s0
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s3, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s0			; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_sgpr_v4i8_vgpr_idx:			; GFX7-LABEL: extractelement_sgpr_v4i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_and_b32_e32 v0, 3, v0			; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX7-NEXT: s_and_b32 s1, s1, s4			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s2, s0, 16			; GFX7-NEXT: s_and_b32 s2, s0, 0xff
	; GFX7-NEXT: s_lshr_b32 s3, s0, 24			; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX7-NEXT: s_and_b32 s0, s0, s4			; GFX7-NEXT: s_lshl_b32 s3, s3, 8
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_and_b32 s1, s2, s4			; GFX7-NEXT: s_or_b32 s0, s2, s0
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s3, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: v_lshr_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshr_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_vgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v4i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v0			; GFX10-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, s0			; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, s0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 %idx			%element = extractelement <4 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx0(<4 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx0(<4 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v4i8_idx0:			; GCN-LABEL: extractelement_sgpr_v4i8_idx0:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dword s1, s[2:3], 0x0			; GCN-NEXT: s_load_dword s0, s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s0, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s2, s2, s0			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s3, s1, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s4, s1, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s0			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_and_b32 s0, s3, s0			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_lshl_b32 s2, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: s_lshl_b32 s0, s0, 16			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_or_b32 s0, s1, s0			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s4, 24			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_idx0:			; GFX10-LABEL: extractelement_sgpr_v4i8_idx0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 0			%element = extractelement <4 x i8> %vector, i32 0
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx1(<4 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx1(<4 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v4i8_idx1:			; GCN-LABEL: extractelement_sgpr_v4i8_idx1:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dword s1, s[2:3], 0x0			; GCN-NEXT: s_load_dword s0, s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s0, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s2, s2, s0			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s3, s1, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s4, s1, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s0			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_and_b32 s0, s3, s0			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_lshl_b32 s2, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: s_lshl_b32 s0, s0, 16			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_or_b32 s0, s1, s0			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s4, 24			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 8			; GCN-NEXT: s_lshr_b32 s0, s0, 8
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_idx1:			; GFX10-LABEL: extractelement_sgpr_v4i8_idx1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 8			; GFX10-NEXT: s_lshr_b32 s0, s0, 8
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 1			%element = extractelement <4 x i8> %vector, i32 1
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx2(<4 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx2(<4 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v4i8_idx2:			; GCN-LABEL: extractelement_sgpr_v4i8_idx2:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dword s1, s[2:3], 0x0			; GCN-NEXT: s_load_dword s0, s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s0, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s2, s2, s0			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s3, s1, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s4, s1, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s0			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_and_b32 s0, s3, s0			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_lshl_b32 s2, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: s_lshl_b32 s0, s0, 16			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_or_b32 s0, s1, s0			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s4, 24			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 16			; GCN-NEXT: s_lshr_b32 s0, s0, 16
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_idx2:			; GFX10-LABEL: extractelement_sgpr_v4i8_idx2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 16			; GFX10-NEXT: s_lshr_b32 s0, s0, 16
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 2			%element = extractelement <4 x i8> %vector, i32 2
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx3(<4 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v4i8_idx3(<4 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v4i8_idx3:			; GCN-LABEL: extractelement_sgpr_v4i8_idx3:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dword s1, s[2:3], 0x0			; GCN-NEXT: s_load_dword s0, s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s0, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s2, s2, s0			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s3, s1, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s4, s1, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s0			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_and_b32 s0, s3, s0			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_lshl_b32 s2, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: s_lshl_b32 s0, s0, 16			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_or_b32 s0, s1, s0			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s4, 24			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 24			; GCN-NEXT: s_lshr_b32 s0, s0, 24
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v4i8_idx3:			; GFX10-LABEL: extractelement_sgpr_v4i8_idx3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%element = extractelement <4 x i8> %vector, i32 3			%element = extractelement <4 x i8> %vector, i32 3
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v4i8_idx0(<4 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v4i8_idx0(<4 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_idx0:			; GFX9-LABEL: extractelement_vgpr_v4i8_idx0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_idx0:			; GFX7-LABEL: extractelement_vgpr_v4i8_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_idx0:			; GFX10-LABEL: extractelement_vgpr_v4i8_idx0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 0			%element = extractelement <4 x i8> %vector, i32 0
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v4i8_idx1(<4 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v4i8_idx1(<4 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_idx1:			; GFX9-LABEL: extractelement_vgpr_v4i8_idx1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v2, 16
				; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_idx1:			; GFX7-LABEL: extractelement_vgpr_v4i8_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_idx1:			; GFX10-LABEL: extractelement_vgpr_v4i8_idx1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
				; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v2
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 1			%element = extractelement <4 x i8> %vector, i32 1
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v4i8_idx2(<4 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v4i8_idx2(<4 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_idx2:			; GFX9-LABEL: extractelement_vgpr_v4i8_idx2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_mov_b32 s4, 16
				; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_idx2:			; GFX7-LABEL: extractelement_vgpr_v4i8_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_idx2:			; GFX10-LABEL: extractelement_vgpr_v4i8_idx2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 2			%element = extractelement <4 x i8> %vector, i32 2
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v4i8_idx3(<4 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v4i8_idx3(<4 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v4i8_idx3:			; GFX9-LABEL: extractelement_vgpr_v4i8_idx3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v4i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v4i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v4i8_idx3:			; GFX7-LABEL: extractelement_vgpr_v4i8_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v4i8_idx3:			; GFX10-LABEL: extractelement_vgpr_v4i8_idx3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vector = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%element = extractelement <4 x i8> %vector, i32 3			%element = extractelement <4 x i8> %vector, i32 3
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_sgpr_idx(<8 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_sgpr_idx(<8 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {
	; GCN-LABEL: extractelement_sgpr_v8i8_sgpr_idx:			; GCN-LABEL: extractelement_sgpr_v8i8_sgpr_idx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s9, 0xff			; GCN-NEXT: s_mov_b32 s7, 0x80008
				; GCN-NEXT: s_movk_i32 s5, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s0, 8			; GCN-NEXT: s_bfe_u32 s8, s0, s7
	; GCN-NEXT: s_and_b32 s2, s2, s9			; GCN-NEXT: s_and_b32 s6, s0, s5
	; GCN-NEXT: s_lshr_b32 s3, s0, 16			; GCN-NEXT: s_lshl_b32 s8, s8, 8
	; GCN-NEXT: s_lshr_b32 s5, s0, 24			; GCN-NEXT: s_or_b32 s6, s6, s8
	; GCN-NEXT: s_and_b32 s0, s0, s9			; GCN-NEXT: s_mov_b32 s8, 0x80010
	; GCN-NEXT: s_lshl_b32 s2, s2, 8			; GCN-NEXT: s_lshr_b32 s2, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_bfe_u32 s0, s0, s8
	; GCN-NEXT: s_and_b32 s2, s3, s9			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_lshl_b32 s2, s2, 16			; GCN-NEXT: s_or_b32 s0, s6, s0
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_lshl_b32 s2, s2, 24
	; GCN-NEXT: s_lshl_b32 s2, s5, 24
	; GCN-NEXT: s_lshr_b32 s6, s1, 8
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_or_b32 s0, s0, s2
	; GCN-NEXT: s_and_b32 s2, s6, s9			; GCN-NEXT: s_and_b32 s2, s1, s5
	; GCN-NEXT: s_lshr_b32 s7, s1, 16			; GCN-NEXT: s_bfe_u32 s5, s1, s7
	; GCN-NEXT: s_lshr_b32 s8, s1, 24			; GCN-NEXT: s_lshr_b32 s3, s1, 24
	; GCN-NEXT: s_and_b32 s1, s1, s9			; GCN-NEXT: s_bfe_u32 s1, s1, s8
	; GCN-NEXT: s_lshl_b32 s2, s2, 8			; GCN-NEXT: s_lshl_b32 s5, s5, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_or_b32 s2, s2, s5
	; GCN-NEXT: s_and_b32 s2, s7, s9			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_lshl_b32 s2, s2, 16			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_lshl_b32 s2, s3, 24
	; GCN-NEXT: s_lshl_b32 s2, s8, 24
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: s_lshr_b32 s2, s4, 2			; GCN-NEXT: s_lshr_b32 s2, s4, 2
	; GCN-NEXT: s_cmp_eq_u32 s2, 1			; GCN-NEXT: s_cmp_eq_u32 s2, 1
	; GCN-NEXT: s_cselect_b32 s0, s1, s0			; GCN-NEXT: s_cselect_b32 s0, s1, s0
	; GCN-NEXT: s_and_b32 s1, s4, 3			; GCN-NEXT: s_and_b32 s1, s4, 3
	; GCN-NEXT: s_lshl_b32 s1, s1, 3			; GCN-NEXT: s_lshl_b32 s1, s1, 3
	; GCN-NEXT: s_lshr_b32 s0, s0, s1			; GCN-NEXT: s_lshr_b32 s0, s0, s1
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_sgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v8i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: s_lshr_b32 s3, s4, 2			; GFX10-NEXT: s_mov_b32 s5, 0x80010
				; GFX10-NEXT: s_lshr_b32 s6, s4, 2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s5, s0, 8			; GFX10-NEXT: s_bfe_u32 s10, s0, s3
	; GFX10-NEXT: s_lshr_b32 s8, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_lshr_b32 s6, s0, 16
	; GFX10-NEXT: s_and_b32 s5, s5, s2
	; GFX10-NEXT: s_and_b32 s8, s8, s2
	; GFX10-NEXT: s_lshr_b32 s9, s1, 16
	; GFX10-NEXT: s_lshr_b32 s7, s0, 24			; GFX10-NEXT: s_lshr_b32 s7, s0, 24
	; GFX10-NEXT: s_and_b32 s6, s6, s2			; GFX10-NEXT: s_lshr_b32 s8, s1, 24
	; GFX10-NEXT: s_lshr_b32 s10, s1, 24			; GFX10-NEXT: s_and_b32 s9, s0, s2
	; GFX10-NEXT: s_and_b32 s0, s0, s2			; GFX10-NEXT: s_bfe_u32 s0, s0, s5
	; GFX10-NEXT: s_and_b32 s1, s1, s2			; GFX10-NEXT: s_and_b32 s2, s1, s2
	; GFX10-NEXT: s_and_b32 s2, s9, s2			; GFX10-NEXT: s_bfe_u32 s1, s1, s5
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_lshl_b32 s5, s10, 8
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_lshl_b32 s6, s6, 16			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s5			; GFX10-NEXT: s_or_b32 s5, s9, s5
	; GFX10-NEXT: s_lshl_b32 s2, s2, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s8			; GFX10-NEXT: s_or_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s7, s7, 24			; GFX10-NEXT: s_lshl_b32 s7, s7, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_or_b32 s0, s5, s0
	; GFX10-NEXT: s_lshl_b32 s9, s10, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s2			; GFX10-NEXT: s_or_b32 s1, s2, s1
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s0, s0, s7
	; GFX10-NEXT: s_or_b32 s1, s1, s9			; GFX10-NEXT: s_or_b32 s1, s1, s8
	; GFX10-NEXT: s_cmp_eq_u32 s3, 1			; GFX10-NEXT: s_cmp_eq_u32 s6, 1
	; GFX10-NEXT: s_cselect_b32 s0, s1, s0			; GFX10-NEXT: s_cselect_b32 s0, s1, s0
	; GFX10-NEXT: s_and_b32 s1, s4, 3			; GFX10-NEXT: s_and_b32 s1, s4, 3
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3			; GFX10-NEXT: s_lshl_b32 s1, s1, 3
	; GFX10-NEXT: s_lshr_b32 s0, s0, s1			; GFX10-NEXT: s_lshr_b32 s0, s0, s1
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 %idx			%element = extractelement <8 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_vgpr_v8i8_sgpr_idx(<8 x i8> addrspace(1)* %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_vgpr_v8i8_sgpr_idx(<8 x i8> addrspace(1)* %ptr, i32 inreg %idx) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: s_lshr_b32 s3, s2, 2			; GFX9-NEXT: s_movk_i32 s3, 0xff
				; GFX9-NEXT: s_lshr_b32 s4, s2, 2
	; GFX9-NEXT: s_and_b32 s2, s2, 3			; GFX9-NEXT: s_and_b32 s2, s2, 3
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v6, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v4
	; GFX9-NEXT: v_and_b32_sdwa v7, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v2			; GFX9-NEXT: v_or3_b32 v0, v0, v5, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX9-NEXT: v_and_or_b32 v1, v1, s1, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v6, v3
	; GFX9-NEXT: v_or3_b32 v1, v1, v7, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX9-NEXT: s_lshl_b32 s0, s2, 3			; GFX9-NEXT: s_lshl_b32 s0, s2, 3
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_lshr_b32 s0, s2, 2			; GFX8-NEXT: s_lshr_b32 s0, s2, 2
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_lshl_b32 s0, s1, 3			; GFX8-NEXT: s_lshl_b32 s0, s1, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v4, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v9			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v8			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: s_lshr_b32 s1, s2, 2			; GFX7-NEXT: s_lshr_b32 s1, s2, 2
	; GFX7-NEXT: s_and_b32 s2, s2, 3			; GFX7-NEXT: s_and_b32 s2, s2, 3
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v4, s0, v0
	; GFX7-NEXT: v_and_b32_e32 v5, s0, v5			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_and_b32_e32 v6, s0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s0, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: s_lshl_b32 s0, s2, 3			; GFX7-NEXT: s_lshl_b32 s0, s2, 3
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s3, 0xff
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v3
	; GFX10-NEXT: v_and_b32_sdwa v7, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v3
	; GFX10-NEXT: s_lshr_b32 s0, s2, 2			; GFX10-NEXT: s_lshr_b32 s0, s2, 2
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v2
	; GFX10-NEXT: v_or3_b32 v1, v1, v7, v5			; GFX10-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX10-NEXT: s_and_b32 s0, s2, 3			; GFX10-NEXT: s_and_b32 s0, s2, 3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 3			; GFX10-NEXT: s_lshl_b32 s0, s0, 3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 %idx			%element = extractelement <8 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_vgpr_idx(<8 x i8> addrspace(1)* %ptr, i32 %idx) {			define i8 @extractelement_vgpr_v8i8_vgpr_idx(<8 x i8> addrspace(1)* %ptr, i32 %idx) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_vgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v8i8_vgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_mov_b32 s5, 16
				; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 2, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 2, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 3, v2			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v8, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, s6, v6
	; GFX9-NEXT: v_and_b32_sdwa v9, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v8
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v4			; GFX9-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_or3_b32 v1, v1, v9, v5
	; GFX9-NEXT: v_and_or_b32 v1, v1, s5, v6
	; GFX9-NEXT: v_or3_b32 v0, v0, v8, v5
	; GFX9-NEXT: v_or3_b32 v1, v1, v9, v7
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v8i8_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 16
	; GFX8-NEXT: v_mov_b32_e32 v5, s4			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 2, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 2, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v11, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v5, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v9
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v11			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v10			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v8i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v6, s4, v0
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_and_b32_e32 v8, s4, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
				; GFX7-NEXT: v_or_b32_e32 v6, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v7, v8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX7-NEXT: v_or_b32_e32 v0, v6, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX7-NEXT: v_or_b32_e32 v1, v7, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 16, v8			; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_vgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v8i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_movk_i32 s5, 0xff			; GFX10-NEXT: s_mov_b32 s5, 16
				; GFX10-NEXT: s_movk_i32 s6, 0xff
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_b32_sdwa v7, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v8, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s6, v4
	; GFX10-NEXT: v_and_b32_sdwa v8, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v1, v1, s6, v6
	; GFX10-NEXT: v_and_or_b32 v0, v0, s5, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 2, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s5, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v2
	; GFX10-NEXT: v_and_b32_e32 v2, 3, v2			; GFX10-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v7, v5			; GFX10-NEXT: v_or3_b32 v0, v0, v7, v3
	; GFX10-NEXT: v_or3_b32 v1, v1, v8, v6			; GFX10-NEXT: v_or3_b32 v1, v1, v8, v4
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v5
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 %idx			%element = extractelement <8 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_vgpr_idx(<8 x i8> addrspace(4)* inreg %ptr, i32 %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_vgpr_idx(<8 x i8> addrspace(4)* inreg %ptr, i32 %idx) {
	; GCN-LABEL: extractelement_sgpr_v8i8_vgpr_idx:			; GCN-LABEL: extractelement_sgpr_v8i8_vgpr_idx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s8, 0xff			; GCN-NEXT: s_mov_b32 s6, 0x80008
				; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 2, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 2, v0
	; GCN-NEXT: v_and_b32_e32 v0, 3, v0			; GCN-NEXT: v_and_b32_e32 v0, 3, v0
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s0, 8			; GCN-NEXT: s_bfe_u32 s7, s0, s6
	; GCN-NEXT: s_and_b32 s2, s2, s8			; GCN-NEXT: s_and_b32 s5, s0, s4
	; GCN-NEXT: s_lshr_b32 s3, s0, 16			; GCN-NEXT: s_lshl_b32 s7, s7, 8
	; GCN-NEXT: s_lshr_b32 s4, s0, 24			; GCN-NEXT: s_or_b32 s5, s5, s7
	; GCN-NEXT: s_and_b32 s0, s0, s8			; GCN-NEXT: s_mov_b32 s7, 0x80010
	; GCN-NEXT: s_lshl_b32 s2, s2, 8			; GCN-NEXT: s_lshr_b32 s2, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_bfe_u32 s0, s0, s7
	; GCN-NEXT: s_and_b32 s2, s3, s8			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_lshl_b32 s2, s2, 16			; GCN-NEXT: s_or_b32 s0, s5, s0
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_lshl_b32 s2, s2, 24
	; GCN-NEXT: s_lshl_b32 s2, s4, 24
	; GCN-NEXT: s_lshr_b32 s5, s1, 8
	; GCN-NEXT: s_or_b32 s0, s0, s2			; GCN-NEXT: s_or_b32 s0, s0, s2
	; GCN-NEXT: s_and_b32 s2, s5, s8			; GCN-NEXT: s_and_b32 s2, s1, s4
	; GCN-NEXT: s_lshr_b32 s6, s1, 16			; GCN-NEXT: s_bfe_u32 s4, s1, s6
	; GCN-NEXT: s_lshr_b32 s7, s1, 24			; GCN-NEXT: s_lshr_b32 s3, s1, 24
	; GCN-NEXT: s_and_b32 s1, s1, s8			; GCN-NEXT: s_bfe_u32 s1, s1, s7
	; GCN-NEXT: s_lshl_b32 s2, s2, 8			; GCN-NEXT: s_lshl_b32 s4, s4, 8
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_or_b32 s2, s2, s4
	; GCN-NEXT: s_and_b32 s2, s6, s8			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_lshl_b32 s2, s2, 16			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_lshl_b32 s2, s3, 24
	; GCN-NEXT: s_lshl_b32 s2, s7, 24
	; GCN-NEXT: s_or_b32 s1, s1, s2			; GCN-NEXT: s_or_b32 s1, s1, s2
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v3, s1			; GCN-NEXT: v_mov_b32_e32 v3, s1
				; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v3, vcc
	; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v0, v0, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, v0, v1
	; GCN-NEXT: v_readfirstlane_b32 s0, v0			; GCN-NEXT: v_readfirstlane_b32 s0, v0
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_vgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v8i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
				; GFX10-NEXT: s_mov_b32 s4, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 2, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v0			; GFX10-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s1, 8			; GFX10-NEXT: s_bfe_u32 s8, s0, s3
	; GFX10-NEXT: s_lshr_b32 s3, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_lshr_b32 s4, s0, 16			; GFX10-NEXT: s_and_b32 s7, s0, s2
	; GFX10-NEXT: s_and_b32 s6, s6, s2			; GFX10-NEXT: s_lshr_b32 s6, s1, 24
	; GFX10-NEXT: s_lshr_b32 s7, s1, 16			; GFX10-NEXT: s_and_b32 s2, s1, s2
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24			; GFX10-NEXT: s_bfe_u32 s1, s1, s4
	; GFX10-NEXT: s_and_b32 s3, s3, s2
	; GFX10-NEXT: s_lshr_b32 s8, s1, 24
	; GFX10-NEXT: s_and_b32 s0, s0, s2
	; GFX10-NEXT: s_and_b32 s1, s1, s2
	; GFX10-NEXT: s_and_b32 s4, s4, s2
	; GFX10-NEXT: s_and_b32 s2, s7, s2
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8
	; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s7, s8, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s3, s3, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s7			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_lshl_b32 s2, s4, 16			; GFX10-NEXT: s_or_b32 s2, s2, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_lshl_b32 s3, s6, 24
				; GFX10-NEXT: s_or_b32 s1, s2, s1
				; GFX10-NEXT: s_lshr_b32 s5, s0, 24
				; GFX10-NEXT: s_bfe_u32 s0, s0, s4
				; GFX10-NEXT: s_lshl_b32 s4, s8, 8
				; GFX10-NEXT: s_or_b32 s1, s1, s3
				; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_or_b32 s3, s7, s4
	; GFX10-NEXT: v_mov_b32_e32 v2, s1			; GFX10-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-NEXT: s_lshl_b32 s5, s5, 24			; GFX10-NEXT: s_lshl_b32 s2, s5, 24
				; GFX10-NEXT: s_or_b32 s0, s3, s0
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_or_b32 s0, s0, s5
	; GFX10-NEXT: v_cndmask_b32_e32 v1, s0, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, s0, v2, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, v0, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v0, v0, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 %idx			%element = extractelement <8 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx0(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx0(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx0:			; GCN-LABEL: extractelement_sgpr_v8i8_idx0:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s1, s0, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s2, s0, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s0, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s1, s1, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_and_b32 s1, s2, s4			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx0:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s1
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 0			%element = extractelement <8 x i8> %vector, i32 0
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx1(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx1(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx1:			; GCN-LABEL: extractelement_sgpr_v8i8_idx1:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s1, s0, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s2, s0, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s0, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s1, s1, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_and_b32 s1, s2, s4			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 8			; GCN-NEXT: s_lshr_b32 s0, s0, 8
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx1:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s1
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 8			; GFX10-NEXT: s_lshr_b32 s0, s0, 8
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 1			%element = extractelement <8 x i8> %vector, i32 1
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx2(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx2(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx2:			; GCN-LABEL: extractelement_sgpr_v8i8_idx2:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s1, s0, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s2, s0, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s0, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s1, s1, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_and_b32 s1, s2, s4			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 16			; GCN-NEXT: s_lshr_b32 s0, s0, 16
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx2:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s1
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 16			; GFX10-NEXT: s_lshr_b32 s0, s0, 16
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 2			%element = extractelement <8 x i8> %vector, i32 2
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx3(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx3(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx3:			; GCN-LABEL: extractelement_sgpr_v8i8_idx3:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s1, s0, 8			; GCN-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshr_b32 s1, s0, 24
	; GCN-NEXT: s_lshr_b32 s2, s0, 16			; GCN-NEXT: s_and_b32 s2, s0, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s0, 24			; GCN-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s1, s1, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_and_b32 s1, s2, s4			; GCN-NEXT: s_or_b32 s0, s2, s0
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s0, s1
	; GCN-NEXT: s_lshr_b32 s0, s0, 24			; GCN-NEXT: s_lshr_b32 s0, s0, 24
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx3:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_and_b32 s1, s0, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s1
	; GFX10-NEXT: s_and_b32 s4, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s3, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s0, s0, 24			; GFX10-NEXT: s_lshl_b32 s0, s0, 24
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_or_b32 s1, s1, s3
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 3			%element = extractelement <8 x i8> %vector, i32 3
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx4(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx4(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx4:			; GCN-LABEL: extractelement_sgpr_v8i8_idx4:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s0, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshr_b32 s0, s1, 24
	; GCN-NEXT: s_lshr_b32 s2, s1, 16			; GCN-NEXT: s_and_b32 s2, s1, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s0, s0, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_and_b32 s1, s2, s4
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24			; GCN-NEXT: s_lshl_b32 s0, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx4:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx4:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s1, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s1, 16			; GFX10-NEXT: s_and_b32 s0, s1, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s0
	; GFX10-NEXT: s_and_b32 s4, s1, s0
	; GFX10-NEXT: s_and_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-NEXT: s_lshr_b32 s1, s1, 24
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s1, s1, 24			; GFX10-NEXT: s_lshl_b32 s1, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s2, s0			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s1			; GFX10-NEXT: s_or_b32 s0, s0, s1
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 4			%element = extractelement <8 x i8> %vector, i32 4
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx5(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx5(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx5:			; GCN-LABEL: extractelement_sgpr_v8i8_idx5:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s0, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshr_b32 s0, s1, 24
	; GCN-NEXT: s_lshr_b32 s2, s1, 16			; GCN-NEXT: s_and_b32 s2, s1, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s0, s0, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_and_b32 s1, s2, s4
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24			; GCN-NEXT: s_lshl_b32 s0, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_lshr_b32 s0, s0, 8			; GCN-NEXT: s_lshr_b32 s0, s0, 8
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx5:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx5:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s1, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s1, 16			; GFX10-NEXT: s_and_b32 s0, s1, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s0
	; GFX10-NEXT: s_and_b32 s4, s1, s0
	; GFX10-NEXT: s_and_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-NEXT: s_lshr_b32 s1, s1, 24
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s1, s1, 24			; GFX10-NEXT: s_lshl_b32 s1, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s2, s0			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s1			; GFX10-NEXT: s_or_b32 s0, s0, s1
	; GFX10-NEXT: s_lshr_b32 s0, s0, 8			; GFX10-NEXT: s_lshr_b32 s0, s0, 8
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 5			%element = extractelement <8 x i8> %vector, i32 5
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx6(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx6(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx6:			; GCN-LABEL: extractelement_sgpr_v8i8_idx6:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s0, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshr_b32 s0, s1, 24
	; GCN-NEXT: s_lshr_b32 s2, s1, 16			; GCN-NEXT: s_and_b32 s2, s1, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s0, s0, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_and_b32 s1, s2, s4
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24			; GCN-NEXT: s_lshl_b32 s0, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_lshr_b32 s0, s0, 16			; GCN-NEXT: s_lshr_b32 s0, s0, 16
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx6:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx6:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s1, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s1, 16			; GFX10-NEXT: s_and_b32 s0, s1, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s0
	; GFX10-NEXT: s_and_b32 s4, s1, s0
	; GFX10-NEXT: s_and_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-NEXT: s_lshr_b32 s1, s1, 24
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s1, s1, 24			; GFX10-NEXT: s_lshl_b32 s1, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s2, s0			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s1			; GFX10-NEXT: s_or_b32 s0, s0, s1
	; GFX10-NEXT: s_lshr_b32 s0, s0, 16			; GFX10-NEXT: s_lshr_b32 s0, s0, 16
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 6			%element = extractelement <8 x i8> %vector, i32 6
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx7(<8 x i8> addrspace(4)* inreg %ptr) {			define amdgpu_ps i8 @extractelement_sgpr_v8i8_idx7(<8 x i8> addrspace(4)* inreg %ptr) {
	; GCN-LABEL: extractelement_sgpr_v8i8_idx7:			; GCN-LABEL: extractelement_sgpr_v8i8_idx7:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s4, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s0, s1, 8			; GCN-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GCN-NEXT: s_and_b32 s0, s0, s4			; GCN-NEXT: s_lshr_b32 s0, s1, 24
	; GCN-NEXT: s_lshr_b32 s2, s1, 16			; GCN-NEXT: s_and_b32 s2, s1, 0xff
	; GCN-NEXT: s_lshr_b32 s3, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GCN-NEXT: s_and_b32 s1, s1, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 8
	; GCN-NEXT: s_lshl_b32 s0, s0, 8			; GCN-NEXT: s_or_b32 s2, s2, s3
	; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_and_b32 s1, s2, s4
	; GCN-NEXT: s_lshl_b32 s1, s1, 16			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s1, s2, s1
	; GCN-NEXT: s_lshl_b32 s1, s3, 24			; GCN-NEXT: s_lshl_b32 s0, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s1			; GCN-NEXT: s_or_b32 s0, s1, s0
	; GCN-NEXT: s_lshr_b32 s0, s0, 24			; GCN-NEXT: s_lshr_b32 s0, s0, 24
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v8i8_idx7:			; GFX10-LABEL: extractelement_sgpr_v8i8_idx7:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: s_bfe_u32 s2, s1, 0x80008
	; GFX10-NEXT: s_lshr_b32 s2, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, 0x80010
	; GFX10-NEXT: s_lshr_b32 s3, s1, 16			; GFX10-NEXT: s_and_b32 s0, s1, 0xff
	; GFX10-NEXT: s_and_b32 s2, s2, s0
	; GFX10-NEXT: s_and_b32 s4, s1, s0
	; GFX10-NEXT: s_and_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshr_b32 s1, s1, 24			; GFX10-NEXT: s_lshr_b32 s1, s1, 24
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s4, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s1, s1, 24			; GFX10-NEXT: s_lshl_b32 s1, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s2, s0			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s1			; GFX10-NEXT: s_or_b32 s0, s0, s1
	; GFX10-NEXT: s_lshr_b32 s0, s0, 24			; GFX10-NEXT: s_lshr_b32 s0, s0, 24
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%element = extractelement <8 x i8> %vector, i32 7			%element = extractelement <8 x i8> %vector, i32 7
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx0(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx0(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx0:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx0:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx0:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 0			%element = extractelement <8 x i8> %vector, i32 0
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx1(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx1(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx1:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v4
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx1:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx1:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 1			%element = extractelement <8 x i8> %vector, i32 1
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx2(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx2(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx2:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx2:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx2:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 2			%element = extractelement <8 x i8> %vector, i32 2
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx3(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx3(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx3:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx3:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx3:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 3			%element = extractelement <8 x i8> %vector, i32 3
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx4(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx4(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx4:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx4:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx4:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx4:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx4:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx4:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 4			%element = extractelement <8 x i8> %vector, i32 4
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx5(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx5(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx5:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx5:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v4
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx5:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx5:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx5:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx5:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx5:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx5:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v1, 0xff, v1, v2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_or3_b32 v0, v1, v0, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 5			%element = extractelement <8 x i8> %vector, i32 5
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx6(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx6(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx6:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx6:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx6:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx6:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx6:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx6:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx6:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx6:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 6			%element = extractelement <8 x i8> %vector, i32 6
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v8i8_idx7(<8 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v8i8_idx7(<8 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v8i8_idx7:			; GFX9-LABEL: extractelement_vgpr_v8i8_idx7:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v8i8_idx7:			; GFX8-LABEL: extractelement_vgpr_v8i8_idx7:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_idx7:			; GFX7-LABEL: extractelement_vgpr_v8i8_idx7:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_idx7:			; GFX10-LABEL: extractelement_vgpr_v8i8_idx7:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vector = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%element = extractelement <8 x i8> %vector, i32 7			%element = extractelement <8 x i8> %vector, i32 7
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v16i8_sgpr_idx(<16 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v16i8_sgpr_idx(<16 x i8> addrspace(4)* inreg %ptr, i32 inreg %idx) {
	; GCN-LABEL: extractelement_sgpr_v16i8_sgpr_idx:			; GCN-LABEL: extractelement_sgpr_v16i8_sgpr_idx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s17, 0xff			; GCN-NEXT: s_mov_b32 s11, 0x80008
				; GCN-NEXT: s_movk_i32 s9, 0xff
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s5, s0, 8			; GCN-NEXT: s_bfe_u32 s12, s0, s11
	; GCN-NEXT: s_and_b32 s5, s5, s17			; GCN-NEXT: s_and_b32 s10, s0, s9
	; GCN-NEXT: s_lshr_b32 s6, s0, 16			; GCN-NEXT: s_lshl_b32 s12, s12, 8
	; GCN-NEXT: s_lshr_b32 s7, s0, 24			; GCN-NEXT: s_or_b32 s10, s10, s12
	; GCN-NEXT: s_and_b32 s0, s0, s17			; GCN-NEXT: s_mov_b32 s12, 0x80010
	; GCN-NEXT: s_lshl_b32 s5, s5, 8			; GCN-NEXT: s_lshr_b32 s5, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s5			; GCN-NEXT: s_bfe_u32 s0, s0, s12
	; GCN-NEXT: s_and_b32 s5, s6, s17			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_lshl_b32 s5, s5, 16			; GCN-NEXT: s_or_b32 s0, s10, s0
	; GCN-NEXT: s_or_b32 s0, s0, s5			; GCN-NEXT: s_bfe_u32 s10, s1, s11
	; GCN-NEXT: s_lshl_b32 s5, s7, 24			; GCN-NEXT: s_lshl_b32 s5, s5, 24
	; GCN-NEXT: s_lshr_b32 s8, s1, 8
	; GCN-NEXT: s_or_b32 s0, s0, s5			; GCN-NEXT: s_or_b32 s0, s0, s5
	; GCN-NEXT: s_and_b32 s5, s8, s17			; GCN-NEXT: s_lshr_b32 s6, s1, 24
	; GCN-NEXT: s_lshr_b32 s9, s1, 16			; GCN-NEXT: s_and_b32 s5, s1, s9
	; GCN-NEXT: s_lshr_b32 s10, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, s12
	; GCN-NEXT: s_and_b32 s1, s1, s17			; GCN-NEXT: s_lshl_b32 s10, s10, 8
	; GCN-NEXT: s_lshl_b32 s5, s5, 8			; GCN-NEXT: s_or_b32 s5, s5, s10
	; GCN-NEXT: s_or_b32 s1, s1, s5			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_and_b32 s5, s9, s17			; GCN-NEXT: s_or_b32 s1, s5, s1
	; GCN-NEXT: s_lshl_b32 s5, s5, 16			; GCN-NEXT: s_lshl_b32 s5, s6, 24
	; GCN-NEXT: s_or_b32 s1, s1, s5			; GCN-NEXT: s_bfe_u32 s6, s2, s11
	; GCN-NEXT: s_lshl_b32 s5, s10, 24
	; GCN-NEXT: s_lshr_b32 s11, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s5			; GCN-NEXT: s_or_b32 s1, s1, s5
	; GCN-NEXT: s_and_b32 s5, s11, s17			; GCN-NEXT: s_lshr_b32 s7, s2, 24
	; GCN-NEXT: s_lshr_b32 s12, s2, 16			; GCN-NEXT: s_and_b32 s5, s2, s9
	; GCN-NEXT: s_lshr_b32 s13, s2, 24			; GCN-NEXT: s_bfe_u32 s2, s2, s12
	; GCN-NEXT: s_and_b32 s2, s2, s17			; GCN-NEXT: s_lshl_b32 s6, s6, 8
	; GCN-NEXT: s_lshl_b32 s5, s5, 8			; GCN-NEXT: s_or_b32 s5, s5, s6
	; GCN-NEXT: s_or_b32 s2, s2, s5			; GCN-NEXT: s_lshl_b32 s2, s2, 16
	; GCN-NEXT: s_and_b32 s5, s12, s17			; GCN-NEXT: s_bfe_u32 s6, s3, s11
	; GCN-NEXT: s_lshl_b32 s5, s5, 16			; GCN-NEXT: s_or_b32 s2, s5, s2
	; GCN-NEXT: s_or_b32 s2, s2, s5			; GCN-NEXT: s_lshl_b32 s5, s7, 24
	; GCN-NEXT: s_lshl_b32 s5, s13, 24
	; GCN-NEXT: s_lshr_b32 s14, s3, 8
	; GCN-NEXT: s_or_b32 s2, s2, s5			; GCN-NEXT: s_or_b32 s2, s2, s5
	; GCN-NEXT: s_and_b32 s5, s14, s17			; GCN-NEXT: s_lshr_b32 s8, s3, 24
	; GCN-NEXT: s_lshr_b32 s15, s3, 16			; GCN-NEXT: s_and_b32 s5, s3, s9
	; GCN-NEXT: s_lshr_b32 s16, s3, 24			; GCN-NEXT: s_bfe_u32 s3, s3, s12
	; GCN-NEXT: s_and_b32 s3, s3, s17			; GCN-NEXT: s_lshl_b32 s6, s6, 8
	; GCN-NEXT: s_lshl_b32 s5, s5, 8			; GCN-NEXT: s_or_b32 s5, s5, s6
	; GCN-NEXT: s_or_b32 s3, s3, s5			; GCN-NEXT: s_lshl_b32 s3, s3, 16
	; GCN-NEXT: s_and_b32 s5, s15, s17			; GCN-NEXT: s_or_b32 s3, s5, s3
	; GCN-NEXT: s_lshl_b32 s5, s5, 16			; GCN-NEXT: s_lshl_b32 s5, s8, 24
	; GCN-NEXT: s_or_b32 s3, s3, s5
	; GCN-NEXT: s_lshl_b32 s5, s16, 24
	; GCN-NEXT: s_or_b32 s3, s3, s5			; GCN-NEXT: s_or_b32 s3, s3, s5
	; GCN-NEXT: s_lshr_b32 s5, s4, 2			; GCN-NEXT: s_lshr_b32 s5, s4, 2
	; GCN-NEXT: s_cmp_eq_u32 s5, 1			; GCN-NEXT: s_cmp_eq_u32 s5, 1
	; GCN-NEXT: s_cselect_b32 s0, s1, s0			; GCN-NEXT: s_cselect_b32 s0, s1, s0
	; GCN-NEXT: s_cmp_eq_u32 s5, 2			; GCN-NEXT: s_cmp_eq_u32 s5, 2
	; GCN-NEXT: s_cselect_b32 s0, s2, s0			; GCN-NEXT: s_cselect_b32 s0, s2, s0
	; GCN-NEXT: s_cmp_eq_u32 s5, 3			; GCN-NEXT: s_cmp_eq_u32 s5, 3
	; GCN-NEXT: s_cselect_b32 s0, s3, s0			; GCN-NEXT: s_cselect_b32 s0, s3, s0
	; GCN-NEXT: s_and_b32 s1, s4, 3			; GCN-NEXT: s_and_b32 s1, s4, 3
	; GCN-NEXT: s_lshl_b32 s1, s1, 3			; GCN-NEXT: s_lshl_b32 s1, s1, 3
	; GCN-NEXT: s_lshr_b32 s0, s0, s1			; GCN-NEXT: s_lshr_b32 s0, s0, s1
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v16i8_sgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v16i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s6, 0x80008
	; GFX10-NEXT: s_movk_i32 s5, 0xff			; GFX10-NEXT: s_movk_i32 s5, 0xff
				; GFX10-NEXT: s_mov_b32 s7, 0x80010
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s0, 8			; GFX10-NEXT: s_bfe_u32 s13, s0, s6
	; GFX10-NEXT: s_lshr_b32 s7, s0, 16
	; GFX10-NEXT: s_and_b32 s6, s6, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 24			; GFX10-NEXT: s_lshr_b32 s8, s0, 24
	; GFX10-NEXT: s_and_b32 s7, s7, s5			; GFX10-NEXT: s_and_b32 s12, s0, s5
	; GFX10-NEXT: s_and_b32 s0, s0, s5			; GFX10-NEXT: s_bfe_u32 s0, s0, s7
				; GFX10-NEXT: s_lshl_b32 s13, s13, 8
				; GFX10-NEXT: s_bfe_u32 s15, s1, s6
				; GFX10-NEXT: s_bfe_u32 s17, s2, s6
				; GFX10-NEXT: s_bfe_u32 s6, s3, s6
				; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_or_b32 s12, s12, s13
				; GFX10-NEXT: s_lshr_b32 s9, s1, 24
				; GFX10-NEXT: s_and_b32 s14, s1, s5
				; GFX10-NEXT: s_bfe_u32 s1, s1, s7
				; GFX10-NEXT: s_and_b32 s16, s2, s5
				; GFX10-NEXT: s_lshr_b32 s10, s2, 24
				; GFX10-NEXT: s_bfe_u32 s2, s2, s7
				; GFX10-NEXT: s_lshl_b32 s15, s15, 8
				; GFX10-NEXT: s_lshr_b32 s11, s3, 24
				; GFX10-NEXT: s_and_b32 s5, s3, s5
				; GFX10-NEXT: s_bfe_u32 s3, s3, s7
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_lshl_b32 s6, s6, 8
	; GFX10-NEXT: s_lshr_b32 s12, s2, 8
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s6
	; GFX10-NEXT: s_lshr_b32 s13, s2, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s7
	; GFX10-NEXT: s_and_b32 s7, s12, s5
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_lshr_b32 s9, s1, 8			; GFX10-NEXT: s_or_b32 s0, s12, s0
	; GFX10-NEXT: s_lshr_b32 s14, s2, 24			; GFX10-NEXT: s_lshl_b32 s17, s17, 8
	; GFX10-NEXT: s_or_b32 s0, s0, s8			; GFX10-NEXT: s_or_b32 s0, s0, s8
	; GFX10-NEXT: s_and_b32 s2, s2, s5			; GFX10-NEXT: s_or_b32 s5, s5, s6
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_and_b32 s8, s13, s5			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_lshr_b32 s10, s1, 16			; GFX10-NEXT: s_or_b32 s13, s14, s15
	; GFX10-NEXT: s_and_b32 s9, s9, s5			; GFX10-NEXT: s_or_b32 s8, s16, s17
	; GFX10-NEXT: s_or_b32 s2, s2, s7			; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_lshl_b32 s7, s8, 16			; GFX10-NEXT: s_or_b32 s3, s5, s3
	; GFX10-NEXT: s_lshr_b32 s15, s3, 8			; GFX10-NEXT: s_or_b32 s2, s8, s2
	; GFX10-NEXT: s_lshr_b32 s11, s1, 24			; GFX10-NEXT: s_lshl_b32 s8, s10, 24
	; GFX10-NEXT: s_and_b32 s10, s10, s5			; GFX10-NEXT: s_lshl_b32 s5, s11, 24
	; GFX10-NEXT: s_and_b32 s1, s1, s5			; GFX10-NEXT: s_lshl_b32 s9, s9, 24
	; GFX10-NEXT: s_lshl_b32 s9, s9, 8			; GFX10-NEXT: s_or_b32 s1, s13, s1
	; GFX10-NEXT: s_or_b32 s2, s2, s7
	; GFX10-NEXT: s_and_b32 s7, s15, s5
	; GFX10-NEXT: s_lshr_b32 s16, s3, 16
	; GFX10-NEXT: s_lshl_b32 s10, s10, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s9
	; GFX10-NEXT: s_lshr_b32 s17, s3, 24
	; GFX10-NEXT: s_and_b32 s3, s3, s5
	; GFX10-NEXT: s_and_b32 s5, s16, s5
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s10
	; GFX10-NEXT: s_lshl_b32 s6, s11, 24
	; GFX10-NEXT: s_or_b32 s3, s3, s7
	; GFX10-NEXT: s_lshl_b32 s5, s5, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s6, s14, 24
	; GFX10-NEXT: s_or_b32 s3, s3, s5
	; GFX10-NEXT: s_lshl_b32 s5, s17, 24
	; GFX10-NEXT: s_or_b32 s2, s2, s6
	; GFX10-NEXT: s_lshr_b32 s6, s4, 2			; GFX10-NEXT: s_lshr_b32 s6, s4, 2
				; GFX10-NEXT: s_or_b32 s1, s1, s9
				; GFX10-NEXT: s_or_b32 s2, s2, s8
	; GFX10-NEXT: s_or_b32 s3, s3, s5			; GFX10-NEXT: s_or_b32 s3, s3, s5
	; GFX10-NEXT: s_cmp_eq_u32 s6, 1			; GFX10-NEXT: s_cmp_eq_u32 s6, 1
	; GFX10-NEXT: s_cselect_b32 s0, s1, s0			; GFX10-NEXT: s_cselect_b32 s0, s1, s0
	; GFX10-NEXT: s_cmp_eq_u32 s6, 2			; GFX10-NEXT: s_cmp_eq_u32 s6, 2
	; GFX10-NEXT: s_cselect_b32 s0, s2, s0			; GFX10-NEXT: s_cselect_b32 s0, s2, s0
	; GFX10-NEXT: s_cmp_eq_u32 s6, 3			; GFX10-NEXT: s_cmp_eq_u32 s6, 3
	; GFX10-NEXT: s_cselect_b32 s0, s3, s0			; GFX10-NEXT: s_cselect_b32 s0, s3, s0
	; GFX10-NEXT: s_and_b32 s1, s4, 3			; GFX10-NEXT: s_and_b32 s1, s4, 3
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3			; GFX10-NEXT: s_lshl_b32 s1, s1, 3
	; GFX10-NEXT: s_lshr_b32 s0, s0, s1			; GFX10-NEXT: s_lshr_b32 s0, s0, s1
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%element = extractelement <16 x i8> %vector, i32 %idx			%element = extractelement <16 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_vgpr_v16i8_sgpr_idx(<16 x i8> addrspace(1)* %ptr, i32 inreg %idx) {			define amdgpu_ps i8 @extractelement_vgpr_v16i8_sgpr_idx(<16 x i8> addrspace(1)* %ptr, i32 inreg %idx) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
				; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v5, 8			; GFX9-NEXT: v_mov_b32_e32 v5, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_movk_i32 s3, 0xff
	; GFX9-NEXT: s_lshr_b32 s3, s2, 2			; GFX9-NEXT: s_lshr_b32 s4, s2, 2
				; GFX9-NEXT: v_mov_b32_e32 v6, 16
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xff			; GFX9-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX9-NEXT: s_and_b32 s2, s2, 3			; GFX9-NEXT: s_and_b32 s2, s2, 3
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v14, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v15, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v3			; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v11
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v5, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v6			; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v13
				; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v3
				; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v15
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_and_or_b32 v1, v1, s1, v8			; GFX9-NEXT: v_or3_b32 v0, v0, v12, v7
	; GFX9-NEXT: v_and_b32_sdwa v16, v2, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or3_b32 v1, v1, v14, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v5, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX9-NEXT: v_and_or_b32 v2, v2, s1, v10
	; GFX9-NEXT: v_or3_b32 v0, v0, v14, v7
	; GFX9-NEXT: v_or3_b32 v1, v1, v15, v9
	; GFX9-NEXT: v_and_b32_sdwa v17, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX9-NEXT: v_lshlrev_b32_e32 v12, 24, v13
	; GFX9-NEXT: v_and_or_b32 v3, v3, v4, v5			; GFX9-NEXT: v_and_or_b32 v3, v3, v4, v5
	; GFX9-NEXT: v_or3_b32 v2, v2, v16, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v10
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 2			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX9-NEXT: v_or3_b32 v2, v2, v16, v9
				; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_or3_b32 v3, v3, v17, v12			; GFX9-NEXT: v_or3_b32 v3, v3, v6, v4
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 3			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: s_lshl_b32 s0, s2, 3			; GFX9-NEXT: s_lshl_b32 s0, s2, 3
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v5, 8			; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: v_mov_b32_e32 v6, 8			; GFX8-NEXT: v_mov_b32_e32 v6, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, s0			; GFX8-NEXT: v_mov_b32_e32 v7, 16
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: s_lshr_b32 s0, s2, 2			; GFX8-NEXT: s_lshr_b32 s0, s2, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v6, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v16, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v7, v1, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v9
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v6, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v16			; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v7			; GFX8-NEXT: v_or_b32_e32 v0, v0, v13
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v17, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v2, v2, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v4, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v17			; GFX8-NEXT: v_or_b32_e32 v2, v2, v15
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8			; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v10			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v15			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v11
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v7
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v12			; GFX8-NEXT: v_or_b32_e32 v2, v2, v9
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v13			; GFX8-NEXT: v_or_b32_e32 v3, v3, v6
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX8-NEXT: s_lshl_b32 s0, s1, 3			; GFX8-NEXT: s_lshl_b32 s0, s1, 3
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: v_mov_b32_e32 v4, 0xff			; GFX7-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX7-NEXT: s_lshr_b32 s1, s2, 2			; GFX7-NEXT: s_lshr_b32 s1, s2, 2
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX7-NEXT: s_and_b32 s2, s2, 3			; GFX7-NEXT: s_and_b32 s2, s2, 3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 8, v2			; GFX7-NEXT: v_bfe_u32 v14, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v5, s0, v5			; GFX7-NEXT: v_and_b32_e32 v9, s0, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s0, v8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX7-NEXT: v_and_b32_e32 v11, s0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_and_b32_e32 v6, s0, v6			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v9, s0, v9			; GFX7-NEXT: v_and_b32_e32 v13, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v11, s0, v11			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 24, v2			; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
	; GFX7-NEXT: v_and_b32_e32 v12, v12, v4
	; GFX7-NEXT: v_and_b32_e32 v14, v14, v4
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_and_b32_e32 v4, v15, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
				; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3
				; GFX7-NEXT: v_and_b32_e32 v4, v3, v4
				; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX7-NEXT: v_or_b32_e32 v0, v9, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX7-NEXT: v_or_b32_e32 v1, v10, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
				; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6			; GFX7-NEXT: v_or_b32_e32 v2, v11, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v9			; GFX7-NEXT: v_or_b32_e32 v4, v4, v15
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 16, v12			; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v11			; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 24, v13
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v12
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v14
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v10
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 24, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v13			; GFX7-NEXT: v_or_b32_e32 v2, v2, v7
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 2			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 2
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v15			; GFX7-NEXT: v_or_b32_e32 v3, v3, v8
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 3
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX7-NEXT: s_lshl_b32 s0, s2, 3			; GFX7-NEXT: s_lshl_b32 s0, s2, 3
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v5, 8
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: v_mov_b32_e32 v5, 8
				; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s3, 0xff
				; GFX10-NEXT: v_mov_b32_e32 v6, 16
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xff			; GFX10-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v13, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v14, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v6			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v10
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 8, v3			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v12
	; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v5, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v8
	; GFX10-NEXT: s_lshr_b32 s0, s2, 2			; GFX10-NEXT: s_lshr_b32 s0, s2, 2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v5, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v15, v2, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v2, v2, v4, v14
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_and_or_b32 v2, v2, s1, v10			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v13, v7			; GFX10-NEXT: v_or3_b32 v0, v0, v11, v7
	; GFX10-NEXT: v_or3_b32 v1, v1, v14, v9			; GFX10-NEXT: v_or3_b32 v1, v1, v13, v8
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1
	; GFX10-NEXT: v_and_or_b32 v5, v3, v4, v5			; GFX10-NEXT: v_and_or_b32 v4, v3, v4, v5
	; GFX10-NEXT: v_and_b32_sdwa v3, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v2, v2, v15, v9
	; GFX10-NEXT: v_or3_b32 v2, v2, v15, v11			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v10
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 2			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 2
	; GFX10-NEXT: v_or3_b32 v1, v5, v3, v4			; GFX10-NEXT: v_or3_b32 v1, v4, v3, v5
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 3			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 3
	; GFX10-NEXT: s_and_b32 s0, s2, 3			; GFX10-NEXT: s_and_b32 s0, s2, 3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 3			; GFX10-NEXT: s_lshl_b32 s0, s0, 3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 %idx			%element = extractelement <16 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_vgpr_idx(<16 x i8> addrspace(1)* %ptr, i32 %idx) {			define i8 @extractelement_vgpr_v16i8_vgpr_idx(<16 x i8> addrspace(1)* %ptr, i32 %idx) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX9-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
				; GFX9-NEXT: s_mov_b32 s5, 16
	; GFX9-NEXT: v_mov_b32_e32 v1, 8			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 2, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 2, v2
				; GFX9-NEXT: v_mov_b32_e32 v7, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, 0xff			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v7			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX9-NEXT: v_and_b32_e32 v2, 3, v2			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, s4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v5
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX9-NEXT: v_lshlrev_b32_sdwa v16, s5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v16, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v17, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v17, v4, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v6
	; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v13
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
				; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v15
				; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX9-NEXT: v_lshlrev_b32_sdwa v18, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v5, v5, v0, v17
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_or_b32 v3, v3, s5, v8
	; GFX9-NEXT: v_and_or_b32 v4, v4, s5, v10
	; GFX9-NEXT: v_lshrrev_b32_e32 v15, 24, v6
	; GFX9-NEXT: v_and_b32_sdwa v18, v5, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v19, v6, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_or_b32 v0, v6, v0, v1			; GFX9-NEXT: v_and_or_b32 v0, v6, v0, v1
	; GFX9-NEXT: v_or3_b32 v1, v3, v16, v9			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v3, v4, v17, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v12
	; GFX9-NEXT: v_lshlrev_b32_e32 v13, 24, v13			; GFX9-NEXT: v_or3_b32 v3, v3, v14, v9
	; GFX9-NEXT: v_and_or_b32 v5, v5, s5, v12			; GFX9-NEXT: v_or3_b32 v4, v4, v16, v10
	; GFX9-NEXT: v_lshlrev_b32_e32 v14, 24, v15			; GFX9-NEXT: v_or3_b32 v0, v0, v7, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GFX9-NEXT: v_or3_b32 v4, v5, v18, v13			; GFX9-NEXT: v_or3_b32 v5, v5, v18, v11
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 2, v7			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 2, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_or3_b32 v0, v0, v19, v14			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 3, v8
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 3, v7
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX8-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_mov_b32_e32 v7, 8			; GFX8-NEXT: v_mov_b32_e32 v7, 8
	; GFX8-NEXT: v_mov_b32_e32 v8, s4			; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v7, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v18, v3, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v5
	; GFX8-NEXT: v_lshrrev_b32_e32 v16, 8, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v11
	; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v7, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_sdwa v8, v4, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v5, v5, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v4, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v18			; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v8			; GFX8-NEXT: v_or_b32_e32 v3, v3, v15
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 24, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v6
	; GFX8-NEXT: v_and_b32_sdwa v19, v5, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v4, v5, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v6, v6, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_e32 v1, v5, v17
	; GFX8-NEXT: v_lshrrev_b32_e32 v17, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v12
	; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v15			; GFX8-NEXT: v_or_b32_e32 v3, v3, v10
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v19			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_and_b32_sdwa v0, v6, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX8-NEXT: v_or_b32_sdwa v5, v6, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v13
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v10			; GFX8-NEXT: v_or_b32_e32 v5, v6, v8
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v12			; GFX8-NEXT: v_or_b32_e32 v1, v1, v11
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v15, 24, v17
	; GFX8-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v14
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v9			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 2, v9
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v15			; GFX8-NEXT: v_or_b32_e32 v4, v5, v7
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v9			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 3, v9
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_mov_b32_e32 v0, 0xff			; GFX7-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v18, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v18			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3			; GFX7-NEXT: v_bfe_u32 v11, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX7-NEXT: v_bfe_u32 v13, v4, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX7-NEXT: v_bfe_u32 v15, v5, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v10, s4, v3
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX7-NEXT: v_and_b32_e32 v12, s4, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v5
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v10			; GFX7-NEXT: v_and_b32_e32 v14, v5, v0
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v12			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v10, v10, v11
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 24, v5			; GFX7-NEXT: v_or_b32_e32 v11, v12, v13
	; GFX7-NEXT: v_and_b32_e32 v13, v13, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
	; GFX7-NEXT: v_and_b32_e32 v15, v15, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6
				; GFX7-NEXT: v_and_b32_e32 v0, v6, v0
				; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v3, v10, v3
				; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GFX7-NEXT: v_or_b32_e32 v12, v14, v15
				; GFX7-NEXT: v_or_b32_e32 v4, v11, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v3, v1			; GFX7-NEXT: v_or_b32_e32 v1, v3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX7-NEXT: v_or_b32_e32 v3, v4, v7
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v10
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v17, 24, v6
	; GFX7-NEXT: v_and_b32_e32 v6, v6, v0
	; GFX7-NEXT: v_and_b32_e32 v0, v16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7			; GFX7-NEXT: v_or_b32_e32 v5, v12, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v10			; GFX7-NEXT: v_or_b32_e32 v0, v0, v16
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 16, v13
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v12
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 24, v14
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v15
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v11
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 24, v17			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX7-NEXT: v_or_b32_e32 v0, v5, v0			; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v14			; GFX7-NEXT: v_or_b32_e32 v4, v5, v8
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 2, v18			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 2, v17
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v16			; GFX7-NEXT: v_or_b32_e32 v0, v0, v9
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 3, v18			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 3, v17
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_movk_i32 s5, 0xff			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 2, v2			; GFX10-NEXT: s_mov_b32 s5, 16
				; GFX10-NEXT: s_movk_i32 s6, 0xff
				; GFX10-NEXT: v_lshrrev_b32_e32 v8, 2, v2
				; GFX10-NEXT: v_mov_b32_e32 v7, 16
	; GFX10-NEXT: v_mov_b32_e32 v0, 0xff			; GFX10-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX10-NEXT: v_and_b32_e32 v2, 3, v2			; GFX10-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v7			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 8, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, s4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, s4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v5
	; GFX10-NEXT: v_and_b32_sdwa v16, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, s5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v17, v4, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v16, s5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v17, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_or_b32 v3, v3, s5, v8			; GFX10-NEXT: v_and_or_b32 v3, v3, s6, v13
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX10-NEXT: v_and_or_b32 v4, v4, s6, v15
	; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX10-NEXT: v_lshlrev_b32_sdwa v18, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v6
				; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_and_or_b32 v5, v5, v0, v17
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX10-NEXT: v_and_or_b32 v4, v4, s5, v10			; GFX10-NEXT: v_or3_b32 v3, v3, v14, v9
	; GFX10-NEXT: v_and_b32_sdwa v18, v5, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v4, v4, v16, v10
	; GFX10-NEXT: v_lshrrev_b32_e32 v15, 24, v6
	; GFX10-NEXT: v_or3_b32 v3, v3, v16, v9
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v13
	; GFX10-NEXT: v_or3_b32 v4, v4, v17, v11
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_and_or_b32 v5, v5, s5, v12
	; GFX10-NEXT: v_and_b32_sdwa v19, v6, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v15
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc_lo
	; GFX10-NEXT: v_and_or_b32 v0, v6, v0, v1			; GFX10-NEXT: v_and_or_b32 v0, v6, v0, v1
	; GFX10-NEXT: v_or3_b32 v1, v5, v18, v8			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v12
	; GFX10-NEXT: v_or3_b32 v0, v0, v19, v9			; GFX10-NEXT: v_or3_b32 v5, v5, v18, v11
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v7			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v8
				; GFX10-NEXT: v_or3_b32 v0, v0, v7, v1
				; GFX10-NEXT: v_cndmask_b32_e32 v1, v3, v5, vcc_lo
				; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v8
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 %idx			%element = extractelement <16 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define amdgpu_ps i8 @extractelement_sgpr_v16i8_vgpr_idx(<16 x i8> addrspace(4)* inreg %ptr, i32 %idx) {			define amdgpu_ps i8 @extractelement_sgpr_v16i8_vgpr_idx(<16 x i8> addrspace(4)* inreg %ptr, i32 %idx) {
	; GCN-LABEL: extractelement_sgpr_v16i8_vgpr_idx:			; GCN-LABEL: extractelement_sgpr_v16i8_vgpr_idx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GCN-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GCN-NEXT: s_movk_i32 s16, 0xff			; GCN-NEXT: s_mov_b32 s10, 0x80008
				; GCN-NEXT: s_movk_i32 s8, 0xff
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 2, v0			; GCN-NEXT: v_lshrrev_b32_e32 v1, 2, v0
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
	; GCN-NEXT: v_and_b32_e32 v0, 3, v0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s4, s0, 8			; GCN-NEXT: s_bfe_u32 s11, s0, s10
	; GCN-NEXT: s_and_b32 s4, s4, s16			; GCN-NEXT: s_and_b32 s9, s0, s8
	; GCN-NEXT: s_lshr_b32 s5, s0, 16			; GCN-NEXT: s_lshl_b32 s11, s11, 8
	; GCN-NEXT: s_lshr_b32 s6, s0, 24			; GCN-NEXT: s_or_b32 s9, s9, s11
	; GCN-NEXT: s_and_b32 s0, s0, s16			; GCN-NEXT: s_mov_b32 s11, 0x80010
	; GCN-NEXT: s_lshl_b32 s4, s4, 8			; GCN-NEXT: s_lshr_b32 s4, s0, 24
	; GCN-NEXT: s_or_b32 s0, s0, s4			; GCN-NEXT: s_bfe_u32 s0, s0, s11
	; GCN-NEXT: s_and_b32 s4, s5, s16			; GCN-NEXT: s_lshl_b32 s0, s0, 16
	; GCN-NEXT: s_lshl_b32 s4, s4, 16			; GCN-NEXT: s_or_b32 s0, s9, s0
	; GCN-NEXT: s_or_b32 s0, s0, s4			; GCN-NEXT: s_bfe_u32 s9, s1, s10
	; GCN-NEXT: s_lshl_b32 s4, s6, 24			; GCN-NEXT: s_lshl_b32 s4, s4, 24
	; GCN-NEXT: s_lshr_b32 s7, s1, 8
	; GCN-NEXT: s_or_b32 s0, s0, s4			; GCN-NEXT: s_or_b32 s0, s0, s4
	; GCN-NEXT: s_and_b32 s4, s7, s16			; GCN-NEXT: s_lshr_b32 s5, s1, 24
	; GCN-NEXT: s_lshr_b32 s8, s1, 16			; GCN-NEXT: s_and_b32 s4, s1, s8
	; GCN-NEXT: s_lshr_b32 s9, s1, 24			; GCN-NEXT: s_bfe_u32 s1, s1, s11
	; GCN-NEXT: s_and_b32 s1, s1, s16			; GCN-NEXT: s_lshl_b32 s9, s9, 8
	; GCN-NEXT: s_lshl_b32 s4, s4, 8			; GCN-NEXT: s_or_b32 s4, s4, s9
	; GCN-NEXT: s_or_b32 s1, s1, s4			; GCN-NEXT: s_lshl_b32 s1, s1, 16
	; GCN-NEXT: s_and_b32 s4, s8, s16			; GCN-NEXT: s_or_b32 s1, s4, s1
	; GCN-NEXT: s_lshl_b32 s4, s4, 16			; GCN-NEXT: s_lshl_b32 s4, s5, 24
	; GCN-NEXT: s_or_b32 s1, s1, s4			; GCN-NEXT: s_bfe_u32 s5, s2, s10
	; GCN-NEXT: s_lshl_b32 s4, s9, 24
	; GCN-NEXT: s_lshr_b32 s10, s2, 8
	; GCN-NEXT: s_or_b32 s1, s1, s4			; GCN-NEXT: s_or_b32 s1, s1, s4
	; GCN-NEXT: s_and_b32 s4, s10, s16			; GCN-NEXT: s_lshr_b32 s6, s2, 24
	; GCN-NEXT: s_lshr_b32 s11, s2, 16			; GCN-NEXT: s_and_b32 s4, s2, s8
	; GCN-NEXT: s_lshr_b32 s12, s2, 24			; GCN-NEXT: s_bfe_u32 s2, s2, s11
	; GCN-NEXT: s_and_b32 s2, s2, s16			; GCN-NEXT: s_lshl_b32 s5, s5, 8
	; GCN-NEXT: s_lshl_b32 s4, s4, 8			; GCN-NEXT: s_or_b32 s4, s4, s5
	; GCN-NEXT: s_or_b32 s2, s2, s4			; GCN-NEXT: s_lshl_b32 s2, s2, 16
	; GCN-NEXT: s_and_b32 s4, s11, s16			; GCN-NEXT: s_bfe_u32 s5, s3, s10
	; GCN-NEXT: s_lshl_b32 s4, s4, 16			; GCN-NEXT: s_or_b32 s2, s4, s2
	; GCN-NEXT: s_or_b32 s2, s2, s4			; GCN-NEXT: s_lshl_b32 s4, s6, 24
	; GCN-NEXT: s_lshl_b32 s4, s12, 24
	; GCN-NEXT: s_lshr_b32 s13, s3, 8
	; GCN-NEXT: s_or_b32 s2, s2, s4			; GCN-NEXT: s_or_b32 s2, s2, s4
	; GCN-NEXT: s_and_b32 s4, s13, s16			; GCN-NEXT: s_lshr_b32 s7, s3, 24
	; GCN-NEXT: s_lshr_b32 s14, s3, 16			; GCN-NEXT: s_and_b32 s4, s3, s8
	; GCN-NEXT: s_lshr_b32 s15, s3, 24			; GCN-NEXT: s_bfe_u32 s3, s3, s11
	; GCN-NEXT: s_and_b32 s3, s3, s16			; GCN-NEXT: s_lshl_b32 s5, s5, 8
	; GCN-NEXT: s_lshl_b32 s4, s4, 8			; GCN-NEXT: s_or_b32 s4, s4, s5
	; GCN-NEXT: s_or_b32 s3, s3, s4			; GCN-NEXT: s_lshl_b32 s3, s3, 16
	; GCN-NEXT: s_and_b32 s4, s14, s16			; GCN-NEXT: s_or_b32 s3, s4, s3
	; GCN-NEXT: s_lshl_b32 s4, s4, 16			; GCN-NEXT: s_lshl_b32 s4, s7, 24
	; GCN-NEXT: s_or_b32 s3, s3, s4
	; GCN-NEXT: s_lshl_b32 s4, s15, 24
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v3, s1			; GCN-NEXT: v_mov_b32_e32 v3, s1
	; GCN-NEXT: s_or_b32 s3, s3, s4			; GCN-NEXT: s_or_b32 s3, s3, s4
	; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GCN-NEXT: v_mov_b32_e32 v4, s2			; GCN-NEXT: v_mov_b32_e32 v4, s2
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 2, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 2, v1
				; GCN-NEXT: v_and_b32_e32 v0, 3, v0
	; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v5, s3			; GCN-NEXT: v_mov_b32_e32 v5, s3
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 3, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 3, v1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v5, vcc
	; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v0, v0, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, v0, v1
	; GCN-NEXT: v_readfirstlane_b32 s0, v0			; GCN-NEXT: v_readfirstlane_b32 s0, v0
	; GCN-NEXT: ; return to shader part epilog			; GCN-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_sgpr_v16i8_vgpr_idx:			; GFX10-LABEL: extractelement_sgpr_v16i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s5, 0x80008
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
				; GFX10-NEXT: s_mov_b32 s6, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 2, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v0			; GFX10-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s8, s1, 8			; GFX10-NEXT: s_bfe_u32 s12, s0, s5
	; GFX10-NEXT: s_lshr_b32 s5, s0, 8			; GFX10-NEXT: s_bfe_u32 s14, s1, s5
	; GFX10-NEXT: s_lshr_b32 s9, s1, 16			; GFX10-NEXT: s_lshr_b32 s8, s1, 24
	; GFX10-NEXT: s_and_b32 s8, s8, s4			; GFX10-NEXT: s_and_b32 s13, s1, s4
	; GFX10-NEXT: s_and_b32 s5, s5, s4			; GFX10-NEXT: s_bfe_u32 s1, s1, s6
	; GFX10-NEXT: s_and_b32 s9, s9, s4			; GFX10-NEXT: s_and_b32 s11, s0, s4
	; GFX10-NEXT: s_lshr_b32 s10, s1, 24			; GFX10-NEXT: s_lshl_b32 s12, s12, 8
	; GFX10-NEXT: s_and_b32 s1, s1, s4			; GFX10-NEXT: s_lshl_b32 s14, s14, 8
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_or_b32 s11, s11, s12
	; GFX10-NEXT: s_lshr_b32 s6, s0, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
				; GFX10-NEXT: s_or_b32 s12, s13, s14
				; GFX10-NEXT: s_lshl_b32 s8, s8, 24
				; GFX10-NEXT: s_or_b32 s1, s12, s1
	; GFX10-NEXT: s_lshr_b32 s7, s0, 24			; GFX10-NEXT: s_lshr_b32 s7, s0, 24
	; GFX10-NEXT: s_and_b32 s0, s0, s4			; GFX10-NEXT: s_bfe_u32 s0, s0, s6
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_lshl_b32 s9, s9, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s8			; GFX10-NEXT: s_or_b32 s1, s1, s8
	; GFX10-NEXT: s_and_b32 s6, s6, s4			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s5			; GFX10-NEXT: s_bfe_u32 s16, s2, s5
	; GFX10-NEXT: s_or_b32 s1, s1, s9
	; GFX10-NEXT: s_lshl_b32 s5, s10, 24
	; GFX10-NEXT: s_lshl_b32 s6, s6, 16
	; GFX10-NEXT: s_lshr_b32 s11, s2, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s5
	; GFX10-NEXT: s_or_b32 s0, s0, s6
	; GFX10-NEXT: s_and_b32 s6, s11, s4
	; GFX10-NEXT: s_lshl_b32 s7, s7, 24
	; GFX10-NEXT: s_lshr_b32 s12, s2, 16
	; GFX10-NEXT: v_mov_b32_e32 v2, s1			; GFX10-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-NEXT: s_lshr_b32 s13, s2, 24			; GFX10-NEXT: s_lshl_b32 s7, s7, 24
				; GFX10-NEXT: s_or_b32 s0, s11, s0
				; GFX10-NEXT: s_and_b32 s15, s2, s4
				; GFX10-NEXT: s_lshr_b32 s9, s2, 24
				; GFX10-NEXT: s_bfe_u32 s2, s2, s6
				; GFX10-NEXT: s_lshl_b32 s16, s16, 8
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s0, s0, s7
	; GFX10-NEXT: s_and_b32 s2, s2, s4			; GFX10-NEXT: s_or_b32 s7, s15, s16
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_and_b32 s7, s12, s4			; GFX10-NEXT: s_bfe_u32 s5, s3, s5
	; GFX10-NEXT: s_or_b32 s2, s2, s6
	; GFX10-NEXT: s_lshl_b32 s6, s7, 16
	; GFX10-NEXT: s_lshr_b32 s14, s3, 8
	; GFX10-NEXT: s_lshr_b32 s15, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s2, s6
	; GFX10-NEXT: s_and_b32 s6, s14, s4
	; GFX10-NEXT: v_cndmask_b32_e32 v2, s0, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, s0, v2, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v1
	; GFX10-NEXT: s_lshl_b32 s5, s13, 24			; GFX10-NEXT: s_or_b32 s2, s7, s2
	; GFX10-NEXT: s_and_b32 s1, s15, s4			; GFX10-NEXT: s_lshl_b32 s7, s9, 24
	; GFX10-NEXT: s_lshr_b32 s16, s3, 24			; GFX10-NEXT: s_bfe_u32 s1, s3, s6
	; GFX10-NEXT: s_and_b32 s3, s3, s4			; GFX10-NEXT: s_and_b32 s4, s3, s4
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_or_b32 s2, s2, s5			; GFX10-NEXT: s_or_b32 s2, s2, s7
	; GFX10-NEXT: s_or_b32 s3, s3, s6			; GFX10-NEXT: s_lshr_b32 s10, s3, 24
				; GFX10-NEXT: s_or_b32 s3, s4, s5
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s2, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v1
	; GFX10-NEXT: s_or_b32 s0, s3, s1			; GFX10-NEXT: s_or_b32 s0, s3, s1
	; GFX10-NEXT: s_lshl_b32 s1, s16, 24			; GFX10-NEXT: s_lshl_b32 s1, s10, 24
	; GFX10-NEXT: s_or_b32 s3, s0, s1			; GFX10-NEXT: s_or_b32 s3, s0, s1
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v1, v2, s3, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, v0, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v0, v0, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%vector = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%element = extractelement <16 x i8> %vector, i32 %idx			%element = extractelement <16 x i8> %vector, i32 %idx
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx0(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx0(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx0:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx0:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx0:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx0:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx0:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx0:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 0			%element = extractelement <16 x i8> %vector, i32 0
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx1(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx1(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx1:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx1:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx1:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx1:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx1:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx1:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 1			%element = extractelement <16 x i8> %vector, i32 1
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx2(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx2(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx2:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx2:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx2:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx2:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx2:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 2			%element = extractelement <16 x i8> %vector, i32 2
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx3(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx3(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx3:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, s5, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx3:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx3:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx3:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx3:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx3:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx3:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 3			%element = extractelement <16 x i8> %vector, i32 3
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx4(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx4(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx4:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx4:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx4:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx4:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx4:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx4:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 4			%element = extractelement <16 x i8> %vector, i32 4
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx5(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx5(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx5:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx5:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx5:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx5:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx5:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx5:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx5:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx5:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v1, 0xff, v1, v2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_or3_b32 v0, v1, v0, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 5			%element = extractelement <16 x i8> %vector, i32 5
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx6(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx6(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx6:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx6:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx6:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx6:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx6:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx6:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx6:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx6:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 6			%element = extractelement <16 x i8> %vector, i32 6
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx7(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx7(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx7:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx7:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v1, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v1, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx7:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx7:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v2, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx7:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx7:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx7:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx7:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v1			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v1, s4, v0			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v1, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 7			%element = extractelement <16 x i8> %vector, i32 7
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx8(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx8(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx8:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v2, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v2, v0, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx8:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx8:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx8:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx8:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v2, v0
	; GFX10-NEXT: v_and_or_b32 v0, v2, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 8			%element = extractelement <16 x i8> %vector, i32 8
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx9(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx9(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx9:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx9:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v1, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v3, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX9-NEXT: v_and_or_b32 v0, v2, s5, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v2, v0, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx9:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx9:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx9:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx9:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx9:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx9:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX10-NEXT: v_mov_b32_e32 v0, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_and_or_b32 v1, 0xff, v2, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v2, s4, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v0, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 9			%element = extractelement <16 x i8> %vector, i32 9
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx10(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx10(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx10:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx10:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v2, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v2, v0, v1
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx10:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx10:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx10:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx10:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx10:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx10:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX10-NEXT: v_mov_b32_e32 v0, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v2, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v2, s4, v0
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 10			%element = extractelement <16 x i8> %vector, i32 10
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx11(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx11(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx11:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx11:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v3, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v2, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v2, v0, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx11:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx11:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx11:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx11:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx11:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx11:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v2			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v3, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v2, v0
	; GFX10-NEXT: v_and_or_b32 v0, v2, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 11			%element = extractelement <16 x i8> %vector, i32 11
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx12(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx12(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx12:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx12:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v2, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v3, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v3, v0, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx12:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx12:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx12:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx12:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX7-NEXT: v_bfe_u32 v2, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx12:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx12:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v3, v0
	; GFX10-NEXT: v_and_or_b32 v0, v3, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 12			%element = extractelement <16 x i8> %vector, i32 12
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx13(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx13(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx13:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx13:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX9-NEXT: v_mov_b32_e32 v1, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX9-NEXT: v_and_b32_sdwa v2, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v3, s5, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v3, v0, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx13:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx13:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx13:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx13:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX7-NEXT: v_bfe_u32 v2, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx13:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx13:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8			; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX10-NEXT: v_mov_b32_e32 v0, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_and_or_b32 v1, 0xff, v3, v1
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_and_or_b32 v0, v3, s4, v0			; GFX10-NEXT: v_or3_b32 v0, v1, v0, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 13			%element = extractelement <16 x i8> %vector, i32 13
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx14(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx14(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx14:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx14:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX9-NEXT: s_mov_b32 s4, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v2, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v3, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v3, v0, v1
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2
				; GFX9-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx14:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx14:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx14:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx14:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX7-NEXT: v_bfe_u32 v2, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx14:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx14:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX10-NEXT: v_mov_b32_e32 v0, 8
				; GFX10-NEXT: s_mov_b32 s4, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v3, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v0, v3, s4, v0
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 14			%element = extractelement <16 x i8> %vector, i32 14
	ret i8 %element			ret i8 %element
	}			}

	define i8 @extractelement_vgpr_v16i8_idx15(<16 x i8> addrspace(1)* %ptr) {			define i8 @extractelement_vgpr_v16i8_idx15(<16 x i8> addrspace(1)* %ptr) {
	; GFX9-LABEL: extractelement_vgpr_v16i8_idx15:			; GFX9-LABEL: extractelement_vgpr_v16i8_idx15:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX9-NEXT: v_and_b32_sdwa v2, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v0, v3, s5, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX9-NEXT: v_and_or_b32 v0, v3, v0, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: extractelement_vgpr_v16i8_idx15:			; GFX8-LABEL: extractelement_vgpr_v16i8_idx15:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_idx15:			; GFX7-LABEL: extractelement_vgpr_v16i8_idx15:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX7-NEXT: v_bfe_u32 v2, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_idx15:			; GFX10-LABEL: extractelement_vgpr_v16i8_idx15:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v3, v0
	; GFX10-NEXT: v_and_or_b32 v0, v3, s4, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vector = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%element = extractelement <16 x i8> %vector, i32 15			%element = extractelement <16 x i8> %vector, i32 15
	ret i8 %element			ret i8 %element
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 545 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_and_b32 s5, s2, 7			; GFX6-NEXT: s_and_b32 s5, s2, 7
	; GFX6-NEXT: s_movk_i32 s6, 0xff			; GFX6-NEXT: s_movk_i32 s6, 0xff
	; GFX6-NEXT: s_lshr_b32 s3, s0, 8			; GFX6-NEXT: s_lshr_b32 s3, s0, 8
	; GFX6-NEXT: s_lshl_b32 s0, s0, s5			; GFX6-NEXT: s_lshl_b32 s0, s0, s5
	; GFX6-NEXT: s_and_b32 s5, s1, s6			; GFX6-NEXT: s_and_b32 s5, s1, s6
	; GFX6-NEXT: s_lshr_b32 s4, s2, 8			; GFX6-NEXT: s_lshr_b32 s4, s2, 8
	; GFX6-NEXT: s_andn2_b32 s2, 7, s2			; GFX6-NEXT: s_andn2_b32 s2, 7, s2
	; GFX6-NEXT: s_lshr_b32 s5, s5, 1			; GFX6-NEXT: s_lshr_b32 s5, s5, 1
	; GFX6-NEXT: s_lshr_b32 s1, s1, 9			; GFX6-NEXT: s_bfe_u32 s1, s1, 0x80008
				arsenmUnsubmitted Done Reply Inline Actions This is worse for codesize arsenm: This is worse for codesize
	; GFX6-NEXT: s_lshr_b32 s2, s5, s2			; GFX6-NEXT: s_lshr_b32 s2, s5, s2
	; GFX6-NEXT: s_or_b32 s0, s0, s2			; GFX6-NEXT: s_or_b32 s0, s0, s2
	; GFX6-NEXT: s_and_b32 s2, s4, 7			; GFX6-NEXT: s_and_b32 s2, s4, 7
	; GFX6-NEXT: s_andn2_b32 s4, 7, s4			; GFX6-NEXT: s_andn2_b32 s4, 7, s4
	; GFX6-NEXT: s_and_b32 s1, s1, 0x7f			; GFX6-NEXT: s_lshr_b32 s1, s1, 1
	; GFX6-NEXT: s_lshl_b32 s2, s3, s2			; GFX6-NEXT: s_lshl_b32 s2, s3, s2
	; GFX6-NEXT: s_lshr_b32 s1, s1, s4			; GFX6-NEXT: s_lshr_b32 s1, s1, s4
	; GFX6-NEXT: s_or_b32 s1, s2, s1			; GFX6-NEXT: s_or_b32 s1, s2, s1
	; GFX6-NEXT: s_and_b32 s1, s1, s6			; GFX6-NEXT: s_and_b32 s1, s1, s6
	; GFX6-NEXT: s_and_b32 s0, s0, s6			; GFX6-NEXT: s_and_b32 s0, s0, s6
	; GFX6-NEXT: s_lshl_b32 s1, s1, 8			; GFX6-NEXT: s_lshl_b32 s1, s1, 8
	; GFX6-NEXT: s_or_b32 s0, s0, s1			; GFX6-NEXT: s_or_b32 s0, s0, s1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v2
	; GFX6-NEXT: v_and_b32_e32 v5, 7, v2			; GFX6-NEXT: v_and_b32_e32 v5, 7, v2
	; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX6-NEXT: v_and_b32_e32 v2, 7, v2			; GFX6-NEXT: v_and_b32_e32 v2, 7, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v6, 1, v6			; GFX6-NEXT: v_lshrrev_b32_e32 v6, 1, v6
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, v5, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, v5, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v6			; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v6
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 9, v1			; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8
				arsenmUnsubmitted Done Reply Inline Actions This is worse for codesize. Is this just missing another simplify bits combine somewhere? arsenm: This is worse for codesize. Is this just missing another simplify bits combine somewhere?
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_and_b32_e32 v2, 7, v4			; GFX6-NEXT: v_and_b32_e32 v2, 7, v4
	; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4			; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
	; GFX6-NEXT: v_and_b32_e32 v4, 7, v4			; GFX6-NEXT: v_and_b32_e32 v4, 7, v4
	; GFX6-NEXT: v_and_b32_e32 v1, 0x7f, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1
	; GFX6-NEXT: v_mov_b32_e32 v5, 0xff			; GFX6-NEXT: v_mov_b32_e32 v5, 0xff
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1			; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_and_b32_e32 v1, v1, v5			; GFX6-NEXT: v_and_b32_e32 v1, v1, v5
	; GFX6-NEXT: v_and_b32_e32 v0, v0, v5			; GFX6-NEXT: v_and_b32_e32 v0, v0, v5
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshr_b32 s7, s2, 16			; GFX6-NEXT: s_lshr_b32 s7, s2, 16
	; GFX6-NEXT: s_lshr_b32 s8, s2, 24			; GFX6-NEXT: s_lshr_b32 s8, s2, 24
	; GFX6-NEXT: s_andn2_b32 s2, 7, s2			; GFX6-NEXT: s_andn2_b32 s2, 7, s2
	; GFX6-NEXT: s_lshr_b32 s9, s9, 1			; GFX6-NEXT: s_lshr_b32 s9, s9, 1
	; GFX6-NEXT: s_lshr_b32 s2, s9, s2			; GFX6-NEXT: s_lshr_b32 s2, s9, s2
	; GFX6-NEXT: s_or_b32 s0, s0, s2			; GFX6-NEXT: s_or_b32 s0, s0, s2
	; GFX6-NEXT: s_and_b32 s2, s6, 7			; GFX6-NEXT: s_and_b32 s2, s6, 7
	; GFX6-NEXT: s_lshl_b32 s2, s3, s2			; GFX6-NEXT: s_lshl_b32 s2, s3, s2
	; GFX6-NEXT: s_lshr_b32 s3, s1, 9			; GFX6-NEXT: s_bfe_u32 s3, s1, 0x80008
	; GFX6-NEXT: s_movk_i32 s9, 0x7f
	; GFX6-NEXT: s_andn2_b32 s6, 7, s6			; GFX6-NEXT: s_andn2_b32 s6, 7, s6
	; GFX6-NEXT: s_and_b32 s3, s3, s9			; GFX6-NEXT: s_lshr_b32 s3, s3, 1
	; GFX6-NEXT: s_lshr_b32 s3, s3, s6			; GFX6-NEXT: s_lshr_b32 s3, s3, s6
	; GFX6-NEXT: s_or_b32 s2, s2, s3			; GFX6-NEXT: s_or_b32 s2, s2, s3
	; GFX6-NEXT: s_and_b32 s3, s7, 7			; GFX6-NEXT: s_and_b32 s3, s7, 7
	; GFX6-NEXT: s_lshl_b32 s3, s4, s3			; GFX6-NEXT: s_lshl_b32 s3, s4, s3
	; GFX6-NEXT: s_lshr_b32 s4, s1, 17			; GFX6-NEXT: s_bfe_u32 s4, s1, 0x80010
	; GFX6-NEXT: s_andn2_b32 s6, 7, s7			; GFX6-NEXT: s_andn2_b32 s6, 7, s7
	; GFX6-NEXT: s_and_b32 s4, s4, s9			; GFX6-NEXT: s_lshr_b32 s4, s4, 1
	; GFX6-NEXT: s_lshr_b32 s4, s4, s6			; GFX6-NEXT: s_lshr_b32 s4, s4, s6
	; GFX6-NEXT: s_and_b32 s2, s2, s10			; GFX6-NEXT: s_and_b32 s2, s2, s10
	; GFX6-NEXT: s_or_b32 s3, s3, s4			; GFX6-NEXT: s_or_b32 s3, s3, s4
	; GFX6-NEXT: s_and_b32 s4, s8, 7			; GFX6-NEXT: s_and_b32 s4, s8, 7
	; GFX6-NEXT: s_andn2_b32 s6, 7, s8			; GFX6-NEXT: s_andn2_b32 s6, 7, s8
	; GFX6-NEXT: s_lshr_b32 s1, s1, 25			; GFX6-NEXT: s_lshr_b32 s1, s1, 25
	; GFX6-NEXT: s_lshl_b32 s4, s5, s4			; GFX6-NEXT: s_lshl_b32 s4, s5, s4
	; GFX6-NEXT: s_lshr_b32 s1, s1, s6			; GFX6-NEXT: s_lshr_b32 s1, s1, s6
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, v9, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, v9, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v10			; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v10
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_and_b32_e32 v2, 7, v6			; GFX6-NEXT: v_and_b32_e32 v2, 7, v6
	; GFX6-NEXT: v_xor_b32_e32 v6, -1, v6			; GFX6-NEXT: v_xor_b32_e32 v6, -1, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 9, v1			; GFX6-NEXT: v_bfe_u32 v3, v1, 8, 8
	; GFX6-NEXT: s_movk_i32 s4, 0x7f
	; GFX6-NEXT: v_and_b32_e32 v6, 7, v6			; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 1, v3
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, v6, v3			; GFX6-NEXT: v_lshrrev_b32_e32 v3, v6, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_and_b32_e32 v3, 7, v7			; GFX6-NEXT: v_and_b32_e32 v3, 7, v7
	; GFX6-NEXT: v_xor_b32_e32 v6, -1, v7			; GFX6-NEXT: v_xor_b32_e32 v6, -1, v7
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, v3, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v3, v3, v4
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 17, v1			; GFX6-NEXT: v_bfe_u32 v4, v1, 16, 8
	; GFX6-NEXT: v_and_b32_e32 v6, 7, v6			; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
	; GFX6-NEXT: v_and_b32_e32 v4, s4, v4			; GFX6-NEXT: v_lshrrev_b32_e32 v4, 1, v4
	; GFX6-NEXT: v_mov_b32_e32 v9, 0xff			; GFX6-NEXT: v_mov_b32_e32 v9, 0xff
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, v6, v4			; GFX6-NEXT: v_lshrrev_b32_e32 v4, v6, v4
	; GFX6-NEXT: v_xor_b32_e32 v6, -1, v8			; GFX6-NEXT: v_xor_b32_e32 v6, -1, v8
	; GFX6-NEXT: v_and_b32_e32 v2, v2, v9			; GFX6-NEXT: v_and_b32_e32 v2, v2, v9
	; GFX6-NEXT: v_or_b32_e32 v3, v3, v4			; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX6-NEXT: v_and_b32_e32 v4, 7, v8			; GFX6-NEXT: v_and_b32_e32 v4, 7, v8
	; GFX6-NEXT: v_and_b32_e32 v6, 7, v6			; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 25, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 25, v1
	▲ Show 20 Lines • Show All 433 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call i24 @llvm.fshl.i24(i24 %lhs, i24 %rhs, i24 %amt)			%result = call i24 @llvm.fshl.i24(i24 %lhs, i24 %rhs, i24 %amt)
	ret i24 %result			ret i24 %result
	}			}

	define amdgpu_ps i48 @s_fshl_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {			define amdgpu_ps i48 @s_fshl_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {
	; GFX6-LABEL: s_fshl_v2i24:			; GFX6-LABEL: s_fshl_v2i24:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_lshr_b32 s6, s0, 8			; GFX6-NEXT: s_movk_i32 s9, 0xff
	; GFX6-NEXT: s_movk_i32 s10, 0xff			; GFX6-NEXT: s_mov_b32 s11, 0x80008
	; GFX6-NEXT: s_and_b32 s6, s6, s10			; GFX6-NEXT: s_lshr_b32 s6, s0, 16
	; GFX6-NEXT: s_lshr_b32 s7, s0, 16			; GFX6-NEXT: s_lshr_b32 s7, s0, 24
	; GFX6-NEXT: s_lshr_b32 s8, s0, 24			; GFX6-NEXT: s_and_b32 s10, s0, s9
	; GFX6-NEXT: s_and_b32 s0, s0, s10			; GFX6-NEXT: s_bfe_u32 s0, s0, s11
	; GFX6-NEXT: s_lshl_b32 s6, s6, 8			; GFX6-NEXT: s_lshl_b32 s0, s0, 8
	; GFX6-NEXT: s_or_b32 s0, s0, s6			; GFX6-NEXT: s_and_b32 s6, s6, s9
	; GFX6-NEXT: s_and_b32 s6, s7, s10			; GFX6-NEXT: s_or_b32 s0, s10, s0
	; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX6-NEXT: s_lshr_b32 s9, s1, 8			; GFX6-NEXT: s_lshr_b32 s8, s1, 8
	; GFX6-NEXT: s_and_b32 s1, s1, s10			; GFX6-NEXT: s_and_b32 s1, s1, s9
	; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000			; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_lshl_b32 s1, s1, 8			; GFX6-NEXT: s_lshl_b32 s1, s1, 8
	; GFX6-NEXT: s_or_b32 s0, s0, s6			; GFX6-NEXT: s_or_b32 s0, s0, s6
	; GFX6-NEXT: s_and_b32 s6, s9, s10			; GFX6-NEXT: s_and_b32 s6, s8, s9
	; GFX6-NEXT: s_or_b32 s1, s8, s1			; GFX6-NEXT: s_or_b32 s1, s7, s1
	; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000			; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_or_b32 s1, s1, s6			; GFX6-NEXT: s_or_b32 s1, s1, s6
	; GFX6-NEXT: s_lshr_b32 s6, s2, 8			; GFX6-NEXT: s_lshr_b32 s6, s2, 16
	; GFX6-NEXT: s_and_b32 s6, s6, s10			; GFX6-NEXT: s_lshr_b32 s7, s2, 24
	; GFX6-NEXT: s_lshr_b32 s7, s2, 16			; GFX6-NEXT: s_and_b32 s10, s2, s9
	; GFX6-NEXT: s_lshr_b32 s8, s2, 24			; GFX6-NEXT: s_bfe_u32 s2, s2, s11
	; GFX6-NEXT: s_and_b32 s2, s2, s10			; GFX6-NEXT: s_lshl_b32 s2, s2, 8
	; GFX6-NEXT: s_lshl_b32 s6, s6, 8			; GFX6-NEXT: s_and_b32 s6, s6, s9
	; GFX6-NEXT: s_or_b32 s2, s2, s6			; GFX6-NEXT: s_or_b32 s2, s10, s2
	; GFX6-NEXT: s_and_b32 s6, s7, s10
	; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX6-NEXT: s_lshr_b32 s9, s3, 8			; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
	; GFX6-NEXT: s_and_b32 s3, s3, s10			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX6-NEXT: s_lshr_b32 s8, s3, 8
				; GFX6-NEXT: s_and_b32 s3, s3, s9
	; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000			; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_lshl_b32 s3, s3, 8			; GFX6-NEXT: s_lshl_b32 s3, s3, 8
	; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
	; GFX6-NEXT: s_or_b32 s2, s2, s6			; GFX6-NEXT: s_or_b32 s2, s2, s6
	; GFX6-NEXT: s_and_b32 s6, s9, s10			; GFX6-NEXT: s_and_b32 s6, s8, s9
	; GFX6-NEXT: s_or_b32 s3, s8, s3			; GFX6-NEXT: s_or_b32 s3, s7, s3
	; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000			; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_or_b32 s3, s3, s6
	; GFX6-NEXT: s_lshr_b32 s6, s4, 8
	; GFX6-NEXT: s_and_b32 s6, s6, s10
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: s_lshr_b32 s7, s4, 16			; GFX6-NEXT: s_or_b32 s3, s3, s6
	; GFX6-NEXT: s_lshr_b32 s8, s4, 24			; GFX6-NEXT: s_lshr_b32 s6, s4, 16
	; GFX6-NEXT: s_and_b32 s4, s4, s10			; GFX6-NEXT: s_lshr_b32 s7, s4, 24
	; GFX6-NEXT: s_lshl_b32 s6, s6, 8			; GFX6-NEXT: s_and_b32 s10, s4, s9
	; GFX6-NEXT: s_or_b32 s4, s4, s6			; GFX6-NEXT: s_bfe_u32 s4, s4, s11
	; GFX6-NEXT: s_and_b32 s6, s7, s10			; GFX6-NEXT: s_lshl_b32 s4, s4, 8
				; GFX6-NEXT: s_and_b32 s6, s6, s9
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX6-NEXT: s_or_b32 s4, s10, s4
	; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000			; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
	; GFX6-NEXT: s_lshl_b32 s6, s6, 16			; GFX6-NEXT: s_lshl_b32 s6, s6, 16
	; GFX6-NEXT: s_or_b32 s4, s4, s6			; GFX6-NEXT: s_or_b32 s4, s4, s6
	; GFX6-NEXT: s_sub_i32 s6, 0, 24			; GFX6-NEXT: s_sub_i32 s6, 0, 24
	; GFX6-NEXT: v_mul_lo_u32 v1, s6, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s6, v0
	; GFX6-NEXT: s_lshr_b32 s9, s5, 8			; GFX6-NEXT: s_lshr_b32 s8, s5, 8
	; GFX6-NEXT: s_and_b32 s5, s5, s10			; GFX6-NEXT: s_and_b32 s5, s5, s9
	; GFX6-NEXT: s_lshl_b32 s5, s5, 8			; GFX6-NEXT: s_lshl_b32 s5, s5, 8
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: s_and_b32 s7, s9, s10			; GFX6-NEXT: s_or_b32 s5, s7, s5
	; GFX6-NEXT: s_or_b32 s5, s8, s5			; GFX6-NEXT: s_and_b32 s7, s8, s9
	; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v1, 24			; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000			; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000
	; GFX6-NEXT: s_lshl_b32 s7, s7, 16			; GFX6-NEXT: s_lshl_b32 s7, s7, 16
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	Show All 27 Lines
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff			; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1
	; GFX6-NEXT: v_and_b32_e32 v1, v1, v4			; GFX6-NEXT: v_and_b32_e32 v1, v1, v4
	; GFX6-NEXT: s_lshr_b32 s0, s3, 1			; GFX6-NEXT: s_lshr_b32 s0, s3, 1
	; GFX6-NEXT: v_and_b32_e32 v2, v2, v4			; GFX6-NEXT: v_and_b32_e32 v2, v2, v4
				; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1			; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1
	; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2			; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX6-NEXT: v_and_b32_e32 v2, s9, v0
	; GFX6-NEXT: v_and_b32_e32 v2, s10, v2			; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX6-NEXT: v_and_b32_e32 v0, s10, v0			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: v_and_b32_e32 v2, s10, v3			; GFX6-NEXT: v_and_b32_e32 v2, s9, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s10, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s10, v5			; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s10, v4			; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-NEXT: v_readfirstlane_b32 s1, v1			; GFX6-NEXT: v_readfirstlane_b32 s1, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_fshl_v2i24:			; GFX8-LABEL: s_fshl_v2i24:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s6, s0, 8			; GFX8-NEXT: s_lshr_b32 s6, s0, 8
	; GFX8-NEXT: s_movk_i32 s10, 0xff			; GFX8-NEXT: s_movk_i32 s10, 0xff
	▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff
	; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1			; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1
	; GFX8-NEXT: v_and_b32_e32 v1, v1, v4			; GFX8-NEXT: v_and_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_and_b32_e32 v2, v2, v4			; GFX8-NEXT: v_and_b32_e32 v2, v2, v4
	; GFX8-NEXT: s_lshr_b32 s0, s3, 1			; GFX8-NEXT: s_lshr_b32 s0, s3, 1
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s1
	; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v4, 16
	; GFX8-NEXT: v_mov_b32_e32 v4, s10			; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0			; GFX8-NEXT: v_and_b32_e32 v3, s10, v1
	; GFX8-NEXT: v_and_b32_e32 v2, s10, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: v_readfirstlane_b32 s1, v1			; GFX8-NEXT: v_readfirstlane_b32 s1, v1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_fshl_v2i24:			; GFX9-LABEL: s_fshl_v2i24:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_lshr_b32 s7, s0, 8			; GFX9-NEXT: s_lshr_b32 s7, s0, 8
	; GFX9-NEXT: s_movk_i32 s11, 0xff			; GFX9-NEXT: s_movk_i32 s12, 0xff
	; GFX9-NEXT: s_and_b32 s7, s7, s11			; GFX9-NEXT: s_and_b32 s7, s7, s12
	; GFX9-NEXT: s_bfe_u32 s12, 8, 0x100000			; GFX9-NEXT: s_bfe_u32 s13, 8, 0x100000
	; GFX9-NEXT: s_lshr_b32 s8, s0, 16			; GFX9-NEXT: s_lshr_b32 s9, s0, 16
	; GFX9-NEXT: s_lshr_b32 s9, s0, 24			; GFX9-NEXT: s_lshr_b32 s10, s0, 24
	; GFX9-NEXT: s_and_b32 s0, s0, s11			; GFX9-NEXT: s_and_b32 s0, s0, s12
	; GFX9-NEXT: s_lshl_b32 s7, s7, s12			; GFX9-NEXT: s_lshl_b32 s7, s7, s13
	; GFX9-NEXT: s_or_b32 s0, s0, s7			; GFX9-NEXT: s_or_b32 s0, s0, s7
	; GFX9-NEXT: s_and_b32 s7, s8, s11			; GFX9-NEXT: s_and_b32 s7, s9, s12
	; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX9-NEXT: s_lshr_b32 s10, s1, 8			; GFX9-NEXT: s_lshr_b32 s11, s1, 8
	; GFX9-NEXT: s_and_b32 s1, s1, s11			; GFX9-NEXT: s_and_b32 s1, s1, s12
	; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000			; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000
	; GFX9-NEXT: s_lshl_b32 s7, s7, 16			; GFX9-NEXT: s_lshl_b32 s7, s7, 16
	; GFX9-NEXT: s_lshl_b32 s1, s1, s12			; GFX9-NEXT: s_lshl_b32 s1, s1, s13
	; GFX9-NEXT: s_or_b32 s0, s0, s7			; GFX9-NEXT: s_or_b32 s0, s0, s7
	; GFX9-NEXT: s_and_b32 s7, s10, s11			; GFX9-NEXT: s_and_b32 s7, s11, s12
	; GFX9-NEXT: s_or_b32 s1, s9, s1			; GFX9-NEXT: s_or_b32 s1, s10, s1
	; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000			; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000
	; GFX9-NEXT: s_lshl_b32 s7, s7, 16			; GFX9-NEXT: s_lshl_b32 s7, s7, 16
	; GFX9-NEXT: s_or_b32 s1, s1, s7			; GFX9-NEXT: s_or_b32 s1, s1, s7
	; GFX9-NEXT: s_lshr_b32 s7, s2, 8			; GFX9-NEXT: s_lshr_b32 s7, s2, 8
	; GFX9-NEXT: s_and_b32 s7, s7, s11			; GFX9-NEXT: s_and_b32 s7, s7, s12
	; GFX9-NEXT: s_lshr_b32 s8, s2, 16			; GFX9-NEXT: s_lshr_b32 s9, s2, 16
	; GFX9-NEXT: s_lshr_b32 s9, s2, 24			; GFX9-NEXT: s_lshr_b32 s10, s2, 24
	; GFX9-NEXT: s_and_b32 s2, s2, s11			; GFX9-NEXT: s_and_b32 s2, s2, s12
	; GFX9-NEXT: s_lshl_b32 s7, s7, s12			; GFX9-NEXT: s_lshl_b32 s7, s7, s13
	; GFX9-NEXT: s_or_b32 s2, s2, s7			; GFX9-NEXT: s_or_b32 s2, s2, s7
	; GFX9-NEXT: s_and_b32 s7, s8, s11			; GFX9-NEXT: s_and_b32 s7, s9, s12
	; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX9-NEXT: s_lshr_b32 s10, s3, 8			; GFX9-NEXT: s_lshr_b32 s11, s3, 8
	; GFX9-NEXT: s_and_b32 s3, s3, s11			; GFX9-NEXT: s_and_b32 s3, s3, s12
	; GFX9-NEXT: s_bfe_u32 s2, s2, 0x100000			; GFX9-NEXT: s_bfe_u32 s2, s2, 0x100000
	; GFX9-NEXT: s_lshl_b32 s7, s7, 16			; GFX9-NEXT: s_lshl_b32 s7, s7, 16
	; GFX9-NEXT: s_or_b32 s2, s2, s7			; GFX9-NEXT: s_or_b32 s2, s2, s7
	; GFX9-NEXT: s_and_b32 s7, s10, s11			; GFX9-NEXT: s_and_b32 s7, s11, s12
	; GFX9-NEXT: s_lshl_b32 s3, s3, s12			; GFX9-NEXT: s_lshl_b32 s3, s3, s13
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
	; GFX9-NEXT: s_or_b32 s3, s9, s3			; GFX9-NEXT: s_or_b32 s3, s10, s3
	; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_bfe_u32 s3, s3, 0x100000			; GFX9-NEXT: s_bfe_u32 s3, s3, 0x100000
	; GFX9-NEXT: s_lshl_b32 s7, s7, 16			; GFX9-NEXT: s_lshl_b32 s7, s7, 16
	; GFX9-NEXT: s_or_b32 s3, s3, s7			; GFX9-NEXT: s_or_b32 s3, s3, s7
	; GFX9-NEXT: s_lshr_b32 s7, s4, 8			; GFX9-NEXT: s_lshr_b32 s7, s4, 8
	; GFX9-NEXT: s_and_b32 s7, s7, s11			; GFX9-NEXT: s_and_b32 s7, s7, s12
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: s_lshr_b32 s8, s4, 16			; GFX9-NEXT: s_lshr_b32 s9, s4, 16
	; GFX9-NEXT: s_lshr_b32 s9, s4, 24			; GFX9-NEXT: s_lshr_b32 s10, s4, 24
	; GFX9-NEXT: s_and_b32 s4, s4, s11			; GFX9-NEXT: s_and_b32 s4, s4, s12
	; GFX9-NEXT: s_lshl_b32 s7, s7, s12			; GFX9-NEXT: s_lshl_b32 s7, s7, s13
	; GFX9-NEXT: s_or_b32 s4, s4, s7			; GFX9-NEXT: s_or_b32 s4, s4, s7
	; GFX9-NEXT: s_and_b32 s7, s8, s11			; GFX9-NEXT: s_and_b32 s7, s9, s12
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX9-NEXT: s_bfe_u32 s4, s4, 0x100000			; GFX9-NEXT: s_bfe_u32 s4, s4, 0x100000
	; GFX9-NEXT: s_lshl_b32 s7, s7, 16			; GFX9-NEXT: s_lshl_b32 s7, s7, 16
	; GFX9-NEXT: s_or_b32 s4, s4, s7			; GFX9-NEXT: s_or_b32 s4, s4, s7
	; GFX9-NEXT: s_sub_i32 s7, 0, 24			; GFX9-NEXT: s_sub_i32 s7, 0, 24
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v0			; GFX9-NEXT: v_mul_lo_u32 v1, s7, v0
	; GFX9-NEXT: s_lshr_b32 s10, s5, 8			; GFX9-NEXT: s_lshr_b32 s11, s5, 8
	; GFX9-NEXT: s_and_b32 s5, s5, s11			; GFX9-NEXT: s_and_b32 s5, s5, s12
	; GFX9-NEXT: s_lshl_b32 s5, s5, s12			; GFX9-NEXT: s_lshl_b32 s5, s5, s13
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX9-NEXT: s_and_b32 s8, s10, s11			; GFX9-NEXT: s_and_b32 s9, s11, s12
	; GFX9-NEXT: s_or_b32 s5, s9, s5			; GFX9-NEXT: s_or_b32 s5, s10, s5
	; GFX9-NEXT: s_bfe_u32 s8, s8, 0x100000			; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, 24			; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: s_bfe_u32 s5, s5, 0x100000			; GFX9-NEXT: s_bfe_u32 s5, s5, 0x100000
	; GFX9-NEXT: s_lshl_b32 s8, s8, 16			; GFX9-NEXT: s_lshl_b32 s9, s9, 16
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24			; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24
	; GFX9-NEXT: s_or_b32 s5, s5, s8			; GFX9-NEXT: s_or_b32 s5, s5, s9
	; GFX9-NEXT: s_mov_b32 s8, 0xffffff			; GFX9-NEXT: s_mov_b32 s9, 0xffffff
	; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0			; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0			; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_sub_u32_e32 v2, 23, v0			; GFX9-NEXT: v_sub_u32_e32 v2, 23, v0
	; GFX9-NEXT: s_lshr_b32 s2, s2, 1			; GFX9-NEXT: s_lshr_b32 s2, s2, 1
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24			; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24
	; GFX9-NEXT: v_and_b32_e32 v2, s8, v2			; GFX9-NEXT: v_and_b32_e32 v2, s9, v2
	; GFX9-NEXT: v_and_b32_e32 v0, s8, v0			; GFX9-NEXT: v_and_b32_e32 v0, s9, v0
	; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s2			; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s2
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v2			; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v2
	; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1			; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1			; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffffff
	; GFX9-NEXT: v_sub_u32_e32 v2, 23, v1			; GFX9-NEXT: v_sub_u32_e32 v2, 23, v1
	; GFX9-NEXT: s_lshr_b32 s0, s3, 1			; GFX9-NEXT: s_lshr_b32 s0, s3, 1
	; GFX9-NEXT: v_and_b32_e32 v2, v2, v3			; GFX9-NEXT: v_and_b32_e32 v2, v2, v3
	; GFX9-NEXT: v_and_b32_e32 v1, v1, v3			; GFX9-NEXT: v_and_b32_e32 v1, v1, v3
	; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s0			; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s0
	; GFX9-NEXT: v_lshl_or_b32 v1, s1, v1, v2			; GFX9-NEXT: v_lshl_or_b32 v1, s1, v1, v2
	; GFX9-NEXT: s_mov_b32 s6, 8			; GFX9-NEXT: s_mov_b32 s6, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_b32_e32 v3, s12, v1
	; GFX9-NEXT: v_and_b32_e32 v4, s11, v1			; GFX9-NEXT: s_mov_b32 s8, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX9-NEXT: v_and_or_b32 v2, v0, s12, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_and_or_b32 v2, v0, s11, v2			; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX9-NEXT: v_or3_b32 v0, v2, v0, v4			; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2
	; GFX9-NEXT: v_and_or_b32 v1, v3, s11, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_readfirstlane_b32 s1, v1			; GFX9-NEXT: v_readfirstlane_b32 s1, v1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_fshl_v2i24:			; GFX10-LABEL: s_fshl_v2i24:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
	; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, 24			; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
	; GFX10-NEXT: s_movk_i32 s8, 0xff			; GFX10-NEXT: s_sub_i32 s14, 0, 24
	; GFX10-NEXT: s_lshr_b32 s11, s1, 8			; GFX10-NEXT: s_movk_i32 s9, 0xff
	; GFX10-NEXT: s_bfe_u32 s10, 8, 0x100000			; GFX10-NEXT: s_lshr_b32 s10, s1, 8
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX10-NEXT: s_and_b32 s1, s1, s8			; GFX10-NEXT: s_bfe_u32 s11, 8, 0x100000
	; GFX10-NEXT: s_lshr_b32 s9, s0, 24			; GFX10-NEXT: s_and_b32 s1, s1, s9
	; GFX10-NEXT: s_lshl_b32 s1, s1, s10
	; GFX10-NEXT: s_lshr_b32 s6, s0, 8			; GFX10-NEXT: s_lshr_b32 s6, s0, 8
	; GFX10-NEXT: s_or_b32 s1, s9, s1			; GFX10-NEXT: s_lshr_b32 s8, s0, 24
	; GFX10-NEXT: s_sub_i32 s9, 0, 24			; GFX10-NEXT: s_lshl_b32 s1, s1, s11
	; GFX10-NEXT: s_and_b32 s6, s6, s8			; GFX10-NEXT: s_and_b32 s6, s6, s9
	; GFX10-NEXT: s_lshr_b32 s7, s0, 16			; GFX10-NEXT: s_or_b32 s1, s8, s1
				; GFX10-NEXT: s_lshr_b32 s8, s4, 8
	; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX10-NEXT: s_and_b32 s0, s0, s8			; GFX10-NEXT: s_and_b32 s8, s8, s9
	; GFX10-NEXT: s_lshl_b32 s6, s6, s10			; GFX10-NEXT: s_lshr_b32 s7, s0, 16
	; GFX10-NEXT: s_lshr_b32 s12, s4, 24			; GFX10-NEXT: s_and_b32 s0, s0, s9
	; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
				; GFX10-NEXT: s_lshl_b32 s6, s6, s11
				; GFX10-NEXT: s_lshr_b32 s12, s4, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_or_b32 s0, s0, s6
	; GFX10-NEXT: s_and_b32 s6, s7, s8			; GFX10-NEXT: v_mul_lo_u32 v2, s14, v0
	; GFX10-NEXT: s_lshr_b32 s7, s4, 8			; GFX10-NEXT: v_mul_lo_u32 v3, s14, v1
	; GFX10-NEXT: v_mul_lo_u32 v2, s9, v0			; GFX10-NEXT: s_and_b32 s6, s7, s9
	; GFX10-NEXT: v_mul_lo_u32 v3, s9, v1			; GFX10-NEXT: s_and_b32 s7, s10, s9
	; GFX10-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX10-NEXT: s_lshr_b32 s10, s4, 16
	; GFX10-NEXT: s_bfe_u32 s0, s0, 0x100000			; GFX10-NEXT: s_and_b32 s4, s4, s9
	; GFX10-NEXT: s_lshl_b32 s6, s6, 16			; GFX10-NEXT: s_lshl_b32 s8, s8, s11
	; GFX10-NEXT: s_and_b32 s7, s7, s8
	; GFX10-NEXT: s_or_b32 s0, s0, s6
	; GFX10-NEXT: s_and_b32 s6, s11, s8
	; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX10-NEXT: s_lshr_b32 s11, s4, 16
	; GFX10-NEXT: s_and_b32 s4, s4, s8
	; GFX10-NEXT: s_lshl_b32 s7, s7, s10
	; GFX10-NEXT: s_and_b32 s9, s11, s8
	; GFX10-NEXT: s_or_b32 s4, s4, s7
	; GFX10-NEXT: s_bfe_u32 s7, s9, 0x100000
	; GFX10-NEXT: s_lshr_b32 s13, s5, 8			; GFX10-NEXT: s_lshr_b32 s13, s5, 8
	; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2			; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX10-NEXT: v_mul_hi_u32 v2, v1, v3			; GFX10-NEXT: s_or_b32 s4, s4, s8
	; GFX10-NEXT: s_and_b32 s5, s5, s8			; GFX10-NEXT: s_and_b32 s8, s10, s9
				; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
				; GFX10-NEXT: s_bfe_u32 s8, s8, 0x100000
				; GFX10-NEXT: s_and_b32 s5, s5, s9
	; GFX10-NEXT: s_bfe_u32 s4, s4, 0x100000			; GFX10-NEXT: s_bfe_u32 s4, s4, 0x100000
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16			; GFX10-NEXT: s_lshl_b32 s8, s8, 16
	; GFX10-NEXT: s_lshl_b32 s5, s5, s10			; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
	; GFX10-NEXT: s_or_b32 s4, s4, s7			; GFX10-NEXT: s_lshl_b32 s5, s5, s11
	; GFX10-NEXT: s_and_b32 s7, s13, s8			; GFX10-NEXT: s_or_b32 s4, s4, s8
				; GFX10-NEXT: s_and_b32 s8, s13, s9
	; GFX10-NEXT: s_or_b32 s5, s12, s5			; GFX10-NEXT: s_or_b32 s5, s12, s5
	; GFX10-NEXT: s_bfe_u32 s7, s7, 0x100000			; GFX10-NEXT: s_bfe_u32 s8, s8, 0x100000
	; GFX10-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX10-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v2			; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
	; GFX10-NEXT: s_bfe_u32 s5, s5, 0x100000			; GFX10-NEXT: s_bfe_u32 s5, s5, 0x100000
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16			; GFX10-NEXT: s_lshl_b32 s8, s8, 16
	; GFX10-NEXT: s_lshr_b32 s9, s2, 16			; GFX10-NEXT: s_lshr_b32 s10, s2, 16
	; GFX10-NEXT: s_or_b32 s5, s5, s7			; GFX10-NEXT: s_or_b32 s5, s5, s8
	; GFX10-NEXT: s_lshr_b32 s7, s2, 8			; GFX10-NEXT: s_lshr_b32 s8, s2, 8
	; GFX10-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX10-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX10-NEXT: v_mul_lo_u32 v0, v0, 24			; GFX10-NEXT: v_mul_lo_u32 v0, v0, 24
	; GFX10-NEXT: s_lshr_b32 s11, s2, 24			; GFX10-NEXT: s_and_b32 s8, s8, s9
	; GFX10-NEXT: s_and_b32 s2, s2, s8			; GFX10-NEXT: s_and_b32 s12, s2, s9
	; GFX10-NEXT: s_lshr_b32 s12, s3, 8			; GFX10-NEXT: s_lshl_b32 s8, s8, s11
	; GFX10-NEXT: s_and_b32 s3, s3, s8			; GFX10-NEXT: s_and_b32 s10, s10, s9
	; GFX10-NEXT: s_bfe_u32 s6, s6, 0x100000			; GFX10-NEXT: s_or_b32 s8, s12, s8
	; GFX10-NEXT: s_lshl_b32 s3, s3, s10			; GFX10-NEXT: s_lshr_b32 s2, s2, 24
	; GFX10-NEXT: v_mul_lo_u32 v1, v1, 24			; GFX10-NEXT: v_mul_lo_u32 v1, v1, 24
	; GFX10-NEXT: v_sub_nc_u32_e32 v0, s4, v0			; GFX10-NEXT: v_sub_nc_u32_e32 v0, s4, v0
	; GFX10-NEXT: s_and_b32 s4, s7, s8			; GFX10-NEXT: s_bfe_u32 s4, s8, 0x100000
	; GFX10-NEXT: s_and_b32 s7, s9, s8			; GFX10-NEXT: s_bfe_u32 s8, s10, 0x100000
	; GFX10-NEXT: s_lshl_b32 s4, s4, s10			; GFX10-NEXT: s_bfe_u32 s6, s6, 0x100000
	; GFX10-NEXT: s_or_b32 s3, s11, s3			; GFX10-NEXT: s_bfe_u32 s7, s7, 0x100000
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0			; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0
	; GFX10-NEXT: v_sub_nc_u32_e32 v1, s5, v1			; GFX10-NEXT: v_sub_nc_u32_e32 v1, s5, v1
	; GFX10-NEXT: s_or_b32 s2, s2, s4			; GFX10-NEXT: s_lshl_b32 s5, s8, 16
	; GFX10-NEXT: s_bfe_u32 s4, s7, 0x100000			; GFX10-NEXT: s_lshr_b32 s8, s3, 8
	; GFX10-NEXT: s_mov_b32 s5, 0xffffff			; GFX10-NEXT: s_and_b32 s3, s3, s9
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v1			; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v1
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1
	; GFX10-NEXT: s_bfe_u32 s2, s2, 0x100000			; GFX10-NEXT: s_lshl_b32 s3, s3, s11
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-NEXT: s_or_b32 s4, s4, s5
	; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v0			; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0
	; GFX10-NEXT: s_or_b32 s2, s2, s4			; GFX10-NEXT: s_or_b32 s2, s2, s3
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0
	; GFX10-NEXT: s_and_b32 s4, s12, s8			; GFX10-NEXT: s_and_b32 s3, s8, s9
	; GFX10-NEXT: s_lshr_b32 s2, s2, 1			; GFX10-NEXT: s_mov_b32 s5, 0xffffff
	; GFX10-NEXT: s_bfe_u32 s4, s4, 0x100000			; GFX10-NEXT: s_bfe_u32 s3, s3, 0x100000
	; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v1			; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v1
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1
	; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000			; GFX10-NEXT: s_bfe_u32 s2, s2, 0x100000
	; GFX10-NEXT: s_lshl_b32 s6, s6, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: v_sub_nc_u32_e32 v3, 23, v0			; GFX10-NEXT: s_bfe_u32 s0, s0, 0x100000
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_sub_nc_u32_e32 v2, 23, v0
	; GFX10-NEXT: v_and_b32_e32 v0, s5, v0			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo
	; GFX10-NEXT: v_and_b32_e32 v2, s5, v3
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffffff			; GFX10-NEXT: v_mov_b32_e32 v3, 0xffffff
				; GFX10-NEXT: s_or_b32 s2, s2, s3
				; GFX10-NEXT: s_lshr_b32 s3, s4, 1
				; GFX10-NEXT: v_and_b32_e32 v2, s5, v2
	; GFX10-NEXT: v_sub_nc_u32_e32 v4, 23, v1			; GFX10-NEXT: v_sub_nc_u32_e32 v4, 23, v1
	; GFX10-NEXT: v_lshrrev_b32_e64 v2, v2, s2			; GFX10-NEXT: s_lshr_b32 s2, s2, 1
	; GFX10-NEXT: s_bfe_u32 s2, s3, 0x100000			; GFX10-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX10-NEXT: s_lshl_b32 s3, s4, 16			; GFX10-NEXT: v_and_b32_e32 v1, v1, v3
				; GFX10-NEXT: v_lshrrev_b32_e64 v2, v2, s3
	; GFX10-NEXT: v_and_b32_e32 v4, v4, v3			; GFX10-NEXT: v_and_b32_e32 v4, v4, v3
	; GFX10-NEXT: s_or_b32 s2, s2, s3			; GFX10-NEXT: s_lshl_b32 s6, s6, 16
				; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000
				; GFX10-NEXT: s_lshl_b32 s7, s7, 16
				; GFX10-NEXT: s_or_b32 s0, s0, s6
				; GFX10-NEXT: v_lshrrev_b32_e64 v3, v4, s2
				; GFX10-NEXT: s_or_b32 s1, s1, s7
	; GFX10-NEXT: v_lshl_or_b32 v0, s0, v0, v2			; GFX10-NEXT: v_lshl_or_b32 v0, s0, v0, v2
	; GFX10-NEXT: s_lshr_b32 s0, s2, 1
	; GFX10-NEXT: v_and_b32_e32 v1, v1, v3
	; GFX10-NEXT: v_lshrrev_b32_e64 v2, v4, s0
	; GFX10-NEXT: s_or_b32 s0, s1, s6
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX10-NEXT: v_lshl_or_b32 v1, s0, v1, v2
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshl_or_b32 v1, s1, v1, v3
	; GFX10-NEXT: v_and_b32_e32 v3, s8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_b32_sdwa v4, v1, s8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v1			; GFX10-NEXT: v_and_b32_e32 v3, s9, v1
	; GFX10-NEXT: v_and_or_b32 v2, v0, s8, v2			; GFX10-NEXT: v_bfe_u32 v4, v1, 8, 8
	; GFX10-NEXT: v_and_b32_sdwa v0, v0, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_bfe_u32 v1, v1, 16, 8
				; GFX10-NEXT: v_and_or_b32 v2, v0, s9, v2
				; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX10-NEXT: v_lshl_or_b32 v1, v1, 8, v4
	; GFX10-NEXT: v_or3_b32 v0, v2, v0, v3			; GFX10-NEXT: v_or3_b32 v0, v2, v0, v3
	; GFX10-NEXT: v_and_or_b32 v1, v1, s8, v4
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: v_readfirstlane_b32 s1, v1			; GFX10-NEXT: v_readfirstlane_b32 s1, v1
				; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%lhs = bitcast i48 %lhs.arg to <2 x i24>			%lhs = bitcast i48 %lhs.arg to <2 x i24>
	%rhs = bitcast i48 %rhs.arg to <2 x i24>			%rhs = bitcast i48 %rhs.arg to <2 x i24>
	%amt = bitcast i48 %amt.arg to <2 x i24>			%amt = bitcast i48 %amt.arg to <2 x i24>
	%result = call <2 x i24> @llvm.fshl.v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt)			%result = call <2 x i24> @llvm.fshl.v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt)
	%cast.result = bitcast <2 x i24> %result to i48			%cast.result = bitcast <2 x i24> %result to i48
	ret i48 %cast.result			ret i48 %cast.result
	}			}
	▲ Show 20 Lines • Show All 4,677 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 532 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i8 @llvm.fshr.i8(i8 %lhs, i8 %rhs, i8 5)		%result = call i8 @llvm.fshr.i8(i8 %lhs, i8 %rhs, i8 5)
ret i8 %result		ret i8 %result
}		}

define amdgpu_ps i16 @s_fshr_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg, i16 inreg %amt.arg) {		define amdgpu_ps i16 @s_fshr_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg, i16 inreg %amt.arg) {
; GFX6-LABEL: s_fshr_v2i8:		; GFX6-LABEL: s_fshr_v2i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_movk_i32 s7, 0xff
; GFX6-NEXT: s_lshr_b32 s3, s0, 8		; GFX6-NEXT: s_lshr_b32 s3, s0, 8
; GFX6-NEXT: s_lshr_b32 s4, s1, 8		; GFX6-NEXT: s_lshr_b32 s4, s2, 8
; GFX6-NEXT: s_lshr_b32 s5, s2, 8		; GFX6-NEXT: s_and_b32 s5, s2, 7
; GFX6-NEXT: s_and_b32 s6, s2, 7
; GFX6-NEXT: s_and_b32 s1, s1, s7
; GFX6-NEXT: s_andn2_b32 s2, 7, s2		; GFX6-NEXT: s_andn2_b32 s2, 7, s2
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
		; GFX6-NEXT: s_movk_i32 s6, 0xff
; GFX6-NEXT: s_lshl_b32 s0, s0, s2		; GFX6-NEXT: s_lshl_b32 s0, s0, s2
; GFX6-NEXT: s_lshr_b32 s1, s1, s6		; GFX6-NEXT: s_and_b32 s2, s1, s6
; GFX6-NEXT: s_andn2_b32 s2, 7, s5		; GFX6-NEXT: s_lshr_b32 s2, s2, s5
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_and_b32 s2, s4, 7
		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x80008
		; GFX6-NEXT: s_andn2_b32 s4, 7, s4
; GFX6-NEXT: s_lshl_b32 s3, s3, 1		; GFX6-NEXT: s_lshl_b32 s3, s3, 1
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s3, s3, s4
; GFX6-NEXT: s_lshl_b32 s2, s3, s2		; GFX6-NEXT: s_lshr_b32 s1, s1, s2
; GFX6-NEXT: s_and_b32 s1, s5, 7		; GFX6-NEXT: s_or_b32 s1, s3, s1
; GFX6-NEXT: s_and_b32 s3, s4, s7		; GFX6-NEXT: s_and_b32 s1, s1, s6
; GFX6-NEXT: s_lshr_b32 s1, s3, s1		; GFX6-NEXT: s_and_b32 s0, s0, s6
; GFX6-NEXT: s_or_b32 s1, s2, s1
; GFX6-NEXT: s_and_b32 s1, s1, s7
; GFX6-NEXT: s_and_b32 s0, s0, s7
; GFX6-NEXT: s_lshl_b32 s1, s1, 8		; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_v2i8:		; GFX8-LABEL: s_fshr_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s3, s0, 8		; GFX8-NEXT: s_lshr_b32 s3, s0, 8
; GFX8-NEXT: s_lshr_b32 s5, s2, 8		; GFX8-NEXT: s_lshr_b32 s5, s2, 8
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast.result = bitcast <2 x i8> %result to i16		%cast.result = bitcast <2 x i8> %result to i16
ret i16 %cast.result		ret i16 %cast.result
}		}

define i16 @v_fshr_v2i8(i16 %lhs.arg, i16 %rhs.arg, i16 %amt.arg) {		define i16 @v_fshr_v2i8(i16 %lhs.arg, i16 %rhs.arg, i16 %amt.arg) {
; GFX6-LABEL: v_fshr_v2i8:		; GFX6-LABEL: v_fshr_v2i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 8, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v2
; GFX6-NEXT: v_and_b32_e32 v6, 7, v2		; GFX6-NEXT: v_and_b32_e32 v5, 7, v2
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX6-NEXT: v_and_b32_e32 v2, 7, v2		; GFX6-NEXT: v_and_b32_e32 v2, 7, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: s_movk_i32 s4, 0xff		; GFX6-NEXT: s_movk_i32 s4, 0xff
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v5		; GFX6-NEXT: v_and_b32_e32 v2, s4, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v6, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v5, v2
; GFX6-NEXT: v_and_b32_e32 v2, 7, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
		; GFX6-NEXT: v_and_b32_e32 v2, 7, v4
		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
		; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8
		; GFX6-NEXT: v_and_b32_e32 v4, 7, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v4, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_and_b32_e32 v1, 7, v5		; GFX6-NEXT: v_or_b32_e32 v1, v3, v1
; GFX6-NEXT: v_and_b32_e32 v3, s4, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v1, v3
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i8:		; GFX8-LABEL: v_fshr_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i8> @llvm.fshr.v2i8(<2 x i8> %lhs, <2 x i8> %rhs, <2 x i8> %amt)		%result = call <2 x i8> @llvm.fshr.v2i8(<2 x i8> %lhs, <2 x i8> %rhs, <2 x i8> %amt)
%cast.result = bitcast <2 x i8> %result to i16		%cast.result = bitcast <2 x i8> %result to i16
ret i16 %cast.result		ret i16 %cast.result
}		}

define amdgpu_ps i32 @s_fshr_v4i8(i32 inreg %lhs.arg, i32 inreg %rhs.arg, i32 inreg %amt.arg) {		define amdgpu_ps i32 @s_fshr_v4i8(i32 inreg %lhs.arg, i32 inreg %rhs.arg, i32 inreg %amt.arg) {
; GFX6-LABEL: s_fshr_v4i8:		; GFX6-LABEL: s_fshr_v4i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_movk_i32 s13, 0xff
; GFX6-NEXT: s_lshr_b32 s3, s0, 8		; GFX6-NEXT: s_lshr_b32 s3, s0, 8
; GFX6-NEXT: s_lshr_b32 s4, s0, 16		; GFX6-NEXT: s_lshr_b32 s4, s0, 16
; GFX6-NEXT: s_lshr_b32 s5, s0, 24		; GFX6-NEXT: s_lshr_b32 s5, s0, 24
; GFX6-NEXT: s_lshr_b32 s6, s1, 8		; GFX6-NEXT: s_lshr_b32 s7, s2, 8
; GFX6-NEXT: s_lshr_b32 s7, s1, 16		; GFX6-NEXT: s_lshr_b32 s8, s2, 16
; GFX6-NEXT: s_lshr_b32 s8, s1, 24		; GFX6-NEXT: s_lshr_b32 s9, s2, 24
; GFX6-NEXT: s_lshr_b32 s9, s2, 8		; GFX6-NEXT: s_and_b32 s10, s2, 7
; GFX6-NEXT: s_lshr_b32 s10, s2, 16
; GFX6-NEXT: s_lshr_b32 s11, s2, 24
; GFX6-NEXT: s_and_b32 s12, s2, 7
; GFX6-NEXT: s_and_b32 s1, s1, s13
; GFX6-NEXT: s_andn2_b32 s2, 7, s2		; GFX6-NEXT: s_andn2_b32 s2, 7, s2
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
		; GFX6-NEXT: s_movk_i32 s11, 0xff
; GFX6-NEXT: s_lshl_b32 s0, s0, s2		; GFX6-NEXT: s_lshl_b32 s0, s0, s2
; GFX6-NEXT: s_lshr_b32 s1, s1, s12		; GFX6-NEXT: s_and_b32 s2, s1, s11
; GFX6-NEXT: s_andn2_b32 s2, 7, s9		; GFX6-NEXT: s_lshr_b32 s2, s2, s10
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_and_b32 s2, s7, 7
		; GFX6-NEXT: s_andn2_b32 s7, 7, s7
; GFX6-NEXT: s_lshl_b32 s3, s3, 1		; GFX6-NEXT: s_lshl_b32 s3, s3, 1
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_lshl_b32 s3, s3, s7
; GFX6-NEXT: s_lshl_b32 s2, s3, s2		; GFX6-NEXT: s_bfe_u32 s7, s1, 0x80008
; GFX6-NEXT: s_and_b32 s1, s9, 7		; GFX6-NEXT: s_lshr_b32 s2, s7, s2
; GFX6-NEXT: s_and_b32 s3, s6, s13
; GFX6-NEXT: s_lshr_b32 s1, s3, s1
; GFX6-NEXT: s_andn2_b32 s3, 7, s10
; GFX6-NEXT: s_lshl_b32 s4, s4, 1
; GFX6-NEXT: s_or_b32 s1, s2, s1
; GFX6-NEXT: s_lshl_b32 s3, s4, s3
; GFX6-NEXT: s_and_b32 s2, s10, 7
; GFX6-NEXT: s_and_b32 s4, s7, s13
; GFX6-NEXT: s_lshr_b32 s2, s4, s2
; GFX6-NEXT: s_and_b32 s1, s1, s13
; GFX6-NEXT: s_or_b32 s2, s3, s2		; GFX6-NEXT: s_or_b32 s2, s3, s2
; GFX6-NEXT: s_and_b32 s3, s11, 7		; GFX6-NEXT: s_lshr_b32 s6, s1, 24
; GFX6-NEXT: s_andn2_b32 s4, 7, s11		; GFX6-NEXT: s_and_b32 s3, s8, 7
		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x80010
		; GFX6-NEXT: s_andn2_b32 s7, 7, s8
		; GFX6-NEXT: s_lshl_b32 s4, s4, 1
		; GFX6-NEXT: s_lshr_b32 s1, s1, s3
		; GFX6-NEXT: s_lshl_b32 s4, s4, s7
		; GFX6-NEXT: s_or_b32 s1, s4, s1
		; GFX6-NEXT: s_and_b32 s3, s9, 7
		; GFX6-NEXT: s_and_b32 s2, s2, s11
		; GFX6-NEXT: s_andn2_b32 s4, 7, s9
; GFX6-NEXT: s_lshl_b32 s5, s5, 1		; GFX6-NEXT: s_lshl_b32 s5, s5, 1
; GFX6-NEXT: s_and_b32 s0, s0, s13		; GFX6-NEXT: s_and_b32 s1, s1, s11
; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: s_and_b32 s1, s2, s13
; GFX6-NEXT: s_lshl_b32 s4, s5, s4		; GFX6-NEXT: s_lshl_b32 s4, s5, s4
; GFX6-NEXT: s_lshr_b32 s3, s8, s3		; GFX6-NEXT: s_lshr_b32 s3, s6, s3
; GFX6-NEXT: s_lshl_b32 s1, s1, 16		; GFX6-NEXT: s_and_b32 s0, s0, s11
		; GFX6-NEXT: s_lshl_b32 s2, s2, 8
; GFX6-NEXT: s_or_b32 s3, s4, s3		; GFX6-NEXT: s_or_b32 s3, s4, s3
		; GFX6-NEXT: s_or_b32 s0, s0, s2
		; GFX6-NEXT: s_lshl_b32 s1, s1, 16
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: s_and_b32 s1, s3, s13		; GFX6-NEXT: s_and_b32 s1, s3, s11
; GFX6-NEXT: s_lshl_b32 s1, s1, 24		; GFX6-NEXT: s_lshl_b32 s1, s1, 24
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_v4i8:		; GFX8-LABEL: s_fshr_v4i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_movk_i32 s13, 0xff		; GFX8-NEXT: s_movk_i32 s13, 0xff
; GFX8-NEXT: s_lshr_b32 s3, s0, 8		; GFX8-NEXT: s_lshr_b32 s3, s0, 8
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast.result = bitcast <4 x i8> %result to i32		%cast.result = bitcast <4 x i8> %result to i32
ret i32 %cast.result		ret i32 %cast.result
}		}

define i32 @v_fshr_v4i8(i32 %lhs.arg, i32 %rhs.arg, i32 %amt.arg) {		define i32 @v_fshr_v4i8(i32 %lhs.arg, i32 %rhs.arg, i32 %amt.arg) {
; GFX6-LABEL: v_fshr_v4i8:		; GFX6-LABEL: v_fshr_v4i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v9, 8, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v10, 16, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v8, 16, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v11, 24, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX6-NEXT: v_and_b32_e32 v12, 7, v2		; GFX6-NEXT: v_and_b32_e32 v10, 7, v2
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: s_movk_i32 s4, 0xff
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v6, 8, v1		; GFX6-NEXT: v_and_b32_e32 v11, 0xff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v8, 24, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v2, 7, v2		; GFX6-NEXT: v_and_b32_e32 v2, 7, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v12, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v10, v10, v11
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v10
; GFX6-NEXT: v_and_b32_e32 v1, 7, v9		; GFX6-NEXT: v_and_b32_e32 v10, 7, v7
; GFX6-NEXT: v_xor_b32_e32 v9, -1, v9		; GFX6-NEXT: v_xor_b32_e32 v7, -1, v7
; GFX6-NEXT: v_and_b32_e32 v6, s4, v6		; GFX6-NEXT: v_and_b32_e32 v7, 7, v7
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v1, v6
; GFX6-NEXT: v_xor_b32_e32 v6, -1, v10
; GFX6-NEXT: v_and_b32_e32 v9, 7, v9
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3
; GFX6-NEXT: v_mov_b32_e32 v2, 0xff		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v7, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v9, v3		; GFX6-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX6-NEXT: v_and_b32_e32 v6, 7, v6		; GFX6-NEXT: v_lshrrev_b32_e32 v7, v10, v7
		; GFX6-NEXT: v_or_b32_e32 v3, v3, v7
		; GFX6-NEXT: v_and_b32_e32 v7, 7, v8
		; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8
		; GFX6-NEXT: v_lshrrev_b32_e32 v6, 24, v1
		; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
		; GFX6-NEXT: v_and_b32_e32 v8, 7, v8
; GFX6-NEXT: v_lshlrev_b32_e32 v4, 1, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v4, 1, v4
; GFX6-NEXT: v_or_b32_e32 v1, v3, v1		; GFX6-NEXT: v_mov_b32_e32 v2, 0xff
; GFX6-NEXT: v_lshlrev_b32_e32 v4, v6, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v7, v1
; GFX6-NEXT: v_and_b32_e32 v3, 7, v10		; GFX6-NEXT: v_xor_b32_e32 v7, -1, v9
; GFX6-NEXT: v_and_b32_e32 v6, v7, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v4, v8, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v3, v3, v6		; GFX6-NEXT: v_or_b32_e32 v1, v4, v1
; GFX6-NEXT: v_xor_b32_e32 v6, -1, v11		; GFX6-NEXT: v_and_b32_e32 v4, 7, v9
; GFX6-NEXT: v_and_b32_e32 v1, v1, v2		; GFX6-NEXT: v_and_b32_e32 v3, v3, v2
; GFX6-NEXT: v_or_b32_e32 v3, v4, v3		; GFX6-NEXT: v_and_b32_e32 v7, 7, v7
; GFX6-NEXT: v_and_b32_e32 v4, 7, v11
; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
; GFX6-NEXT: v_lshlrev_b32_e32 v5, 1, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v5, 1, v5
		; GFX6-NEXT: v_and_b32_e32 v1, v1, v2
		; GFX6-NEXT: v_lshlrev_b32_e32 v5, v7, v5
		; GFX6-NEXT: v_lshrrev_b32_e32 v4, v4, v6
; GFX6-NEXT: v_and_b32_e32 v0, v0, v2		; GFX6-NEXT: v_and_b32_e32 v0, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, v3, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v5, v6, v5
; GFX6-NEXT: v_lshrrev_b32_e32 v4, v4, v8
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v4, v5, v4		; GFX6-NEXT: v_or_b32_e32 v4, v5, v4
		; GFX6-NEXT: v_or_b32_e32 v0, v0, v3
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, v4, v2		; GFX6-NEXT: v_and_b32_e32 v1, v4, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v4i8:		; GFX8-LABEL: v_fshr_v4i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
▲ Show 20 Lines • Show All 417 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i24 @llvm.fshr.i24(i24 %lhs, i24 %rhs, i24 %amt)		%result = call i24 @llvm.fshr.i24(i24 %lhs, i24 %rhs, i24 %amt)
ret i24 %result		ret i24 %result
}		}

define amdgpu_ps i48 @s_fshr_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {		define amdgpu_ps i48 @s_fshr_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {
; GFX6-LABEL: s_fshr_v2i24:		; GFX6-LABEL: s_fshr_v2i24:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_movk_i32 s10, 0xff		; GFX6-NEXT: s_movk_i32 s9, 0xff
; GFX6-NEXT: s_lshr_b32 s9, s1, 8		; GFX6-NEXT: s_mov_b32 s11, 0x80008
; GFX6-NEXT: s_and_b32 s1, s1, s10		; GFX6-NEXT: s_lshr_b32 s6, s0, 16
; GFX6-NEXT: s_lshr_b32 s6, s0, 8
; GFX6-NEXT: s_lshr_b32 s8, s0, 24
; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: s_or_b32 s1, s8, s1
; GFX6-NEXT: s_and_b32 s6, s6, s10
; GFX6-NEXT: s_lshr_b32 s8, s2, 8
; GFX6-NEXT: s_and_b32 s8, s8, s10
; GFX6-NEXT: s_lshr_b32 s7, s0, 16
; GFX6-NEXT: s_and_b32 s0, s0, s10
; GFX6-NEXT: s_lshl_b32 s6, s6, 8
; GFX6-NEXT: s_or_b32 s0, s0, s6
; GFX6-NEXT: s_and_b32 s6, s7, s10
; GFX6-NEXT: s_and_b32 s7, s9, s10
; GFX6-NEXT: s_lshr_b32 s9, s2, 16
; GFX6-NEXT: s_lshr_b32 s11, s2, 24
; GFX6-NEXT: s_and_b32 s2, s2, s10
; GFX6-NEXT: s_lshl_b32 s8, s8, 8
; GFX6-NEXT: s_or_b32 s2, s2, s8
; GFX6-NEXT: s_and_b32 s8, s9, s10
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_lshr_b32 s8, s1, 8
		; GFX6-NEXT: s_and_b32 s1, s1, s9
		; GFX6-NEXT: s_lshr_b32 s7, s0, 24
		; GFX6-NEXT: s_and_b32 s10, s0, s9
		; GFX6-NEXT: s_bfe_u32 s0, s0, s11
		; GFX6-NEXT: s_lshl_b32 s0, s0, 8
		; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
		; GFX6-NEXT: s_or_b32 s0, s10, s0
		; GFX6-NEXT: s_or_b32 s1, s7, s1
		; GFX6-NEXT: s_and_b32 s7, s8, s9
		; GFX6-NEXT: s_lshr_b32 s8, s2, 16
		; GFX6-NEXT: s_lshr_b32 s10, s2, 24
		; GFX6-NEXT: s_and_b32 s13, s2, s9
		; GFX6-NEXT: s_bfe_u32 s2, s2, s11
		; GFX6-NEXT: s_lshl_b32 s2, s2, 8
		; GFX6-NEXT: s_and_b32 s8, s8, s9
		; GFX6-NEXT: s_or_b32 s2, s13, s2
		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: s_lshr_b32 s12, s3, 8		; GFX6-NEXT: s_lshr_b32 s12, s3, 8
; GFX6-NEXT: s_and_b32 s3, s3, s10		; GFX6-NEXT: s_and_b32 s3, s3, s9
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_lshl_b32 s3, s3, 8		; GFX6-NEXT: s_lshl_b32 s3, s3, 8
; GFX6-NEXT: s_or_b32 s2, s2, s8		; GFX6-NEXT: s_or_b32 s2, s2, s8
; GFX6-NEXT: s_and_b32 s8, s12, s10		; GFX6-NEXT: s_and_b32 s8, s12, s9
; GFX6-NEXT: s_or_b32 s3, s11, s3		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
		; GFX6-NEXT: s_or_b32 s3, s10, s3
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_or_b32 s3, s3, s8		; GFX6-NEXT: s_or_b32 s3, s3, s8
; GFX6-NEXT: s_lshr_b32 s8, s4, 8		; GFX6-NEXT: s_lshr_b32 s8, s4, 16
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: s_lshr_b32 s10, s4, 24
; GFX6-NEXT: s_and_b32 s8, s8, s10		; GFX6-NEXT: s_and_b32 s13, s4, s9
; GFX6-NEXT: s_lshr_b32 s9, s4, 16		; GFX6-NEXT: s_bfe_u32 s4, s4, s11
; GFX6-NEXT: s_lshr_b32 s11, s4, 24		; GFX6-NEXT: s_sub_i32 s11, 0, 24
; GFX6-NEXT: s_and_b32 s4, s4, s10		; GFX6-NEXT: v_mul_lo_u32 v1, s11, v0
; GFX6-NEXT: s_lshl_b32 s8, s8, 8		; GFX6-NEXT: s_lshl_b32 s4, s4, 8
; GFX6-NEXT: s_or_b32 s4, s4, s8		; GFX6-NEXT: s_and_b32 s8, s8, s9
; GFX6-NEXT: s_and_b32 s8, s9, s10		; GFX6-NEXT: s_or_b32 s4, s13, s4
; GFX6-NEXT: s_sub_i32 s9, 0, 24		; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: v_mul_lo_u32 v1, s9, v0
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: s_or_b32 s4, s4, s8
; GFX6-NEXT: s_lshr_b32 s12, s5, 8
; GFX6-NEXT: s_and_b32 s5, s5, s10
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
		; GFX6-NEXT: s_or_b32 s4, s4, s8
; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v1, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX6-NEXT: s_lshl_b32 s5, s5, 8		; GFX6-NEXT: s_lshr_b32 s12, s5, 8
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX6-NEXT: s_and_b32 s8, s12, s10		; GFX6-NEXT: s_and_b32 s5, s5, s9
; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX6-NEXT: v_mul_lo_u32 v2, s9, v1		; GFX6-NEXT: v_mul_lo_u32 v2, s11, v1
; GFX6-NEXT: s_or_b32 s5, s11, s5		; GFX6-NEXT: s_lshl_b32 s5, s5, 8
		; GFX6-NEXT: s_and_b32 s8, s12, s9
		; GFX6-NEXT: s_or_b32 s5, s10, s5
		; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_or_b32 s5, s5, s8		; GFX6-NEXT: s_or_b32 s5, s5, s8
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
		; GFX6-NEXT: s_and_b32 s6, s6, s9
		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
		; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX6-NEXT: s_mov_b32 s8, 0xffffff		; GFX6-NEXT: s_mov_b32 s8, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0
; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX6-NEXT: s_lshl_b32 s4, s6, 17		; GFX6-NEXT: s_lshl_b32 s4, s6, 17
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
; GFX6-NEXT: v_and_b32_e32 v0, s8, v0		; GFX6-NEXT: v_and_b32_e32 v0, s8, v0
; GFX6-NEXT: s_or_b32 s0, s4, s0		; GFX6-NEXT: s_or_b32 s0, s4, s0
; GFX6-NEXT: v_and_b32_e32 v2, s8, v3		; GFX6-NEXT: v_and_b32_e32 v2, s8, v3
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: v_lshr_b32_e32 v0, s2, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s2, v0
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff		; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1
; GFX6-NEXT: s_lshl_b32 s0, s7, 17		; GFX6-NEXT: s_lshl_b32 s0, s7, 17
; GFX6-NEXT: s_lshl_b32 s1, s1, 1		; GFX6-NEXT: s_lshl_b32 s1, s1, 1
; GFX6-NEXT: v_and_b32_e32 v1, v1, v4		; GFX6-NEXT: v_and_b32_e32 v1, v1, v4
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, v2, v4
		; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: v_lshr_b32_e32 v1, s3, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s3, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 8, v0		; GFX6-NEXT: v_and_b32_e32 v2, s9, v0
; GFX6-NEXT: v_and_b32_e32 v2, s10, v2		; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX6-NEXT: v_and_b32_e32 v0, s10, v0		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s10, v3		; GFX6-NEXT: v_and_b32_e32 v2, s9, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 16, v1
; GFX6-NEXT: v_and_b32_e32 v1, s10, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v2, s10, v5		; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_and_b32_e32 v1, s10, v4		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: v_readfirstlane_b32 s1, v1		; GFX6-NEXT: v_readfirstlane_b32 s1, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_v2i24:		; GFX8-LABEL: s_fshr_v2i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_movk_i32 s10, 0xff		; GFX8-NEXT: s_movk_i32 s10, 0xff
; GFX8-NEXT: s_lshr_b32 s9, s1, 8		; GFX8-NEXT: s_lshr_b32 s9, s1, 8
▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_lshl_b32 s0, s7, 17		; GFX8-NEXT: s_lshl_b32 s0, s7, 17
; GFX8-NEXT: s_lshl_b32 s1, s1, 1		; GFX8-NEXT: s_lshl_b32 s1, s1, 1
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4		; GFX8-NEXT: v_and_b32_e32 v1, v1, v4
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, v2, v4
; GFX8-NEXT: s_or_b32 s0, s0, s1		; GFX8-NEXT: s_or_b32 s0, s0, s1
; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s3		; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s3
; GFX8-NEXT: v_or_b32_e32 v1, v2, v1		; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0		; GFX8-NEXT: v_mov_b32_e32 v2, 8
; GFX8-NEXT: v_mov_b32_e32 v4, 8		; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX8-NEXT: v_mov_b32_e32 v4, 16
; GFX8-NEXT: v_mov_b32_e32 v4, s10		; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX8-NEXT: v_and_b32_sdwa v0, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_e32 v0, v3, v0
; GFX8-NEXT: v_or_b32_e32 v0, v2, v0		; GFX8-NEXT: v_and_b32_e32 v3, s10, v1
; GFX8-NEXT: v_and_b32_e32 v2, s10, v1		; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX8-NEXT: v_and_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
; GFX8-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
; GFX8-NEXT: v_or_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: v_readfirstlane_b32 s1, v1		; GFX8-NEXT: v_readfirstlane_b32 s1, v1
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_fshr_v2i24:		; GFX9-LABEL: s_fshr_v2i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_movk_i32 s11, 0xff		; GFX9-NEXT: s_movk_i32 s12, 0xff
; GFX9-NEXT: s_lshr_b32 s10, s1, 8		; GFX9-NEXT: s_lshr_b32 s11, s1, 8
; GFX9-NEXT: s_bfe_u32 s12, 8, 0x100000		; GFX9-NEXT: s_bfe_u32 s13, 8, 0x100000
; GFX9-NEXT: s_and_b32 s1, s1, s11		; GFX9-NEXT: s_and_b32 s1, s1, s12
; GFX9-NEXT: s_lshr_b32 s7, s0, 8		; GFX9-NEXT: s_lshr_b32 s7, s0, 8
; GFX9-NEXT: s_lshr_b32 s9, s0, 24		; GFX9-NEXT: s_lshr_b32 s10, s0, 24
; GFX9-NEXT: s_lshl_b32 s1, s1, s12		; GFX9-NEXT: s_lshl_b32 s1, s1, s13
; GFX9-NEXT: s_or_b32 s1, s9, s1		; GFX9-NEXT: s_or_b32 s1, s10, s1
; GFX9-NEXT: s_and_b32 s7, s7, s11		; GFX9-NEXT: s_and_b32 s7, s7, s12
; GFX9-NEXT: s_lshr_b32 s9, s2, 8		; GFX9-NEXT: s_lshr_b32 s10, s2, 8
; GFX9-NEXT: s_and_b32 s9, s9, s11		; GFX9-NEXT: s_and_b32 s10, s10, s12
; GFX9-NEXT: s_lshr_b32 s8, s0, 16		; GFX9-NEXT: s_lshr_b32 s9, s0, 16
; GFX9-NEXT: s_and_b32 s0, s0, s11		; GFX9-NEXT: s_and_b32 s0, s0, s12
; GFX9-NEXT: s_lshl_b32 s7, s7, s12		; GFX9-NEXT: s_lshl_b32 s7, s7, s13
; GFX9-NEXT: s_or_b32 s0, s0, s7		; GFX9-NEXT: s_or_b32 s0, s0, s7
; GFX9-NEXT: s_and_b32 s7, s8, s11		; GFX9-NEXT: s_and_b32 s7, s9, s12
; GFX9-NEXT: s_and_b32 s8, s10, s11		; GFX9-NEXT: s_and_b32 s9, s11, s12
; GFX9-NEXT: s_lshr_b32 s10, s2, 16		; GFX9-NEXT: s_lshr_b32 s11, s2, 16
; GFX9-NEXT: s_lshr_b32 s13, s2, 24		; GFX9-NEXT: s_lshr_b32 s14, s2, 24
; GFX9-NEXT: s_and_b32 s2, s2, s11		; GFX9-NEXT: s_and_b32 s2, s2, s12
; GFX9-NEXT: s_lshl_b32 s9, s9, s12		; GFX9-NEXT: s_lshl_b32 s10, s10, s13
; GFX9-NEXT: s_or_b32 s2, s2, s9		; GFX9-NEXT: s_or_b32 s2, s2, s10
; GFX9-NEXT: s_and_b32 s9, s10, s11		; GFX9-NEXT: s_and_b32 s10, s11, s12
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000		; GFX9-NEXT: s_bfe_u32 s10, s10, 0x100000
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_lshr_b32 s14, s3, 8		; GFX9-NEXT: s_lshr_b32 s15, s3, 8
; GFX9-NEXT: s_and_b32 s3, s3, s11		; GFX9-NEXT: s_and_b32 s3, s3, s12
; GFX9-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX9-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX9-NEXT: s_lshl_b32 s9, s9, 16		; GFX9-NEXT: s_lshl_b32 s10, s10, 16
; GFX9-NEXT: s_lshl_b32 s3, s3, s12		; GFX9-NEXT: s_lshl_b32 s3, s3, s13
; GFX9-NEXT: s_or_b32 s2, s2, s9		; GFX9-NEXT: s_or_b32 s2, s2, s10
; GFX9-NEXT: s_and_b32 s9, s14, s11		; GFX9-NEXT: s_and_b32 s10, s15, s12
; GFX9-NEXT: s_or_b32 s3, s13, s3		; GFX9-NEXT: s_or_b32 s3, s14, s3
; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000		; GFX9-NEXT: s_bfe_u32 s10, s10, 0x100000
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX9-NEXT: s_bfe_u32 s3, s3, 0x100000
; GFX9-NEXT: s_lshl_b32 s9, s9, 16		; GFX9-NEXT: s_lshl_b32 s10, s10, 16
; GFX9-NEXT: s_or_b32 s3, s3, s9		; GFX9-NEXT: s_or_b32 s3, s3, s10
; GFX9-NEXT: s_lshr_b32 s9, s4, 8		; GFX9-NEXT: s_lshr_b32 s10, s4, 8
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_and_b32 s9, s9, s11		; GFX9-NEXT: s_and_b32 s10, s10, s12
; GFX9-NEXT: s_lshr_b32 s10, s4, 16		; GFX9-NEXT: s_lshr_b32 s11, s4, 16
; GFX9-NEXT: s_lshr_b32 s13, s4, 24		; GFX9-NEXT: s_lshr_b32 s14, s4, 24
; GFX9-NEXT: s_and_b32 s4, s4, s11		; GFX9-NEXT: s_and_b32 s4, s4, s12
; GFX9-NEXT: s_lshl_b32 s9, s9, s12		; GFX9-NEXT: s_lshl_b32 s10, s10, s13
; GFX9-NEXT: s_or_b32 s4, s4, s9		; GFX9-NEXT: s_or_b32 s4, s4, s10
; GFX9-NEXT: s_and_b32 s9, s10, s11		; GFX9-NEXT: s_and_b32 s10, s11, s12
; GFX9-NEXT: s_sub_i32 s10, 0, 24		; GFX9-NEXT: s_sub_i32 s11, 0, 24
; GFX9-NEXT: v_mul_lo_u32 v1, s10, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s11, v0
; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000		; GFX9-NEXT: s_bfe_u32 s10, s10, 0x100000
; GFX9-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX9-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX9-NEXT: s_lshl_b32 s9, s9, 16		; GFX9-NEXT: s_lshl_b32 s10, s10, 16
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: s_or_b32 s4, s4, s9		; GFX9-NEXT: s_or_b32 s4, s4, s10
; GFX9-NEXT: s_lshr_b32 s14, s5, 8		; GFX9-NEXT: s_lshr_b32 s15, s5, 8
; GFX9-NEXT: s_and_b32 s5, s5, s11		; GFX9-NEXT: s_and_b32 s5, s5, s12
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX9-NEXT: s_lshl_b32 s5, s5, s12		; GFX9-NEXT: s_lshl_b32 s5, s5, s13
; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX9-NEXT: s_and_b32 s9, s14, s11		; GFX9-NEXT: s_and_b32 s10, s15, s12
; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX9-NEXT: v_mul_lo_u32 v2, s10, v1		; GFX9-NEXT: v_mul_lo_u32 v2, s11, v1
; GFX9-NEXT: s_or_b32 s5, s13, s5		; GFX9-NEXT: s_or_b32 s5, s14, s5
; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000		; GFX9-NEXT: s_bfe_u32 s10, s10, 0x100000
; GFX9-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX9-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX9-NEXT: v_mul_hi_u32 v2, v1, v2		; GFX9-NEXT: v_mul_hi_u32 v2, v1, v2
; GFX9-NEXT: s_lshl_b32 s9, s9, 16		; GFX9-NEXT: s_lshl_b32 s10, s10, 16
; GFX9-NEXT: s_or_b32 s5, s5, s9		; GFX9-NEXT: s_or_b32 s5, s5, s10
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0
; GFX9-NEXT: v_add_u32_e32 v1, v1, v2		; GFX9-NEXT: v_add_u32_e32 v1, v1, v2
; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX9-NEXT: s_mov_b32 s9, 0xffffff		; GFX9-NEXT: s_mov_b32 s10, 0xffffff
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v0		; GFX9-NEXT: v_sub_u32_e32 v3, 23, v0
; GFX9-NEXT: v_and_b32_e32 v0, s9, v0		; GFX9-NEXT: v_and_b32_e32 v0, s10, v0
; GFX9-NEXT: s_lshl_b32 s4, s7, 17		; GFX9-NEXT: s_lshl_b32 s4, s7, 17
; GFX9-NEXT: s_lshl_b32 s0, s0, 1		; GFX9-NEXT: s_lshl_b32 s0, s0, 1
; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
; GFX9-NEXT: s_or_b32 s0, s4, s0		; GFX9-NEXT: s_or_b32 s0, s4, s0
; GFX9-NEXT: v_and_b32_e32 v3, s9, v3		; GFX9-NEXT: v_and_b32_e32 v3, s10, v3
; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s2		; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s2
; GFX9-NEXT: v_lshl_or_b32 v0, s0, v3, v0		; GFX9-NEXT: v_lshl_or_b32 v0, s0, v3, v0
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffffff		; GFX9-NEXT: v_mov_b32_e32 v2, 0xffffff
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v1		; GFX9-NEXT: v_sub_u32_e32 v3, 23, v1
; GFX9-NEXT: v_and_b32_e32 v1, v1, v2		; GFX9-NEXT: v_and_b32_e32 v1, v1, v2
; GFX9-NEXT: s_lshl_b32 s0, s8, 17		; GFX9-NEXT: s_lshl_b32 s0, s9, 17
; GFX9-NEXT: s_lshl_b32 s1, s1, 1		; GFX9-NEXT: s_lshl_b32 s1, s1, 1
; GFX9-NEXT: v_and_b32_e32 v3, v3, v2
; GFX9-NEXT: s_or_b32 s0, s0, s1		; GFX9-NEXT: s_or_b32 s0, s0, s1
		; GFX9-NEXT: v_and_b32_e32 v3, v3, v2
; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s3		; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s3
; GFX9-NEXT: v_lshl_or_b32 v1, s0, v3, v1		; GFX9-NEXT: v_lshl_or_b32 v1, s0, v3, v1
; GFX9-NEXT: s_mov_b32 s6, 8		; GFX9-NEXT: s_mov_b32 s6, 8
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0		; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX9-NEXT: v_and_b32_e32 v3, s12, v1
; GFX9-NEXT: v_and_b32_e32 v4, s11, v1		; GFX9-NEXT: s_mov_b32 s8, 16
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1		; GFX9-NEXT: v_and_or_b32 v2, v0, s12, v2
; GFX9-NEXT: v_and_b32_sdwa v1, v1, s11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX9-NEXT: v_and_or_b32 v2, v0, s11, v2		; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
; GFX9-NEXT: v_and_b32_sdwa v0, v0, s11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX9-NEXT: v_or3_b32 v0, v2, v0, v4		; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2
; GFX9-NEXT: v_and_or_b32 v1, v3, s11, v1
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
; GFX9-NEXT: v_readfirstlane_b32 s1, v1		; GFX9-NEXT: v_readfirstlane_b32 s1, v1
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_fshr_v2i24:		; GFX10-LABEL: s_fshr_v2i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, 24		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, 24
; GFX10-NEXT: s_sub_i32 s12, 0, 24		; GFX10-NEXT: s_sub_i32 s13, 0, 24
; GFX10-NEXT: s_movk_i32 s9, 0xff		; GFX10-NEXT: s_movk_i32 s10, 0xff
; GFX10-NEXT: s_lshr_b32 s14, s4, 8		; GFX10-NEXT: s_lshr_b32 s12, s4, 8
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX10-NEXT: s_lshr_b32 s15, s4, 16		; GFX10-NEXT: s_bfe_u32 s11, 8, 0x100000
; GFX10-NEXT: s_bfe_u32 s10, 8, 0x100000		; GFX10-NEXT: s_and_b32 s12, s12, s10
; GFX10-NEXT: s_and_b32 s14, s14, s9		; GFX10-NEXT: s_lshr_b32 s14, s4, 16
; GFX10-NEXT: s_and_b32 s16, s4, s9		; GFX10-NEXT: s_lshr_b32 s15, s4, 24
; GFX10-NEXT: s_lshl_b32 s14, s14, s10		; GFX10-NEXT: s_and_b32 s4, s4, s10
; GFX10-NEXT: s_and_b32 s15, s15, s9		; GFX10-NEXT: s_lshl_b32 s12, s12, s11
; GFX10-NEXT: s_or_b32 s14, s16, s14		; GFX10-NEXT: s_lshr_b32 s16, s5, 8
; GFX10-NEXT: s_lshr_b32 s4, s4, 24		; GFX10-NEXT: s_or_b32 s4, s4, s12
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX10-NEXT: s_bfe_u32 s14, s14, 0x100000		; GFX10-NEXT: s_and_b32 s5, s5, s10
; GFX10-NEXT: s_lshr_b32 s6, s0, 8		; GFX10-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX10-NEXT: s_lshr_b32 s11, s1, 8		; GFX10-NEXT: s_lshl_b32 s5, s5, s11
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX10-NEXT: s_and_b32 s1, s1, s9		; GFX10-NEXT: s_or_b32 s5, s15, s5
; GFX10-NEXT: s_and_b32 s6, s6, s9		; GFX10-NEXT: s_lshr_b32 s9, s1, 8
; GFX10-NEXT: s_lshr_b32 s8, s0, 24		; GFX10-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX10-NEXT: v_mul_lo_u32 v2, s12, v0		; GFX10-NEXT: v_mul_lo_u32 v2, s13, v0
; GFX10-NEXT: v_mul_lo_u32 v3, s12, v1		; GFX10-NEXT: v_mul_lo_u32 v3, s13, v1
; GFX10-NEXT: s_bfe_u32 s12, s15, 0x100000		; GFX10-NEXT: s_and_b32 s13, s14, s10
; GFX10-NEXT: s_lshr_b32 s15, s5, 8		; GFX10-NEXT: s_and_b32 s1, s1, s10
		; GFX10-NEXT: s_bfe_u32 s12, s13, 0x100000
		; GFX10-NEXT: s_lshr_b32 s6, s0, 8
; GFX10-NEXT: s_lshl_b32 s12, s12, 16		; GFX10-NEXT: s_lshl_b32 s12, s12, 16
; GFX10-NEXT: s_and_b32 s5, s5, s9		; GFX10-NEXT: s_lshr_b32 s8, s0, 24
; GFX10-NEXT: s_or_b32 s12, s14, s12
; GFX10-NEXT: s_lshl_b32 s5, s5, s10
; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX10-NEXT: s_and_b32 s14, s15, s9		; GFX10-NEXT: s_or_b32 s4, s4, s12
; GFX10-NEXT: s_or_b32 s4, s4, s5		; GFX10-NEXT: s_and_b32 s12, s16, s10
; GFX10-NEXT: s_bfe_u32 s5, s14, 0x100000		; GFX10-NEXT: s_lshl_b32 s1, s1, s11
; GFX10-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX10-NEXT: s_bfe_u32 s12, s12, 0x100000
; GFX10-NEXT: s_lshl_b32 s5, s5, 16		; GFX10-NEXT: s_or_b32 s1, s8, s1
; GFX10-NEXT: s_lshl_b32 s1, s1, s10		; GFX10-NEXT: s_lshl_b32 s12, s12, 16
; GFX10-NEXT: s_or_b32 s4, s4, s5		; GFX10-NEXT: s_and_b32 s6, s6, s10
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
; GFX10-NEXT: v_mul_hi_u32 v2, v1, v3		; GFX10-NEXT: v_mul_hi_u32 v2, v1, v3
; GFX10-NEXT: s_or_b32 s1, s8, s1		; GFX10-NEXT: s_or_b32 s5, s5, s12
; GFX10-NEXT: s_lshr_b32 s8, s2, 8		; GFX10-NEXT: s_lshr_b32 s8, s2, 8
; GFX10-NEXT: s_lshr_b32 s7, s0, 16		; GFX10-NEXT: s_lshr_b32 s7, s0, 16
; GFX10-NEXT: v_mul_hi_u32 v0, s12, v0		; GFX10-NEXT: v_mul_hi_u32 v0, s4, v0
; GFX10-NEXT: s_and_b32 s0, s0, s9		; GFX10-NEXT: s_and_b32 s8, s8, s10
; GFX10-NEXT: s_lshl_b32 s6, s6, s10		; GFX10-NEXT: s_and_b32 s0, s0, s10
; GFX10-NEXT: s_and_b32 s8, s8, s9		; GFX10-NEXT: s_lshl_b32 s6, s6, s11
; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v2		; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v2
; GFX10-NEXT: s_or_b32 s0, s0, s6		; GFX10-NEXT: s_or_b32 s0, s0, s6
; GFX10-NEXT: s_and_b32 s6, s7, s9		; GFX10-NEXT: s_and_b32 s6, s7, s10
; GFX10-NEXT: s_and_b32 s7, s11, s9		; GFX10-NEXT: s_and_b32 s7, s9, s10
; GFX10-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX10-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX10-NEXT: v_mul_hi_u32 v1, s4, v1		; GFX10-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX10-NEXT: s_lshr_b32 s11, s2, 16		; GFX10-NEXT: s_lshr_b32 s9, s2, 16
; GFX10-NEXT: s_and_b32 s13, s2, s9		; GFX10-NEXT: s_lshr_b32 s13, s2, 24
; GFX10-NEXT: s_lshl_b32 s5, s8, s10		; GFX10-NEXT: s_and_b32 s2, s2, s10
; GFX10-NEXT: s_and_b32 s8, s11, s9		; GFX10-NEXT: s_lshl_b32 s8, s8, s11
; GFX10-NEXT: s_lshr_b32 s11, s3, 8		; GFX10-NEXT: s_lshr_b32 s12, s3, 8
; GFX10-NEXT: s_and_b32 s3, s3, s9		; GFX10-NEXT: s_or_b32 s2, s2, s8
; GFX10-NEXT: v_sub_nc_u32_e32 v0, s12, v0		; GFX10-NEXT: v_sub_nc_u32_e32 v0, s4, v0
; GFX10-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX10-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX10-NEXT: s_or_b32 s5, s13, s5		; GFX10-NEXT: s_and_b32 s8, s9, s10
; GFX10-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX10-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX10-NEXT: s_lshr_b32 s2, s2, 24		; GFX10-NEXT: s_bfe_u32 s4, s8, 0x100000
; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0		; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0
; GFX10-NEXT: s_lshl_b32 s3, s3, s10		; GFX10-NEXT: s_lshl_b32 s4, s4, 16
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffffff		; GFX10-NEXT: s_and_b32 s3, s3, s10
; GFX10-NEXT: v_sub_nc_u32_e32 v1, s4, v1		; GFX10-NEXT: v_sub_nc_u32_e32 v1, s5, v1
; GFX10-NEXT: s_mov_b32 s4, 0xffffff		; GFX10-NEXT: s_or_b32 s2, s2, s4
; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
		; GFX10-NEXT: s_mov_b32 s4, 0xffffff
		; GFX10-NEXT: s_lshl_b32 s3, s3, s11
		; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v1
		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1
		; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v0
		; GFX10-NEXT: s_and_b32 s5, s12, s10
		; GFX10-NEXT: s_or_b32 s3, s13, s3
; GFX10-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX10-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX10-NEXT: s_lshl_b32 s8, s8, 16		; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v1
; GFX10-NEXT: s_or_b32 s2, s2, s3
; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v0
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v0
; GFX10-NEXT: s_and_b32 s3, s11, s9
; GFX10-NEXT: s_or_b32 s5, s5, s8
; GFX10-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX10-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1
; GFX10-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX10-NEXT: s_bfe_u32 s3, s3, 0x100000
; GFX10-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX10-NEXT: s_lshl_b32 s5, s5, 16
; GFX10-NEXT: s_lshl_b32 s3, s3, 16		; GFX10-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX10-NEXT: v_sub_nc_u32_e32 v2, 23, v0		; GFX10-NEXT: v_subrev_nc_u32_e32 v2, 24, v1
; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc_lo
; GFX10-NEXT: v_and_b32_e32 v0, s4, v0
; GFX10-NEXT: s_lshl_b32 s6, s6, 17
; GFX10-NEXT: s_lshl_b32 s0, s0, 1
; GFX10-NEXT: v_and_b32_e32 v2, s4, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v3, 24, v1
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 24, v1
; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, s5		; GFX10-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX10-NEXT: s_or_b32 s0, s6, s0		; GFX10-NEXT: s_or_b32 s3, s3, s5
; GFX10-NEXT: s_or_b32 s2, s2, s3
; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX10-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo		; GFX10-NEXT: v_sub_nc_u32_e32 v3, 23, v0
		; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
		; GFX10-NEXT: v_mov_b32_e32 v2, 0xffffff
		; GFX10-NEXT: v_and_b32_e32 v0, s4, v0
; GFX10-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX10-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX10-NEXT: v_lshl_or_b32 v0, s0, v2, v0		; GFX10-NEXT: v_and_b32_e32 v3, s4, v3
; GFX10-NEXT: s_lshl_b32 s0, s7, 17		; GFX10-NEXT: v_sub_nc_u32_e32 v4, 23, v1
		; GFX10-NEXT: v_and_b32_e32 v1, v1, v2
		; GFX10-NEXT: v_lshrrev_b32_e64 v0, v0, s2
		; GFX10-NEXT: s_lshl_b32 s5, s6, 17
		; GFX10-NEXT: s_lshl_b32 s0, s0, 1
		; GFX10-NEXT: v_and_b32_e32 v2, v4, v2
		; GFX10-NEXT: v_lshrrev_b32_e64 v1, v1, s3
		; GFX10-NEXT: s_or_b32 s0, s5, s0
		; GFX10-NEXT: s_lshl_b32 s2, s7, 17
; GFX10-NEXT: s_lshl_b32 s1, s1, 1		; GFX10-NEXT: s_lshl_b32 s1, s1, 1
; GFX10-NEXT: v_sub_nc_u32_e32 v3, 23, v1		; GFX10-NEXT: v_lshl_or_b32 v0, s0, v3, v0
; GFX10-NEXT: v_and_b32_e32 v1, v1, v4		; GFX10-NEXT: s_or_b32 s0, s2, s1
; GFX10-NEXT: s_or_b32 s0, s0, s1
; GFX10-NEXT: v_and_b32_e32 v2, v3, v4
; GFX10-NEXT: v_lshrrev_b32_e64 v1, v1, s2
; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX10-NEXT: v_lshl_or_b32 v1, s0, v2, v1		; GFX10-NEXT: v_lshl_or_b32 v1, s0, v2, v1
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX10-NEXT: v_and_b32_e32 v3, s9, v1		; GFX10-NEXT: s_mov_b32 s0, 16
; GFX10-NEXT: v_and_b32_sdwa v4, v1, s9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-NEXT: v_and_b32_e32 v3, s10, v1
; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v1		; GFX10-NEXT: v_bfe_u32 v4, v1, 8, 8
; GFX10-NEXT: v_and_or_b32 v2, v0, s9, v2		; GFX10-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX10-NEXT: v_and_b32_sdwa v0, v0, s9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-NEXT: v_and_or_b32 v2, v0, s10, v2
		; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 8, v4		; GFX10-NEXT: v_lshl_or_b32 v1, v1, 8, v4
; GFX10-NEXT: v_or3_b32 v0, v2, v0, v3		; GFX10-NEXT: v_or3_b32 v0, v2, v0, v3
; GFX10-NEXT: v_and_or_b32 v1, v1, s9, v4
; GFX10-NEXT: v_readfirstlane_b32 s0, v0
; GFX10-NEXT: v_readfirstlane_b32 s1, v1		; GFX10-NEXT: v_readfirstlane_b32 s1, v1
		; GFX10-NEXT: v_readfirstlane_b32 s0, v0
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
%lhs = bitcast i48 %lhs.arg to <2 x i24>		%lhs = bitcast i48 %lhs.arg to <2 x i24>
%rhs = bitcast i48 %rhs.arg to <2 x i24>		%rhs = bitcast i48 %rhs.arg to <2 x i24>
%amt = bitcast i48 %amt.arg to <2 x i24>		%amt = bitcast i48 %amt.arg to <2 x i24>
%result = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt)		%result = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt)
%cast.result = bitcast <2 x i24> %result to i48		%cast.result = bitcast <2 x i24> %result to i48
ret i48 %cast.result		ret i48 %cast.result
}		}
▲ Show 20 Lines • Show All 4,824 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 715 Lines • ▼ Show 20 Lines
	; store <3 x i8> %insert, <3 x i8> addrspace(1)* null			; store <3 x i8> %insert, <3 x i8> addrspace(1)* null
	; ret void			; ret void
	; }			; }

	define amdgpu_ps void @insertelement_v_v4i8_s_s(<4 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v4i8_s_s(<4 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v4i8_s_s:			; GFX9-LABEL: insertelement_v_v4i8_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_movk_i32 s1, 0xff
	; GFX9-NEXT: s_and_b32 s3, s3, 3			; GFX9-NEXT: s_and_b32 s3, s3, 3
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_and_b32 s2, s2, s1			; GFX9-NEXT: s_movk_i32 s4, 0xff
				; GFX9-NEXT: s_mov_b32 s1, 16
				; GFX9-NEXT: s_and_b32 s2, s2, s4
	; GFX9-NEXT: s_lshl_b32 s3, s3, 3			; GFX9-NEXT: s_lshl_b32 s3, s3, 3
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshl_b32 s2, s2, s3
	; GFX9-NEXT: s_lshl_b32 s3, s1, s3			; GFX9-NEXT: s_lshl_b32 s3, s4, s3
	; GFX9-NEXT: s_not_b32 s3, s3			; GFX9-NEXT: s_not_b32 s3, s3
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, 8			; GFX9-NEXT: v_mov_b32_e32 v1, 8
				; GFX9-NEXT: v_mov_b32_e32 v2, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v5, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX9-NEXT: v_or3_b32 v0, v0, v6, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v5, v4			; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v3
	; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v4, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX9-NEXT: v_or3_b32 v2, v0, v4, v2			; GFX9-NEXT: v_or3_b32 v2, v0, v2, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v4i8_s_s:			; GFX8-LABEL: insertelement_v_v4i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
				; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: s_and_b32 s1, s3, 3			; GFX8-NEXT: s_and_b32 s1, s3, 3
	; GFX8-NEXT: v_mov_b32_e32 v3, s0			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s1			; GFX8-NEXT: s_lshl_b32 s2, s2, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
				; GFX8-NEXT: v_mov_b32_e32 v4, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v6, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_e32 v0, s0, v0			; GFX8-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_or_b32_e32 v0, s2, v0			; GFX8-NEXT: v_or_b32_e32 v0, s2, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v3, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v2			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i8_s_s:			; GFX7-LABEL: insertelement_v_v4i8_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: s_and_b32 s1, s3, 3			; GFX7-NEXT: s_and_b32 s1, s3, 3
	; GFX7-NEXT: s_and_b32 s2, s2, s0			; GFX7-NEXT: s_and_b32 s2, s2, s0
	; GFX7-NEXT: s_lshl_b32 s1, s1, 3			; GFX7-NEXT: s_lshl_b32 s1, s1, 3
	; GFX7-NEXT: s_lshl_b32 s2, s2, s1			; GFX7-NEXT: s_lshl_b32 s2, s2, s1
	; GFX7-NEXT: s_lshl_b32 s1, s0, s1			; GFX7-NEXT: s_lshl_b32 s1, s0, s1
	; GFX7-NEXT: s_not_b32 s1, s1			; GFX7-NEXT: s_not_b32 s1, s1
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v2, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s1, v0			; GFX7-NEXT: v_and_b32_e32 v0, s1, v0
	; GFX7-NEXT: v_or_b32_e32 v0, s2, v0			; GFX7-NEXT: v_or_b32_e32 v0, s2, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v2, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v4i8_s_s:			; GFX10-LABEL: insertelement_v_v4i8_s_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_and_b32 s1, s3, 3			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3			; GFX10-NEXT: s_and_b32 s2, s2, s1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX10-NEXT: s_and_b32 s2, s2, s0			; GFX10-NEXT: s_and_b32 s0, s3, 3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: s_lshl_b32 s3, s0, s1			; GFX10-NEXT: s_lshl_b32 s0, s0, 3
	; GFX10-NEXT: s_lshl_b32 s1, s2, s1			; GFX10-NEXT: v_or3_b32 v0, v0, v3, v1
				; GFX10-NEXT: s_lshl_b32 s3, s1, s0
				; GFX10-NEXT: s_lshl_b32 s0, s2, s0
	; GFX10-NEXT: s_not_b32 s2, s3			; GFX10-NEXT: s_not_b32 s2, s3
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_or3_b32 v0, v0, v3, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, s0
	; GFX10-NEXT: v_and_or_b32 v0, v0, s2, s1			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX10-NEXT: v_or3_b32 v2, v0, v2, v1
	; GFX10-NEXT: v_or3_b32 v2, v0, v2, v3
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(1 )* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(1 )* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v4i8_v_s(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v4i8_v_s(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v4i8_v_s:			; GFX9-LABEL: insertelement_s_v4i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s6, 0xff			; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: v_and_b32_e32 v0, s6, v0			; GFX9-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s1, 8
				; GFX9-NEXT: s_mov_b32 s2, 16
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s1, 8			; GFX9-NEXT: s_bfe_u32 s7, s0, 0x80008
	; GFX9-NEXT: s_and_b32 s2, s2, s6			; GFX9-NEXT: s_lshr_b32 s3, s0, 24
	; GFX9-NEXT: s_lshr_b32 s3, s1, 16			; GFX9-NEXT: s_and_b32 s6, s0, s5
	; GFX9-NEXT: s_lshr_b32 s5, s1, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX9-NEXT: s_and_b32 s1, s1, s6			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s6, s6, s7
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s2, s3, s6			; GFX9-NEXT: s_or_b32 s0, s6, s0
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_lshl_b32 s3, s3, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s2, s5, 24			; GFX9-NEXT: s_and_b32 s3, s4, 3
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s3, s3, 3
	; GFX9-NEXT: s_and_b32 s2, s4, 3			; GFX9-NEXT: s_lshl_b32 s4, s5, s3
	; GFX9-NEXT: s_lshl_b32 s2, s2, 3			; GFX9-NEXT: s_andn2_b32 s0, s0, s4
	; GFX9-NEXT: s_lshl_b32 s3, s6, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: s_andn2_b32 s1, s1, s3			; GFX9-NEXT: v_lshl_or_b32 v0, v0, s3, v1
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, s2, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_and_or_b32 v2, v0, s5, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX9-NEXT: v_and_or_b32 v1, v0, s6, v1			; GFX9-NEXT: v_or3_b32 v2, v2, v0, v1
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX9-NEXT: v_or3_b32 v2, v1, v0, v2
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v4i8_v_s:			; GFX8-LABEL: insertelement_s_v4i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s5, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
				; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s1, s0, 8			; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
	; GFX8-NEXT: s_and_b32 s1, s1, s5			; GFX8-NEXT: s_lshr_b32 s2, s1, 24
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_and_b32 s3, s1, s0
	; GFX8-NEXT: s_lshr_b32 s3, s0, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GFX8-NEXT: s_and_b32 s0, s0, s5			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_or_b32 s3, s3, s5
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s2, s5
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s3, s1
	; GFX8-NEXT: s_lshl_b32 s1, s3, 24			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_and_b32 s1, s4, 3			; GFX8-NEXT: s_and_b32 s2, s4, 3
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s2, s2, 3
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s2
	; GFX8-NEXT: s_lshl_b32 s1, s5, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_andn2_b32 s0, s0, s1			; GFX8-NEXT: s_andn2_b32 s0, s1, s0
	; GFX8-NEXT: v_or_b32_e32 v0, s0, v0			; GFX8-NEXT: v_or_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v1			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v4i8_v_s:			; GFX7-LABEL: insertelement_s_v4i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s5, 0xff			; GFX7-NEXT: s_movk_i32 s5, 0xff
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX7-NEXT: s_and_b32 s1, s1, s5			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s2, s0, 16			; GFX7-NEXT: s_and_b32 s2, s0, s5
	; GFX7-NEXT: s_lshr_b32 s3, s0, 24			; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX7-NEXT: s_and_b32 s0, s0, s5			; GFX7-NEXT: s_lshl_b32 s3, s3, 8
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_and_b32 s1, s2, s5			; GFX7-NEXT: s_or_b32 s0, s2, s0
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s3, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s4, 3			; GFX7-NEXT: s_and_b32 s1, s4, 3
	; GFX7-NEXT: s_lshl_b32 s1, s1, 3			; GFX7-NEXT: s_lshl_b32 s1, s1, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, s1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, s1, v0
	; GFX7-NEXT: s_lshl_b32 s1, s5, s1			; GFX7-NEXT: s_lshl_b32 s1, s5, s1
	; GFX7-NEXT: s_andn2_b32 s0, s0, s1			; GFX7-NEXT: s_andn2_b32 s0, s0, s1
	; GFX7-NEXT: v_or_b32_e32 v0, s0, v0			; GFX7-NEXT: v_or_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s5, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_and_b32_e32 v2, s5, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s5, v2			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v4i8_v_s:			; GFX10-LABEL: insertelement_s_v4i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: s_and_b32 s1, s4, 3			; GFX10-NEXT: s_and_b32 s1, s4, 3
	; GFX10-NEXT: v_and_b32_e32 v0, s2, v0			; GFX10-NEXT: v_and_b32_e32 v0, s2, v0
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3			; GFX10-NEXT: s_lshl_b32 s1, s1, 3
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s3, s0, 8			; GFX10-NEXT: s_bfe_u32 s5, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s4, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 24
	; GFX10-NEXT: s_and_b32 s3, s3, s2			; GFX10-NEXT: s_and_b32 s4, s0, s2
	; GFX10-NEXT: s_and_b32 s4, s4, s2			; GFX10-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_and_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshl_b32 s3, s3, 8			; GFX10-NEXT: s_or_b32 s4, s4, s5
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_or_b32 s0, s4, s0
	; GFX10-NEXT: s_lshl_b32 s3, s5, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s4
	; GFX10-NEXT: s_lshl_b32 s4, s2, s1			; GFX10-NEXT: s_lshl_b32 s4, s2, s1
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_andn2_b32 s0, s0, s4			; GFX10-NEXT: s_andn2_b32 s0, s0, s4
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, s1, s0			; GFX10-NEXT: v_lshl_or_b32 v0, v0, s1, s0
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v1
	; GFX10-NEXT: v_or3_b32 v2, v0, v3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
				; GFX10-NEXT: v_or3_b32 v2, v0, v3, v1
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v4i8_s_v(<4 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v4i8_s_v(<4 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v4i8_s_v:			; GFX9-LABEL: insertelement_s_v4i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s6, 0xff			; GFX9-NEXT: s_movk_i32 s5, 0xff
	; GFX9-NEXT: v_and_b32_e32 v0, 3, v0			; GFX9-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s1, 8
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s1, 8			; GFX9-NEXT: s_bfe_u32 s7, s0, 0x80008
	; GFX9-NEXT: s_and_b32 s2, s2, s6			; GFX9-NEXT: s_lshr_b32 s3, s0, 24
	; GFX9-NEXT: s_lshr_b32 s3, s1, 16			; GFX9-NEXT: s_and_b32 s6, s0, s5
	; GFX9-NEXT: s_lshr_b32 s5, s1, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX9-NEXT: s_and_b32 s1, s1, s6			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s6, s6, s7
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s2, s3, s6			; GFX9-NEXT: s_or_b32 s0, s6, s0
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_lshl_b32 s3, s3, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s2, s5, 24			; GFX9-NEXT: s_and_b32 s3, s4, s5
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: v_lshlrev_b32_e64 v1, v0, s3
	; GFX9-NEXT: s_and_b32 s2, s4, s6			; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s5
	; GFX9-NEXT: v_lshlrev_b32_e64 v1, v0, s2
	; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s6
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX9-NEXT: v_and_or_b32 v0, s1, v0, v1			; GFX9-NEXT: v_and_or_b32 v0, s0, v0, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: s_mov_b32 s2, 16
	; GFX9-NEXT: v_and_or_b32 v1, v0, s6, v1			; GFX9-NEXT: v_and_or_b32 v2, v0, s5, v2
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX9-NEXT: v_or3_b32 v2, v1, v0, v2			; GFX9-NEXT: v_or3_b32 v2, v2, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v4i8_s_v:			; GFX8-LABEL: insertelement_s_v4i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s5, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_and_b32_e32 v0, 3, v0			; GFX8-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s1, s0, 8			; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80008
	; GFX8-NEXT: s_and_b32 s1, s1, s5			; GFX8-NEXT: s_lshr_b32 s2, s1, 24
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_and_b32 s3, s1, s0
	; GFX8-NEXT: s_lshr_b32 s3, s0, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GFX8-NEXT: s_and_b32 s0, s0, s5			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_or_b32 s3, s3, s5
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s2, s5
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s3, s1
	; GFX8-NEXT: s_lshl_b32 s1, s3, 24			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_and_b32 s1, s4, s5			; GFX8-NEXT: s_and_b32 s2, s4, s0
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v0, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v0, s2
	; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s5			; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s0
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: v_and_b32_e32 v0, s0, v0			; GFX8-NEXT: v_and_b32_e32 v0, s1, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v1			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v4i8_s_v:			; GFX7-LABEL: insertelement_s_v4i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s5, 0xff			; GFX7-NEXT: s_movk_i32 s5, 0xff
	; GFX7-NEXT: v_and_b32_e32 v0, 3, v0			; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX7-NEXT: s_and_b32 s1, s1, s5			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s2, s0, 16			; GFX7-NEXT: s_and_b32 s2, s0, s5
	; GFX7-NEXT: s_lshr_b32 s3, s0, 24			; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX7-NEXT: s_and_b32 s0, s0, s5			; GFX7-NEXT: s_lshl_b32 s3, s3, 8
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_and_b32 s1, s2, s5			; GFX7-NEXT: s_or_b32 s0, s2, s0
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s3, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s4, s5			; GFX7-NEXT: s_and_b32 s1, s4, s5
	; GFX7-NEXT: v_lshl_b32_e32 v1, s1, v0			; GFX7-NEXT: v_lshl_b32_e32 v1, s1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v0, s5, v0			; GFX7-NEXT: v_lshl_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s5, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_and_b32_e32 v2, s5, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s5, v2			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v4i8_s_v:			; GFX10-LABEL: insertelement_s_v4i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v0			; GFX10-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_and_b32 s2, s4, s1			; GFX10-NEXT: s_and_b32 s2, s4, s1
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_lshlrev_b32_e64 v1, v0, s1			; GFX10-NEXT: v_lshlrev_b32_e64 v1, v0, s1
	; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s2			; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s2
	; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX10-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s4, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s2, s0, 24
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s3, s0, s1
	; GFX10-NEXT: s_and_b32 s3, s3, s1			; GFX10-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_and_b32 s0, s0, s1			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_or_b32 s3, s3, s4
	; GFX10-NEXT: s_lshl_b32 s3, s3, 16			; GFX10-NEXT: s_lshl_b32 s2, s2, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s4, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: v_and_or_b32 v0, s0, v1, v0			; GFX10-NEXT: v_and_or_b32 v0, s0, v1, v0
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX10-NEXT: v_or3_b32 v2, v0, v3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
				; GFX10-NEXT: v_or3_b32 v2, v0, v3, v1
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v4i8_v_v(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v4i8_v_v(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v4i8_v_v:			; GFX9-LABEL: insertelement_s_v4i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s5, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_and_b32_e32 v1, 3, v1			; GFX9-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s1, 8			; GFX9-NEXT: s_bfe_u32 s6, s0, 0x80008
	; GFX9-NEXT: s_and_b32 s2, s2, s5			; GFX9-NEXT: s_lshr_b32 s3, s0, 24
	; GFX9-NEXT: s_lshr_b32 s3, s1, 16			; GFX9-NEXT: s_and_b32 s5, s0, s4
	; GFX9-NEXT: s_lshr_b32 s4, s1, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX9-NEXT: s_and_b32 s1, s1, s5			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s5, s5, s6
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s2, s3, s5			; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s4
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s0, s5, s0
	; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s5			; GFX9-NEXT: s_lshl_b32 s3, s3, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s2, s4, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX9-NEXT: v_and_or_b32 v0, s1, v1, v0			; GFX9-NEXT: v_and_or_b32 v0, s0, v1, v0
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s1, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: s_mov_b32 s2, 16
	; GFX9-NEXT: v_and_or_b32 v1, v0, s5, v1			; GFX9-NEXT: v_and_or_b32 v2, v0, s4, v2
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX9-NEXT: v_or3_b32 v2, v1, v0, v2			; GFX9-NEXT: v_or3_b32 v2, v2, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v4i8_v_v:			; GFX8-LABEL: insertelement_s_v4i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX8-NEXT: s_load_dword s1, s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s4, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_and_b32_e32 v1, 3, v1			; GFX8-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s1, s0, 8			; GFX8-NEXT: s_bfe_u32 s4, s1, 0x80008
	; GFX8-NEXT: s_and_b32 s1, s1, s4			; GFX8-NEXT: s_lshr_b32 s2, s1, 24
	; GFX8-NEXT: s_lshr_b32 s2, s0, 16			; GFX8-NEXT: s_and_b32 s3, s1, s0
	; GFX8-NEXT: s_lshr_b32 s3, s0, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, 0x80010
	; GFX8-NEXT: s_and_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s4, s4, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_or_b32 s3, s3, s4
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s2, s4
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s4			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s3, s1
	; GFX8-NEXT: s_lshl_b32 s1, s3, 24			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_and_b32_e32 v1, s0, v1			; GFX8-NEXT: v_and_b32_e32 v1, s1, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_mov_b32_e32 v3, s4			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v1			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v4i8_v_v:			; GFX7-LABEL: insertelement_s_v4i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff			; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_and_b32_e32 v1, 3, v1			; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
	; GFX7-NEXT: s_and_b32 s1, s1, s4			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s2, s0, 16			; GFX7-NEXT: s_and_b32 s2, s0, s4
	; GFX7-NEXT: s_lshr_b32 s3, s0, 24			; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX7-NEXT: s_and_b32 s0, s0, s4			; GFX7-NEXT: s_lshl_b32 s3, s3, 8
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_and_b32 s1, s2, s4			; GFX7-NEXT: s_or_b32 s0, s2, s0
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s3, 24
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s4, v1
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_and_b32_e32 v2, s4, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v4i8_v_v:			; GFX10-LABEL: insertelement_s_v4i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX10-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v1			; GFX10-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_lshlrev_b32_e64 v2, v1, s1			; GFX10-NEXT: v_lshlrev_b32_e64 v2, v1, s1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_xor_b32_e32 v1, -1, v2			; GFX10-NEXT: v_xor_b32_e32 v1, -1, v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_bfe_u32 s4, s0, 0x80008
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s2, s0, 24
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_and_b32 s3, s0, s1
	; GFX10-NEXT: s_and_b32 s3, s3, s1			; GFX10-NEXT: s_bfe_u32 s0, s0, 0x80010
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_and_b32 s0, s0, s1			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_or_b32 s3, s3, s4
	; GFX10-NEXT: s_lshl_b32 s3, s3, 16			; GFX10-NEXT: s_lshl_b32 s2, s2, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s3, s0
	; GFX10-NEXT: s_lshl_b32 s2, s4, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s2			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: v_and_or_b32 v0, s0, v1, v0			; GFX10-NEXT: v_and_or_b32 v0, s0, v1, v0
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v3, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX10-NEXT: v_or3_b32 v2, v0, v3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v2
				; GFX10-NEXT: v_or3_b32 v2, v0, v3, v1
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(4)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v4i8_s_v(<4 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v4i8_s_v(<4 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v4i8_s_v:			; GFX9-LABEL: insertelement_v_v4i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_movk_i32 s1, 0xff
	; GFX9-NEXT: v_and_b32_e32 v2, 3, v2			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_and_b32 s2, s2, s1			; GFX9-NEXT: s_movk_i32 s3, 0xff
				; GFX9-NEXT: s_mov_b32 s1, 16
				; GFX9-NEXT: s_and_b32 s2, s2, s3
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX9-NEXT: v_lshlrev_b32_e64 v3, v2, s2			; GFX9-NEXT: v_lshlrev_b32_e64 v4, v2, s2
	; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s1			; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s3
	; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX9-NEXT: v_mov_b32_e32 v1, 8			; GFX9-NEXT: v_mov_b32_e32 v1, 8
				; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v6, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v4			; GFX9-NEXT: v_or3_b32 v0, v0, v7, v5
	; GFX9-NEXT: v_or3_b32 v0, v0, v6, v5			; GFX9-NEXT: v_and_or_b32 v0, v0, v2, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, v2, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v1
	; GFX9-NEXT: v_and_b32_sdwa v4, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX9-NEXT: v_or3_b32 v2, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX9-NEXT: v_or3_b32 v2, v0, v4, v2
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v4i8_s_v:			; GFX8-LABEL: insertelement_v_v4i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v1, 8
				; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_lshlrev_b32_e64 v5, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v6, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
				; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_e32 v0, v0, v2			; GFX8-NEXT: v_and_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v4, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i8_s_v:			; GFX7-LABEL: insertelement_v_v4i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: v_and_b32_e32 v1, 3, v2			; GFX7-NEXT: v_and_b32_e32 v1, 3, v2
	; GFX7-NEXT: s_and_b32 s1, s2, s0			; GFX7-NEXT: s_and_b32 s1, s2, s0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_lshl_b32_e32 v2, s1, v1			; GFX7-NEXT: v_lshl_b32_e32 v2, s1, v1
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v3, s0, v3			; GFX7-NEXT: v_and_b32_e32 v4, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s0, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3			; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v1			; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v2, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v4i8_s_v:			; GFX10-LABEL: insertelement_v_v4i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v2			; GFX10-NEXT: v_and_b32_e32 v1, 3, v2
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_lshlrev_b32_e64 v4, v1, s1			; GFX10-NEXT: v_lshlrev_b32_e64 v4, v1, s1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v5, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
				; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: s_and_b32 s0, s2, s1			; GFX10-NEXT: s_and_b32 s0, s2, s1
				; GFX10-NEXT: v_xor_b32_e32 v3, -1, v4
	; GFX10-NEXT: v_lshlrev_b32_e64 v1, v1, s0			; GFX10-NEXT: v_lshlrev_b32_e64 v1, v1, s0
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v5, v2
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v4			; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_or3_b32 v0, v0, v5, v3			; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v0, v0, v2, v1			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX10-NEXT: v_or3_b32 v2, v0, v1, v2
	; GFX10-NEXT: v_or3_b32 v2, v0, v2, v3
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v4i8_v_s(<4 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v4i8_v_s(<4 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v4i8_v_s:			; GFX9-LABEL: insertelement_v_v4i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: s_and_b32 s2, s2, 3			; GFX9-NEXT: s_and_b32 s2, s2, 3
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, 3			; GFX9-NEXT: s_lshl_b32 s2, s2, 3
				; GFX9-NEXT: s_movk_i32 s3, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: s_lshl_b32 s2, s1, s2			; GFX9-NEXT: s_lshl_b32 s2, s3, s2
	; GFX9-NEXT: s_not_b32 s2, s2			; GFX9-NEXT: s_not_b32 s2, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, 8			; GFX9-NEXT: v_mov_b32_e32 v1, 8
				; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v5, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX9-NEXT: v_or3_b32 v0, v0, v6, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v5, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s2, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s2, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v4, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v1			; GFX9-NEXT: v_or3_b32 v2, v0, v3, v1
	; GFX9-NEXT: v_or3_b32 v2, v0, v4, v2
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v4i8_v_s:			; GFX8-LABEL: insertelement_v_v4i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
				; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: v_mov_b32_e32 v5, s1			; GFX8-NEXT: v_mov_b32_e32 v3, 16
				; GFX8-NEXT: v_mov_b32_e32 v6, s1
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
				; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_and_b32_sdwa v7, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_e32 v0, s0, v0			; GFX8-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v4, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i8_v_s:			; GFX7-LABEL: insertelement_v_v4i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v2
	; GFX7-NEXT: s_and_b32 s1, s2, 3			; GFX7-NEXT: s_and_b32 s1, s2, 3
				; GFX7-NEXT: v_and_b32_e32 v1, s0, v2
	; GFX7-NEXT: s_lshl_b32 s1, s1, 3			; GFX7-NEXT: s_lshl_b32 s1, s1, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, s1, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, s1, v1
	; GFX7-NEXT: s_lshl_b32 s1, s0, s1			; GFX7-NEXT: s_lshl_b32 s1, s0, s1
	; GFX7-NEXT: s_not_b32 s1, s1			; GFX7-NEXT: s_not_b32 s1, s1
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v4, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v3, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s0, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v0, s1, v0			; GFX7-NEXT: v_and_b32_e32 v0, s1, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_and_b32_e32 v2, s0, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
				; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1			; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v4i8_v_s:			; GFX10-LABEL: insertelement_v_v4i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_and_b32 s1, s2, 3			; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: s_lshl_b32 s1, s1, 3			; GFX10-NEXT: s_and_b32 s2, s2, 3
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_movk_i32 s0, 0xff			; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v4, v0, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_lshl_b32 s1, s2, 3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_lshl_b32 s1, s0, s1			; GFX10-NEXT: s_lshl_b32 s1, s0, s1
	; GFX10-NEXT: s_not_b32 s1, s1			; GFX10-NEXT: s_not_b32 s1, s1
	; GFX10-NEXT: v_or3_b32 v0, v0, v4, v3			; GFX10-NEXT: v_or3_b32 v0, v0, v4, v1
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
				; GFX10-NEXT: v_mov_b32_e32 v2, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v1
	; GFX10-NEXT: v_or3_b32 v2, v0, v2, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 24, v3
				; GFX10-NEXT: v_or3_b32 v2, v0, v2, v1
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v4i8_v_v(<4 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v4i8_v_v(<4 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v4i8_v_v:			; GFX9-LABEL: insertelement_v_v4i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dword v0, v[0:1], off			; GFX9-NEXT: global_load_dword v0, v[0:1], off
	; GFX9-NEXT: v_and_b32_e32 v3, 3, v3			; GFX9-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3
				; GFX9-NEXT: s_movk_i32 s2, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e64 v3, v3, s1			; GFX9-NEXT: v_lshlrev_b32_e64 v3, v3, s2
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX9-NEXT: v_mov_b32_e32 v4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 8
	; GFX9-NEXT: v_mov_b32_e32 v1, 0xff			; GFX9-NEXT: v_mov_b32_e32 v1, 0xff
				; GFX9-NEXT: v_mov_b32_e32 v5, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, s0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v7, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s2, v7
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v5			; GFX9-NEXT: v_or3_b32 v0, v0, v8, v6
	; GFX9-NEXT: v_or3_b32 v0, v0, v7, v6
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v5, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 24, v2
	; GFX9-NEXT: v_and_or_b32 v0, v0, v1, v2			; GFX9-NEXT: v_or3_b32 v2, v0, v4, v1
	; GFX9-NEXT: v_or3_b32 v2, v0, v5, v3
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v4i8_v_v:			; GFX8-LABEL: insertelement_v_v4i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, s0
	; GFX8-NEXT: v_and_b32_e32 v3, 3, v3			; GFX8-NEXT: v_and_b32_e32 v3, 3, v3
				; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v3, v3, s0
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_mov_b32_e32 v5, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, 0xff			; GFX8-NEXT: v_mov_b32_e32 v1, 0xff
				; GFX8-NEXT: v_lshlrev_b32_e32 v1, v3, v1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
				; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
				; GFX8-NEXT: v_mov_b32_e32 v6, 8
				; GFX8-NEXT: v_mov_b32_e32 v7, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v6, v0, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_and_b32_e32 v0, v0, v3			; GFX8-NEXT: v_and_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v1, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v0, v3			; GFX8-NEXT: v_or_b32_e32 v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, 0			; GFX8-NEXT: v_mov_b32_e32 v0, 0
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i8_v_v:			; GFX7-LABEL: insertelement_v_v4i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s2, 0			; GFX7-NEXT: s_mov_b32 s2, 0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64
	; GFX7-NEXT: s_movk_i32 s2, 0xff			; GFX7-NEXT: s_movk_i32 s2, 0xff
	; GFX7-NEXT: v_and_b32_e32 v3, 3, v3			; GFX7-NEXT: v_and_b32_e32 v3, 3, v3
				; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX7-NEXT: v_and_b32_e32 v2, s2, v2			; GFX7-NEXT: v_and_b32_e32 v2, s2, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_lshl_b32_e32 v3, s2, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v1
	; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v4, s2, v4			; GFX7-NEXT: v_and_b32_e32 v5, s2, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v5, s2, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v3			; GFX7-NEXT: v_and_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_and_b32_e32 v1, v0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, v3, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v4i8_v_v:			; GFX10-LABEL: insertelement_v_v4i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dword v0, v[0:1], off			; GFX10-NEXT: global_load_dword v0, v[0:1], off
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v3			; GFX10-NEXT: v_and_b32_e32 v1, 3, v3
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_lshlrev_b32_e64 v5, v1, s1			; GFX10-NEXT: v_lshlrev_b32_e64 v5, v1, s1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v5			; GFX10-NEXT: v_xor_b32_e32 v2, -1, v5
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 16
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xff			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v3
				; GFX10-NEXT: v_mov_b32_e32 v3, 8
	; GFX10-NEXT: v_and_or_b32 v0, v0, v2, v1			; GFX10-NEXT: v_and_or_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, 8			; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v0, 0xff, v0, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10-NEXT: v_or3_b32 v2, v0, v1, v2
	; GFX10-NEXT: v_or3_b32 v2, v0, v2, v4
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, 0			; GFX10-NEXT: v_mov_b32_e32 v1, 0
	; GFX10-NEXT: global_store_dword v[0:1], v2, off			; GFX10-NEXT: global_store_dword v[0:1], v2, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr			%vec = load <4 x i8>, <4 x i8> addrspace(1)* %ptr
	%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <4 x i8> %vec, i8 %val, i32 %idx
	store <4 x i8> %insert, <4 x i8> addrspace(1)* null			store <4 x i8> %insert, <4 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v8i8_s_s(<8 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v8i8_s_s(<8 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v8i8_s_s:			; GFX9-LABEL: insertelement_s_v8i8_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s10, 0xff			; GFX9-NEXT: s_mov_b32 s8, 0x80008
				; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_bfe_u32 s9, s0, s8
	; GFX9-NEXT: s_and_b32 s2, s2, s10			; GFX9-NEXT: s_and_b32 s7, s0, s6
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: s_lshl_b32 s9, s9, 8
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_or_b32 s7, s7, s9
	; GFX9-NEXT: s_and_b32 s0, s0, s10			; GFX9-NEXT: s_mov_b32 s9, 0x80010
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshr_b32 s2, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s0, s0, s9
	; GFX9-NEXT: s_and_b32 s2, s3, s10			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s0, s7, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s7, s1, s8
	; GFX9-NEXT: s_lshl_b32 s2, s6, 24			; GFX9-NEXT: s_lshl_b32 s2, s2, 24
	; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_or_b32 s0, s0, s2
	; GFX9-NEXT: s_and_b32 s2, s7, s10			; GFX9-NEXT: s_lshr_b32 s3, s1, 24
	; GFX9-NEXT: s_lshr_b32 s8, s1, 16			; GFX9-NEXT: s_and_b32 s2, s1, s6
	; GFX9-NEXT: s_lshr_b32 s9, s1, 24			; GFX9-NEXT: s_bfe_u32 s1, s1, s9
	; GFX9-NEXT: s_and_b32 s1, s1, s10			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s2, s2, s7
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_and_b32 s2, s8, s10			; GFX9-NEXT: s_or_b32 s1, s2, s1
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_lshl_b32 s2, s3, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: s_lshl_b32 s2, s9, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: s_lshr_b32 s2, s5, 2			; GFX9-NEXT: s_lshr_b32 s2, s5, 2
	; GFX9-NEXT: s_cmp_eq_u32 s2, 1			; GFX9-NEXT: s_cmp_eq_u32 s2, 1
	; GFX9-NEXT: s_cselect_b32 s3, s1, s0			; GFX9-NEXT: s_cselect_b32 s3, s1, s0
	; GFX9-NEXT: s_and_b32 s5, s5, 3			; GFX9-NEXT: s_and_b32 s5, s5, 3
	; GFX9-NEXT: s_lshl_b32 s5, s5, 3			; GFX9-NEXT: s_lshl_b32 s5, s5, 3
	; GFX9-NEXT: s_and_b32 s4, s4, s10			; GFX9-NEXT: s_and_b32 s4, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s4, s5			; GFX9-NEXT: s_lshl_b32 s4, s4, s5
	; GFX9-NEXT: s_lshl_b32 s5, s10, s5			; GFX9-NEXT: s_lshl_b32 s5, s6, s5
	; GFX9-NEXT: s_andn2_b32 s3, s3, s5			; GFX9-NEXT: s_andn2_b32 s3, s3, s5
	; GFX9-NEXT: s_or_b32 s3, s3, s4			; GFX9-NEXT: s_or_b32 s3, s3, s4
	; GFX9-NEXT: s_cmp_eq_u32 s2, 0			; GFX9-NEXT: s_cmp_eq_u32 s2, 0
	; GFX9-NEXT: s_cselect_b32 s0, s3, s0			; GFX9-NEXT: s_cselect_b32 s0, s3, s0
	; GFX9-NEXT: s_cmp_eq_u32 s2, 1			; GFX9-NEXT: s_cmp_eq_u32 s2, 1
	; GFX9-NEXT: s_cselect_b32 s1, s3, s1			; GFX9-NEXT: s_cselect_b32 s1, s3, s1
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_bfe_u32 s5, s0, s8
	; GFX9-NEXT: s_and_b32 s2, s2, s10			; GFX9-NEXT: s_lshr_b32 s2, s0, 24
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: s_and_b32 s4, s0, s6
	; GFX9-NEXT: s_lshr_b32 s4, s0, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, s9
	; GFX9-NEXT: s_and_b32 s0, s0, s10			; GFX9-NEXT: s_lshl_b32 s5, s5, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s4, s4, s5
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s2, s3, s10			; GFX9-NEXT: s_or_b32 s0, s4, s0
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_bfe_u32 s4, s1, s8
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_lshl_b32 s2, s2, 24
	; GFX9-NEXT: s_lshl_b32 s2, s4, 24
	; GFX9-NEXT: s_lshr_b32 s5, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_or_b32 s0, s0, s2
	; GFX9-NEXT: s_and_b32 s2, s5, s10			; GFX9-NEXT: s_lshr_b32 s3, s1, 24
	; GFX9-NEXT: s_lshr_b32 s6, s1, 16			; GFX9-NEXT: s_and_b32 s2, s1, s6
	; GFX9-NEXT: s_lshr_b32 s7, s1, 24			; GFX9-NEXT: s_bfe_u32 s1, s1, s9
	; GFX9-NEXT: s_and_b32 s1, s1, s10			; GFX9-NEXT: s_lshl_b32 s4, s4, 8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_or_b32 s2, s2, s4
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_and_b32 s2, s6, s10			; GFX9-NEXT: s_or_b32 s1, s2, s1
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_lshl_b32 s2, s3, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: s_lshl_b32 s2, s7, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v8i8_s_s:			; GFX8-LABEL: insertelement_s_v8i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s10, 0xff			; GFX8-NEXT: s_mov_b32 s8, 0x80008
				; GFX8-NEXT: s_movk_i32 s6, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s2, s0, 8			; GFX8-NEXT: s_bfe_u32 s9, s0, s8
	; GFX8-NEXT: s_and_b32 s2, s2, s10			; GFX8-NEXT: s_and_b32 s7, s0, s6
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: s_lshl_b32 s9, s9, 8
	; GFX8-NEXT: s_lshr_b32 s6, s0, 24			; GFX8-NEXT: s_or_b32 s7, s7, s9
	; GFX8-NEXT: s_and_b32 s0, s0, s10			; GFX8-NEXT: s_mov_b32 s9, 0x80010
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_lshr_b32 s2, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s0, s0, s9
	; GFX8-NEXT: s_and_b32 s2, s3, s10			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_or_b32 s0, s7, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s7, s1, s8
	; GFX8-NEXT: s_lshl_b32 s2, s6, 24			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_lshr_b32 s7, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_or_b32 s0, s0, s2
	; GFX8-NEXT: s_and_b32 s2, s7, s10			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshr_b32 s8, s1, 16			; GFX8-NEXT: s_and_b32 s2, s1, s6
	; GFX8-NEXT: s_lshr_b32 s9, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s9
	; GFX8-NEXT: s_and_b32 s1, s1, s10			; GFX8-NEXT: s_lshl_b32 s7, s7, 8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_or_b32 s2, s2, s7
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s2, s8, s10			; GFX8-NEXT: s_or_b32 s1, s2, s1
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_lshl_b32 s2, s3, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshl_b32 s2, s9, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshr_b32 s2, s5, 2			; GFX8-NEXT: s_lshr_b32 s2, s5, 2
	; GFX8-NEXT: s_cmp_eq_u32 s2, 1			; GFX8-NEXT: s_cmp_eq_u32 s2, 1
	; GFX8-NEXT: s_cselect_b32 s3, s1, s0			; GFX8-NEXT: s_cselect_b32 s3, s1, s0
	; GFX8-NEXT: s_and_b32 s5, s5, 3			; GFX8-NEXT: s_and_b32 s5, s5, 3
	; GFX8-NEXT: s_lshl_b32 s5, s5, 3			; GFX8-NEXT: s_lshl_b32 s5, s5, 3
	; GFX8-NEXT: s_and_b32 s4, s4, s10			; GFX8-NEXT: s_and_b32 s4, s4, s6
	; GFX8-NEXT: s_lshl_b32 s4, s4, s5			; GFX8-NEXT: s_lshl_b32 s4, s4, s5
	; GFX8-NEXT: s_lshl_b32 s5, s10, s5			; GFX8-NEXT: s_lshl_b32 s5, s6, s5
	; GFX8-NEXT: s_andn2_b32 s3, s3, s5			; GFX8-NEXT: s_andn2_b32 s3, s3, s5
	; GFX8-NEXT: s_or_b32 s3, s3, s4			; GFX8-NEXT: s_or_b32 s3, s3, s4
	; GFX8-NEXT: s_cmp_eq_u32 s2, 0			; GFX8-NEXT: s_cmp_eq_u32 s2, 0
	; GFX8-NEXT: s_cselect_b32 s0, s3, s0			; GFX8-NEXT: s_cselect_b32 s0, s3, s0
	; GFX8-NEXT: s_cmp_eq_u32 s2, 1			; GFX8-NEXT: s_cmp_eq_u32 s2, 1
	; GFX8-NEXT: s_cselect_b32 s1, s3, s1			; GFX8-NEXT: s_cselect_b32 s1, s3, s1
	; GFX8-NEXT: s_lshr_b32 s2, s0, 8			; GFX8-NEXT: s_bfe_u32 s5, s0, s8
	; GFX8-NEXT: s_and_b32 s2, s2, s10			; GFX8-NEXT: s_lshr_b32 s2, s0, 24
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: s_and_b32 s4, s0, s6
	; GFX8-NEXT: s_lshr_b32 s4, s0, 24			; GFX8-NEXT: s_bfe_u32 s0, s0, s9
	; GFX8-NEXT: s_and_b32 s0, s0, s10			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_or_b32 s4, s4, s5
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_and_b32 s2, s3, s10			; GFX8-NEXT: s_or_b32 s0, s4, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_bfe_u32 s4, s1, s8
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_lshl_b32 s2, s4, 24
	; GFX8-NEXT: s_lshr_b32 s5, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_or_b32 s0, s0, s2
	; GFX8-NEXT: s_and_b32 s2, s5, s10			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshr_b32 s6, s1, 16			; GFX8-NEXT: s_and_b32 s2, s1, s6
	; GFX8-NEXT: s_lshr_b32 s7, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s9
	; GFX8-NEXT: s_and_b32 s1, s1, s10			; GFX8-NEXT: s_lshl_b32 s4, s4, 8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_or_b32 s2, s2, s4
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s2, s6, s10			; GFX8-NEXT: s_or_b32 s1, s2, s1
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_lshl_b32 s2, s3, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshl_b32 s2, s7, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v8i8_s_s:			; GFX7-LABEL: insertelement_s_v8i8_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s10, 0xff			; GFX7-NEXT: s_mov_b32 s8, 0x80008
				; GFX7-NEXT: s_movk_i32 s6, 0xff
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s2, s0, 8			; GFX7-NEXT: s_bfe_u32 s9, s0, s8
	; GFX7-NEXT: s_and_b32 s2, s2, s10			; GFX7-NEXT: s_and_b32 s7, s0, s6
	; GFX7-NEXT: s_lshr_b32 s3, s0, 16			; GFX7-NEXT: s_lshl_b32 s9, s9, 8
	; GFX7-NEXT: s_lshr_b32 s6, s0, 24			; GFX7-NEXT: s_or_b32 s7, s7, s9
	; GFX7-NEXT: s_and_b32 s0, s0, s10			; GFX7-NEXT: s_mov_b32 s9, 0x80010
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_lshr_b32 s2, s0, 24
				; GFX7-NEXT: s_bfe_u32 s0, s0, s9
				; GFX7-NEXT: s_lshl_b32 s0, s0, 16
				; GFX7-NEXT: s_or_b32 s0, s7, s0
				; GFX7-NEXT: s_bfe_u32 s7, s1, s8
				; GFX7-NEXT: s_lshl_b32 s2, s2, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_or_b32 s0, s0, s2
	; GFX7-NEXT: s_and_b32 s2, s3, s10			; GFX7-NEXT: s_lshr_b32 s3, s1, 24
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_and_b32 s2, s1, s6
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s1, s1, s9
	; GFX7-NEXT: s_lshl_b32 s2, s6, 24			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshr_b32 s7, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s7
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s2, s7, s10			; GFX7-NEXT: s_or_b32 s1, s2, s1
	; GFX7-NEXT: s_lshr_b32 s8, s1, 16			; GFX7-NEXT: s_lshl_b32 s2, s3, 24
	; GFX7-NEXT: s_lshr_b32 s9, s1, 24
	; GFX7-NEXT: s_and_b32 s1, s1, s10
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_and_b32 s2, s8, s10
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshl_b32 s2, s9, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s5, 2			; GFX7-NEXT: s_lshr_b32 s2, s5, 2
	; GFX7-NEXT: s_cmp_eq_u32 s2, 1			; GFX7-NEXT: s_cmp_eq_u32 s2, 1
	; GFX7-NEXT: s_cselect_b32 s3, s1, s0			; GFX7-NEXT: s_cselect_b32 s3, s1, s0
	; GFX7-NEXT: s_and_b32 s5, s5, 3			; GFX7-NEXT: s_and_b32 s5, s5, 3
	; GFX7-NEXT: s_lshl_b32 s5, s5, 3			; GFX7-NEXT: s_lshl_b32 s5, s5, 3
	; GFX7-NEXT: s_and_b32 s4, s4, s10			; GFX7-NEXT: s_and_b32 s4, s4, s6
	; GFX7-NEXT: s_lshl_b32 s4, s4, s5			; GFX7-NEXT: s_lshl_b32 s4, s4, s5
	; GFX7-NEXT: s_lshl_b32 s5, s10, s5			; GFX7-NEXT: s_lshl_b32 s5, s6, s5
	; GFX7-NEXT: s_andn2_b32 s3, s3, s5			; GFX7-NEXT: s_andn2_b32 s3, s3, s5
	; GFX7-NEXT: s_or_b32 s3, s3, s4			; GFX7-NEXT: s_or_b32 s3, s3, s4
	; GFX7-NEXT: s_cmp_eq_u32 s2, 0			; GFX7-NEXT: s_cmp_eq_u32 s2, 0
	; GFX7-NEXT: s_cselect_b32 s4, s3, s0			; GFX7-NEXT: s_cselect_b32 s4, s3, s0
	; GFX7-NEXT: s_cmp_eq_u32 s2, 1			; GFX7-NEXT: s_cmp_eq_u32 s2, 1
	; GFX7-NEXT: s_cselect_b32 s3, s3, s1			; GFX7-NEXT: s_cselect_b32 s3, s3, s1
	; GFX7-NEXT: s_lshr_b32 s2, s4, 8			; GFX7-NEXT: s_bfe_u32 s10, s4, s8
	; GFX7-NEXT: s_and_b32 s2, s2, s10			; GFX7-NEXT: s_lshr_b32 s2, s4, 24
	; GFX7-NEXT: s_lshr_b32 s5, s4, 16			; GFX7-NEXT: s_and_b32 s7, s4, s6
	; GFX7-NEXT: s_lshr_b32 s6, s4, 24			; GFX7-NEXT: s_bfe_u32 s4, s4, s9
	; GFX7-NEXT: s_and_b32 s4, s4, s10			; GFX7-NEXT: s_lshl_b32 s10, s10, 8
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_or_b32 s7, s7, s10
	; GFX7-NEXT: s_or_b32 s2, s4, s2
	; GFX7-NEXT: s_and_b32 s4, s5, s10
	; GFX7-NEXT: s_lshl_b32 s4, s4, 16			; GFX7-NEXT: s_lshl_b32 s4, s4, 16
	; GFX7-NEXT: s_or_b32 s2, s2, s4			; GFX7-NEXT: s_or_b32 s4, s7, s4
	; GFX7-NEXT: s_lshl_b32 s4, s6, 24			; GFX7-NEXT: s_lshl_b32 s2, s2, 24
	; GFX7-NEXT: s_lshr_b32 s7, s3, 8			; GFX7-NEXT: s_or_b32 s2, s4, s2
	; GFX7-NEXT: s_or_b32 s2, s2, s4			; GFX7-NEXT: s_and_b32 s4, s3, s6
	; GFX7-NEXT: s_and_b32 s4, s7, s10			; GFX7-NEXT: s_bfe_u32 s6, s3, s8
	; GFX7-NEXT: s_lshr_b32 s8, s3, 16			; GFX7-NEXT: s_lshr_b32 s5, s3, 24
	; GFX7-NEXT: s_lshr_b32 s9, s3, 24			; GFX7-NEXT: s_bfe_u32 s3, s3, s9
	; GFX7-NEXT: s_and_b32 s3, s3, s10			; GFX7-NEXT: s_lshl_b32 s6, s6, 8
	; GFX7-NEXT: s_lshl_b32 s4, s4, 8			; GFX7-NEXT: s_or_b32 s4, s4, s6
	; GFX7-NEXT: s_or_b32 s3, s3, s4			; GFX7-NEXT: s_lshl_b32 s3, s3, 16
	; GFX7-NEXT: s_and_b32 s4, s8, s10			; GFX7-NEXT: s_or_b32 s3, s4, s3
	; GFX7-NEXT: s_lshl_b32 s4, s4, 16			; GFX7-NEXT: s_lshl_b32 s4, s5, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s4
	; GFX7-NEXT: s_lshl_b32 s4, s9, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s4			; GFX7-NEXT: s_or_b32 s3, s3, s4
	; GFX7-NEXT: v_mov_b32_e32 v0, s2			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v8i8_s_s:			; GFX10-LABEL: insertelement_s_v8i8_s_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: s_lshr_b32 s3, s5, 2			; GFX10-NEXT: s_mov_b32 s6, 0x80010
				; GFX10-NEXT: s_lshr_b32 s7, s5, 2
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s0, 8			; GFX10-NEXT: s_bfe_u32 s11, s0, s3
	; GFX10-NEXT: s_lshr_b32 s9, s1, 8			; GFX10-NEXT: s_bfe_u32 s13, s1, s3
	; GFX10-NEXT: s_lshr_b32 s7, s0, 16
	; GFX10-NEXT: s_lshr_b32 s10, s1, 16
	; GFX10-NEXT: s_and_b32 s6, s6, s2
	; GFX10-NEXT: s_and_b32 s9, s9, s2
	; GFX10-NEXT: s_lshr_b32 s8, s0, 24			; GFX10-NEXT: s_lshr_b32 s8, s0, 24
	; GFX10-NEXT: s_lshr_b32 s11, s1, 24			; GFX10-NEXT: s_lshr_b32 s9, s1, 24
	; GFX10-NEXT: s_and_b32 s7, s7, s2			; GFX10-NEXT: s_and_b32 s10, s0, s2
	; GFX10-NEXT: s_and_b32 s10, s10, s2			; GFX10-NEXT: s_bfe_u32 s0, s0, s6
	; GFX10-NEXT: s_and_b32 s0, s0, s2			; GFX10-NEXT: s_and_b32 s12, s1, s2
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_bfe_u32 s1, s1, s6
	; GFX10-NEXT: s_and_b32 s1, s1, s2			; GFX10-NEXT: s_lshl_b32 s11, s11, 8
	; GFX10-NEXT: s_lshl_b32 s9, s9, 8			; GFX10-NEXT: s_lshl_b32 s13, s13, 8
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16			; GFX10-NEXT: s_or_b32 s10, s10, s11
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshl_b32 s10, s10, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s9			; GFX10-NEXT: s_or_b32 s11, s12, s13
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s0, s10, s0
	; GFX10-NEXT: s_lshl_b32 s11, s11, 24			; GFX10-NEXT: s_lshl_b32 s9, s9, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s10			; GFX10-NEXT: s_or_b32 s1, s11, s1
	; GFX10-NEXT: s_or_b32 s0, s0, s8			; GFX10-NEXT: s_or_b32 s0, s0, s8
	; GFX10-NEXT: s_or_b32 s1, s1, s11			; GFX10-NEXT: s_or_b32 s1, s1, s9
	; GFX10-NEXT: s_cmp_eq_u32 s3, 1			; GFX10-NEXT: s_cmp_eq_u32 s7, 1
	; GFX10-NEXT: s_cselect_b32 s6, s1, s0			; GFX10-NEXT: s_cselect_b32 s8, s1, s0
	; GFX10-NEXT: s_and_b32 s5, s5, 3			; GFX10-NEXT: s_and_b32 s5, s5, 3
	; GFX10-NEXT: s_and_b32 s4, s4, s2			; GFX10-NEXT: s_and_b32 s4, s4, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 3			; GFX10-NEXT: s_lshl_b32 s5, s5, 3
	; GFX10-NEXT: s_lshl_b32 s7, s2, s5			; GFX10-NEXT: s_lshl_b32 s9, s2, s5
	; GFX10-NEXT: s_lshl_b32 s4, s4, s5			; GFX10-NEXT: s_lshl_b32 s4, s4, s5
	; GFX10-NEXT: s_andn2_b32 s5, s6, s7			; GFX10-NEXT: s_andn2_b32 s5, s8, s9
	; GFX10-NEXT: s_or_b32 s4, s5, s4			; GFX10-NEXT: s_or_b32 s4, s5, s4
	; GFX10-NEXT: s_cmp_eq_u32 s3, 0			; GFX10-NEXT: s_cmp_eq_u32 s7, 0
	; GFX10-NEXT: s_cselect_b32 s0, s4, s0			; GFX10-NEXT: s_cselect_b32 s0, s4, s0
	; GFX10-NEXT: s_cmp_eq_u32 s3, 1			; GFX10-NEXT: s_cmp_eq_u32 s7, 1
	; GFX10-NEXT: s_cselect_b32 s1, s4, s1			; GFX10-NEXT: s_cselect_b32 s1, s4, s1
	; GFX10-NEXT: s_lshr_b32 s3, s0, 8			; GFX10-NEXT: s_bfe_u32 s7, s0, s3
	; GFX10-NEXT: s_lshr_b32 s4, s0, 16			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_and_b32 s3, s3, s2			; GFX10-NEXT: s_and_b32 s5, s0, s2
	; GFX10-NEXT: s_and_b32 s4, s4, s2			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24			; GFX10-NEXT: s_bfe_u32 s0, s0, s6
	; GFX10-NEXT: s_and_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s7, s7, 8
				; GFX10-NEXT: s_lshr_b32 s8, s1, 24
				; GFX10-NEXT: s_and_b32 s2, s1, s2
				; GFX10-NEXT: s_bfe_u32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s3, s3, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_lshr_b32 s6, s1, 8			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_or_b32 s5, s5, s7
				; GFX10-NEXT: s_or_b32 s2, s2, s3
				; GFX10-NEXT: s_lshl_b32 s1, s1, 16
				; GFX10-NEXT: s_or_b32 s0, s5, s0
				; GFX10-NEXT: s_lshl_b32 s3, s4, 24
				; GFX10-NEXT: s_or_b32 s1, s2, s1
				; GFX10-NEXT: s_lshl_b32 s2, s8, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-NEXT: s_lshr_b32 s7, s1, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s4
	; GFX10-NEXT: s_and_b32 s4, s6, s2
	; GFX10-NEXT: s_lshr_b32 s3, s1, 24
	; GFX10-NEXT: s_and_b32 s1, s1, s2
	; GFX10-NEXT: s_and_b32 s2, s7, s2
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s4
	; GFX10-NEXT: s_lshl_b32 s4, s5, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s2, s3, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s4
	; GFX10-NEXT: s_or_b32 s1, s1, s2			; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v8i8_s_s(<8 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v8i8_s_s(<8 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v8i8_s_s:			; GFX9-LABEL: insertelement_v_v8i8_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: s_lshr_b32 s1, s3, 2			; GFX9-NEXT: s_lshr_b32 s5, s3, 2
	; GFX9-NEXT: s_and_b32 s3, s3, 3			; GFX9-NEXT: s_and_b32 s3, s3, 3
				; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: s_and_b32 s2, s2, s4			; GFX9-NEXT: s_and_b32 s2, s2, s4
	; GFX9-NEXT: s_lshl_b32 s3, s3, 3			; GFX9-NEXT: s_lshl_b32 s3, s3, 3
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshl_b32 s2, s2, s3
	; GFX9-NEXT: s_lshl_b32 s3, s4, s3			; GFX9-NEXT: s_lshl_b32 s3, s4, s3
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
	; GFX9-NEXT: s_not_b32 s3, s3			; GFX9-NEXT: s_not_b32 s3, s3
	; GFX9-NEXT: v_mov_b32_e32 v3, s2			; GFX9-NEXT: v_mov_b32_e32 v4, s2
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
				; GFX9-NEXT: v_mov_b32_e32 v3, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v8, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v9, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v7
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v4			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v6
	; GFX9-NEXT: v_or3_b32 v0, v0, v8, v5			; GFX9-NEXT: v_or3_b32 v0, v0, v8, v5
	; GFX9-NEXT: v_or3_b32 v1, v1, v9, v7			; GFX9-NEXT: v_or3_b32 v1, v1, v10, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX9-NEXT: v_and_or_b32 v3, v4, s3, v3			; GFX9-NEXT: v_and_or_b32 v4, v5, s3, v4
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s5, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_b32_sdwa v7, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v8, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v3
	; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2			; GFX9-NEXT: v_and_or_b32 v1, v1, s4, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v5
				; GFX9-NEXT: v_or3_b32 v1, v1, v3, v2
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v6
				; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_or3_b32 v0, v0, v7, v4			; GFX9-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX9-NEXT: v_or3_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v8i8_s_s:			; GFX8-LABEL: insertelement_v_v8i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: s_lshr_b32 s1, s3, 2			; GFX8-NEXT: s_lshr_b32 s1, s3, 2
	; GFX8-NEXT: s_and_b32 s3, s3, 3			; GFX8-NEXT: s_and_b32 s3, s3, 3
				; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_lshl_b32 s3, s3, 3			; GFX8-NEXT: s_lshl_b32 s3, s3, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s3			; GFX8-NEXT: s_lshl_b32 s0, s0, s3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
	; GFX8-NEXT: s_lshl_b32 s2, s2, s3			; GFX8-NEXT: s_lshl_b32 s2, s2, s3
				; GFX8-NEXT: v_mov_b32_e32 v4, 8
				; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v9, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v10, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v9			; GFX8-NEXT: v_or_b32_e32 v0, v0, v9
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v10			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5			; GFX8-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v7			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v2, s0, v2			; GFX8-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX8-NEXT: v_or_b32_e32 v2, s2, v2			; GFX8-NEXT: v_or_b32_e32 v2, s2, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v4, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
				; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v8i8_s_s:			; GFX7-LABEL: insertelement_v_v8i8_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s6, 0xff			; GFX7-NEXT: s_movk_i32 s6, 0xff
	; GFX7-NEXT: s_and_b32 s1, s3, 3			; GFX7-NEXT: s_and_b32 s1, s3, 3
	; GFX7-NEXT: s_lshr_b32 s0, s3, 2			; GFX7-NEXT: s_lshr_b32 s0, s3, 2
	; GFX7-NEXT: s_and_b32 s2, s2, s6			; GFX7-NEXT: s_and_b32 s2, s2, s6
	; GFX7-NEXT: s_lshl_b32 s1, s1, 3			; GFX7-NEXT: s_lshl_b32 s1, s1, 3
	; GFX7-NEXT: s_lshl_b32 s2, s2, s1			; GFX7-NEXT: s_lshl_b32 s2, s2, s1
	; GFX7-NEXT: s_lshl_b32 s1, s6, s1			; GFX7-NEXT: s_lshl_b32 s1, s6, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX7-NEXT: s_not_b32 s1, s1			; GFX7-NEXT: s_not_b32 s1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2			; GFX7-NEXT: v_and_b32_e32 v4, s6, v0
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_and_b32_e32 v6, s6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s6, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v2, s1, v2			; GFX7-NEXT: v_and_b32_e32 v2, s1, v2
	; GFX7-NEXT: v_or_b32_e32 v2, s2, v2			; GFX7-NEXT: v_or_b32_e32 v2, s2, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2			; GFX7-NEXT: v_and_b32_e32 v4, s6, v0
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_and_b32_e32 v6, s6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s6, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v8i8_s_s:			; GFX10-LABEL: insertelement_v_v8i8_s_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: s_and_b32 s2, s2, s1			; GFX10-NEXT: s_movk_i32 s4, 0xff
				; GFX10-NEXT: s_and_b32 s2, s2, s4
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v3
	; GFX10-NEXT: v_and_b32_sdwa v7, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v3
	; GFX10-NEXT: s_lshr_b32 s0, s3, 2			; GFX10-NEXT: s_lshr_b32 s0, s3, 2
	; GFX10-NEXT: s_and_b32 s3, s3, 3			; GFX10-NEXT: s_and_b32 s1, s3, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s0, 1
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v2
	; GFX10-NEXT: v_or3_b32 v1, v1, v7, v5			; GFX10-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX10-NEXT: s_lshl_b32 s3, s3, 3			; GFX10-NEXT: s_lshl_b32 s1, s1, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s0, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s0, 0
	; GFX10-NEXT: s_lshl_b32 s4, s1, s3			; GFX10-NEXT: s_lshl_b32 s3, s4, s1
	; GFX10-NEXT: s_lshl_b32 s2, s2, s3			; GFX10-NEXT: s_lshl_b32 s1, s2, s1
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc_lo
	; GFX10-NEXT: s_not_b32 s3, s4			; GFX10-NEXT: s_not_b32 s2, s3
	; GFX10-NEXT: v_and_or_b32 v2, v2, s3, s2			; GFX10-NEXT: v_mov_b32_e32 v3, 8
				; GFX10-NEXT: v_and_or_b32 v2, v2, s2, s1
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
	; GFX10-NEXT: v_mov_b32_e32 v2, 8			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v7, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v4, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX10-NEXT: v_or3_b32 v1, v1, v2, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
				; GFX10-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v7, v5
	; GFX10-NEXT: v_or3_b32 v1, v1, v4, v6
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(1 )* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(1 )* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v8i8_v_s(<8 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v8i8_v_s(<8 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v8i8_v_s:			; GFX9-LABEL: insertelement_s_v8i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s10, 0xff			; GFX9-NEXT: s_mov_b32 s9, 0x80008
	; GFX9-NEXT: v_and_b32_e32 v0, s10, v0			; GFX9-NEXT: s_movk_i32 s7, 0xff
	; GFX9-NEXT: s_mov_b32 s5, 8			; GFX9-NEXT: v_and_b32_e32 v0, s7, v0
				; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_bfe_u32 s10, s0, s9
	; GFX9-NEXT: s_and_b32 s2, s2, s10			; GFX9-NEXT: s_and_b32 s8, s0, s7
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: s_lshl_b32 s10, s10, 8
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_or_b32 s8, s8, s10
	; GFX9-NEXT: s_and_b32 s0, s0, s10			; GFX9-NEXT: s_mov_b32 s10, 0x80010
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshr_b32 s5, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s0, s0, s10
	; GFX9-NEXT: s_and_b32 s2, s3, s10			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s0, s8, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s8, s1, s9
	; GFX9-NEXT: s_lshl_b32 s2, s6, 24			; GFX9-NEXT: s_lshl_b32 s5, s5, 24
	; GFX9-NEXT: s_lshr_b32 s7, s1, 8			; GFX9-NEXT: s_or_b32 s0, s0, s5
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_lshr_b32 s6, s1, 24
	; GFX9-NEXT: s_and_b32 s2, s7, s10			; GFX9-NEXT: s_and_b32 s5, s1, s7
	; GFX9-NEXT: s_lshr_b32 s8, s1, 16			; GFX9-NEXT: s_bfe_u32 s1, s1, s10
	; GFX9-NEXT: s_lshr_b32 s9, s1, 24			; GFX9-NEXT: s_lshl_b32 s8, s8, 8
	; GFX9-NEXT: s_and_b32 s1, s1, s10			; GFX9-NEXT: s_or_b32 s5, s5, s8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s1, s5, s1
	; GFX9-NEXT: s_and_b32 s2, s8, s10			; GFX9-NEXT: s_lshl_b32 s5, s6, 24
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s1, s1, s5
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_lshr_b32 s5, s4, 2
	; GFX9-NEXT: s_lshl_b32 s2, s9, 24			; GFX9-NEXT: s_cmp_eq_u32 s5, 1
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_cselect_b32 s6, s1, s0
	; GFX9-NEXT: s_lshr_b32 s2, s4, 2
	; GFX9-NEXT: s_cmp_eq_u32 s2, 1
	; GFX9-NEXT: s_cselect_b32 s3, s1, s0
	; GFX9-NEXT: s_and_b32 s4, s4, 3			; GFX9-NEXT: s_and_b32 s4, s4, 3
	; GFX9-NEXT: s_lshl_b32 s4, s4, 3			; GFX9-NEXT: s_lshl_b32 s4, s4, 3
	; GFX9-NEXT: s_lshl_b32 s6, s10, s4			; GFX9-NEXT: s_lshl_b32 s8, s7, s4
	; GFX9-NEXT: s_andn2_b32 s3, s3, s6			; GFX9-NEXT: s_andn2_b32 s6, s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s6
	; GFX9-NEXT: v_lshl_or_b32 v2, v0, s4, v1			; GFX9-NEXT: v_lshl_or_b32 v2, v0, s4, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: s_mov_b32 s3, 16
	; GFX9-NEXT: v_and_or_b32 v2, v0, s10, v2			; GFX9-NEXT: v_and_or_b32 v4, v0, s7, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
				; GFX9-NEXT: v_or3_b32 v0, v4, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v2, v1, s7, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_and_or_b32 v2, v1, s10, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v5
	; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3			; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v8i8_v_s:			; GFX8-LABEL: insertelement_s_v8i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s9, 0xff			; GFX8-NEXT: s_mov_b32 s7, 0x80008
	; GFX8-NEXT: v_mov_b32_e32 v6, 8			; GFX8-NEXT: s_movk_i32 s5, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v7, s9			; GFX8-NEXT: v_mov_b32_e32 v4, 8
				; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s2, s0, 8			; GFX8-NEXT: s_bfe_u32 s8, s0, s7
	; GFX8-NEXT: s_and_b32 s2, s2, s9			; GFX8-NEXT: s_and_b32 s6, s0, s5
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: s_lshl_b32 s8, s8, 8
	; GFX8-NEXT: s_lshr_b32 s5, s0, 24			; GFX8-NEXT: s_or_b32 s6, s6, s8
	; GFX8-NEXT: s_and_b32 s0, s0, s9			; GFX8-NEXT: s_mov_b32 s8, 0x80010
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_lshr_b32 s2, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s0, s0, s8
	; GFX8-NEXT: s_and_b32 s2, s3, s9			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_or_b32 s0, s6, s0
				; GFX8-NEXT: s_bfe_u32 s6, s1, s7
				; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_or_b32 s0, s0, s2
	; GFX8-NEXT: s_lshl_b32 s2, s5, 24			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshr_b32 s6, s1, 8			; GFX8-NEXT: s_and_b32 s2, s1, s5
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s1, s1, s8
	; GFX8-NEXT: s_and_b32 s2, s6, s9			; GFX8-NEXT: s_lshl_b32 s6, s6, 8
	; GFX8-NEXT: s_lshr_b32 s7, s1, 16			; GFX8-NEXT: s_or_b32 s2, s2, s6
	; GFX8-NEXT: s_lshr_b32 s8, s1, 24			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s1, s1, s9			; GFX8-NEXT: s_or_b32 s1, s2, s1
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_lshl_b32 s2, s3, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_and_b32 s2, s7, s9
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshl_b32 s2, s8, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshr_b32 s2, s4, 2			; GFX8-NEXT: s_lshr_b32 s2, s4, 2
	; GFX8-NEXT: s_cmp_eq_u32 s2, 1			; GFX8-NEXT: s_cmp_eq_u32 s2, 1
	; GFX8-NEXT: s_cselect_b32 s3, s1, s0			; GFX8-NEXT: s_cselect_b32 s3, s1, s0
	; GFX8-NEXT: s_and_b32 s4, s4, 3			; GFX8-NEXT: s_and_b32 s4, s4, 3
	; GFX8-NEXT: s_lshl_b32 s4, s4, 3			; GFX8-NEXT: s_lshl_b32 s4, s4, 3
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: s_lshl_b32 s4, s9, s4			; GFX8-NEXT: s_lshl_b32 s4, s5, s4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_andn2_b32 s3, s3, s4			; GFX8-NEXT: s_andn2_b32 s3, s3, s4
	; GFX8-NEXT: v_or_b32_e32 v2, s3, v0			; GFX8-NEXT: v_or_b32_e32 v2, s3, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v1			; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v8i8_v_s:			; GFX7-LABEL: insertelement_s_v8i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s9, 0xff			; GFX7-NEXT: s_mov_b32 s7, 0x80008
	; GFX7-NEXT: v_and_b32_e32 v0, s9, v0			; GFX7-NEXT: s_movk_i32 s5, 0xff
				; GFX7-NEXT: v_and_b32_e32 v0, s5, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s2, s0, 8			; GFX7-NEXT: s_bfe_u32 s8, s0, s7
	; GFX7-NEXT: s_and_b32 s2, s2, s9			; GFX7-NEXT: s_and_b32 s6, s0, s5
	; GFX7-NEXT: s_lshr_b32 s3, s0, 16			; GFX7-NEXT: s_lshl_b32 s8, s8, 8
	; GFX7-NEXT: s_lshr_b32 s5, s0, 24			; GFX7-NEXT: s_or_b32 s6, s6, s8
	; GFX7-NEXT: s_and_b32 s0, s0, s9			; GFX7-NEXT: s_mov_b32 s8, 0x80010
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_lshr_b32 s2, s0, 24
				; GFX7-NEXT: s_bfe_u32 s0, s0, s8
				; GFX7-NEXT: s_lshl_b32 s0, s0, 16
				; GFX7-NEXT: s_or_b32 s0, s6, s0
				; GFX7-NEXT: s_bfe_u32 s6, s1, s7
				; GFX7-NEXT: s_lshl_b32 s2, s2, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_or_b32 s0, s0, s2
	; GFX7-NEXT: s_and_b32 s2, s3, s9			; GFX7-NEXT: s_lshr_b32 s3, s1, 24
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_and_b32 s2, s1, s5
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s1, s1, s8
	; GFX7-NEXT: s_lshl_b32 s2, s5, 24			; GFX7-NEXT: s_lshl_b32 s6, s6, 8
	; GFX7-NEXT: s_lshr_b32 s6, s1, 8			; GFX7-NEXT: s_or_b32 s2, s2, s6
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s2, s6, s9			; GFX7-NEXT: s_or_b32 s1, s2, s1
	; GFX7-NEXT: s_lshr_b32 s7, s1, 16			; GFX7-NEXT: s_lshl_b32 s2, s3, 24
	; GFX7-NEXT: s_lshr_b32 s8, s1, 24
	; GFX7-NEXT: s_and_b32 s1, s1, s9
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_and_b32 s2, s7, s9
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshl_b32 s2, s8, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s4, 2			; GFX7-NEXT: s_lshr_b32 s2, s4, 2
	; GFX7-NEXT: s_cmp_eq_u32 s2, 1			; GFX7-NEXT: s_cmp_eq_u32 s2, 1
	; GFX7-NEXT: s_cselect_b32 s3, s1, s0			; GFX7-NEXT: s_cselect_b32 s3, s1, s0
	; GFX7-NEXT: s_and_b32 s4, s4, 3			; GFX7-NEXT: s_and_b32 s4, s4, 3
	; GFX7-NEXT: s_lshl_b32 s4, s4, 3			; GFX7-NEXT: s_lshl_b32 s4, s4, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0
	; GFX7-NEXT: s_lshl_b32 s4, s9, s4			; GFX7-NEXT: s_lshl_b32 s4, s5, s4
	; GFX7-NEXT: s_andn2_b32 s3, s3, s4			; GFX7-NEXT: s_andn2_b32 s3, s3, s4
	; GFX7-NEXT: v_or_b32_e32 v2, s3, v0			; GFX7-NEXT: v_or_b32_e32 v2, s3, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v2			; GFX7-NEXT: v_and_b32_e32 v4, s5, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v0, s9, v0			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v3			; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_and_b32_e32 v2, s5, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s9, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v6			; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v7
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v8i8_v_s:			; GFX10-LABEL: insertelement_s_v8i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: s_lshr_b32 s3, s4, 2			; GFX10-NEXT: s_mov_b32 s5, 0x80010
				; GFX10-NEXT: s_lshr_b32 s6, s4, 2
	; GFX10-NEXT: v_and_b32_e32 v2, s2, v0			; GFX10-NEXT: v_and_b32_e32 v2, s2, v0
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s6, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s5, s0, 8			; GFX10-NEXT: s_bfe_u32 s10, s0, s3
	; GFX10-NEXT: s_lshr_b32 s8, s1, 8			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_lshr_b32 s6, s0, 16
	; GFX10-NEXT: s_lshr_b32 s9, s1, 16
	; GFX10-NEXT: s_and_b32 s5, s5, s2
	; GFX10-NEXT: s_and_b32 s8, s8, s2
	; GFX10-NEXT: s_lshr_b32 s7, s0, 24			; GFX10-NEXT: s_lshr_b32 s7, s0, 24
	; GFX10-NEXT: s_lshr_b32 s10, s1, 24			; GFX10-NEXT: s_lshr_b32 s8, s1, 24
	; GFX10-NEXT: s_and_b32 s6, s6, s2			; GFX10-NEXT: s_and_b32 s9, s0, s2
	; GFX10-NEXT: s_and_b32 s9, s9, s2			; GFX10-NEXT: s_bfe_u32 s0, s0, s5
	; GFX10-NEXT: s_and_b32 s0, s0, s2			; GFX10-NEXT: s_and_b32 s11, s1, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_bfe_u32 s1, s1, s5
	; GFX10-NEXT: s_and_b32 s1, s1, s2			; GFX10-NEXT: s_lshl_b32 s5, s10, 8
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_lshl_b32 s6, s6, 16			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s5			; GFX10-NEXT: s_or_b32 s5, s9, s5
	; GFX10-NEXT: s_lshl_b32 s9, s9, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s8			; GFX10-NEXT: s_or_b32 s3, s11, s3
	; GFX10-NEXT: s_lshl_b32 s7, s7, 24			; GFX10-NEXT: s_lshl_b32 s7, s7, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_or_b32 s0, s5, s0
	; GFX10-NEXT: s_lshl_b32 s10, s10, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s9			; GFX10-NEXT: s_or_b32 s1, s3, s1
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s0, s0, s7
	; GFX10-NEXT: s_or_b32 s1, s1, s10			; GFX10-NEXT: s_or_b32 s1, s1, s8
	; GFX10-NEXT: s_cmp_eq_u32 s3, 1			; GFX10-NEXT: s_cmp_eq_u32 s6, 1
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: s_cselect_b32 s5, s1, s0			; GFX10-NEXT: s_cselect_b32 s3, s1, s0
	; GFX10-NEXT: s_and_b32 s4, s4, 3			; GFX10-NEXT: s_and_b32 s4, s4, 3
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: s_lshl_b32 s4, s4, 3			; GFX10-NEXT: s_lshl_b32 s4, s4, 3
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_lshl_b32 s6, s2, s4			; GFX10-NEXT: s_lshl_b32 s5, s2, s4
	; GFX10-NEXT: s_andn2_b32 s5, s5, s6			; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: v_lshl_or_b32 v2, v2, s4, s5			; GFX10-NEXT: s_andn2_b32 s3, s3, s5
				; GFX10-NEXT: v_lshl_or_b32 v2, v2, s4, s3
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s6, 1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v7, v1, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v5
	; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v3			; GFX10-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v1, v1, v7, v5
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v8i8_s_v(<8 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v8i8_s_v(<8 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v8i8_s_v:			; GFX9-LABEL: insertelement_s_v8i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s10, 0xff			; GFX9-NEXT: s_mov_b32 s9, 0x80008
				; GFX9-NEXT: s_movk_i32 s7, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 2, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 2, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 3, v0			; GFX9-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_bfe_u32 s10, s0, s9
	; GFX9-NEXT: s_and_b32 s2, s2, s10			; GFX9-NEXT: s_and_b32 s8, s0, s7
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: s_lshl_b32 s10, s10, 8
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_or_b32 s8, s8, s10
	; GFX9-NEXT: s_and_b32 s0, s0, s10			; GFX9-NEXT: s_mov_b32 s10, 0x80010
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshr_b32 s5, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s0, s0, s10
	; GFX9-NEXT: s_and_b32 s2, s3, s10			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s0, s8, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s8, s1, s9
	; GFX9-NEXT: s_lshl_b32 s2, s6, 24			; GFX9-NEXT: s_lshl_b32 s5, s5, 24
	; GFX9-NEXT: s_lshr_b32 s7, s1, 8			; GFX9-NEXT: s_or_b32 s0, s0, s5
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_lshr_b32 s6, s1, 24
	; GFX9-NEXT: s_and_b32 s2, s7, s10			; GFX9-NEXT: s_and_b32 s5, s1, s7
	; GFX9-NEXT: s_lshr_b32 s8, s1, 16			; GFX9-NEXT: s_bfe_u32 s1, s1, s10
	; GFX9-NEXT: s_lshr_b32 s9, s1, 24			; GFX9-NEXT: s_lshl_b32 s8, s8, 8
	; GFX9-NEXT: s_and_b32 s1, s1, s10			; GFX9-NEXT: s_or_b32 s5, s5, s8
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s1, s5, s1
	; GFX9-NEXT: s_and_b32 s2, s8, s10			; GFX9-NEXT: s_lshl_b32 s5, s6, 24
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s1, s1, s5
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: s_lshl_b32 s2, s9, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
				; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_and_b32 s2, s4, s10			; GFX9-NEXT: s_and_b32 s4, s4, s7
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_lshlrev_b32_e64 v3, v0, s2			; GFX9-NEXT: v_lshlrev_b32_e64 v3, v0, s4
	; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s10			; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s7
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX9-NEXT: v_and_or_b32 v3, v1, v0, v3			; GFX9-NEXT: v_and_or_b32 v3, v1, v0, v3
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX9-NEXT: s_mov_b32 s5, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: s_mov_b32 s3, 16
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_and_or_b32 v4, v0, s7, v4
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v2, v0, s10, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or3_b32 v0, v4, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v2, v1, s7, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_and_or_b32 v2, v1, s10, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v5
	; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3			; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v8i8_s_v:			; GFX8-LABEL: insertelement_s_v8i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s9, 0xff			; GFX8-NEXT: s_mov_b32 s7, 0x80008
				; GFX8-NEXT: s_movk_i32 s5, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: v_and_b32_e32 v0, 3, v0			; GFX8-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s2, s0, 8			; GFX8-NEXT: s_bfe_u32 s8, s0, s7
	; GFX8-NEXT: s_and_b32 s2, s2, s9			; GFX8-NEXT: s_and_b32 s6, s0, s5
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: s_lshl_b32 s8, s8, 8
	; GFX8-NEXT: s_lshr_b32 s5, s0, 24			; GFX8-NEXT: s_or_b32 s6, s6, s8
	; GFX8-NEXT: s_and_b32 s0, s0, s9			; GFX8-NEXT: s_mov_b32 s8, 0x80010
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_lshr_b32 s2, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s0, s0, s8
	; GFX8-NEXT: s_and_b32 s2, s3, s9			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_or_b32 s0, s6, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s6, s1, s7
	; GFX8-NEXT: s_lshl_b32 s2, s5, 24			; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_lshr_b32 s6, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_or_b32 s0, s0, s2
	; GFX8-NEXT: s_and_b32 s2, s6, s9			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshr_b32 s7, s1, 16			; GFX8-NEXT: s_and_b32 s2, s1, s5
	; GFX8-NEXT: s_lshr_b32 s8, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s8
	; GFX8-NEXT: s_and_b32 s1, s1, s9			; GFX8-NEXT: s_lshl_b32 s6, s6, 8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_or_b32 s2, s2, s6
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s2, s7, s9			; GFX8-NEXT: s_or_b32 s1, s2, s1
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_lshl_b32 s2, s3, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshl_b32 s2, s8, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s0			; GFX8-NEXT: v_mov_b32_e32 v1, s0
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
				; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX8-NEXT: s_and_b32 s2, s4, s9			; GFX8-NEXT: s_and_b32 s2, s4, s5
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_lshlrev_b32_e64 v3, v0, s2			; GFX8-NEXT: v_lshlrev_b32_e64 v3, v0, s2
	; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s9			; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s5
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: v_and_b32_e32 v0, v1, v0			; GFX8-NEXT: v_and_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_or_b32_e32 v3, v0, v3			; GFX8-NEXT: v_or_b32_e32 v3, v0, v3
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: v_mov_b32_e32 v7, s9			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX8-NEXT: v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v1			; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v8i8_s_v:			; GFX7-LABEL: insertelement_s_v8i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s9, 0xff			; GFX7-NEXT: s_mov_b32 s7, 0x80008
				; GFX7-NEXT: s_movk_i32 s5, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v0
	; GFX7-NEXT: v_and_b32_e32 v0, 3, v0			; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s2, s0, 8			; GFX7-NEXT: s_bfe_u32 s8, s0, s7
	; GFX7-NEXT: s_and_b32 s2, s2, s9			; GFX7-NEXT: s_and_b32 s6, s0, s5
	; GFX7-NEXT: s_lshr_b32 s3, s0, 16			; GFX7-NEXT: s_lshl_b32 s8, s8, 8
	; GFX7-NEXT: s_lshr_b32 s5, s0, 24			; GFX7-NEXT: s_or_b32 s6, s6, s8
	; GFX7-NEXT: s_and_b32 s0, s0, s9			; GFX7-NEXT: s_mov_b32 s8, 0x80010
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_lshr_b32 s2, s0, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s0, s0, s8
	; GFX7-NEXT: s_and_b32 s2, s3, s9			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_or_b32 s0, s6, s0
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s6, s1, s7
	; GFX7-NEXT: s_lshl_b32 s2, s5, 24			; GFX7-NEXT: s_lshl_b32 s2, s2, 24
	; GFX7-NEXT: s_lshr_b32 s6, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_or_b32 s0, s0, s2
	; GFX7-NEXT: s_and_b32 s2, s6, s9			; GFX7-NEXT: s_lshr_b32 s3, s1, 24
	; GFX7-NEXT: s_lshr_b32 s7, s1, 16			; GFX7-NEXT: s_and_b32 s2, s1, s5
	; GFX7-NEXT: s_lshr_b32 s8, s1, 24			; GFX7-NEXT: s_bfe_u32 s1, s1, s8
	; GFX7-NEXT: s_and_b32 s1, s1, s9			; GFX7-NEXT: s_lshl_b32 s6, s6, 8
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_or_b32 s2, s2, s6
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s2, s7, s9			; GFX7-NEXT: s_or_b32 s1, s2, s1
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_lshl_b32 s2, s3, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshl_b32 s2, s8, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: v_mov_b32_e32 v3, s1
				; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: s_and_b32 s2, s4, s9			; GFX7-NEXT: s_and_b32 s2, s4, s5
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX7-NEXT: v_lshl_b32_e32 v3, s2, v0			; GFX7-NEXT: v_lshl_b32_e32 v3, s2, v0
	; GFX7-NEXT: v_lshl_b32_e32 v0, s9, v0			; GFX7-NEXT: v_lshl_b32_e32 v0, s5, v0
	; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX7-NEXT: v_and_b32_e32 v0, v1, v0			; GFX7-NEXT: v_and_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_or_b32_e32 v3, v0, v3			; GFX7-NEXT: v_or_b32_e32 v3, v0, v3
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX7-NEXT: v_and_b32_e32 v4, s5, v0
				; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s9, v0			; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_and_b32_e32 v2, s5, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s9, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s9, v6			; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v7
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v8i8_s_v:			; GFX10-LABEL: insertelement_s_v8i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v0			; GFX10-NEXT: v_and_b32_e32 v1, 3, v0
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_movk_i32 s2, 0xff
				; GFX10-NEXT: s_mov_b32 s5, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v0
	; GFX10-NEXT: s_and_b32 s3, s4, s2
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
				; GFX10-NEXT: s_and_b32 s4, s4, s2
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2
	; GFX10-NEXT: v_lshlrev_b32_e64 v3, v1, s3			; GFX10-NEXT: v_lshlrev_b32_e64 v3, v1, s4
	; GFX10-NEXT: v_lshlrev_b32_e64 v0, v1, s2			; GFX10-NEXT: v_lshlrev_b32_e64 v0, v1, s2
	; GFX10-NEXT: v_xor_b32_e32 v4, -1, v0			; GFX10-NEXT: v_xor_b32_e32 v4, -1, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s1, 8			; GFX10-NEXT: s_bfe_u32 s8, s0, s3
	; GFX10-NEXT: s_lshr_b32 s7, s1, 16			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_and_b32 s6, s6, s2			; GFX10-NEXT: s_lshr_b32 s6, s1, 24
	; GFX10-NEXT: s_lshr_b32 s8, s1, 24			; GFX10-NEXT: s_and_b32 s9, s1, s2
	; GFX10-NEXT: s_and_b32 s7, s7, s2			; GFX10-NEXT: s_bfe_u32 s1, s1, s5
	; GFX10-NEXT: s_and_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 8
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s6
	; GFX10-NEXT: s_lshr_b32 s4, s0, 16
	; GFX10-NEXT: s_and_b32 s3, s3, s2
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s7
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24
	; GFX10-NEXT: s_and_b32 s4, s4, s2
	; GFX10-NEXT: s_and_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s3, s3, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s8			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-NEXT: s_or_b32 s3, s9, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_lshl_b32 s6, s6, 24
				; GFX10-NEXT: s_or_b32 s1, s3, s1
				; GFX10-NEXT: s_lshr_b32 s4, s0, 24
				; GFX10-NEXT: s_and_b32 s7, s0, s2
				; GFX10-NEXT: s_bfe_u32 s0, s0, s5
				; GFX10-NEXT: s_lshl_b32 s5, s8, 8
				; GFX10-NEXT: s_or_b32 s1, s1, s6
				; GFX10-NEXT: s_lshl_b32 s3, s4, 24
				; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_or_b32 s4, s7, s5
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: s_lshl_b32 s5, s5, 24			; GFX10-NEXT: s_or_b32 s0, s4, s0
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s5
	; GFX10-NEXT: v_cndmask_b32_e32 v5, s0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v5, s0, v1, vcc_lo
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v2			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v2
				; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: v_and_or_b32 v3, v5, v4, v3			; GFX10-NEXT: v_and_or_b32 v3, v5, v4, v3
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v3, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v3, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v3
	; GFX10-NEXT: v_and_b32_sdwa v7, v1, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v3			; GFX10-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4
	; GFX10-NEXT: v_or3_b32 v1, v1, v7, v5
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v8i8_v_v(<8 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v8i8_v_v(<8 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v8i8_v_v:			; GFX9-LABEL: insertelement_s_v8i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s9, 0xff			; GFX9-NEXT: s_mov_b32 s8, 0x80008
				; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 2, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 2, v1
	; GFX9-NEXT: v_and_b32_e32 v1, 3, v1			; GFX9-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_bfe_u32 s9, s0, s8
	; GFX9-NEXT: s_and_b32 s2, s2, s9			; GFX9-NEXT: s_and_b32 s7, s0, s6
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: s_lshl_b32 s9, s9, 8
	; GFX9-NEXT: s_lshr_b32 s5, s0, 24			; GFX9-NEXT: s_or_b32 s7, s7, s9
	; GFX9-NEXT: s_and_b32 s0, s0, s9			; GFX9-NEXT: s_mov_b32 s9, 0x80010
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s0, s0, s9
	; GFX9-NEXT: s_and_b32 s2, s3, s9			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s0, s7, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_bfe_u32 s7, s1, s8
	; GFX9-NEXT: s_lshl_b32 s2, s5, 24			; GFX9-NEXT: s_lshl_b32 s4, s4, 24
	; GFX9-NEXT: s_lshr_b32 s6, s1, 8			; GFX9-NEXT: s_or_b32 s0, s0, s4
	; GFX9-NEXT: s_or_b32 s0, s0, s2			; GFX9-NEXT: s_lshr_b32 s5, s1, 24
	; GFX9-NEXT: s_and_b32 s2, s6, s9			; GFX9-NEXT: s_and_b32 s4, s1, s6
	; GFX9-NEXT: s_lshr_b32 s7, s1, 16			; GFX9-NEXT: s_bfe_u32 s1, s1, s9
	; GFX9-NEXT: s_lshr_b32 s8, s1, 24			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_and_b32 s1, s1, s9			; GFX9-NEXT: s_or_b32 s4, s4, s7
	; GFX9-NEXT: s_lshl_b32 s2, s2, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: s_or_b32 s1, s4, s1
	; GFX9-NEXT: s_and_b32 s2, s7, s9			; GFX9-NEXT: s_lshl_b32 s4, s5, 24
	; GFX9-NEXT: s_lshl_b32 s2, s2, 16			; GFX9-NEXT: s_or_b32 s1, s1, s4
	; GFX9-NEXT: s_or_b32 s1, s1, s2			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX9-NEXT: s_lshl_b32 s2, s8, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s9			; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s6
	; GFX9-NEXT: v_mov_b32_e32 v3, s0			; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: v_mov_b32_e32 v4, s1			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX9-NEXT: v_and_or_b32 v3, v3, v1, v0			; GFX9-NEXT: v_and_or_b32 v3, v3, v1, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: s_mov_b32 s3, 16
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_and_or_b32 v4, v0, s6, v4
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v2, v0, s9, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or3_b32 v0, v4, v0, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v2, v1, s6, v2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_and_or_b32 v2, v1, s9, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v5
	; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3			; GFX9-NEXT: v_or3_b32 v1, v2, v1, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v8i8_v_v:			; GFX8-LABEL: insertelement_s_v8i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s8, 0xff			; GFX8-NEXT: s_mov_b32 s6, 0x80008
				; GFX8-NEXT: s_movk_i32 s4, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 2, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 2, v1
	; GFX8-NEXT: v_and_b32_e32 v1, 3, v1			; GFX8-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s2, s0, 8			; GFX8-NEXT: s_bfe_u32 s7, s0, s6
	; GFX8-NEXT: s_and_b32 s2, s2, s8			; GFX8-NEXT: s_and_b32 s5, s0, s4
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: s_lshl_b32 s7, s7, 8
	; GFX8-NEXT: s_lshr_b32 s4, s0, 24			; GFX8-NEXT: s_or_b32 s5, s5, s7
	; GFX8-NEXT: s_and_b32 s0, s0, s8			; GFX8-NEXT: s_mov_b32 s7, 0x80010
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8			; GFX8-NEXT: s_lshr_b32 s2, s0, 24
				; GFX8-NEXT: s_bfe_u32 s0, s0, s7
				; GFX8-NEXT: s_lshl_b32 s0, s0, 16
				; GFX8-NEXT: s_or_b32 s0, s5, s0
				; GFX8-NEXT: s_bfe_u32 s5, s1, s6
				; GFX8-NEXT: s_lshl_b32 s2, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_or_b32 s0, s0, s2
	; GFX8-NEXT: s_and_b32 s2, s3, s8			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16			; GFX8-NEXT: s_and_b32 s2, s1, s4
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_bfe_u32 s1, s1, s7
	; GFX8-NEXT: s_lshl_b32 s2, s4, 24			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshr_b32 s5, s1, 8			; GFX8-NEXT: s_or_b32 s2, s2, s5
	; GFX8-NEXT: s_or_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s2, s5, s8			; GFX8-NEXT: s_or_b32 s1, s2, s1
	; GFX8-NEXT: s_lshr_b32 s6, s1, 16			; GFX8-NEXT: s_lshl_b32 s2, s3, 24
	; GFX8-NEXT: s_lshr_b32 s7, s1, 24
	; GFX8-NEXT: s_and_b32 s1, s1, s8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 8
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_and_b32 s2, s6, s8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_or_b32 s1, s1, s2
	; GFX8-NEXT: s_lshl_b32 s2, s7, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s2			; GFX8-NEXT: s_or_b32 s1, s1, s2
				; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s8			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s0			; GFX8-NEXT: v_mov_b32_e32 v3, s0
	; GFX8-NEXT: v_mov_b32_e32 v4, s1			; GFX8-NEXT: v_mov_b32_e32 v4, s1
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_and_b32_e32 v1, v3, v1			; GFX8-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX8-NEXT: v_or_b32_e32 v3, v1, v0			; GFX8-NEXT: v_or_b32_e32 v3, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: v_mov_b32_e32 v7, s8			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX8-NEXT: v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX8-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v1			; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v8i8_v_v:			; GFX7-LABEL: insertelement_s_v8i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s8, 0xff			; GFX7-NEXT: s_mov_b32 s6, 0x80008
				; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v1
	; GFX7-NEXT: v_and_b32_e32 v1, 3, v1			; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s2, s0, 8			; GFX7-NEXT: s_bfe_u32 s7, s0, s6
	; GFX7-NEXT: s_and_b32 s2, s2, s8			; GFX7-NEXT: s_and_b32 s5, s0, s4
	; GFX7-NEXT: s_lshr_b32 s3, s0, 16			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshr_b32 s4, s0, 24			; GFX7-NEXT: s_or_b32 s5, s5, s7
	; GFX7-NEXT: s_and_b32 s0, s0, s8			; GFX7-NEXT: s_mov_b32 s7, 0x80010
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_lshr_b32 s2, s0, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s0, s0, s7
	; GFX7-NEXT: s_and_b32 s2, s3, s8			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_or_b32 s0, s5, s0
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_bfe_u32 s5, s1, s6
	; GFX7-NEXT: s_lshl_b32 s2, s4, 24			; GFX7-NEXT: s_lshl_b32 s2, s2, 24
	; GFX7-NEXT: s_lshr_b32 s5, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s2			; GFX7-NEXT: s_or_b32 s0, s0, s2
	; GFX7-NEXT: s_and_b32 s2, s5, s8			; GFX7-NEXT: s_lshr_b32 s3, s1, 24
	; GFX7-NEXT: s_lshr_b32 s6, s1, 16			; GFX7-NEXT: s_and_b32 s2, s1, s4
	; GFX7-NEXT: s_lshr_b32 s7, s1, 24			; GFX7-NEXT: s_bfe_u32 s1, s1, s7
	; GFX7-NEXT: s_and_b32 s1, s1, s8			; GFX7-NEXT: s_lshl_b32 s5, s5, 8
	; GFX7-NEXT: s_lshl_b32 s2, s2, 8			; GFX7-NEXT: s_or_b32 s2, s2, s5
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s2, s6, s8			; GFX7-NEXT: s_or_b32 s1, s2, s1
	; GFX7-NEXT: s_lshl_b32 s2, s2, 16			; GFX7-NEXT: s_lshl_b32 s2, s3, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: s_lshl_b32 s2, s7, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s2			; GFX7-NEXT: s_or_b32 s1, s1, s2
	; GFX7-NEXT: v_and_b32_e32 v0, s8, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
				; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s8, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s4, v1
	; GFX7-NEXT: v_mov_b32_e32 v3, s0			; GFX7-NEXT: v_mov_b32_e32 v3, s0
	; GFX7-NEXT: v_mov_b32_e32 v4, s1			; GFX7-NEXT: v_mov_b32_e32 v4, s1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, v3, v1			; GFX7-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX7-NEXT: v_or_b32_e32 v3, v1, v0			; GFX7-NEXT: v_or_b32_e32 v3, v1, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s8, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
				; GFX7-NEXT: v_and_b32_e32 v4, s4, v0
				; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s8, v0			; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s8, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s8, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_and_b32_e32 v2, s4, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s8, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s8, v6			; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v7
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v8i8_v_v:			; GFX10-LABEL: insertelement_s_v8i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX10-NEXT: s_movk_i32 s2, 0xff			; GFX10-NEXT: s_mov_b32 s3, 0x80008
	; GFX10-NEXT: v_and_b32_e32 v2, 3, v1			; GFX10-NEXT: v_and_b32_e32 v2, 3, v1
				; GFX10-NEXT: s_movk_i32 s2, 0xff
				; GFX10-NEXT: s_mov_b32 s4, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v4, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_lshlrev_b32_e64 v0, v2, s2			; GFX10-NEXT: v_lshlrev_b32_e64 v0, v2, s2
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v0			; GFX10-NEXT: v_xor_b32_e32 v2, -1, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s1, 8			; GFX10-NEXT: s_bfe_u32 s8, s0, s3
	; GFX10-NEXT: s_lshr_b32 s7, s1, 16			; GFX10-NEXT: s_bfe_u32 s3, s1, s3
	; GFX10-NEXT: s_and_b32 s6, s6, s2			; GFX10-NEXT: s_lshr_b32 s6, s1, 24
	; GFX10-NEXT: s_lshr_b32 s8, s1, 24			; GFX10-NEXT: s_and_b32 s9, s1, s2
	; GFX10-NEXT: s_and_b32 s7, s7, s2			; GFX10-NEXT: s_bfe_u32 s1, s1, s4
	; GFX10-NEXT: s_and_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 8
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s6
	; GFX10-NEXT: s_lshr_b32 s4, s0, 16
	; GFX10-NEXT: s_and_b32 s3, s3, s2
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s7
	; GFX10-NEXT: s_lshr_b32 s5, s0, 24
	; GFX10-NEXT: s_and_b32 s4, s4, s2
	; GFX10-NEXT: s_and_b32 s0, s0, s2
	; GFX10-NEXT: s_lshl_b32 s3, s3, 8			; GFX10-NEXT: s_lshl_b32 s3, s3, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s8			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-NEXT: s_or_b32 s3, s9, s3
	; GFX10-NEXT: s_or_b32 s0, s0, s3			; GFX10-NEXT: s_lshl_b32 s6, s6, 24
				; GFX10-NEXT: s_or_b32 s1, s3, s1
				; GFX10-NEXT: s_lshr_b32 s5, s0, 24
				; GFX10-NEXT: s_and_b32 s7, s0, s2
				; GFX10-NEXT: s_bfe_u32 s0, s0, s4
				; GFX10-NEXT: s_lshl_b32 s4, s8, 8
				; GFX10-NEXT: s_or_b32 s1, s1, s6
				; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_or_b32 s4, s7, s4
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: s_lshl_b32 s5, s5, 24			; GFX10-NEXT: s_lshl_b32 s3, s5, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_or_b32 s0, s4, s0
	; GFX10-NEXT: s_or_b32 s0, s0, s5			; GFX10-NEXT: s_or_b32 s0, s0, s3
	; GFX10-NEXT: v_cndmask_b32_e32 v5, s0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v5, s0, v1, vcc_lo
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v3			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v3
				; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: v_and_or_b32 v2, v5, v2, v4			; GFX10-NEXT: v_and_or_b32 v2, v5, v2, v4
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_b32_sdwa v6, v0, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v3
	; GFX10-NEXT: v_and_b32_sdwa v7, v1, s2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v2			; GFX10-NEXT: v_or3_b32 v0, v0, v6, v2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v3			; GFX10-NEXT: v_or3_b32 v1, v1, v7, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v6, v4
	; GFX10-NEXT: v_or3_b32 v1, v1, v7, v5
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(4)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v8i8_s_v(<8 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v8i8_s_v(<8 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v8i8_s_v:			; GFX9-LABEL: insertelement_v_v8i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s3, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 2, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 2, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 3, v2			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: s_and_b32 s1, s2, s3			; GFX9-NEXT: s_movk_i32 s3, 0xff
				; GFX9-NEXT: s_and_b32 s2, s2, s3
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX9-NEXT: v_lshlrev_b32_e64 v5, v2, s1			; GFX9-NEXT: v_lshlrev_b32_e64 v6, v2, s2
	; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s3			; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s3
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5
	; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX9-NEXT: v_mov_b32_e32 v3, 8			; GFX9-NEXT: v_mov_b32_e32 v3, 8
				; GFX9-NEXT: v_mov_b32_e32 v4, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v10, v0, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v11, v1, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v6			; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v11
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v8
	; GFX9-NEXT: v_or3_b32 v0, v0, v10, v7			; GFX9-NEXT: v_or3_b32 v0, v0, v10, v7
	; GFX9-NEXT: v_or3_b32 v1, v1, v11, v9			; GFX9-NEXT: v_or3_b32 v1, v1, v12, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc
	; GFX9-NEXT: v_and_or_b32 v2, v6, v2, v5			; GFX9-NEXT: v_and_or_b32 v2, v7, v2, v6
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v7, v0, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v8, v1, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v3			; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v5
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v6
				; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_or3_b32 v0, v0, v7, v2
				; GFX9-NEXT: v_or3_b32 v1, v1, v4, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX9-NEXT: v_or3_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v8i8_s_v:			; GFX8-LABEL: insertelement_v_v8i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v3, 8			; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 16
	; GFX8-NEXT: v_mov_b32_e32 v5, s0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 2, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 2, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
				; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_lshlrev_b32_e64 v7, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v8, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v7
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v7
				; GFX8-NEXT: v_mov_b32_e32 v5, 8
				; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v12, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v13, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v12			; GFX8-NEXT: v_or_b32_e32 v0, v0, v12
	; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v10
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v13			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8			; GFX8-NEXT: v_or_b32_e32 v0, v0, v9
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v10			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v2, v3, v2			; GFX8-NEXT: v_and_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v7			; GFX8-NEXT: v_or_b32_e32 v2, v2, v8
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v5, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v6			; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
				; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v8i8_s_v:			; GFX7-LABEL: insertelement_v_v8i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s3, 0xff			; GFX7-NEXT: s_movk_i32 s3, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: s_and_b32 s0, s2, s3			; GFX7-NEXT: s_and_b32 s0, s2, s3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX7-NEXT: v_lshl_b32_e32 v4, s0, v2			; GFX7-NEXT: v_lshl_b32_e32 v4, s0, v2
	; GFX7-NEXT: v_lshl_b32_e32 v2, s3, v2			; GFX7-NEXT: v_lshl_b32_e32 v2, s3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX7-NEXT: v_bfe_u32 v8, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX7-NEXT: v_bfe_u32 v10, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v5, s3, v5			; GFX7-NEXT: v_and_b32_e32 v7, s3, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s3, v8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX7-NEXT: v_and_b32_e32 v9, s3, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v6, s3, v6
	; GFX7-NEXT: v_and_b32_e32 v9, s3, v9
	; GFX7-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v1, s3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
				; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v8, v9, v10
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX7-NEXT: v_or_b32_e32 v0, v7, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX7-NEXT: v_or_b32_e32 v1, v8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5			; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 16, v9			; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v10
	; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v2, v5, v2			; GFX7-NEXT: v_and_b32_e32 v2, v5, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s3, v2			; GFX7-NEXT: v_and_b32_e32 v4, s3, v0
	; GFX7-NEXT: v_and_b32_e32 v5, s3, v5			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_and_b32_e32 v6, s3, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s3, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s3, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v8i8_s_v:			; GFX10-LABEL: insertelement_v_v8i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_and_b32_e32 v3, 3, v2			; GFX10-NEXT: v_and_b32_e32 v3, 3, v2
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s3, 0xff
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v8, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v8, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v5
	; GFX10-NEXT: v_and_b32_sdwa v9, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v7
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v4			; GFX10-NEXT: v_lshlrev_b32_e64 v6, v3, s3
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v5			; GFX10-NEXT: s_and_b32 s0, s2, s3
	; GFX10-NEXT: v_lshlrev_b32_e64 v4, v3, s1			; GFX10-NEXT: v_or3_b32 v0, v0, v8, v4
	; GFX10-NEXT: s_and_b32 s0, s2, s1
	; GFX10-NEXT: v_or3_b32 v0, v0, v8, v6
	; GFX10-NEXT: v_or3_b32 v1, v1, v9, v7
	; GFX10-NEXT: v_lshlrev_b32_e64 v3, v3, s0			; GFX10-NEXT: v_lshlrev_b32_e64 v3, v3, s0
	; GFX10-NEXT: v_xor_b32_e32 v4, -1, v4			; GFX10-NEXT: v_or3_b32 v1, v1, v9, v5
				; GFX10-NEXT: v_xor_b32_e32 v4, -1, v6
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v2			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v2
	; GFX10-NEXT: v_mov_b32_e32 v2, 8			; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc_lo
	; GFX10-NEXT: v_and_or_b32 v3, v5, v4, v3			; GFX10-NEXT: v_and_or_b32 v3, v5, v4, v3
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v3, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v3, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_mov_b32_e32 v3, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v7, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v4, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 24, v6
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX10-NEXT: v_or3_b32 v1, v1, v3, v2
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
				; GFX10-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v7, v5
	; GFX10-NEXT: v_or3_b32 v1, v1, v4, v6
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v8i8_v_s(<8 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v8i8_v_s(<8 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v8i8_v_s:			; GFX9-LABEL: insertelement_v_v8i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s3, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: s_lshr_b32 s1, s2, 2			; GFX9-NEXT: s_lshr_b32 s4, s2, 2
	; GFX9-NEXT: s_and_b32 s2, s2, 3			; GFX9-NEXT: s_and_b32 s2, s2, 3
				; GFX9-NEXT: s_movk_i32 s3, 0xff
	; GFX9-NEXT: s_lshl_b32 s2, s2, 3			; GFX9-NEXT: s_lshl_b32 s2, s2, 3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: s_lshl_b32 s2, s3, s2			; GFX9-NEXT: s_lshl_b32 s2, s3, s2
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX9-NEXT: s_not_b32 s2, s2			; GFX9-NEXT: s_not_b32 s2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, 8			; GFX9-NEXT: v_mov_b32_e32 v3, 8
				; GFX9-NEXT: v_mov_b32_e32 v4, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v8, v0, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v9, v1, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v7
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v4			; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v6
	; GFX9-NEXT: v_or3_b32 v0, v0, v8, v5			; GFX9-NEXT: v_or3_b32 v0, v0, v8, v5
	; GFX9-NEXT: v_or3_b32 v1, v1, v9, v7			; GFX9-NEXT: v_or3_b32 v1, v1, v10, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX9-NEXT: v_and_or_b32 v2, v4, s2, v2			; GFX9-NEXT: v_and_or_b32 v2, v5, s2, v2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v7, v0, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v8, v1, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v2
	; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v3			; GFX9-NEXT: v_and_or_b32 v1, v1, s3, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v5
				; GFX9-NEXT: v_and_or_b32 v0, v0, s3, v6
				; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_or3_b32 v0, v0, v7, v2
				; GFX9-NEXT: v_or3_b32 v1, v1, v4, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX9-NEXT: v_or3_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v8i8_v_s:			; GFX8-LABEL: insertelement_v_v8i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_lshr_b32 s1, s2, 2			; GFX8-NEXT: s_lshr_b32 s1, s2, 2
	; GFX8-NEXT: s_and_b32 s2, s2, 3			; GFX8-NEXT: s_and_b32 s2, s2, 3
				; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: s_lshl_b32 s2, s2, 3			; GFX8-NEXT: s_lshl_b32 s2, s2, 3
	; GFX8-NEXT: v_mov_b32_e32 v6, s2			; GFX8-NEXT: v_mov_b32_e32 v4, 16
				; GFX8-NEXT: v_mov_b32_e32 v7, s2
				; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_mov_b32_e32 v3, 8
	; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v5, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s2			; GFX8-NEXT: s_lshl_b32 s0, s0, s2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
	; GFX8-NEXT: s_not_b32 s0, s0			; GFX8-NEXT: s_not_b32 s0, s0
				; GFX8-NEXT: v_mov_b32_e32 v5, 8
				; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v10, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v11, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v10			; GFX8-NEXT: v_or_b32_e32 v0, v0, v10
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v8
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v11			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v8			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v3, s0, v3			; GFX8-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v5, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v6			; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
				; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v8i8_v_s:			; GFX7-LABEL: insertelement_v_v8i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s3, 0xff			; GFX7-NEXT: s_movk_i32 s3, 0xff
	; GFX7-NEXT: s_and_b32 s1, s2, 3			; GFX7-NEXT: s_and_b32 s1, s2, 3
	; GFX7-NEXT: s_lshr_b32 s0, s2, 2			; GFX7-NEXT: s_lshr_b32 s0, s2, 2
	; GFX7-NEXT: v_and_b32_e32 v2, s3, v2			; GFX7-NEXT: v_and_b32_e32 v2, s3, v2
	; GFX7-NEXT: s_lshl_b32 s1, s1, 3			; GFX7-NEXT: s_lshl_b32 s1, s1, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, s1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, s1, v2
	; GFX7-NEXT: s_lshl_b32 s1, s3, s1			; GFX7-NEXT: s_lshl_b32 s1, s3, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX7-NEXT: s_not_b32 s1, s1			; GFX7-NEXT: s_not_b32 s1, s1
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v3, s3, v3			; GFX7-NEXT: v_and_b32_e32 v5, s3, v0
	; GFX7-NEXT: v_and_b32_e32 v6, s3, v6			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX7-NEXT: v_and_b32_e32 v7, s3, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s3, v4
	; GFX7-NEXT: v_and_b32_e32 v7, s3, v7
	; GFX7-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v1, s3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
				; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v6, v7, v8
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX7-NEXT: v_or_b32_e32 v1, v6, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3			; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v3, s1, v3			; GFX7-NEXT: v_and_b32_e32 v3, s1, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s3, v2			; GFX7-NEXT: v_and_b32_e32 v4, s3, v0
	; GFX7-NEXT: v_and_b32_e32 v5, s3, v5			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_and_b32_e32 v6, s3, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s3, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s3, v6
	; GFX7-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v8i8_v_s:			; GFX10-LABEL: insertelement_v_v8i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s3, 0xff
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v7, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v8, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v4
	; GFX10-NEXT: v_and_b32_sdwa v8, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX10-NEXT: s_lshr_b32 s1, s2, 2
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v4
	; GFX10-NEXT: s_and_b32 s0, s2, 3			; GFX10-NEXT: s_and_b32 s0, s2, 3
	; GFX10-NEXT: s_lshr_b32 s2, s2, 2			; GFX10-NEXT: v_or3_b32 v0, v0, v7, v3
				; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s1, 1
				; GFX10-NEXT: v_or3_b32 v1, v1, v8, v4
	; GFX10-NEXT: s_lshl_b32 s0, s0, 3			; GFX10-NEXT: s_lshl_b32 s0, s0, 3
	; GFX10-NEXT: v_or3_b32 v0, v0, v7, v5
	; GFX10-NEXT: v_or3_b32 v1, v1, v8, v6
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s2, 1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_lshl_b32 s0, s1, s0			; GFX10-NEXT: s_lshl_b32 s0, s3, s0
	; GFX10-NEXT: s_not_b32 s0, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc_lo
				; GFX10-NEXT: s_not_b32 s0, s0
	; GFX10-NEXT: v_and_or_b32 v2, v3, s0, v2			; GFX10-NEXT: v_and_or_b32 v2, v3, s0, v2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s2, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s1, 0
				; GFX10-NEXT: v_mov_b32_e32 v3, 8
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0
	; GFX10-NEXT: v_mov_b32_e32 v2, 8			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v7, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_and_b32_sdwa v4, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v0, v0, s3, v5
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v3			; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v3
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v6
				; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX10-NEXT: v_or3_b32 v1, v1, v2, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
				; GFX10-NEXT: v_or3_b32 v0, v0, v7, v4
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v7, v5
	; GFX10-NEXT: v_or3_b32 v1, v1, v4, v6
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v8i8_v_v(<8 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v8i8_v_v(<8 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v8i8_v_v:			; GFX9-LABEL: insertelement_v_v8i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 2, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 2, v3
	; GFX9-NEXT: v_and_b32_e32 v3, 3, v3			; GFX9-NEXT: v_and_b32_e32 v3, 3, v3
				; GFX9-NEXT: s_movk_i32 s2, 0xff
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xff			; GFX9-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, v3, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v3, v3, v4
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v7
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX9-NEXT: v_mov_b32_e32 v5, 8			; GFX9-NEXT: v_mov_b32_e32 v5, 8
				; GFX9-NEXT: v_mov_b32_e32 v6, 16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v7, s0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v11, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v12, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v0, v0, s2, v10
	; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX9-NEXT: v_and_or_b32 v0, v0, s1, v7			; GFX9-NEXT: v_and_or_b32 v1, v1, s2, v12
	; GFX9-NEXT: v_and_or_b32 v1, v1, s1, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX9-NEXT: v_or3_b32 v0, v0, v11, v8			; GFX9-NEXT: v_or3_b32 v0, v0, v11, v8
	; GFX9-NEXT: v_or3_b32 v1, v1, v12, v10			; GFX9-NEXT: v_or3_b32 v1, v1, v13, v9
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v8, v0, v1, vcc
	; GFX9-NEXT: v_and_or_b32 v2, v7, v3, v2			; GFX9-NEXT: v_and_or_b32 v2, v8, v3, v2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v5, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v0, v0, v4, v7
				; GFX9-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX9-NEXT: v_and_or_b32 v0, v0, v4, v2			; GFX9-NEXT: v_or3_b32 v0, v0, v8, v2
	; GFX9-NEXT: v_and_b32_sdwa v9, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or3_b32 v1, v1, v6, v3
	; GFX9-NEXT: v_or3_b32 v0, v0, v8, v3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v5
	; GFX9-NEXT: v_or3_b32 v1, v1, v9, v6
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v8i8_v_v:			; GFX8-LABEL: insertelement_v_v8i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v3
	; GFX8-NEXT: v_mov_b32_e32 v5, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, s0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 2, v3
	; GFX8-NEXT: v_and_b32_e32 v3, 3, v3			; GFX8-NEXT: v_and_b32_e32 v3, 3, v3
				; GFX8-NEXT: v_mov_b32_e32 v5, 8
				; GFX8-NEXT: v_mov_b32_e32 v6, 16
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v9
				; GFX8-NEXT: v_mov_b32_e32 v7, 8
				; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v6, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v13, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_and_b32_sdwa v7, v1, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v12
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v10
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v13			; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v7			; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v9			; GFX8-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v11			; GFX8-NEXT: v_and_b32_e32 v3, v4, v3
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX8-NEXT: v_and_b32_e32 v3, v5, v3
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v8, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v4, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8			; GFX8-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX8-NEXT: v_mov_b32_e32 v3, 0			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v8i8_v_v:			; GFX7-LABEL: insertelement_v_v8i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 2, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 2, v3
	; GFX7-NEXT: v_and_b32_e32 v3, 3, v3			; GFX7-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX7-NEXT: v_mov_b32_e32 v4, 0xff			; GFX7-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v4			; GFX7-NEXT: v_and_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5
	; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX7-NEXT: s_mov_b32 s6, -1			; GFX7-NEXT: s_mov_b32 s6, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v6, s0, v6			; GFX7-NEXT: v_and_b32_e32 v8, s0, v0
	; GFX7-NEXT: v_and_b32_e32 v9, s0, v9			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX7-NEXT: v_and_b32_e32 v10, s0, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v7, s0, v7
	; GFX7-NEXT: v_and_b32_e32 v10, s0, v10
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
				; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6			; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v10			; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v10
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v11
	; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v3, v6, v3			; GFX7-NEXT: v_and_b32_e32 v3, v6, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v6, v6, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX7-NEXT: v_and_b32_e32 v5, v0, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, v3, v4			; GFX7-NEXT: v_and_b32_e32 v4, v1, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, v7, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v4, v4, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
				; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v8i8_v_v:			; GFX10-LABEL: insertelement_v_v8i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_and_b32_e32 v4, 3, v3			; GFX10-NEXT: v_and_b32_e32 v4, 3, v3
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v3
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xff			; GFX10-NEXT: v_mov_b32_e32 v5, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 3, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 3, v4
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v10, v0, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v0, v0, s2, v7
	; GFX10-NEXT: v_and_b32_sdwa v11, v1, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX10-NEXT: v_and_or_b32 v1, v1, s2, v9
	; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v8, v4, v5
	; GFX10-NEXT: v_and_or_b32 v1, v1, s1, v7
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, v4, v5
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v3			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 0, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v10, v8			; GFX10-NEXT: v_or3_b32 v0, v0, v10, v6
	; GFX10-NEXT: v_or3_b32 v1, v1, v11, v9			; GFX10-NEXT: v_mov_b32_e32 v3, 8
	; GFX10-NEXT: v_xor_b32_e32 v4, -1, v6			; GFX10-NEXT: v_or3_b32 v1, v1, v11, v7
				; GFX10-NEXT: v_xor_b32_e32 v4, -1, v8
	; GFX10-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc_lo
	; GFX10-NEXT: v_and_or_b32 v2, v6, v4, v2			; GFX10-NEXT: v_and_or_b32 v2, v6, v4, v2
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v2, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc_lo
	; GFX10-NEXT: v_mov_b32_e32 v2, 8			; GFX10-NEXT: v_mov_b32_e32 v2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_and_b32_sdwa v8, v0, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v4, v1, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v7
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX10-NEXT: v_or3_b32 v1, v1, v2, v3
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
				; GFX10-NEXT: v_or3_b32 v0, v0, v8, v4
	; GFX10-NEXT: v_mov_b32_e32 v3, 0			; GFX10-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v8, v6
	; GFX10-NEXT: v_or3_b32 v1, v1, v4, v7
	; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[2:3], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr			%vec = load <8 x i8>, <8 x i8> addrspace(1)* %ptr
	%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <8 x i8> %vec, i8 %val, i32 %idx
	store <8 x i8> %insert, <8 x i8> addrspace(1)* null			store <8 x i8> %insert, <8 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v16i8_s_s(<16 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v16i8_s_s(<16 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v16i8_s_s:			; GFX9-LABEL: insertelement_s_v16i8_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s18, 0xff			; GFX9-NEXT: s_mov_b32 s12, 0x80008
				; GFX9-NEXT: s_movk_i32 s10, 0xff
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s6, s0, 8			; GFX9-NEXT: s_bfe_u32 s13, s0, s12
	; GFX9-NEXT: s_and_b32 s6, s6, s18			; GFX9-NEXT: s_and_b32 s11, s0, s10
	; GFX9-NEXT: s_lshr_b32 s7, s0, 16			; GFX9-NEXT: s_lshl_b32 s13, s13, 8
	; GFX9-NEXT: s_lshr_b32 s8, s0, 24			; GFX9-NEXT: s_or_b32 s11, s11, s13
	; GFX9-NEXT: s_and_b32 s0, s0, s18			; GFX9-NEXT: s_mov_b32 s13, 0x80010
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_bfe_u32 s0, s0, s13
	; GFX9-NEXT: s_and_b32 s6, s7, s18			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_or_b32 s0, s11, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_bfe_u32 s11, s1, s12
	; GFX9-NEXT: s_lshl_b32 s6, s8, 24			; GFX9-NEXT: s_lshl_b32 s6, s6, 24
	; GFX9-NEXT: s_lshr_b32 s9, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_or_b32 s0, s0, s6
	; GFX9-NEXT: s_and_b32 s6, s9, s18			; GFX9-NEXT: s_lshr_b32 s7, s1, 24
	; GFX9-NEXT: s_lshr_b32 s10, s1, 16			; GFX9-NEXT: s_and_b32 s6, s1, s10
	; GFX9-NEXT: s_lshr_b32 s11, s1, 24			; GFX9-NEXT: s_bfe_u32 s1, s1, s13
	; GFX9-NEXT: s_and_b32 s1, s1, s18			; GFX9-NEXT: s_lshl_b32 s11, s11, 8
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_or_b32 s6, s6, s11
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_and_b32 s6, s10, s18			; GFX9-NEXT: s_or_b32 s1, s6, s1
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_lshl_b32 s6, s7, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_bfe_u32 s7, s2, s12
	; GFX9-NEXT: s_lshl_b32 s6, s11, 24
	; GFX9-NEXT: s_lshr_b32 s12, s2, 8
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_or_b32 s1, s1, s6
	; GFX9-NEXT: s_and_b32 s6, s12, s18			; GFX9-NEXT: s_lshr_b32 s8, s2, 24
	; GFX9-NEXT: s_lshr_b32 s13, s2, 16			; GFX9-NEXT: s_and_b32 s6, s2, s10
	; GFX9-NEXT: s_lshr_b32 s14, s2, 24			; GFX9-NEXT: s_bfe_u32 s2, s2, s13
	; GFX9-NEXT: s_and_b32 s2, s2, s18			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_or_b32 s6, s6, s7
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9-NEXT: s_and_b32 s6, s13, s18			; GFX9-NEXT: s_bfe_u32 s7, s3, s12
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_or_b32 s2, s6, s2
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_lshl_b32 s6, s8, 24
	; GFX9-NEXT: s_lshl_b32 s6, s14, 24
	; GFX9-NEXT: s_lshr_b32 s15, s3, 8
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_or_b32 s2, s2, s6
	; GFX9-NEXT: s_and_b32 s6, s15, s18			; GFX9-NEXT: s_lshr_b32 s9, s3, 24
	; GFX9-NEXT: s_lshr_b32 s16, s3, 16			; GFX9-NEXT: s_and_b32 s6, s3, s10
	; GFX9-NEXT: s_lshr_b32 s17, s3, 24			; GFX9-NEXT: s_bfe_u32 s3, s3, s13
	; GFX9-NEXT: s_and_b32 s3, s3, s18			; GFX9-NEXT: s_lshl_b32 s7, s7, 8
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_or_b32 s6, s6, s7
	; GFX9-NEXT: s_or_b32 s3, s3, s6			; GFX9-NEXT: s_lshl_b32 s3, s3, 16
	; GFX9-NEXT: s_and_b32 s6, s16, s18			; GFX9-NEXT: s_or_b32 s3, s6, s3
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_lshl_b32 s6, s9, 24
	; GFX9-NEXT: s_or_b32 s3, s3, s6
	; GFX9-NEXT: s_lshl_b32 s6, s17, 24
	; GFX9-NEXT: s_or_b32 s3, s3, s6			; GFX9-NEXT: s_or_b32 s3, s3, s6
	; GFX9-NEXT: s_lshr_b32 s6, s5, 2			; GFX9-NEXT: s_lshr_b32 s6, s5, 2
	; GFX9-NEXT: s_cmp_eq_u32 s6, 1			; GFX9-NEXT: s_cmp_eq_u32 s6, 1
	; GFX9-NEXT: s_cselect_b32 s7, s1, s0			; GFX9-NEXT: s_cselect_b32 s7, s1, s0
	; GFX9-NEXT: s_cmp_eq_u32 s6, 2			; GFX9-NEXT: s_cmp_eq_u32 s6, 2
	; GFX9-NEXT: s_cselect_b32 s7, s2, s7			; GFX9-NEXT: s_cselect_b32 s7, s2, s7
	; GFX9-NEXT: s_cmp_eq_u32 s6, 3			; GFX9-NEXT: s_cmp_eq_u32 s6, 3
	; GFX9-NEXT: s_cselect_b32 s7, s3, s7			; GFX9-NEXT: s_cselect_b32 s7, s3, s7
	; GFX9-NEXT: s_and_b32 s5, s5, 3			; GFX9-NEXT: s_and_b32 s5, s5, 3
	; GFX9-NEXT: s_lshl_b32 s5, s5, 3			; GFX9-NEXT: s_lshl_b32 s5, s5, 3
	; GFX9-NEXT: s_and_b32 s4, s4, s18			; GFX9-NEXT: s_and_b32 s4, s4, s10
	; GFX9-NEXT: s_lshl_b32 s4, s4, s5			; GFX9-NEXT: s_lshl_b32 s4, s4, s5
	; GFX9-NEXT: s_lshl_b32 s5, s18, s5			; GFX9-NEXT: s_lshl_b32 s5, s10, s5
	; GFX9-NEXT: s_andn2_b32 s5, s7, s5			; GFX9-NEXT: s_andn2_b32 s5, s7, s5
	; GFX9-NEXT: s_or_b32 s4, s5, s4			; GFX9-NEXT: s_or_b32 s4, s5, s4
	; GFX9-NEXT: s_cmp_eq_u32 s6, 0			; GFX9-NEXT: s_cmp_eq_u32 s6, 0
	; GFX9-NEXT: s_cselect_b32 s0, s4, s0			; GFX9-NEXT: s_cselect_b32 s0, s4, s0
	; GFX9-NEXT: s_cmp_eq_u32 s6, 1			; GFX9-NEXT: s_cmp_eq_u32 s6, 1
	; GFX9-NEXT: s_cselect_b32 s1, s4, s1			; GFX9-NEXT: s_cselect_b32 s1, s4, s1
	; GFX9-NEXT: s_cmp_eq_u32 s6, 2			; GFX9-NEXT: s_cmp_eq_u32 s6, 2
	; GFX9-NEXT: s_cselect_b32 s2, s4, s2			; GFX9-NEXT: s_cselect_b32 s2, s4, s2
	; GFX9-NEXT: s_cmp_eq_u32 s6, 3			; GFX9-NEXT: s_cmp_eq_u32 s6, 3
	; GFX9-NEXT: s_cselect_b32 s3, s4, s3			; GFX9-NEXT: s_cselect_b32 s3, s4, s3
	; GFX9-NEXT: s_lshr_b32 s4, s0, 8			; GFX9-NEXT: s_bfe_u32 s9, s0, s12
	; GFX9-NEXT: s_and_b32 s4, s4, s18			; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_lshr_b32 s5, s0, 16			; GFX9-NEXT: s_and_b32 s8, s0, s10
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_bfe_u32 s0, s0, s13
	; GFX9-NEXT: s_and_b32 s0, s0, s18			; GFX9-NEXT: s_lshl_b32 s9, s9, 8
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_or_b32 s8, s8, s9
	; GFX9-NEXT: s_or_b32 s0, s0, s4			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_and_b32 s4, s5, s18			; GFX9-NEXT: s_or_b32 s0, s8, s0
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_bfe_u32 s8, s1, s12
	; GFX9-NEXT: s_or_b32 s0, s0, s4			; GFX9-NEXT: s_lshl_b32 s4, s4, 24
	; GFX9-NEXT: s_lshl_b32 s4, s6, 24
	; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s4			; GFX9-NEXT: s_or_b32 s0, s0, s4
	; GFX9-NEXT: s_and_b32 s4, s7, s18			; GFX9-NEXT: s_lshr_b32 s5, s1, 24
	; GFX9-NEXT: s_lshr_b32 s8, s1, 16			; GFX9-NEXT: s_and_b32 s4, s1, s10
	; GFX9-NEXT: s_lshr_b32 s9, s1, 24			; GFX9-NEXT: s_bfe_u32 s1, s1, s13
	; GFX9-NEXT: s_and_b32 s1, s1, s18			; GFX9-NEXT: s_lshl_b32 s8, s8, 8
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_or_b32 s4, s4, s8
	; GFX9-NEXT: s_or_b32 s1, s1, s4			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_and_b32 s4, s8, s18			; GFX9-NEXT: s_or_b32 s1, s4, s1
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_lshl_b32 s4, s5, 24
	; GFX9-NEXT: s_or_b32 s1, s1, s4			; GFX9-NEXT: s_bfe_u32 s5, s2, s12
	; GFX9-NEXT: s_lshl_b32 s4, s9, 24
	; GFX9-NEXT: s_lshr_b32 s10, s2, 8
	; GFX9-NEXT: s_or_b32 s1, s1, s4			; GFX9-NEXT: s_or_b32 s1, s1, s4
	; GFX9-NEXT: s_and_b32 s4, s10, s18			; GFX9-NEXT: s_lshr_b32 s6, s2, 24
	; GFX9-NEXT: s_lshr_b32 s11, s2, 16			; GFX9-NEXT: s_and_b32 s4, s2, s10
	; GFX9-NEXT: s_lshr_b32 s12, s2, 24			; GFX9-NEXT: s_bfe_u32 s2, s2, s13
	; GFX9-NEXT: s_and_b32 s2, s2, s18			; GFX9-NEXT: s_lshl_b32 s5, s5, 8
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_or_b32 s4, s4, s5
	; GFX9-NEXT: s_or_b32 s2, s2, s4			; GFX9-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9-NEXT: s_and_b32 s4, s11, s18			; GFX9-NEXT: s_bfe_u32 s5, s3, s12
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_or_b32 s2, s4, s2
	; GFX9-NEXT: s_or_b32 s2, s2, s4			; GFX9-NEXT: s_lshl_b32 s4, s6, 24
	; GFX9-NEXT: s_lshl_b32 s4, s12, 24
	; GFX9-NEXT: s_lshr_b32 s13, s3, 8
	; GFX9-NEXT: s_or_b32 s2, s2, s4			; GFX9-NEXT: s_or_b32 s2, s2, s4
	; GFX9-NEXT: s_and_b32 s4, s13, s18			; GFX9-NEXT: s_lshr_b32 s7, s3, 24
	; GFX9-NEXT: s_lshr_b32 s14, s3, 16			; GFX9-NEXT: s_and_b32 s4, s3, s10
	; GFX9-NEXT: s_lshr_b32 s15, s3, 24			; GFX9-NEXT: s_bfe_u32 s3, s3, s13
	; GFX9-NEXT: s_and_b32 s3, s3, s18			; GFX9-NEXT: s_lshl_b32 s5, s5, 8
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_or_b32 s4, s4, s5
	; GFX9-NEXT: s_or_b32 s3, s3, s4			; GFX9-NEXT: s_lshl_b32 s3, s3, 16
	; GFX9-NEXT: s_and_b32 s4, s14, s18			; GFX9-NEXT: s_or_b32 s3, s4, s3
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_lshl_b32 s4, s7, 24
	; GFX9-NEXT: s_or_b32 s3, s3, s4
	; GFX9-NEXT: s_lshl_b32 s4, s15, 24
	; GFX9-NEXT: s_or_b32 s3, s3, s4			; GFX9-NEXT: s_or_b32 s3, s3, s4
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i8_s_s:			; GFX8-LABEL: insertelement_s_v16i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s18, 0xff			; GFX8-NEXT: s_mov_b32 s12, 0x80008
				; GFX8-NEXT: s_movk_i32 s10, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s6, s0, 8			; GFX8-NEXT: s_bfe_u32 s13, s0, s12
	; GFX8-NEXT: s_and_b32 s6, s6, s18			; GFX8-NEXT: s_and_b32 s11, s0, s10
	; GFX8-NEXT: s_lshr_b32 s7, s0, 16			; GFX8-NEXT: s_lshl_b32 s13, s13, 8
	; GFX8-NEXT: s_lshr_b32 s8, s0, 24			; GFX8-NEXT: s_or_b32 s11, s11, s13
	; GFX8-NEXT: s_and_b32 s0, s0, s18			; GFX8-NEXT: s_mov_b32 s13, 0x80010
	; GFX8-NEXT: s_lshl_b32 s6, s6, 8			; GFX8-NEXT: s_lshr_b32 s6, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s6			; GFX8-NEXT: s_bfe_u32 s0, s0, s13
	; GFX8-NEXT: s_and_b32 s6, s7, s18			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s6, s6, 16			; GFX8-NEXT: s_or_b32 s0, s11, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s6			; GFX8-NEXT: s_bfe_u32 s11, s1, s12
	; GFX8-NEXT: s_lshl_b32 s6, s8, 24			; GFX8-NEXT: s_lshl_b32 s6, s6, 24
	; GFX8-NEXT: s_lshr_b32 s9, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s6			; GFX8-NEXT: s_or_b32 s0, s0, s6
	; GFX8-NEXT: s_and_b32 s6, s9, s18			; GFX8-NEXT: s_lshr_b32 s7, s1, 24
	; GFX8-NEXT: s_lshr_b32 s10, s1, 16			; GFX8-NEXT: s_and_b32 s6, s1, s10
	; GFX8-NEXT: s_lshr_b32 s11, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s13
	; GFX8-NEXT: s_and_b32 s1, s1, s18			; GFX8-NEXT: s_lshl_b32 s11, s11, 8
	; GFX8-NEXT: s_lshl_b32 s6, s6, 8			; GFX8-NEXT: s_or_b32 s6, s6, s11
	; GFX8-NEXT: s_or_b32 s1, s1, s6			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s6, s10, s18			; GFX8-NEXT: s_or_b32 s1, s6, s1
	; GFX8-NEXT: s_lshl_b32 s6, s6, 16			; GFX8-NEXT: s_lshl_b32 s6, s7, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s6			; GFX8-NEXT: s_bfe_u32 s7, s2, s12
	; GFX8-NEXT: s_lshl_b32 s6, s11, 24
	; GFX8-NEXT: s_lshr_b32 s12, s2, 8
	; GFX8-NEXT: s_or_b32 s1, s1, s6			; GFX8-NEXT: s_or_b32 s1, s1, s6
	; GFX8-NEXT: s_and_b32 s6, s12, s18			; GFX8-NEXT: s_lshr_b32 s8, s2, 24
	; GFX8-NEXT: s_lshr_b32 s13, s2, 16			; GFX8-NEXT: s_and_b32 s6, s2, s10
	; GFX8-NEXT: s_lshr_b32 s14, s2, 24			; GFX8-NEXT: s_bfe_u32 s2, s2, s13
	; GFX8-NEXT: s_and_b32 s2, s2, s18			; GFX8-NEXT: s_lshl_b32 s7, s7, 8
	; GFX8-NEXT: s_lshl_b32 s6, s6, 8			; GFX8-NEXT: s_or_b32 s6, s6, s7
	; GFX8-NEXT: s_or_b32 s2, s2, s6			; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_and_b32 s6, s13, s18			; GFX8-NEXT: s_bfe_u32 s7, s3, s12
	; GFX8-NEXT: s_lshl_b32 s6, s6, 16			; GFX8-NEXT: s_or_b32 s2, s6, s2
	; GFX8-NEXT: s_or_b32 s2, s2, s6			; GFX8-NEXT: s_lshl_b32 s6, s8, 24
	; GFX8-NEXT: s_lshl_b32 s6, s14, 24
	; GFX8-NEXT: s_lshr_b32 s15, s3, 8
	; GFX8-NEXT: s_or_b32 s2, s2, s6			; GFX8-NEXT: s_or_b32 s2, s2, s6
	; GFX8-NEXT: s_and_b32 s6, s15, s18			; GFX8-NEXT: s_lshr_b32 s9, s3, 24
	; GFX8-NEXT: s_lshr_b32 s16, s3, 16			; GFX8-NEXT: s_and_b32 s6, s3, s10
	; GFX8-NEXT: s_lshr_b32 s17, s3, 24			; GFX8-NEXT: s_bfe_u32 s3, s3, s13
	; GFX8-NEXT: s_and_b32 s3, s3, s18			; GFX8-NEXT: s_lshl_b32 s7, s7, 8
	; GFX8-NEXT: s_lshl_b32 s6, s6, 8			; GFX8-NEXT: s_or_b32 s6, s6, s7
	; GFX8-NEXT: s_or_b32 s3, s3, s6			; GFX8-NEXT: s_lshl_b32 s3, s3, 16
	; GFX8-NEXT: s_and_b32 s6, s16, s18			; GFX8-NEXT: s_or_b32 s3, s6, s3
	; GFX8-NEXT: s_lshl_b32 s6, s6, 16			; GFX8-NEXT: s_lshl_b32 s6, s9, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s6
	; GFX8-NEXT: s_lshl_b32 s6, s17, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s6			; GFX8-NEXT: s_or_b32 s3, s3, s6
	; GFX8-NEXT: s_lshr_b32 s6, s5, 2			; GFX8-NEXT: s_lshr_b32 s6, s5, 2
	; GFX8-NEXT: s_cmp_eq_u32 s6, 1			; GFX8-NEXT: s_cmp_eq_u32 s6, 1
	; GFX8-NEXT: s_cselect_b32 s7, s1, s0			; GFX8-NEXT: s_cselect_b32 s7, s1, s0
	; GFX8-NEXT: s_cmp_eq_u32 s6, 2			; GFX8-NEXT: s_cmp_eq_u32 s6, 2
	; GFX8-NEXT: s_cselect_b32 s7, s2, s7			; GFX8-NEXT: s_cselect_b32 s7, s2, s7
	; GFX8-NEXT: s_cmp_eq_u32 s6, 3			; GFX8-NEXT: s_cmp_eq_u32 s6, 3
	; GFX8-NEXT: s_cselect_b32 s7, s3, s7			; GFX8-NEXT: s_cselect_b32 s7, s3, s7
	; GFX8-NEXT: s_and_b32 s5, s5, 3			; GFX8-NEXT: s_and_b32 s5, s5, 3
	; GFX8-NEXT: s_lshl_b32 s5, s5, 3			; GFX8-NEXT: s_lshl_b32 s5, s5, 3
	; GFX8-NEXT: s_and_b32 s4, s4, s18			; GFX8-NEXT: s_and_b32 s4, s4, s10
	; GFX8-NEXT: s_lshl_b32 s4, s4, s5			; GFX8-NEXT: s_lshl_b32 s4, s4, s5
	; GFX8-NEXT: s_lshl_b32 s5, s18, s5			; GFX8-NEXT: s_lshl_b32 s5, s10, s5
	; GFX8-NEXT: s_andn2_b32 s5, s7, s5			; GFX8-NEXT: s_andn2_b32 s5, s7, s5
	; GFX8-NEXT: s_or_b32 s4, s5, s4			; GFX8-NEXT: s_or_b32 s4, s5, s4
	; GFX8-NEXT: s_cmp_eq_u32 s6, 0			; GFX8-NEXT: s_cmp_eq_u32 s6, 0
	; GFX8-NEXT: s_cselect_b32 s0, s4, s0			; GFX8-NEXT: s_cselect_b32 s0, s4, s0
	; GFX8-NEXT: s_cmp_eq_u32 s6, 1			; GFX8-NEXT: s_cmp_eq_u32 s6, 1
	; GFX8-NEXT: s_cselect_b32 s1, s4, s1			; GFX8-NEXT: s_cselect_b32 s1, s4, s1
	; GFX8-NEXT: s_cmp_eq_u32 s6, 2			; GFX8-NEXT: s_cmp_eq_u32 s6, 2
	; GFX8-NEXT: s_cselect_b32 s2, s4, s2			; GFX8-NEXT: s_cselect_b32 s2, s4, s2
	; GFX8-NEXT: s_cmp_eq_u32 s6, 3			; GFX8-NEXT: s_cmp_eq_u32 s6, 3
	; GFX8-NEXT: s_cselect_b32 s3, s4, s3			; GFX8-NEXT: s_cselect_b32 s3, s4, s3
	; GFX8-NEXT: s_lshr_b32 s4, s0, 8			; GFX8-NEXT: s_bfe_u32 s9, s0, s12
	; GFX8-NEXT: s_and_b32 s4, s4, s18			; GFX8-NEXT: s_lshr_b32 s4, s0, 24
	; GFX8-NEXT: s_lshr_b32 s5, s0, 16			; GFX8-NEXT: s_and_b32 s8, s0, s10
	; GFX8-NEXT: s_lshr_b32 s6, s0, 24			; GFX8-NEXT: s_bfe_u32 s0, s0, s13
	; GFX8-NEXT: s_and_b32 s0, s0, s18			; GFX8-NEXT: s_lshl_b32 s9, s9, 8
	; GFX8-NEXT: s_lshl_b32 s4, s4, 8			; GFX8-NEXT: s_or_b32 s8, s8, s9
	; GFX8-NEXT: s_or_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_and_b32 s4, s5, s18			; GFX8-NEXT: s_or_b32 s0, s8, s0
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_bfe_u32 s8, s1, s12
	; GFX8-NEXT: s_or_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s4, s4, 24
	; GFX8-NEXT: s_lshl_b32 s4, s6, 24
	; GFX8-NEXT: s_lshr_b32 s7, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s4			; GFX8-NEXT: s_or_b32 s0, s0, s4
	; GFX8-NEXT: s_and_b32 s4, s7, s18			; GFX8-NEXT: s_lshr_b32 s5, s1, 24
	; GFX8-NEXT: s_lshr_b32 s8, s1, 16			; GFX8-NEXT: s_and_b32 s4, s1, s10
	; GFX8-NEXT: s_lshr_b32 s9, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s13
	; GFX8-NEXT: s_and_b32 s1, s1, s18			; GFX8-NEXT: s_lshl_b32 s8, s8, 8
	; GFX8-NEXT: s_lshl_b32 s4, s4, 8			; GFX8-NEXT: s_or_b32 s4, s4, s8
	; GFX8-NEXT: s_or_b32 s1, s1, s4			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s4, s8, s18			; GFX8-NEXT: s_or_b32 s1, s4, s1
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_lshl_b32 s4, s5, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s4			; GFX8-NEXT: s_bfe_u32 s5, s2, s12
	; GFX8-NEXT: s_lshl_b32 s4, s9, 24
	; GFX8-NEXT: s_lshr_b32 s10, s2, 8
	; GFX8-NEXT: s_or_b32 s1, s1, s4			; GFX8-NEXT: s_or_b32 s1, s1, s4
	; GFX8-NEXT: s_and_b32 s4, s10, s18			; GFX8-NEXT: s_lshr_b32 s6, s2, 24
	; GFX8-NEXT: s_lshr_b32 s11, s2, 16			; GFX8-NEXT: s_and_b32 s4, s2, s10
	; GFX8-NEXT: s_lshr_b32 s12, s2, 24			; GFX8-NEXT: s_bfe_u32 s2, s2, s13
	; GFX8-NEXT: s_and_b32 s2, s2, s18			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshl_b32 s4, s4, 8			; GFX8-NEXT: s_or_b32 s4, s4, s5
	; GFX8-NEXT: s_or_b32 s2, s2, s4			; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_and_b32 s4, s11, s18			; GFX8-NEXT: s_bfe_u32 s5, s3, s12
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_or_b32 s2, s4, s2
	; GFX8-NEXT: s_or_b32 s2, s2, s4			; GFX8-NEXT: s_lshl_b32 s4, s6, 24
	; GFX8-NEXT: s_lshl_b32 s4, s12, 24
	; GFX8-NEXT: s_lshr_b32 s13, s3, 8
	; GFX8-NEXT: s_or_b32 s2, s2, s4			; GFX8-NEXT: s_or_b32 s2, s2, s4
	; GFX8-NEXT: s_and_b32 s4, s13, s18			; GFX8-NEXT: s_lshr_b32 s7, s3, 24
	; GFX8-NEXT: s_lshr_b32 s14, s3, 16			; GFX8-NEXT: s_and_b32 s4, s3, s10
	; GFX8-NEXT: s_lshr_b32 s15, s3, 24			; GFX8-NEXT: s_bfe_u32 s3, s3, s13
	; GFX8-NEXT: s_and_b32 s3, s3, s18			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_lshl_b32 s4, s4, 8			; GFX8-NEXT: s_or_b32 s4, s4, s5
	; GFX8-NEXT: s_or_b32 s3, s3, s4			; GFX8-NEXT: s_lshl_b32 s3, s3, 16
	; GFX8-NEXT: s_and_b32 s4, s14, s18			; GFX8-NEXT: s_or_b32 s3, s4, s3
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_lshl_b32 s4, s7, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s4
	; GFX8-NEXT: s_lshl_b32 s4, s15, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s4			; GFX8-NEXT: s_or_b32 s3, s3, s4
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s2
	; GFX8-NEXT: v_mov_b32_e32 v3, s3			; GFX8-NEXT: v_mov_b32_e32 v3, s3
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i8_s_s:			; GFX7-LABEL: insertelement_s_v16i8_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s18, 0xff			; GFX7-NEXT: s_mov_b32 s12, 0x80008
				; GFX7-NEXT: s_movk_i32 s10, 0xff
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s6, s0, 8			; GFX7-NEXT: s_bfe_u32 s13, s0, s12
	; GFX7-NEXT: s_and_b32 s6, s6, s18			; GFX7-NEXT: s_and_b32 s11, s0, s10
	; GFX7-NEXT: s_lshr_b32 s7, s0, 16			; GFX7-NEXT: s_lshl_b32 s13, s13, 8
	; GFX7-NEXT: s_lshr_b32 s8, s0, 24			; GFX7-NEXT: s_or_b32 s11, s11, s13
	; GFX7-NEXT: s_and_b32 s0, s0, s18			; GFX7-NEXT: s_mov_b32 s13, 0x80010
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_lshr_b32 s6, s0, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s6			; GFX7-NEXT: s_bfe_u32 s0, s0, s13
	; GFX7-NEXT: s_and_b32 s6, s7, s18			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_or_b32 s0, s11, s0
	; GFX7-NEXT: s_or_b32 s0, s0, s6			; GFX7-NEXT: s_bfe_u32 s11, s1, s12
	; GFX7-NEXT: s_lshl_b32 s6, s8, 24			; GFX7-NEXT: s_lshl_b32 s6, s6, 24
	; GFX7-NEXT: s_lshr_b32 s9, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s6			; GFX7-NEXT: s_or_b32 s0, s0, s6
	; GFX7-NEXT: s_and_b32 s6, s9, s18			; GFX7-NEXT: s_lshr_b32 s7, s1, 24
	; GFX7-NEXT: s_lshr_b32 s10, s1, 16			; GFX7-NEXT: s_and_b32 s6, s1, s10
	; GFX7-NEXT: s_lshr_b32 s11, s1, 24			; GFX7-NEXT: s_bfe_u32 s1, s1, s13
	; GFX7-NEXT: s_and_b32 s1, s1, s18			; GFX7-NEXT: s_lshl_b32 s11, s11, 8
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_or_b32 s6, s6, s11
	; GFX7-NEXT: s_or_b32 s1, s1, s6			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s6, s10, s18			; GFX7-NEXT: s_or_b32 s1, s6, s1
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_lshl_b32 s6, s7, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s6			; GFX7-NEXT: s_bfe_u32 s7, s2, s12
	; GFX7-NEXT: s_lshl_b32 s6, s11, 24
	; GFX7-NEXT: s_lshr_b32 s12, s2, 8
	; GFX7-NEXT: s_or_b32 s1, s1, s6			; GFX7-NEXT: s_or_b32 s1, s1, s6
	; GFX7-NEXT: s_and_b32 s6, s12, s18			; GFX7-NEXT: s_lshr_b32 s8, s2, 24
	; GFX7-NEXT: s_lshr_b32 s13, s2, 16			; GFX7-NEXT: s_and_b32 s6, s2, s10
	; GFX7-NEXT: s_lshr_b32 s14, s2, 24			; GFX7-NEXT: s_bfe_u32 s2, s2, s13
	; GFX7-NEXT: s_and_b32 s2, s2, s18			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_or_b32 s6, s6, s7
	; GFX7-NEXT: s_or_b32 s2, s2, s6			; GFX7-NEXT: s_lshl_b32 s2, s2, 16
	; GFX7-NEXT: s_and_b32 s6, s13, s18			; GFX7-NEXT: s_bfe_u32 s7, s3, s12
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_or_b32 s2, s6, s2
	; GFX7-NEXT: s_or_b32 s2, s2, s6			; GFX7-NEXT: s_lshl_b32 s6, s8, 24
	; GFX7-NEXT: s_lshl_b32 s6, s14, 24
	; GFX7-NEXT: s_lshr_b32 s15, s3, 8
	; GFX7-NEXT: s_or_b32 s2, s2, s6			; GFX7-NEXT: s_or_b32 s2, s2, s6
	; GFX7-NEXT: s_and_b32 s6, s15, s18			; GFX7-NEXT: s_lshr_b32 s9, s3, 24
	; GFX7-NEXT: s_lshr_b32 s16, s3, 16			; GFX7-NEXT: s_and_b32 s6, s3, s10
	; GFX7-NEXT: s_lshr_b32 s17, s3, 24			; GFX7-NEXT: s_bfe_u32 s3, s3, s13
	; GFX7-NEXT: s_and_b32 s3, s3, s18			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_or_b32 s6, s6, s7
	; GFX7-NEXT: s_or_b32 s3, s3, s6			; GFX7-NEXT: s_lshl_b32 s3, s3, 16
	; GFX7-NEXT: s_and_b32 s6, s16, s18			; GFX7-NEXT: s_or_b32 s3, s6, s3
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_lshl_b32 s6, s9, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s6
	; GFX7-NEXT: s_lshl_b32 s6, s17, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s6			; GFX7-NEXT: s_or_b32 s3, s3, s6
	; GFX7-NEXT: s_lshr_b32 s6, s5, 2			; GFX7-NEXT: s_lshr_b32 s6, s5, 2
	; GFX7-NEXT: s_cmp_eq_u32 s6, 1			; GFX7-NEXT: s_cmp_eq_u32 s6, 1
	; GFX7-NEXT: s_cselect_b32 s7, s1, s0			; GFX7-NEXT: s_cselect_b32 s7, s1, s0
	; GFX7-NEXT: s_cmp_eq_u32 s6, 2			; GFX7-NEXT: s_cmp_eq_u32 s6, 2
	; GFX7-NEXT: s_cselect_b32 s7, s2, s7			; GFX7-NEXT: s_cselect_b32 s7, s2, s7
	; GFX7-NEXT: s_cmp_eq_u32 s6, 3			; GFX7-NEXT: s_cmp_eq_u32 s6, 3
	; GFX7-NEXT: s_cselect_b32 s7, s3, s7			; GFX7-NEXT: s_cselect_b32 s7, s3, s7
	; GFX7-NEXT: s_and_b32 s5, s5, 3			; GFX7-NEXT: s_and_b32 s5, s5, 3
	; GFX7-NEXT: s_lshl_b32 s5, s5, 3			; GFX7-NEXT: s_lshl_b32 s5, s5, 3
	; GFX7-NEXT: s_and_b32 s4, s4, s18			; GFX7-NEXT: s_and_b32 s4, s4, s10
	; GFX7-NEXT: s_lshl_b32 s4, s4, s5			; GFX7-NEXT: s_lshl_b32 s4, s4, s5
	; GFX7-NEXT: s_lshl_b32 s5, s18, s5			; GFX7-NEXT: s_lshl_b32 s5, s10, s5
	; GFX7-NEXT: s_andn2_b32 s5, s7, s5			; GFX7-NEXT: s_andn2_b32 s5, s7, s5
	; GFX7-NEXT: s_or_b32 s4, s5, s4			; GFX7-NEXT: s_or_b32 s4, s5, s4
	; GFX7-NEXT: s_cmp_eq_u32 s6, 0			; GFX7-NEXT: s_cmp_eq_u32 s6, 0
	; GFX7-NEXT: s_cselect_b32 s5, s4, s0			; GFX7-NEXT: s_cselect_b32 s5, s4, s0
	; GFX7-NEXT: s_cmp_eq_u32 s6, 1			; GFX7-NEXT: s_cmp_eq_u32 s6, 1
	; GFX7-NEXT: s_cselect_b32 s7, s4, s1			; GFX7-NEXT: s_cselect_b32 s7, s4, s1
	; GFX7-NEXT: s_cmp_eq_u32 s6, 2			; GFX7-NEXT: s_cmp_eq_u32 s6, 2
	; GFX7-NEXT: s_cselect_b32 s2, s4, s2			; GFX7-NEXT: s_cselect_b32 s2, s4, s2
	; GFX7-NEXT: s_cmp_eq_u32 s6, 3			; GFX7-NEXT: s_cmp_eq_u32 s6, 3
	; GFX7-NEXT: s_cselect_b32 s3, s4, s3			; GFX7-NEXT: s_cselect_b32 s3, s4, s3
	; GFX7-NEXT: s_lshr_b32 s4, s5, 8			; GFX7-NEXT: s_bfe_u32 s14, s5, s12
	; GFX7-NEXT: s_and_b32 s4, s4, s18			; GFX7-NEXT: s_lshr_b32 s4, s5, 24
	; GFX7-NEXT: s_lshr_b32 s6, s5, 16			; GFX7-NEXT: s_and_b32 s11, s5, s10
	; GFX7-NEXT: s_lshr_b32 s8, s5, 24			; GFX7-NEXT: s_bfe_u32 s5, s5, s13
	; GFX7-NEXT: s_and_b32 s5, s5, s18			; GFX7-NEXT: s_lshl_b32 s14, s14, 8
	; GFX7-NEXT: s_lshl_b32 s4, s4, 8			; GFX7-NEXT: s_or_b32 s11, s11, s14
	; GFX7-NEXT: s_or_b32 s4, s5, s4
	; GFX7-NEXT: s_and_b32 s5, s6, s18
	; GFX7-NEXT: s_lshr_b32 s9, s7, 8
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16			; GFX7-NEXT: s_lshl_b32 s5, s5, 16
	; GFX7-NEXT: s_and_b32 s6, s9, s18			; GFX7-NEXT: s_or_b32 s5, s11, s5
	; GFX7-NEXT: s_or_b32 s4, s4, s5			; GFX7-NEXT: s_lshl_b32 s4, s4, 24
	; GFX7-NEXT: s_lshl_b32 s5, s8, 24			; GFX7-NEXT: s_bfe_u32 s11, s7, s12
	; GFX7-NEXT: s_or_b32 s4, s4, s5			; GFX7-NEXT: s_lshr_b32 s6, s7, 24
	; GFX7-NEXT: s_lshr_b32 s10, s7, 16			; GFX7-NEXT: s_or_b32 s4, s5, s4
	; GFX7-NEXT: s_and_b32 s5, s7, s18			; GFX7-NEXT: s_and_b32 s5, s7, s10
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_bfe_u32 s7, s7, s13
	; GFX7-NEXT: s_or_b32 s5, s5, s6			; GFX7-NEXT: s_lshl_b32 s11, s11, 8
	; GFX7-NEXT: s_and_b32 s6, s10, s18			; GFX7-NEXT: s_or_b32 s5, s5, s11
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_lshl_b32 s7, s7, 16
	; GFX7-NEXT: s_lshr_b32 s11, s7, 24			; GFX7-NEXT: s_or_b32 s5, s5, s7
	; GFX7-NEXT: s_or_b32 s5, s5, s6			; GFX7-NEXT: s_bfe_u32 s7, s2, s12
	; GFX7-NEXT: s_lshl_b32 s6, s11, 24			; GFX7-NEXT: s_lshl_b32 s6, s6, 24
	; GFX7-NEXT: s_lshr_b32 s12, s2, 8
	; GFX7-NEXT: s_or_b32 s5, s5, s6			; GFX7-NEXT: s_or_b32 s5, s5, s6
	; GFX7-NEXT: s_and_b32 s6, s12, s18			; GFX7-NEXT: s_lshr_b32 s8, s2, 24
	; GFX7-NEXT: s_lshr_b32 s13, s2, 16			; GFX7-NEXT: s_and_b32 s6, s2, s10
	; GFX7-NEXT: s_lshr_b32 s14, s2, 24			; GFX7-NEXT: s_bfe_u32 s2, s2, s13
	; GFX7-NEXT: s_and_b32 s2, s2, s18			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshl_b32 s6, s6, 8			; GFX7-NEXT: s_or_b32 s6, s6, s7
	; GFX7-NEXT: s_or_b32 s2, s2, s6			; GFX7-NEXT: s_lshl_b32 s2, s2, 16
	; GFX7-NEXT: s_and_b32 s6, s13, s18			; GFX7-NEXT: s_bfe_u32 s7, s3, s12
	; GFX7-NEXT: s_lshl_b32 s6, s6, 16			; GFX7-NEXT: s_or_b32 s2, s6, s2
	; GFX7-NEXT: s_or_b32 s2, s2, s6			; GFX7-NEXT: s_lshl_b32 s6, s8, 24
	; GFX7-NEXT: s_lshl_b32 s6, s14, 24
	; GFX7-NEXT: s_lshr_b32 s15, s3, 8
	; GFX7-NEXT: s_or_b32 s6, s2, s6			; GFX7-NEXT: s_or_b32 s6, s2, s6
	; GFX7-NEXT: s_lshr_b32 s16, s3, 16			; GFX7-NEXT: s_lshr_b32 s9, s3, 24
	; GFX7-NEXT: s_lshr_b32 s17, s3, 24			; GFX7-NEXT: s_and_b32 s2, s3, s10
	; GFX7-NEXT: s_and_b32 s2, s3, s18			; GFX7-NEXT: s_bfe_u32 s3, s3, s13
	; GFX7-NEXT: s_and_b32 s3, s15, s18			; GFX7-NEXT: s_lshl_b32 s7, s7, 8
	; GFX7-NEXT: s_lshl_b32 s3, s3, 8			; GFX7-NEXT: s_or_b32 s2, s2, s7
	; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_and_b32 s3, s16, s18
	; GFX7-NEXT: s_lshl_b32 s3, s3, 16			; GFX7-NEXT: s_lshl_b32 s3, s3, 16
	; GFX7-NEXT: s_or_b32 s2, s2, s3			; GFX7-NEXT: s_or_b32 s2, s2, s3
	; GFX7-NEXT: s_lshl_b32 s3, s17, 24			; GFX7-NEXT: s_lshl_b32 s3, s9, 24
	; GFX7-NEXT: s_or_b32 s7, s2, s3			; GFX7-NEXT: s_or_b32 s7, s2, s3
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v2, s6			; GFX7-NEXT: v_mov_b32_e32 v2, s6
	; GFX7-NEXT: v_mov_b32_e32 v3, s7			; GFX7-NEXT: v_mov_b32_e32 v3, s7
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v16i8_s_s:			; GFX10-LABEL: insertelement_s_v16i8_s_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s7, 0x80008
	; GFX10-NEXT: s_movk_i32 s6, 0xff			; GFX10-NEXT: s_movk_i32 s6, 0xff
				; GFX10-NEXT: s_mov_b32 s8, 0x80010
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s7, s0, 8			; GFX10-NEXT: s_bfe_u32 s14, s0, s7
	; GFX10-NEXT: s_lshr_b32 s8, s0, 16
	; GFX10-NEXT: s_and_b32 s7, s7, s6
	; GFX10-NEXT: s_lshr_b32 s9, s0, 24			; GFX10-NEXT: s_lshr_b32 s9, s0, 24
	; GFX10-NEXT: s_and_b32 s8, s8, s6			; GFX10-NEXT: s_bfe_u32 s16, s1, s7
	; GFX10-NEXT: s_and_b32 s0, s0, s6			; GFX10-NEXT: s_and_b32 s13, s0, s6
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8			; GFX10-NEXT: s_bfe_u32 s0, s0, s8
	; GFX10-NEXT: s_lshr_b32 s13, s2, 8			; GFX10-NEXT: s_lshl_b32 s14, s14, 8
	; GFX10-NEXT: s_lshl_b32 s8, s8, 16			; GFX10-NEXT: s_lshr_b32 s10, s1, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_and_b32 s15, s1, s6
	; GFX10-NEXT: s_lshr_b32 s10, s1, 8			; GFX10-NEXT: s_bfe_u32 s1, s1, s8
	; GFX10-NEXT: s_or_b32 s0, s0, s8			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_and_b32 s8, s13, s6			; GFX10-NEXT: s_or_b32 s13, s13, s14
				; GFX10-NEXT: s_lshl_b32 s16, s16, 8
				; GFX10-NEXT: s_bfe_u32 s18, s2, s7
	; GFX10-NEXT: s_lshl_b32 s9, s9, 24			; GFX10-NEXT: s_lshl_b32 s9, s9, 24
	; GFX10-NEXT: s_lshr_b32 s14, s2, 16			; GFX10-NEXT: s_or_b32 s0, s13, s0
	; GFX10-NEXT: s_lshr_b32 s11, s1, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_and_b32 s10, s10, s6			; GFX10-NEXT: s_or_b32 s14, s15, s16
	; GFX10-NEXT: s_lshr_b32 s15, s2, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s9			; GFX10-NEXT: s_or_b32 s0, s0, s9
	; GFX10-NEXT: s_and_b32 s2, s2, s6			; GFX10-NEXT: s_lshr_b32 s11, s2, 24
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_and_b32 s17, s2, s6
	; GFX10-NEXT: s_and_b32 s9, s14, s6			; GFX10-NEXT: s_lshl_b32 s9, s18, 8
	; GFX10-NEXT: s_lshr_b32 s12, s1, 24			; GFX10-NEXT: s_bfe_u32 s2, s2, s8
	; GFX10-NEXT: s_and_b32 s11, s11, s6			; GFX10-NEXT: s_lshl_b32 s10, s10, 24
	; GFX10-NEXT: s_or_b32 s2, s2, s8			; GFX10-NEXT: s_or_b32 s1, s14, s1
	; GFX10-NEXT: s_lshl_b32 s8, s9, 16			; GFX10-NEXT: s_or_b32 s9, s17, s9
	; GFX10-NEXT: s_lshr_b32 s16, s3, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_and_b32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s10, s10, 8
	; GFX10-NEXT: s_lshr_b32 s17, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s2, s8
	; GFX10-NEXT: s_and_b32 s8, s16, s6
	; GFX10-NEXT: s_lshl_b32 s7, s11, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s10			; GFX10-NEXT: s_or_b32 s1, s1, s10
	; GFX10-NEXT: s_lshr_b32 s18, s3, 24			; GFX10-NEXT: s_bfe_u32 s10, s3, s7
	; GFX10-NEXT: s_or_b32 s1, s1, s7			; GFX10-NEXT: s_or_b32 s2, s9, s2
	; GFX10-NEXT: s_lshl_b32 s7, s12, 24			; GFX10-NEXT: s_lshl_b32 s9, s11, 24
	; GFX10-NEXT: s_and_b32 s3, s3, s6			; GFX10-NEXT: s_lshr_b32 s12, s3, 24
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_and_b32 s11, s3, s6
	; GFX10-NEXT: s_and_b32 s9, s17, s6			; GFX10-NEXT: s_lshl_b32 s10, s10, 8
	; GFX10-NEXT: s_or_b32 s1, s1, s7			; GFX10-NEXT: s_bfe_u32 s3, s3, s8
	; GFX10-NEXT: s_lshl_b32 s7, s15, 24			; GFX10-NEXT: s_or_b32 s10, s11, s10
	; GFX10-NEXT: s_or_b32 s3, s3, s8			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_lshl_b32 s8, s9, 16			; GFX10-NEXT: s_or_b32 s2, s2, s9
	; GFX10-NEXT: s_or_b32 s2, s2, s7			; GFX10-NEXT: s_or_b32 s3, s10, s3
	; GFX10-NEXT: s_or_b32 s3, s3, s8			; GFX10-NEXT: s_lshl_b32 s9, s12, 24
	; GFX10-NEXT: s_lshl_b32 s7, s18, 24			; GFX10-NEXT: s_lshr_b32 s10, s5, 2
	; GFX10-NEXT: s_lshr_b32 s8, s5, 2			; GFX10-NEXT: s_or_b32 s3, s3, s9
	; GFX10-NEXT: s_or_b32 s3, s3, s7			; GFX10-NEXT: s_cmp_eq_u32 s10, 1
	; GFX10-NEXT: s_cmp_eq_u32 s8, 1			; GFX10-NEXT: s_cselect_b32 s9, s1, s0
	; GFX10-NEXT: s_cselect_b32 s7, s1, s0			; GFX10-NEXT: s_cmp_eq_u32 s10, 2
	; GFX10-NEXT: s_cmp_eq_u32 s8, 2			; GFX10-NEXT: s_cselect_b32 s9, s2, s9
	; GFX10-NEXT: s_cselect_b32 s7, s2, s7			; GFX10-NEXT: s_cmp_eq_u32 s10, 3
	; GFX10-NEXT: s_cmp_eq_u32 s8, 3			; GFX10-NEXT: s_cselect_b32 s9, s3, s9
	; GFX10-NEXT: s_cselect_b32 s7, s3, s7
	; GFX10-NEXT: s_and_b32 s5, s5, 3			; GFX10-NEXT: s_and_b32 s5, s5, 3
	; GFX10-NEXT: s_and_b32 s4, s4, s6			; GFX10-NEXT: s_and_b32 s4, s4, s6
	; GFX10-NEXT: s_lshl_b32 s5, s5, 3			; GFX10-NEXT: s_lshl_b32 s5, s5, 3
	; GFX10-NEXT: s_lshl_b32 s9, s6, s5			; GFX10-NEXT: s_lshl_b32 s11, s6, s5
	; GFX10-NEXT: s_lshl_b32 s4, s4, s5			; GFX10-NEXT: s_lshl_b32 s4, s4, s5
	; GFX10-NEXT: s_andn2_b32 s5, s7, s9			; GFX10-NEXT: s_andn2_b32 s5, s9, s11
	; GFX10-NEXT: s_or_b32 s4, s5, s4			; GFX10-NEXT: s_or_b32 s4, s5, s4
	; GFX10-NEXT: s_cmp_eq_u32 s8, 0			; GFX10-NEXT: s_cmp_eq_u32 s10, 0
	; GFX10-NEXT: s_cselect_b32 s0, s4, s0			; GFX10-NEXT: s_cselect_b32 s0, s4, s0
	; GFX10-NEXT: s_cmp_eq_u32 s8, 1			; GFX10-NEXT: s_cmp_eq_u32 s10, 1
	; GFX10-NEXT: s_cselect_b32 s1, s4, s1			; GFX10-NEXT: s_cselect_b32 s1, s4, s1
	; GFX10-NEXT: s_cmp_eq_u32 s8, 2			; GFX10-NEXT: s_cmp_eq_u32 s10, 2
	; GFX10-NEXT: s_cselect_b32 s2, s4, s2			; GFX10-NEXT: s_cselect_b32 s2, s4, s2
	; GFX10-NEXT: s_cmp_eq_u32 s8, 3			; GFX10-NEXT: s_cmp_eq_u32 s10, 3
	; GFX10-NEXT: s_cselect_b32 s3, s4, s3			; GFX10-NEXT: s_cselect_b32 s3, s4, s3
	; GFX10-NEXT: s_lshr_b32 s4, s0, 8			; GFX10-NEXT: s_bfe_u32 s10, s0, s7
	; GFX10-NEXT: s_lshr_b32 s5, s0, 16			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_and_b32 s4, s4, s6			; GFX10-NEXT: s_and_b32 s11, s0, s6
	; GFX10-NEXT: s_lshr_b32 s7, s0, 24			; GFX10-NEXT: s_lshl_b32 s10, s10, 8
	; GFX10-NEXT: s_and_b32 s0, s0, s6			; GFX10-NEXT: s_bfe_u32 s0, s0, s8
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_or_b32 s10, s11, s10
	; GFX10-NEXT: s_and_b32 s5, s5, s6			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_lshr_b32 s5, s1, 24
	; GFX10-NEXT: s_lshl_b32 s4, s5, 16			; GFX10-NEXT: s_or_b32 s0, s10, s0
	; GFX10-NEXT: s_lshr_b32 s8, s1, 8			; GFX10-NEXT: s_bfe_u32 s10, s1, s7
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_lshl_b32 s4, s4, 24
	; GFX10-NEXT: s_lshl_b32 s4, s7, 24			; GFX10-NEXT: s_and_b32 s12, s1, s6
	; GFX10-NEXT: s_and_b32 s7, s8, s6			; GFX10-NEXT: s_lshl_b32 s10, s10, 8
	; GFX10-NEXT: s_lshr_b32 s9, s1, 16			; GFX10-NEXT: s_bfe_u32 s1, s1, s8
	; GFX10-NEXT: s_lshr_b32 s10, s1, 24
	; GFX10-NEXT: s_and_b32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8
	; GFX10-NEXT: s_and_b32 s8, s9, s6
	; GFX10-NEXT: s_or_b32 s1, s1, s7
	; GFX10-NEXT: s_lshl_b32 s7, s8, 16
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_or_b32 s0, s0, s4
	; GFX10-NEXT: s_lshr_b32 s11, s2, 8			; GFX10-NEXT: s_lshl_b32 s4, s5, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s7			; GFX10-NEXT: s_bfe_u32 s5, s2, s7
	; GFX10-NEXT: s_lshl_b32 s4, s10, 24			; GFX10-NEXT: s_or_b32 s10, s12, s10
	; GFX10-NEXT: s_lshr_b32 s14, s3, 8			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_and_b32 s7, s11, s6			; GFX10-NEXT: s_lshr_b32 s9, s2, 24
	; GFX10-NEXT: s_lshr_b32 s12, s2, 16			; GFX10-NEXT: s_or_b32 s1, s10, s1
				; GFX10-NEXT: s_and_b32 s10, s2, s6
				; GFX10-NEXT: s_lshl_b32 s5, s5, 8
				; GFX10-NEXT: s_bfe_u32 s2, s2, s8
	; GFX10-NEXT: s_or_b32 s1, s1, s4			; GFX10-NEXT: s_or_b32 s1, s1, s4
	; GFX10-NEXT: s_and_b32 s4, s14, s6			; GFX10-NEXT: s_bfe_u32 s4, s3, s7
	; GFX10-NEXT: s_lshr_b32 s15, s3, 16			; GFX10-NEXT: s_or_b32 s5, s10, s5
	; GFX10-NEXT: s_lshr_b32 s13, s2, 24			; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_lshr_b32 s5, s3, 24			; GFX10-NEXT: s_lshr_b32 s11, s3, 24
	; GFX10-NEXT: s_and_b32 s2, s2, s6			; GFX10-NEXT: s_or_b32 s2, s5, s2
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8			; GFX10-NEXT: s_and_b32 s5, s3, s6
	; GFX10-NEXT: s_and_b32 s8, s12, s6
	; GFX10-NEXT: s_and_b32 s3, s3, s6
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_and_b32 s6, s15, s6			; GFX10-NEXT: s_bfe_u32 s3, s3, s8
	; GFX10-NEXT: s_or_b32 s2, s2, s7			; GFX10-NEXT: s_or_b32 s4, s5, s4
	; GFX10-NEXT: s_lshl_b32 s7, s8, 16			; GFX10-NEXT: s_lshl_b32 s3, s3, 16
	; GFX10-NEXT: s_or_b32 s3, s3, s4			; GFX10-NEXT: s_lshl_b32 s5, s9, 24
	; GFX10-NEXT: s_lshl_b32 s4, s6, 16			; GFX10-NEXT: s_or_b32 s3, s4, s3
	; GFX10-NEXT: s_or_b32 s2, s2, s7			; GFX10-NEXT: s_lshl_b32 s4, s11, 24
	; GFX10-NEXT: s_lshl_b32 s6, s13, 24			; GFX10-NEXT: s_or_b32 s2, s2, s5
	; GFX10-NEXT: s_or_b32 s3, s3, s4
	; GFX10-NEXT: s_lshl_b32 s4, s5, 24
	; GFX10-NEXT: s_or_b32 s2, s2, s6
	; GFX10-NEXT: s_or_b32 s3, s3, s4			; GFX10-NEXT: s_or_b32 s3, s3, s4
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v16i8_s_s(<16 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v16i8_s_s(<16 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v16i8_s_s:			; GFX9-LABEL: insertelement_v_v16i8_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
				; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 8
	; GFX9-NEXT: s_movk_i32 s6, 0xff			; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: s_and_b32 s1, s3, 3			; GFX9-NEXT: v_mov_b32_e32 v5, 16
	; GFX9-NEXT: s_lshr_b32 s4, s3, 2			; GFX9-NEXT: s_lshr_b32 s4, s3, 2
				; GFX9-NEXT: s_and_b32 s3, s3, 3
	; GFX9-NEXT: s_and_b32 s2, s2, s6			; GFX9-NEXT: s_and_b32 s2, s2, s6
	; GFX9-NEXT: s_lshl_b32 s1, s1, 3			; GFX9-NEXT: s_lshl_b32 s3, s3, 3
	; GFX9-NEXT: s_lshl_b32 s2, s2, s1
	; GFX9-NEXT: s_lshl_b32 s1, s6, s1
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX9-NEXT: s_not_b32 s5, s1			; GFX9-NEXT: s_lshl_b32 s2, s2, s3
	; GFX9-NEXT: v_mov_b32_e32 v5, s2			; GFX9-NEXT: s_lshl_b32 s3, s6, s3
				; GFX9-NEXT: s_not_b32 s5, s3
				; GFX9-NEXT: v_mov_b32_e32 v6, s2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, s0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v14, v0, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v15, v1, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v0, v0, s6, v11
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX9-NEXT: v_and_or_b32 v0, v0, s6, v6			; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v13
				; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v3
				; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v17, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v2, v2, s6, v15
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v8			; GFX9-NEXT: v_or3_b32 v0, v0, v12, v7
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or3_b32 v1, v1, v14, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v18, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v16, v2, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v17
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX9-NEXT: v_and_or_b32 v2, v2, s6, v10			; GFX9-NEXT: v_or3_b32 v2, v2, v16, v9
	; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v4, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc
	; GFX9-NEXT: v_or3_b32 v0, v0, v14, v7
	; GFX9-NEXT: v_or3_b32 v1, v1, v15, v9
	; GFX9-NEXT: v_and_b32_sdwa v17, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v13, 24, v13
	; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v12
	; GFX9-NEXT: v_or3_b32 v2, v2, v16, v11
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX9-NEXT: v_or3_b32 v3, v3, v17, v13			; GFX9-NEXT: v_or3_b32 v3, v3, v18, v10
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v3, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v3, s[2:3]
	; GFX9-NEXT: v_and_or_b32 v5, v6, s5, v5			; GFX9-NEXT: v_and_or_b32 v6, v7, s5, v6
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v9, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_b32_sdwa v13, v0, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v14, v1, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v15, v2, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v16, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_and_or_b32 v0, v0, s6, v5
	; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v4			; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v4
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v9
				; GFX9-NEXT: v_or3_b32 v3, v3, v5, v4
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: v_and_or_b32 v0, v0, s6, v10
				; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v12
				; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX9-NEXT: v_and_or_b32 v2, v2, s6, v14
	; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v7			; GFX9-NEXT: v_or3_b32 v0, v0, v11, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX9-NEXT: v_or3_b32 v1, v1, v13, v7
	; GFX9-NEXT: v_and_or_b32 v2, v2, s6, v9			; GFX9-NEXT: v_or3_b32 v2, v2, v15, v8
	; GFX9-NEXT: v_or3_b32 v0, v0, v13, v6
	; GFX9-NEXT: v_or3_b32 v1, v1, v14, v8
	; GFX9-NEXT: v_or3_b32 v2, v2, v15, v10
	; GFX9-NEXT: v_or3_b32 v3, v3, v16, v11
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v16i8_s_s:			; GFX8-LABEL: insertelement_v_v16i8_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_mov_b32_e32 v5, 8			; GFX8-NEXT: v_mov_b32_e32 v6, 8
	; GFX8-NEXT: v_mov_b32_e32 v6, s0			; GFX8-NEXT: v_mov_b32_e32 v5, 16
				; GFX8-NEXT: v_mov_b32_e32 v7, 16
	; GFX8-NEXT: s_and_b32 s1, s3, 3			; GFX8-NEXT: s_and_b32 s1, s3, 3
				; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_lshr_b32 s4, s3, 2			; GFX8-NEXT: s_lshr_b32 s4, s3, 2
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: s_and_b32 s2, s2, s0			; GFX8-NEXT: s_and_b32 s2, s2, s0
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: s_lshl_b32 s5, s2, s1			; GFX8-NEXT: s_lshl_b32 s5, s2, s1
	; GFX8-NEXT: s_not_b32 s6, s0			; GFX8-NEXT: s_not_b32 s6, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v8			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v2			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_and_b32_sdwa v15, v0, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v16, v1, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v9
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
				; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v13
				; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3
				; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v3, v3, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10			; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v10
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX8-NEXT: v_or_b32_e32 v2, v2, v15
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v5, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 8, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v15			; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v16			; GFX8-NEXT: v_or_b32_e32 v3, v3, v17
	; GFX8-NEXT: v_and_b32_sdwa v17, v2, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v2, v2, v9
	; GFX8-NEXT: v_or_b32_sdwa v2, v2, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v12
	; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v5, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v17
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v18, v3, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v14
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v18
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v11
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v13			; GFX8-NEXT: v_or_b32_e32 v3, v3, v10
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v4, s6, v4			; GFX8-NEXT: v_and_b32_e32 v4, s6, v4
	; GFX8-NEXT: v_or_b32_e32 v4, s5, v4			; GFX8-NEXT: v_or_b32_e32 v4, s5, v4
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]
				; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v5, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v5, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v6, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v6, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v14, v0, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX8-NEXT: v_and_b32_sdwa v15, v1, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v16, v2, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_or_b32_sdwa v2, v2, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v11
	; GFX8-NEXT: v_and_b32_sdwa v6, v3, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v1, v1, v13
				; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX8-NEXT: v_or_b32_e32 v2, v2, v15
				; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v9
				; GFX8-NEXT: v_or_b32_e32 v3, v3, v7
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX8-NEXT: v_or_b32_e32 v2, v2, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v14
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v15
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v16
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v6			; GFX8-NEXT: v_or_b32_e32 v3, v3, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v11
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v12
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v16i8_s_s:			; GFX7-LABEL: insertelement_v_v16i8_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_movk_i32 s6, 0xff			; GFX7-NEXT: s_movk_i32 s6, 0xff
	; GFX7-NEXT: s_and_b32 s0, s3, 3			; GFX7-NEXT: s_and_b32 s0, s3, 3
	; GFX7-NEXT: s_lshr_b32 s4, s3, 2			; GFX7-NEXT: s_lshr_b32 s4, s3, 2
	; GFX7-NEXT: s_and_b32 s1, s2, s6			; GFX7-NEXT: s_and_b32 s1, s2, s6
	; GFX7-NEXT: s_lshl_b32 s0, s0, 3			; GFX7-NEXT: s_lshl_b32 s0, s0, 3
	; GFX7-NEXT: s_lshl_b32 s5, s1, s0			; GFX7-NEXT: s_lshl_b32 s5, s1, s0
	; GFX7-NEXT: s_lshl_b32 s0, s6, s0			; GFX7-NEXT: s_lshl_b32 s0, s6, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX7-NEXT: s_not_b32 s7, s0			; GFX7-NEXT: s_not_b32 s7, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v2			; GFX7-NEXT: v_bfe_u32 v13, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v4			; GFX7-NEXT: v_and_b32_e32 v8, s6, v0
	; GFX7-NEXT: v_and_b32_e32 v7, s6, v7			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_and_b32_e32 v10, s6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v8, s6, v8			; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v10, s6, v10			; GFX7-NEXT: v_and_b32_e32 v12, s6, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v11, s6, v11
	; GFX7-NEXT: v_and_b32_e32 v13, s6, v13
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 16, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v14, s6, v14
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
				; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
				; GFX7-NEXT: v_and_b32_e32 v14, s6, v3
				; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
				; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5			; GFX7-NEXT: v_or_b32_e32 v2, v10, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v8			; GFX7-NEXT: v_or_b32_e32 v11, v14, v15
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 16, v11			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v10			; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 24, v12			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v11			; GFX7-NEXT: v_or_b32_e32 v3, v11, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 16, v14			; GFX7-NEXT: v_or_b32_e32 v2, v2, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v13
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 24, v15
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v14
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v12
	; GFX7-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v15			; GFX7-NEXT: v_or_b32_e32 v3, v3, v7
	; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]
	; GFX7-NEXT: v_and_b32_e32 v4, s7, v4			; GFX7-NEXT: v_and_b32_e32 v4, s7, v4
	; GFX7-NEXT: v_or_b32_e32 v4, s5, v4			; GFX7-NEXT: v_or_b32_e32 v4, s5, v4
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
				; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
				; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
				; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[2:3]
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_bfe_u32 v13, v2, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_and_b32_e32 v8, s6, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0			; GFX7-NEXT: v_and_b32_e32 v10, s6, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
				; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
				; GFX7-NEXT: v_and_b32_e32 v12, s6, v2
				; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
				; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
				; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v7			; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_or_b32_e32 v2, v10, v2
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v3			; GFX7-NEXT: v_and_b32_e32 v4, s6, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v3			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v16i8_s_s:			; GFX10-LABEL: insertelement_v_v16i8_s_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v4, 8
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
				; GFX10-NEXT: v_mov_b32_e32 v4, 8
				; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
				; GFX10-NEXT: v_mov_b32_e32 v5, 16
	; GFX10-NEXT: s_lshr_b32 s5, s3, 2			; GFX10-NEXT: s_lshr_b32 s5, s3, 2
	; GFX10-NEXT: s_and_b32 s1, s3, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s5, 1
	; GFX10-NEXT: s_lshl_b32 s3, s1, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, s5, 3
	; GFX10-NEXT: s_and_b32 s2, s2, s4			; GFX10-NEXT: s_and_b32 s2, s2, s4
	; GFX10-NEXT: s_lshl_b32 s6, s4, s3			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s5, 1
	; GFX10-NEXT: s_lshl_b32 s2, s2, s3
	; GFX10-NEXT: s_not_b32 s3, s6
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, s0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX10-NEXT: v_and_b32_sdwa v13, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v14, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v10
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v7			; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v12
				; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v3
				; GFX10-NEXT: v_or3_b32 v0, v0, v11, v6
				; GFX10-NEXT: v_lshlrev_b32_sdwa v16, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_or3_b32 v1, v1, v13, v7
				; GFX10-NEXT: v_and_or_b32 v2, v2, s4, v14
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v15, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v3, v3, s4, v16
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v9
	; GFX10-NEXT: v_or3_b32 v0, v0, v13, v6			; GFX10-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v10			; GFX10-NEXT: v_or3_b32 v2, v2, v15, v8
	; GFX10-NEXT: v_and_or_b32 v2, v2, s4, v9
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v4, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_or3_b32 v1, v1, v14, v8
	; GFX10-NEXT: v_and_b32_sdwa v16, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v12
	; GFX10-NEXT: v_or3_b32 v2, v2, v15, v5
	; GFX10-NEXT: v_and_or_b32 v3, v3, s4, v7
	; GFX10-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s5, 2			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s5, 2
	; GFX10-NEXT: v_or3_b32 v3, v3, v16, v6			; GFX10-NEXT: s_and_b32 s1, s3, 3
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v5, v2, s0			; GFX10-NEXT: v_or3_b32 v3, v3, v10, v6
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v5, v3, s1			; GFX10-NEXT: s_lshl_b32 s3, s1, 3
	; GFX10-NEXT: v_and_or_b32 v5, v5, s3, s2			; GFX10-NEXT: v_cmp_eq_u32_e64 s1, s5, 3
				; GFX10-NEXT: v_cndmask_b32_e64 v6, v7, v2, s0
				; GFX10-NEXT: s_lshl_b32 s6, s4, s3
				; GFX10-NEXT: s_lshl_b32 s2, s2, s3
				; GFX10-NEXT: s_not_b32 s3, s6
				; GFX10-NEXT: v_cndmask_b32_e64 v6, v6, v3, s1
				; GFX10-NEXT: v_and_or_b32 v6, v6, s3, s2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, s5, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, s5, 0
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v5, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s1			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v6, s2
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v5, s2			; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v6, s1
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v3
				; GFX10-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, v4, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_and_b32_sdwa v13, v0, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v14, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v15, v2, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v16, v3, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v5
	; GFX10-NEXT: v_and_or_b32 v3, v3, s4, v4			; GFX10-NEXT: v_and_or_b32 v3, v3, s4, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v9
				; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v10
				; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v12
				; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX10-NEXT: v_and_or_b32 v2, v2, s4, v14
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_and_or_b32 v1, v1, s4, v7			; GFX10-NEXT: v_or3_b32 v3, v3, v5, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX10-NEXT: v_and_or_b32 v2, v2, s4, v9
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_or3_b32 v0, v0, v13, v6			; GFX10-NEXT: v_or3_b32 v0, v0, v11, v6
	; GFX10-NEXT: v_or3_b32 v1, v1, v14, v8			; GFX10-NEXT: v_or3_b32 v1, v1, v13, v7
	; GFX10-NEXT: v_or3_b32 v3, v3, v16, v11			; GFX10-NEXT: v_or3_b32 v2, v2, v15, v8
	; GFX10-NEXT: v_or3_b32 v2, v2, v15, v10
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(1 )* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(1 )* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v16i8_v_s(<16 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v16i8_v_s(<16 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v16i8_v_s:			; GFX9-LABEL: insertelement_s_v16i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s18, 0xff			; GFX9-NEXT: s_mov_b32 s13, 0x80008
	; GFX9-NEXT: v_and_b32_e32 v0, s18, v0			; GFX9-NEXT: s_movk_i32 s11, 0xff
				; GFX9-NEXT: v_and_b32_e32 v0, s11, v0
	; GFX9-NEXT: s_mov_b32 s5, 8			; GFX9-NEXT: s_mov_b32 s5, 8
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s6, s0, 8			; GFX9-NEXT: s_bfe_u32 s14, s0, s13
	; GFX9-NEXT: s_and_b32 s6, s6, s18			; GFX9-NEXT: s_and_b32 s12, s0, s11
	; GFX9-NEXT: s_lshr_b32 s7, s0, 16			; GFX9-NEXT: s_lshl_b32 s14, s14, 8
	; GFX9-NEXT: s_lshr_b32 s8, s0, 24			; GFX9-NEXT: s_or_b32 s12, s12, s14
	; GFX9-NEXT: s_and_b32 s0, s0, s18			; GFX9-NEXT: s_mov_b32 s14, 0x80010
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_lshr_b32 s7, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_bfe_u32 s0, s0, s14
	; GFX9-NEXT: s_and_b32 s6, s7, s18			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_or_b32 s0, s12, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_bfe_u32 s12, s1, s13
	; GFX9-NEXT: s_lshl_b32 s6, s8, 24			; GFX9-NEXT: s_lshl_b32 s7, s7, 24
	; GFX9-NEXT: s_lshr_b32 s9, s1, 8			; GFX9-NEXT: s_or_b32 s0, s0, s7
	; GFX9-NEXT: s_or_b32 s0, s0, s6			; GFX9-NEXT: s_lshr_b32 s8, s1, 24
	; GFX9-NEXT: s_and_b32 s6, s9, s18			; GFX9-NEXT: s_and_b32 s7, s1, s11
	; GFX9-NEXT: s_lshr_b32 s10, s1, 16			; GFX9-NEXT: s_bfe_u32 s1, s1, s14
	; GFX9-NEXT: s_lshr_b32 s11, s1, 24			; GFX9-NEXT: s_lshl_b32 s12, s12, 8
	; GFX9-NEXT: s_and_b32 s1, s1, s18			; GFX9-NEXT: s_or_b32 s7, s7, s12
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_or_b32 s1, s7, s1
	; GFX9-NEXT: s_and_b32 s6, s10, s18			; GFX9-NEXT: s_lshl_b32 s7, s8, 24
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_bfe_u32 s8, s2, s13
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_or_b32 s1, s1, s7
	; GFX9-NEXT: s_lshl_b32 s6, s11, 24			; GFX9-NEXT: s_lshr_b32 s9, s2, 24
	; GFX9-NEXT: s_lshr_b32 s12, s2, 8			; GFX9-NEXT: s_and_b32 s7, s2, s11
	; GFX9-NEXT: s_or_b32 s1, s1, s6			; GFX9-NEXT: s_bfe_u32 s2, s2, s14
	; GFX9-NEXT: s_and_b32 s6, s12, s18			; GFX9-NEXT: s_lshl_b32 s8, s8, 8
	; GFX9-NEXT: s_lshr_b32 s13, s2, 16			; GFX9-NEXT: s_or_b32 s7, s7, s8
	; GFX9-NEXT: s_lshr_b32 s14, s2, 24			; GFX9-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9-NEXT: s_and_b32 s2, s2, s18			; GFX9-NEXT: s_bfe_u32 s8, s3, s13
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_or_b32 s2, s7, s2
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_lshl_b32 s7, s9, 24
	; GFX9-NEXT: s_and_b32 s6, s13, s18			; GFX9-NEXT: s_or_b32 s2, s2, s7
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_lshr_b32 s10, s3, 24
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_and_b32 s7, s3, s11
	; GFX9-NEXT: s_lshl_b32 s6, s14, 24			; GFX9-NEXT: s_bfe_u32 s3, s3, s14
	; GFX9-NEXT: s_lshr_b32 s15, s3, 8			; GFX9-NEXT: s_lshl_b32 s8, s8, 8
	; GFX9-NEXT: s_or_b32 s2, s2, s6			; GFX9-NEXT: s_or_b32 s7, s7, s8
	; GFX9-NEXT: s_and_b32 s6, s15, s18			; GFX9-NEXT: s_lshl_b32 s3, s3, 16
	; GFX9-NEXT: s_lshr_b32 s16, s3, 16			; GFX9-NEXT: s_or_b32 s3, s7, s3
	; GFX9-NEXT: s_lshr_b32 s17, s3, 24			; GFX9-NEXT: s_lshl_b32 s7, s10, 24
	; GFX9-NEXT: s_and_b32 s3, s3, s18			; GFX9-NEXT: s_or_b32 s3, s3, s7
	; GFX9-NEXT: s_lshl_b32 s6, s6, 8			; GFX9-NEXT: s_lshr_b32 s7, s4, 2
	; GFX9-NEXT: s_or_b32 s3, s3, s6			; GFX9-NEXT: s_cmp_eq_u32 s7, 1
	; GFX9-NEXT: s_and_b32 s6, s16, s18			; GFX9-NEXT: s_cselect_b32 s8, s1, s0
	; GFX9-NEXT: s_lshl_b32 s6, s6, 16			; GFX9-NEXT: s_cmp_eq_u32 s7, 2
	; GFX9-NEXT: s_or_b32 s3, s3, s6			; GFX9-NEXT: s_cselect_b32 s8, s2, s8
	; GFX9-NEXT: s_lshl_b32 s6, s17, 24			; GFX9-NEXT: s_cmp_eq_u32 s7, 3
	; GFX9-NEXT: s_or_b32 s3, s3, s6			; GFX9-NEXT: s_cselect_b32 s8, s3, s8
	; GFX9-NEXT: s_lshr_b32 s6, s4, 2
	; GFX9-NEXT: s_cmp_eq_u32 s6, 1
	; GFX9-NEXT: s_cselect_b32 s7, s1, s0
	; GFX9-NEXT: s_cmp_eq_u32 s6, 2
	; GFX9-NEXT: s_cselect_b32 s7, s2, s7
	; GFX9-NEXT: s_cmp_eq_u32 s6, 3
	; GFX9-NEXT: s_cselect_b32 s7, s3, s7
	; GFX9-NEXT: s_and_b32 s4, s4, 3			; GFX9-NEXT: s_and_b32 s4, s4, 3
	; GFX9-NEXT: s_lshl_b32 s4, s4, 3			; GFX9-NEXT: s_lshl_b32 s4, s4, 3
	; GFX9-NEXT: s_lshl_b32 s8, s18, s4			; GFX9-NEXT: s_lshl_b32 s9, s11, s4
	; GFX9-NEXT: s_andn2_b32 s7, s7, s8			; GFX9-NEXT: s_andn2_b32 s8, s8, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, s7			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: v_lshl_or_b32 v4, v0, s4, v1			; GFX9-NEXT: v_lshl_or_b32 v4, v0, s4, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s6, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s7, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s6, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s7, 1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s6, 2			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s7, 2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s6, 3			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s7, 3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: s_mov_b32 s6, 16
	; GFX9-NEXT: v_and_or_b32 v4, v0, s18, v4			; GFX9-NEXT: v_and_or_b32 v8, v0, s11, v8
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX9-NEXT: v_or3_b32 v0, v8, v0, v4
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v4, v1, s11, v4
				; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_or3_b32 v0, v4, v0, v5			; GFX9-NEXT: v_or3_b32 v1, v4, v1, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NEXT: v_mov_b32_e32 v4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX9-NEXT: v_and_or_b32 v5, v1, s18, v5			; GFX9-NEXT: v_mov_b32_e32 v8, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v5, v2, s11, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX9-NEXT: v_or3_b32 v1, v5, v1, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_or_b32 v5, v2, s18, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX9-NEXT: v_and_b32_sdwa v2, v2, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v9
	; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6			; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6
	; GFX9-NEXT: v_and_or_b32 v4, v3, s18, v4			; GFX9-NEXT: v_and_or_b32 v4, v3, s11, v4
	; GFX9-NEXT: v_and_b32_sdwa v3, v3, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5			; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i8_v_s:			; GFX8-LABEL: insertelement_s_v16i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s17, 0xff			; GFX8-NEXT: s_mov_b32 s11, 0x80008
	; GFX8-NEXT: v_mov_b32_e32 v12, 8			; GFX8-NEXT: s_movk_i32 s9, 0xff
				; GFX8-NEXT: v_mov_b32_e32 v8, 8
				; GFX8-NEXT: v_mov_b32_e32 v10, 16
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s5, s0, 8			; GFX8-NEXT: s_bfe_u32 s12, s0, s11
	; GFX8-NEXT: s_and_b32 s5, s5, s17			; GFX8-NEXT: s_and_b32 s10, s0, s9
	; GFX8-NEXT: s_lshr_b32 s6, s0, 16			; GFX8-NEXT: s_lshl_b32 s12, s12, 8
	; GFX8-NEXT: s_lshr_b32 s7, s0, 24			; GFX8-NEXT: s_or_b32 s10, s10, s12
	; GFX8-NEXT: s_and_b32 s0, s0, s17			; GFX8-NEXT: s_mov_b32 s12, 0x80010
	; GFX8-NEXT: s_lshl_b32 s5, s5, 8			; GFX8-NEXT: s_lshr_b32 s5, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s5			; GFX8-NEXT: s_bfe_u32 s0, s0, s12
	; GFX8-NEXT: s_and_b32 s5, s6, s17			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s5, s5, 16			; GFX8-NEXT: s_or_b32 s0, s10, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s5			; GFX8-NEXT: s_bfe_u32 s10, s1, s11
	; GFX8-NEXT: s_lshl_b32 s5, s7, 24			; GFX8-NEXT: s_lshl_b32 s5, s5, 24
	; GFX8-NEXT: s_lshr_b32 s8, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s5			; GFX8-NEXT: s_or_b32 s0, s0, s5
	; GFX8-NEXT: s_and_b32 s5, s8, s17			; GFX8-NEXT: s_lshr_b32 s6, s1, 24
	; GFX8-NEXT: s_lshr_b32 s9, s1, 16			; GFX8-NEXT: s_and_b32 s5, s1, s9
	; GFX8-NEXT: s_lshr_b32 s10, s1, 24			; GFX8-NEXT: s_bfe_u32 s1, s1, s12
	; GFX8-NEXT: s_and_b32 s1, s1, s17			; GFX8-NEXT: s_lshl_b32 s10, s10, 8
	; GFX8-NEXT: s_lshl_b32 s5, s5, 8			; GFX8-NEXT: s_or_b32 s5, s5, s10
	; GFX8-NEXT: s_or_b32 s1, s1, s5			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_and_b32 s5, s9, s17			; GFX8-NEXT: s_or_b32 s1, s5, s1
	; GFX8-NEXT: s_lshl_b32 s5, s5, 16			; GFX8-NEXT: s_lshl_b32 s5, s6, 24
	; GFX8-NEXT: s_or_b32 s1, s1, s5			; GFX8-NEXT: s_bfe_u32 s6, s2, s11
	; GFX8-NEXT: s_lshl_b32 s5, s10, 24
	; GFX8-NEXT: s_lshr_b32 s11, s2, 8
	; GFX8-NEXT: s_or_b32 s1, s1, s5			; GFX8-NEXT: s_or_b32 s1, s1, s5
	; GFX8-NEXT: s_and_b32 s5, s11, s17			; GFX8-NEXT: s_lshr_b32 s7, s2, 24
	; GFX8-NEXT: s_lshr_b32 s12, s2, 16			; GFX8-NEXT: s_and_b32 s5, s2, s9
	; GFX8-NEXT: s_lshr_b32 s13, s2, 24			; GFX8-NEXT: s_bfe_u32 s2, s2, s12
	; GFX8-NEXT: s_and_b32 s2, s2, s17			; GFX8-NEXT: s_lshl_b32 s6, s6, 8
	; GFX8-NEXT: s_lshl_b32 s5, s5, 8			; GFX8-NEXT: s_or_b32 s5, s5, s6
	; GFX8-NEXT: s_or_b32 s2, s2, s5			; GFX8-NEXT: s_lshl_b32 s2, s2, 16
	; GFX8-NEXT: s_and_b32 s5, s12, s17			; GFX8-NEXT: s_bfe_u32 s6, s3, s11
	; GFX8-NEXT: s_lshl_b32 s5, s5, 16			; GFX8-NEXT: s_or_b32 s2, s5, s2
	; GFX8-NEXT: s_or_b32 s2, s2, s5			; GFX8-NEXT: s_lshl_b32 s5, s7, 24
	; GFX8-NEXT: s_lshl_b32 s5, s13, 24
	; GFX8-NEXT: s_lshr_b32 s14, s3, 8
	; GFX8-NEXT: s_or_b32 s2, s2, s5			; GFX8-NEXT: s_or_b32 s2, s2, s5
	; GFX8-NEXT: s_and_b32 s5, s14, s17			; GFX8-NEXT: s_lshr_b32 s8, s3, 24
	; GFX8-NEXT: s_lshr_b32 s15, s3, 16			; GFX8-NEXT: s_and_b32 s5, s3, s9
	; GFX8-NEXT: s_lshr_b32 s16, s3, 24			; GFX8-NEXT: s_bfe_u32 s3, s3, s12
	; GFX8-NEXT: s_and_b32 s3, s3, s17			; GFX8-NEXT: s_lshl_b32 s6, s6, 8
	; GFX8-NEXT: s_lshl_b32 s5, s5, 8			; GFX8-NEXT: s_or_b32 s5, s5, s6
	; GFX8-NEXT: s_or_b32 s3, s3, s5			; GFX8-NEXT: s_lshl_b32 s3, s3, 16
	; GFX8-NEXT: s_and_b32 s5, s15, s17			; GFX8-NEXT: s_or_b32 s3, s5, s3
	; GFX8-NEXT: s_lshl_b32 s5, s5, 16			; GFX8-NEXT: s_lshl_b32 s5, s8, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s5
	; GFX8-NEXT: s_lshl_b32 s5, s16, 24
	; GFX8-NEXT: s_or_b32 s3, s3, s5			; GFX8-NEXT: s_or_b32 s3, s3, s5
	; GFX8-NEXT: s_lshr_b32 s5, s4, 2			; GFX8-NEXT: s_lshr_b32 s5, s4, 2
	; GFX8-NEXT: s_cmp_eq_u32 s5, 1			; GFX8-NEXT: s_cmp_eq_u32 s5, 1
	; GFX8-NEXT: s_cselect_b32 s6, s1, s0			; GFX8-NEXT: s_cselect_b32 s6, s1, s0
	; GFX8-NEXT: s_cmp_eq_u32 s5, 2			; GFX8-NEXT: s_cmp_eq_u32 s5, 2
	; GFX8-NEXT: s_cselect_b32 s6, s2, s6			; GFX8-NEXT: s_cselect_b32 s6, s2, s6
	; GFX8-NEXT: s_cmp_eq_u32 s5, 3			; GFX8-NEXT: s_cmp_eq_u32 s5, 3
	; GFX8-NEXT: s_cselect_b32 s6, s3, s6			; GFX8-NEXT: s_cselect_b32 s6, s3, s6
	; GFX8-NEXT: s_and_b32 s4, s4, 3			; GFX8-NEXT: s_and_b32 s4, s4, 3
	; GFX8-NEXT: s_lshl_b32 s4, s4, 3			; GFX8-NEXT: s_lshl_b32 s4, s4, 3
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v1, s4
	; GFX8-NEXT: s_lshl_b32 s4, s17, s4			; GFX8-NEXT: s_lshl_b32 s4, s9, s4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_andn2_b32 s4, s6, s4			; GFX8-NEXT: s_andn2_b32 s4, s6, s4
	; GFX8-NEXT: v_or_b32_e32 v4, s4, v0			; GFX8-NEXT: v_or_b32_e32 v4, s4, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s2
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_mov_b32_e32 v3, s3			; GFX8-NEXT: v_mov_b32_e32 v3, s3
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v12, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v12, s17			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_or_b32_e32 v0, v9, v0
	; GFX8-NEXT: v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX8-NEXT: v_or_b32_sdwa v4, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v10, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_e32 v1, v4, v1
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v3, v3, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v2, v5, v2			; GFX8-NEXT: v_or_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v3			; GFX8-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v5			; GFX8-NEXT: v_or_b32_e32 v2, v2, v5
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i8_v_s:			; GFX7-LABEL: insertelement_s_v16i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s17, 0xff			; GFX7-NEXT: s_mov_b32 s11, 0x80008
	; GFX7-NEXT: v_and_b32_e32 v0, s17, v0			; GFX7-NEXT: s_movk_i32 s9, 0xff
				; GFX7-NEXT: v_and_b32_e32 v0, s9, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s5, s0, 8			; GFX7-NEXT: s_bfe_u32 s12, s0, s11
	; GFX7-NEXT: s_and_b32 s5, s5, s17			; GFX7-NEXT: s_and_b32 s10, s0, s9
	; GFX7-NEXT: s_lshr_b32 s6, s0, 16			; GFX7-NEXT: s_lshl_b32 s12, s12, 8
	; GFX7-NEXT: s_lshr_b32 s7, s0, 24			; GFX7-NEXT: s_or_b32 s10, s10, s12
	; GFX7-NEXT: s_and_b32 s0, s0, s17			; GFX7-NEXT: s_mov_b32 s12, 0x80010
	; GFX7-NEXT: s_lshl_b32 s5, s5, 8			; GFX7-NEXT: s_lshr_b32 s5, s0, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s5			; GFX7-NEXT: s_bfe_u32 s0, s0, s12
	; GFX7-NEXT: s_and_b32 s5, s6, s17			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16			; GFX7-NEXT: s_or_b32 s0, s10, s0
	; GFX7-NEXT: s_or_b32 s0, s0, s5			; GFX7-NEXT: s_bfe_u32 s10, s1, s11
	; GFX7-NEXT: s_lshl_b32 s5, s7, 24			; GFX7-NEXT: s_lshl_b32 s5, s5, 24
	; GFX7-NEXT: s_lshr_b32 s8, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s5			; GFX7-NEXT: s_or_b32 s0, s0, s5
	; GFX7-NEXT: s_and_b32 s5, s8, s17			; GFX7-NEXT: s_lshr_b32 s6, s1, 24
	; GFX7-NEXT: s_lshr_b32 s9, s1, 16			; GFX7-NEXT: s_and_b32 s5, s1, s9
	; GFX7-NEXT: s_lshr_b32 s10, s1, 24			; GFX7-NEXT: s_bfe_u32 s1, s1, s12
	; GFX7-NEXT: s_and_b32 s1, s1, s17			; GFX7-NEXT: s_lshl_b32 s10, s10, 8
	; GFX7-NEXT: s_lshl_b32 s5, s5, 8			; GFX7-NEXT: s_or_b32 s5, s5, s10
	; GFX7-NEXT: s_or_b32 s1, s1, s5			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_and_b32 s5, s9, s17			; GFX7-NEXT: s_or_b32 s1, s5, s1
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16			; GFX7-NEXT: s_lshl_b32 s5, s6, 24
	; GFX7-NEXT: s_or_b32 s1, s1, s5			; GFX7-NEXT: s_bfe_u32 s6, s2, s11
	; GFX7-NEXT: s_lshl_b32 s5, s10, 24
	; GFX7-NEXT: s_lshr_b32 s11, s2, 8
	; GFX7-NEXT: s_or_b32 s1, s1, s5			; GFX7-NEXT: s_or_b32 s1, s1, s5
	; GFX7-NEXT: s_and_b32 s5, s11, s17			; GFX7-NEXT: s_lshr_b32 s7, s2, 24
	; GFX7-NEXT: s_lshr_b32 s12, s2, 16			; GFX7-NEXT: s_and_b32 s5, s2, s9
	; GFX7-NEXT: s_lshr_b32 s13, s2, 24			; GFX7-NEXT: s_bfe_u32 s2, s2, s12
	; GFX7-NEXT: s_and_b32 s2, s2, s17			; GFX7-NEXT: s_lshl_b32 s6, s6, 8
	; GFX7-NEXT: s_lshl_b32 s5, s5, 8			; GFX7-NEXT: s_or_b32 s5, s5, s6
	; GFX7-NEXT: s_or_b32 s2, s2, s5			; GFX7-NEXT: s_lshl_b32 s2, s2, 16
	; GFX7-NEXT: s_and_b32 s5, s12, s17			; GFX7-NEXT: s_bfe_u32 s6, s3, s11
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16			; GFX7-NEXT: s_or_b32 s2, s5, s2
	; GFX7-NEXT: s_or_b32 s2, s2, s5			; GFX7-NEXT: s_lshl_b32 s5, s7, 24
	; GFX7-NEXT: s_lshl_b32 s5, s13, 24
	; GFX7-NEXT: s_lshr_b32 s14, s3, 8
	; GFX7-NEXT: s_or_b32 s2, s2, s5			; GFX7-NEXT: s_or_b32 s2, s2, s5
	; GFX7-NEXT: s_and_b32 s5, s14, s17			; GFX7-NEXT: s_lshr_b32 s8, s3, 24
	; GFX7-NEXT: s_lshr_b32 s15, s3, 16			; GFX7-NEXT: s_and_b32 s5, s3, s9
	; GFX7-NEXT: s_lshr_b32 s16, s3, 24			; GFX7-NEXT: s_bfe_u32 s3, s3, s12
	; GFX7-NEXT: s_and_b32 s3, s3, s17			; GFX7-NEXT: s_lshl_b32 s6, s6, 8
	; GFX7-NEXT: s_lshl_b32 s5, s5, 8			; GFX7-NEXT: s_or_b32 s5, s5, s6
	; GFX7-NEXT: s_or_b32 s3, s3, s5			; GFX7-NEXT: s_lshl_b32 s3, s3, 16
	; GFX7-NEXT: s_and_b32 s5, s15, s17			; GFX7-NEXT: s_or_b32 s3, s5, s3
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16			; GFX7-NEXT: s_lshl_b32 s5, s8, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s5
	; GFX7-NEXT: s_lshl_b32 s5, s16, 24
	; GFX7-NEXT: s_or_b32 s3, s3, s5			; GFX7-NEXT: s_or_b32 s3, s3, s5
	; GFX7-NEXT: s_lshr_b32 s5, s4, 2			; GFX7-NEXT: s_lshr_b32 s5, s4, 2
	; GFX7-NEXT: s_cmp_eq_u32 s5, 1			; GFX7-NEXT: s_cmp_eq_u32 s5, 1
	; GFX7-NEXT: s_cselect_b32 s6, s1, s0			; GFX7-NEXT: s_cselect_b32 s6, s1, s0
	; GFX7-NEXT: s_cmp_eq_u32 s5, 2			; GFX7-NEXT: s_cmp_eq_u32 s5, 2
	; GFX7-NEXT: s_cselect_b32 s6, s2, s6			; GFX7-NEXT: s_cselect_b32 s6, s2, s6
	; GFX7-NEXT: s_cmp_eq_u32 s5, 3			; GFX7-NEXT: s_cmp_eq_u32 s5, 3
	; GFX7-NEXT: s_cselect_b32 s6, s3, s6			; GFX7-NEXT: s_cselect_b32 s6, s3, s6
	; GFX7-NEXT: s_and_b32 s4, s4, 3			; GFX7-NEXT: s_and_b32 s4, s4, 3
	; GFX7-NEXT: s_lshl_b32 s4, s4, 3			; GFX7-NEXT: s_lshl_b32 s4, s4, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0
	; GFX7-NEXT: s_lshl_b32 s4, s17, s4			; GFX7-NEXT: s_lshl_b32 s4, s9, s4
	; GFX7-NEXT: s_andn2_b32 s4, s6, s4			; GFX7-NEXT: s_andn2_b32 s4, s6, s4
	; GFX7-NEXT: v_or_b32_e32 v4, s4, v0			; GFX7-NEXT: v_or_b32_e32 v4, s4, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
				; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v4			; GFX7-NEXT: v_and_b32_e32 v8, s9, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_and_b32_e32 v0, s17, v0			; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v5			; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v7			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_and_b32_e32 v4, s9, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s17, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v8			; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v10			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v2			; GFX7-NEXT: v_and_b32_e32 v4, s9, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s17, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v11			; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v3			; GFX7-NEXT: v_and_b32_e32 v4, s9, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v3			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s17, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s17, v14			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v16i8_v_s:			; GFX10-LABEL: insertelement_s_v16i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s6, 0x80008
	; GFX10-NEXT: s_movk_i32 s5, 0xff			; GFX10-NEXT: s_movk_i32 s5, 0xff
	; GFX10-NEXT: v_mov_b32_e32 v9, 8			; GFX10-NEXT: s_mov_b32 s7, 0x80010
	; GFX10-NEXT: v_and_b32_e32 v0, s5, v0			; GFX10-NEXT: v_and_b32_e32 v0, s5, v0
				; GFX10-NEXT: v_mov_b32_e32 v10, 8
				; GFX10-NEXT: v_mov_b32_e32 v12, 16
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s0, 8			; GFX10-NEXT: s_bfe_u32 s13, s0, s6
	; GFX10-NEXT: s_lshr_b32 s7, s0, 16			; GFX10-NEXT: s_bfe_u32 s15, s1, s6
	; GFX10-NEXT: s_and_b32 s6, s6, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 24			; GFX10-NEXT: s_lshr_b32 s8, s0, 24
	; GFX10-NEXT: s_and_b32 s7, s7, s5			; GFX10-NEXT: s_lshr_b32 s9, s1, 24
	; GFX10-NEXT: s_and_b32 s0, s0, s5			; GFX10-NEXT: s_and_b32 s12, s0, s5
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_bfe_u32 s0, s0, s7
	; GFX10-NEXT: s_lshr_b32 s12, s2, 8			; GFX10-NEXT: s_and_b32 s14, s1, s5
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16			; GFX10-NEXT: s_bfe_u32 s1, s1, s7
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_lshl_b32 s13, s13, 8
	; GFX10-NEXT: s_lshr_b32 s9, s1, 8			; GFX10-NEXT: s_lshl_b32 s15, s15, 8
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s12, s12, s13
	; GFX10-NEXT: s_and_b32 s7, s12, s5			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
				; GFX10-NEXT: s_lshl_b32 s1, s1, 16
				; GFX10-NEXT: s_or_b32 s13, s14, s15
				; GFX10-NEXT: s_bfe_u32 s17, s2, s6
				; GFX10-NEXT: s_bfe_u32 s6, s3, s6
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_lshr_b32 s13, s2, 16			; GFX10-NEXT: s_or_b32 s0, s12, s0
	; GFX10-NEXT: s_lshr_b32 s10, s1, 16			; GFX10-NEXT: s_lshl_b32 s9, s9, 24
	; GFX10-NEXT: s_and_b32 s9, s9, s5			; GFX10-NEXT: s_or_b32 s1, s13, s1
	; GFX10-NEXT: s_lshr_b32 s14, s2, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s8			; GFX10-NEXT: s_or_b32 s0, s0, s8
	; GFX10-NEXT: s_and_b32 s2, s2, s5
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8
	; GFX10-NEXT: s_and_b32 s8, s13, s5
	; GFX10-NEXT: s_lshr_b32 s11, s1, 24
	; GFX10-NEXT: s_and_b32 s10, s10, s5
	; GFX10-NEXT: s_or_b32 s2, s2, s7
	; GFX10-NEXT: s_lshl_b32 s7, s8, 16
	; GFX10-NEXT: s_lshr_b32 s15, s3, 8
	; GFX10-NEXT: s_and_b32 s1, s1, s5
	; GFX10-NEXT: s_lshl_b32 s9, s9, 8
	; GFX10-NEXT: s_lshr_b32 s16, s3, 16
	; GFX10-NEXT: s_or_b32 s2, s2, s7
	; GFX10-NEXT: s_and_b32 s7, s15, s5
	; GFX10-NEXT: s_lshl_b32 s6, s10, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s9			; GFX10-NEXT: s_or_b32 s1, s1, s9
	; GFX10-NEXT: s_lshr_b32 s17, s3, 24			; GFX10-NEXT: s_lshr_b32 s10, s2, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s6			; GFX10-NEXT: s_and_b32 s16, s2, s5
				; GFX10-NEXT: s_lshl_b32 s8, s17, 8
				; GFX10-NEXT: s_bfe_u32 s2, s2, s7
				; GFX10-NEXT: s_lshr_b32 s11, s3, 24
				; GFX10-NEXT: s_and_b32 s9, s3, s5
				; GFX10-NEXT: s_bfe_u32 s3, s3, s7
				; GFX10-NEXT: s_lshl_b32 s6, s6, 8
				; GFX10-NEXT: s_or_b32 s8, s16, s8
				; GFX10-NEXT: s_lshl_b32 s2, s2, 16
				; GFX10-NEXT: s_or_b32 s6, s9, s6
				; GFX10-NEXT: s_lshl_b32 s3, s3, 16
				; GFX10-NEXT: s_or_b32 s2, s8, s2
				; GFX10-NEXT: s_lshl_b32 s8, s10, 24
				; GFX10-NEXT: s_or_b32 s3, s6, s3
	; GFX10-NEXT: s_lshl_b32 s6, s11, 24			; GFX10-NEXT: s_lshl_b32 s6, s11, 24
	; GFX10-NEXT: s_and_b32 s3, s3, s5
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8
	; GFX10-NEXT: s_and_b32 s8, s16, s5
	; GFX10-NEXT: s_or_b32 s1, s1, s6
	; GFX10-NEXT: s_lshl_b32 s6, s14, 24
	; GFX10-NEXT: s_or_b32 s3, s3, s7
	; GFX10-NEXT: s_lshl_b32 s7, s8, 16
	; GFX10-NEXT: s_or_b32 s2, s2, s6
	; GFX10-NEXT: s_or_b32 s3, s3, s7
	; GFX10-NEXT: s_lshl_b32 s6, s17, 24
	; GFX10-NEXT: s_lshr_b32 s7, s4, 2			; GFX10-NEXT: s_lshr_b32 s7, s4, 2
				; GFX10-NEXT: s_or_b32 s2, s2, s8
	; GFX10-NEXT: s_or_b32 s3, s3, s6			; GFX10-NEXT: s_or_b32 s3, s3, s6
	; GFX10-NEXT: s_cmp_eq_u32 s7, 1			; GFX10-NEXT: s_cmp_eq_u32 s7, 1
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 0
	; GFX10-NEXT: s_cselect_b32 s6, s1, s0			; GFX10-NEXT: s_cselect_b32 s6, s1, s0
	; GFX10-NEXT: s_cmp_eq_u32 s7, 2			; GFX10-NEXT: s_cmp_eq_u32 s7, 2
	; GFX10-NEXT: s_cselect_b32 s6, s2, s6			; GFX10-NEXT: s_cselect_b32 s6, s2, s6
	; GFX10-NEXT: s_cmp_eq_u32 s7, 3			; GFX10-NEXT: s_cmp_eq_u32 s7, 3
	; GFX10-NEXT: s_cselect_b32 s6, s3, s6			; GFX10-NEXT: s_cselect_b32 s6, s3, s6
	; GFX10-NEXT: s_and_b32 s4, s4, 3			; GFX10-NEXT: s_and_b32 s4, s4, 3
	; GFX10-NEXT: s_lshl_b32 s4, s4, 3			; GFX10-NEXT: s_lshl_b32 s4, s4, 3
	; GFX10-NEXT: s_lshl_b32 s8, s5, s4			; GFX10-NEXT: s_lshl_b32 s8, s5, s4
	; GFX10-NEXT: s_andn2_b32 s6, s6, s8			; GFX10-NEXT: s_andn2_b32 s6, s6, s8
	; GFX10-NEXT: v_lshl_or_b32 v4, v0, s4, s6			; GFX10-NEXT: v_lshl_or_b32 v4, v0, s4, s6
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 2			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 2
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_and_or_b32 v6, v0, s5, v6
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 3			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s7, 3
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v6, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc_lo
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v10, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_or_b32 v6, v1, s5, v6			; GFX10-NEXT: v_and_or_b32 v9, v1, s5, v9
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX10-NEXT: v_and_or_b32 v11, v2, s5, v11
				; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v12, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v9, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v10, v3, s5, v10
	; GFX10-NEXT: v_and_or_b32 v4, v0, s5, v4			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v12, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v0, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_and_or_b32 v8, v2, s5, v8			; GFX10-NEXT: v_or3_b32 v0, v6, v0, v4
	; GFX10-NEXT: v_and_b32_sdwa v2, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v1, v9, v1, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX10-NEXT: v_and_or_b32 v9, v3, s5, v9
	; GFX10-NEXT: v_and_b32_sdwa v3, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12
	; GFX10-NEXT: v_or3_b32 v0, v4, v0, v5
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_or3_b32 v1, v6, v1, v7			; GFX10-NEXT: v_or3_b32 v2, v11, v2, v7
	; GFX10-NEXT: v_or3_b32 v2, v8, v2, v10			; GFX10-NEXT: v_or3_b32 v3, v10, v3, v8
	; GFX10-NEXT: v_or3_b32 v3, v9, v3, v11
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v16i8_s_v(<16 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v16i8_s_v(<16 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v16i8_s_v:			; GFX9-LABEL: insertelement_s_v16i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s18, 0xff			; GFX9-NEXT: s_mov_b32 s13, 0x80008
				; GFX9-NEXT: s_movk_i32 s12, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 2, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 2, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 3, v0			; GFX9-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s5, s0, 8			; GFX9-NEXT: s_bfe_u32 s14, s0, s13
	; GFX9-NEXT: s_and_b32 s5, s5, s18			; GFX9-NEXT: s_and_b32 s8, s0, s12
	; GFX9-NEXT: s_lshr_b32 s7, s0, 16			; GFX9-NEXT: s_lshl_b32 s14, s14, 8
	; GFX9-NEXT: s_lshr_b32 s8, s0, 24			; GFX9-NEXT: s_or_b32 s8, s8, s14
	; GFX9-NEXT: s_and_b32 s0, s0, s18			; GFX9-NEXT: s_mov_b32 s14, 0x80010
				; GFX9-NEXT: s_lshr_b32 s5, s0, 24
				; GFX9-NEXT: s_bfe_u32 s0, s0, s14
				; GFX9-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9-NEXT: s_or_b32 s0, s8, s0
				; GFX9-NEXT: s_lshl_b32 s5, s5, 24
				; GFX9-NEXT: s_or_b32 s8, s0, s5
				; GFX9-NEXT: s_bfe_u32 s5, s1, s13
				; GFX9-NEXT: s_lshr_b32 s9, s1, 24
				; GFX9-NEXT: s_and_b32 s0, s1, s12
				; GFX9-NEXT: s_bfe_u32 s1, s1, s14
	; GFX9-NEXT: s_lshl_b32 s5, s5, 8			; GFX9-NEXT: s_lshl_b32 s5, s5, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s5			; GFX9-NEXT: s_or_b32 s0, s0, s5
	; GFX9-NEXT: s_and_b32 s5, s7, s18
	; GFX9-NEXT: s_lshl_b32 s5, s5, 16
	; GFX9-NEXT: s_or_b32 s0, s0, s5
	; GFX9-NEXT: s_lshl_b32 s5, s8, 24
	; GFX9-NEXT: s_lshr_b32 s9, s1, 8
	; GFX9-NEXT: s_or_b32 s8, s0, s5
	; GFX9-NEXT: s_lshr_b32 s10, s1, 16
	; GFX9-NEXT: s_lshr_b32 s11, s1, 24
	; GFX9-NEXT: s_and_b32 s0, s1, s18
	; GFX9-NEXT: s_and_b32 s1, s9, s18
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s10, s18
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s11, 24			; GFX9-NEXT: s_lshl_b32 s1, s9, 24
	; GFX9-NEXT: s_lshr_b32 s12, s2, 8
	; GFX9-NEXT: s_or_b32 s9, s0, s1			; GFX9-NEXT: s_or_b32 s9, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s12, s18			; GFX9-NEXT: s_bfe_u32 s1, s2, s13
	; GFX9-NEXT: s_lshr_b32 s13, s2, 16			; GFX9-NEXT: s_and_b32 s0, s2, s12
	; GFX9-NEXT: s_and_b32 s0, s2, s18
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s13, s18			; GFX9-NEXT: s_bfe_u32 s1, s2, s14
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_lshr_b32 s14, s2, 24			; GFX9-NEXT: s_lshr_b32 s10, s2, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s14, 24			; GFX9-NEXT: s_lshl_b32 s1, s10, 24
	; GFX9-NEXT: s_lshr_b32 s15, s3, 8
	; GFX9-NEXT: s_or_b32 s10, s0, s1			; GFX9-NEXT: s_or_b32 s10, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s15, s18			; GFX9-NEXT: s_bfe_u32 s1, s3, s13
	; GFX9-NEXT: s_lshr_b32 s16, s3, 16			; GFX9-NEXT: s_and_b32 s0, s3, s12
	; GFX9-NEXT: s_and_b32 s0, s3, s18
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s16, s18			; GFX9-NEXT: s_bfe_u32 s1, s3, s14
	; GFX9-NEXT: s_lshr_b32 s17, s3, 24			; GFX9-NEXT: s_lshr_b32 s11, s3, 24
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s17, 24			; GFX9-NEXT: s_lshl_b32 s1, s11, 24
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
	; GFX9-NEXT: v_mov_b32_e32 v2, s9			; GFX9-NEXT: v_mov_b32_e32 v2, s9
				; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX9-NEXT: s_or_b32 s11, s0, s1			; GFX9-NEXT: s_or_b32 s11, s0, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s10			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_and_b32 s4, s4, s18			; GFX9-NEXT: s_and_b32 s4, s4, s12
	; GFX9-NEXT: v_lshlrev_b32_e64 v2, v0, s4			; GFX9-NEXT: v_lshlrev_b32_e64 v2, v0, s4
	; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s18			; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s12
	; GFX9-NEXT: v_mov_b32_e32 v5, s11			; GFX9-NEXT: v_mov_b32_e32 v5, s11
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX9-NEXT: v_and_or_b32 v5, v1, v0, v2			; GFX9-NEXT: v_and_or_b32 v5, v1, v0, v2
	; GFX9-NEXT: v_mov_b32_e32 v0, s8			; GFX9-NEXT: v_mov_b32_e32 v0, s8
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
				; GFX9-NEXT: s_mov_b32 s6, 8
	; GFX9-NEXT: v_mov_b32_e32 v1, s9			; GFX9-NEXT: v_mov_b32_e32 v1, s9
				; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: s_mov_b32 s7, 16
	; GFX9-NEXT: v_mov_b32_e32 v2, s10			; GFX9-NEXT: v_mov_b32_e32 v2, s10
	; GFX9-NEXT: v_mov_b32_e32 v3, s11			; GFX9-NEXT: v_mov_b32_e32 v3, s11
	; GFX9-NEXT: s_mov_b32 s6, 8			; GFX9-NEXT: v_and_or_b32 v8, v0, s12, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX9-NEXT: v_or3_b32 v0, v8, v0, v4
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s6, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v4, v1, s12, v4
	; GFX9-NEXT: v_and_or_b32 v4, v0, s18, v4			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_or3_b32 v0, v4, v0, v5			; GFX9-NEXT: v_or3_b32 v1, v4, v1, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NEXT: v_mov_b32_e32 v4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX9-NEXT: v_and_or_b32 v5, v1, s18, v5			; GFX9-NEXT: v_mov_b32_e32 v8, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v5, v2, s12, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX9-NEXT: v_or3_b32 v1, v5, v1, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_or_b32 v5, v2, s18, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX9-NEXT: v_and_b32_sdwa v2, v2, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v9
	; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6			; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6
	; GFX9-NEXT: v_and_or_b32 v4, v3, s18, v4			; GFX9-NEXT: v_and_or_b32 v4, v3, s12, v4
	; GFX9-NEXT: v_and_b32_sdwa v3, v3, s18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5			; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i8_s_v:			; GFX8-LABEL: insertelement_s_v16i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s18, 0xff			; GFX8-NEXT: s_mov_b32 s13, 0x80008
				; GFX8-NEXT: s_movk_i32 s12, 0xff
				; GFX8-NEXT: s_mov_b32 s14, 0x80010
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 2, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 2, v0
	; GFX8-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s5, s0, 8			; GFX8-NEXT: s_bfe_u32 s9, s0, s13
	; GFX8-NEXT: s_and_b32 s5, s5, s18			; GFX8-NEXT: s_lshr_b32 s5, s0, 24
	; GFX8-NEXT: s_lshr_b32 s6, s0, 16			; GFX8-NEXT: s_and_b32 s8, s0, s12
	; GFX8-NEXT: s_lshr_b32 s7, s0, 24			; GFX8-NEXT: s_bfe_u32 s0, s0, s14
	; GFX8-NEXT: s_and_b32 s0, s0, s18			; GFX8-NEXT: s_lshl_b32 s9, s9, 8
				; GFX8-NEXT: s_or_b32 s8, s8, s9
				; GFX8-NEXT: s_lshl_b32 s0, s0, 16
				; GFX8-NEXT: s_or_b32 s0, s8, s0
				; GFX8-NEXT: s_lshl_b32 s5, s5, 24
				; GFX8-NEXT: s_or_b32 s8, s0, s5
				; GFX8-NEXT: s_bfe_u32 s5, s1, s13
				; GFX8-NEXT: s_lshr_b32 s6, s1, 24
				; GFX8-NEXT: s_and_b32 s0, s1, s12
				; GFX8-NEXT: s_bfe_u32 s1, s1, s14
	; GFX8-NEXT: s_lshl_b32 s5, s5, 8			; GFX8-NEXT: s_lshl_b32 s5, s5, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s5			; GFX8-NEXT: s_or_b32 s0, s0, s5
	; GFX8-NEXT: s_and_b32 s5, s6, s18
	; GFX8-NEXT: s_lshl_b32 s5, s5, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s5
	; GFX8-NEXT: s_lshl_b32 s5, s7, 24
	; GFX8-NEXT: s_lshr_b32 s9, s1, 8
	; GFX8-NEXT: s_or_b32 s8, s0, s5
	; GFX8-NEXT: s_lshr_b32 s10, s1, 16
	; GFX8-NEXT: s_lshr_b32 s11, s1, 24
	; GFX8-NEXT: s_and_b32 s0, s1, s18
	; GFX8-NEXT: s_and_b32 s1, s9, s18
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s10, s18
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s11, 24			; GFX8-NEXT: s_lshl_b32 s1, s6, 24
	; GFX8-NEXT: s_lshr_b32 s12, s2, 8
	; GFX8-NEXT: s_or_b32 s9, s0, s1			; GFX8-NEXT: s_or_b32 s9, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s12, s18			; GFX8-NEXT: s_bfe_u32 s1, s2, s13
	; GFX8-NEXT: s_lshr_b32 s13, s2, 16			; GFX8-NEXT: s_and_b32 s0, s2, s12
	; GFX8-NEXT: s_and_b32 s0, s2, s18
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_lshl_b32 s1, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s13, s18			; GFX8-NEXT: s_bfe_u32 s1, s2, s14
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_lshr_b32 s14, s2, 24			; GFX8-NEXT: s_lshr_b32 s7, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s14, 24			; GFX8-NEXT: s_lshl_b32 s1, s7, 24
	; GFX8-NEXT: s_lshr_b32 s15, s3, 8
	; GFX8-NEXT: s_or_b32 s10, s0, s1			; GFX8-NEXT: s_or_b32 s10, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s15, s18			; GFX8-NEXT: s_bfe_u32 s1, s3, s13
	; GFX8-NEXT: s_lshr_b32 s16, s3, 16			; GFX8-NEXT: s_and_b32 s0, s3, s12
	; GFX8-NEXT: s_and_b32 s0, s3, s18
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_lshl_b32 s1, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s16, s18			; GFX8-NEXT: s_bfe_u32 s1, s3, s14
	; GFX8-NEXT: s_lshr_b32 s17, s3, 24			; GFX8-NEXT: s_lshr_b32 s11, s3, 24
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
				; GFX8-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s17, 24			; GFX8-NEXT: s_lshl_b32 s1, s11, 24
	; GFX8-NEXT: v_mov_b32_e32 v1, s8			; GFX8-NEXT: v_mov_b32_e32 v1, s8
	; GFX8-NEXT: v_mov_b32_e32 v2, s9			; GFX8-NEXT: v_mov_b32_e32 v2, s9
				; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX8-NEXT: s_or_b32 s11, s0, s1			; GFX8-NEXT: s_or_b32 s11, s0, s1
	; GFX8-NEXT: v_mov_b32_e32 v3, s10			; GFX8-NEXT: v_mov_b32_e32 v3, s10
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX8-NEXT: s_and_b32 s4, s4, s18			; GFX8-NEXT: s_and_b32 s4, s4, s12
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v0, s4			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v0, s4
	; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s18			; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s12
	; GFX8-NEXT: v_mov_b32_e32 v5, s11			; GFX8-NEXT: v_mov_b32_e32 v5, s11
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: v_and_b32_e32 v0, v1, v0			; GFX8-NEXT: v_and_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_or_b32_e32 v5, v0, v2			; GFX8-NEXT: v_or_b32_e32 v5, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, s8			; GFX8-NEXT: v_mov_b32_e32 v0, s8
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v8, 8
	; GFX8-NEXT: v_mov_b32_e32 v12, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v12, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v10, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s9			; GFX8-NEXT: v_mov_b32_e32 v1, s9
				; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX8-NEXT: v_or_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX8-NEXT: v_or_b32_e32 v0, v9, v0
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_mov_b32_e32 v2, s10			; GFX8-NEXT: v_mov_b32_e32 v2, s10
	; GFX8-NEXT: v_mov_b32_e32 v3, s11			; GFX8-NEXT: v_mov_b32_e32 v3, s11
	; GFX8-NEXT: v_mov_b32_e32 v12, s18			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v4, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v10, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v0, v4, v0			; GFX8-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v3, v3, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v2, v5, v2			; GFX8-NEXT: v_or_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v3			; GFX8-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v5			; GFX8-NEXT: v_or_b32_e32 v2, v2, v5
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i8_s_v:			; GFX7-LABEL: insertelement_s_v16i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s18, 0xff			; GFX7-NEXT: s_mov_b32 s13, 0x80008
				; GFX7-NEXT: s_movk_i32 s12, 0xff
				; GFX7-NEXT: s_mov_b32 s14, 0x80010
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v0
	; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s5, s0, 8			; GFX7-NEXT: s_bfe_u32 s9, s0, s13
	; GFX7-NEXT: s_and_b32 s5, s5, s18			; GFX7-NEXT: s_lshr_b32 s5, s0, 24
	; GFX7-NEXT: s_lshr_b32 s6, s0, 16			; GFX7-NEXT: s_and_b32 s8, s0, s12
	; GFX7-NEXT: s_lshr_b32 s7, s0, 24			; GFX7-NEXT: s_bfe_u32 s0, s0, s14
	; GFX7-NEXT: s_and_b32 s0, s0, s18			; GFX7-NEXT: s_lshl_b32 s9, s9, 8
				; GFX7-NEXT: s_or_b32 s8, s8, s9
				; GFX7-NEXT: s_lshl_b32 s0, s0, 16
				; GFX7-NEXT: s_or_b32 s0, s8, s0
				; GFX7-NEXT: s_lshl_b32 s5, s5, 24
				; GFX7-NEXT: s_or_b32 s8, s0, s5
				; GFX7-NEXT: s_bfe_u32 s5, s1, s13
				; GFX7-NEXT: s_lshr_b32 s6, s1, 24
				; GFX7-NEXT: s_and_b32 s0, s1, s12
				; GFX7-NEXT: s_bfe_u32 s1, s1, s14
	; GFX7-NEXT: s_lshl_b32 s5, s5, 8			; GFX7-NEXT: s_lshl_b32 s5, s5, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s5			; GFX7-NEXT: s_or_b32 s0, s0, s5
	; GFX7-NEXT: s_and_b32 s5, s6, s18
	; GFX7-NEXT: s_lshl_b32 s5, s5, 16
	; GFX7-NEXT: s_or_b32 s0, s0, s5
	; GFX7-NEXT: s_lshl_b32 s5, s7, 24
	; GFX7-NEXT: s_lshr_b32 s9, s1, 8
	; GFX7-NEXT: s_or_b32 s8, s0, s5
	; GFX7-NEXT: s_lshr_b32 s10, s1, 16
	; GFX7-NEXT: s_lshr_b32 s11, s1, 24
	; GFX7-NEXT: s_and_b32 s0, s1, s18
	; GFX7-NEXT: s_and_b32 s1, s9, s18
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s10, s18
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s11, 24			; GFX7-NEXT: s_lshl_b32 s1, s6, 24
	; GFX7-NEXT: s_lshr_b32 s12, s2, 8
	; GFX7-NEXT: s_or_b32 s9, s0, s1			; GFX7-NEXT: s_or_b32 s9, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s12, s18			; GFX7-NEXT: s_bfe_u32 s1, s2, s13
	; GFX7-NEXT: s_lshr_b32 s13, s2, 16			; GFX7-NEXT: s_and_b32 s0, s2, s12
	; GFX7-NEXT: s_and_b32 s0, s2, s18
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_lshl_b32 s1, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s13, s18			; GFX7-NEXT: s_bfe_u32 s1, s2, s14
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_lshr_b32 s14, s2, 24			; GFX7-NEXT: s_lshr_b32 s7, s2, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s14, 24			; GFX7-NEXT: s_lshl_b32 s1, s7, 24
	; GFX7-NEXT: s_lshr_b32 s15, s3, 8
	; GFX7-NEXT: s_or_b32 s10, s0, s1			; GFX7-NEXT: s_or_b32 s10, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s15, s18			; GFX7-NEXT: s_bfe_u32 s1, s3, s13
	; GFX7-NEXT: s_lshr_b32 s16, s3, 16			; GFX7-NEXT: s_and_b32 s0, s3, s12
	; GFX7-NEXT: s_and_b32 s0, s3, s18
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_lshl_b32 s1, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s16, s18			; GFX7-NEXT: s_bfe_u32 s1, s3, s14
	; GFX7-NEXT: s_lshr_b32 s17, s3, 24			; GFX7-NEXT: s_lshr_b32 s11, s3, 24
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
				; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s17, 24			; GFX7-NEXT: s_lshl_b32 s1, s11, 24
	; GFX7-NEXT: v_mov_b32_e32 v1, s8			; GFX7-NEXT: v_mov_b32_e32 v1, s8
	; GFX7-NEXT: v_mov_b32_e32 v2, s9			; GFX7-NEXT: v_mov_b32_e32 v2, s9
				; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: s_or_b32 s11, s0, s1			; GFX7-NEXT: s_or_b32 s11, s0, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s10			; GFX7-NEXT: v_mov_b32_e32 v3, s10
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: s_and_b32 s4, s4, s18			; GFX7-NEXT: s_and_b32 s4, s4, s12
	; GFX7-NEXT: v_lshl_b32_e32 v2, s4, v0			; GFX7-NEXT: v_lshl_b32_e32 v2, s4, v0
	; GFX7-NEXT: v_lshl_b32_e32 v0, s18, v0			; GFX7-NEXT: v_lshl_b32_e32 v0, s12, v0
	; GFX7-NEXT: v_mov_b32_e32 v5, s11			; GFX7-NEXT: v_mov_b32_e32 v5, s11
	; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]
	; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX7-NEXT: v_and_b32_e32 v0, v1, v0			; GFX7-NEXT: v_and_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_or_b32_e32 v5, v0, v2			; GFX7-NEXT: v_or_b32_e32 v5, v0, v2
	; GFX7-NEXT: v_mov_b32_e32 v0, s8			; GFX7-NEXT: v_mov_b32_e32 v0, s8
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: v_mov_b32_e32 v1, s9			; GFX7-NEXT: v_mov_b32_e32 v1, s9
				; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX7-NEXT: v_and_b32_e32 v8, s12, v0
				; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
				; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_mov_b32_e32 v2, s10			; GFX7-NEXT: v_mov_b32_e32 v2, s10
	; GFX7-NEXT: v_mov_b32_e32 v3, s11			; GFX7-NEXT: v_mov_b32_e32 v3, s11
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v4			; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
				; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s18, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_and_b32_e32 v4, s12, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v7			; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s18, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v10			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v2			; GFX7-NEXT: v_and_b32_e32 v4, s12, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s18, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v11			; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v3			; GFX7-NEXT: v_and_b32_e32 v4, s12, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v3			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s18, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s18, v14			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v16i8_s_v:			; GFX10-LABEL: insertelement_s_v16i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s6, 0x80008
	; GFX10-NEXT: s_movk_i32 s5, 0xff			; GFX10-NEXT: s_movk_i32 s5, 0xff
				; GFX10-NEXT: s_mov_b32 s7, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 2, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 2, v0
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v0			; GFX10-NEXT: v_and_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_mov_b32_e32 v9, 8			; GFX10-NEXT: v_mov_b32_e32 v10, 8
				; GFX10-NEXT: v_mov_b32_e32 v12, 16
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v4			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_lshlrev_b32_e64 v2, v0, s5			; GFX10-NEXT: v_lshlrev_b32_e64 v2, v0, s5
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s6, s0, 8			; GFX10-NEXT: s_bfe_u32 s13, s0, s6
	; GFX10-NEXT: s_lshr_b32 s7, s0, 16
	; GFX10-NEXT: s_lshr_b32 s9, s1, 8
	; GFX10-NEXT: s_and_b32 s6, s6, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 24			; GFX10-NEXT: s_lshr_b32 s8, s0, 24
	; GFX10-NEXT: s_lshr_b32 s10, s1, 16			; GFX10-NEXT: s_and_b32 s12, s0, s5
	; GFX10-NEXT: s_and_b32 s7, s7, s5			; GFX10-NEXT: s_bfe_u32 s0, s0, s7
	; GFX10-NEXT: s_and_b32 s9, s9, s5			; GFX10-NEXT: s_lshl_b32 s13, s13, 8
	; GFX10-NEXT: s_and_b32 s0, s0, s5			; GFX10-NEXT: s_bfe_u32 s15, s1, s6
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_lshr_b32 s11, s1, 24			; GFX10-NEXT: s_or_b32 s12, s12, s13
	; GFX10-NEXT: s_and_b32 s1, s1, s5			; GFX10-NEXT: s_lshr_b32 s9, s1, 24
	; GFX10-NEXT: s_lshl_b32 s9, s9, 8			; GFX10-NEXT: s_and_b32 s14, s1, s5
	; GFX10-NEXT: s_and_b32 s10, s10, s5			; GFX10-NEXT: s_bfe_u32 s1, s1, s7
	; GFX10-NEXT: s_or_b32 s0, s0, s6			; GFX10-NEXT: s_lshl_b32 s15, s15, 8
	; GFX10-NEXT: s_lshl_b32 s7, s7, 16			; GFX10-NEXT: s_bfe_u32 s17, s2, s6
	; GFX10-NEXT: s_lshr_b32 s12, s2, 8
	; GFX10-NEXT: s_lshl_b32 s8, s8, 24			; GFX10-NEXT: s_lshl_b32 s8, s8, 24
	; GFX10-NEXT: s_or_b32 s0, s0, s7			; GFX10-NEXT: s_or_b32 s0, s12, s0
	; GFX10-NEXT: s_lshl_b32 s6, s10, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s1, s1, s9			; GFX10-NEXT: s_or_b32 s13, s14, s15
	; GFX10-NEXT: s_lshr_b32 s13, s2, 16
	; GFX10-NEXT: s_or_b32 s8, s0, s8			; GFX10-NEXT: s_or_b32 s8, s0, s8
	; GFX10-NEXT: s_or_b32 s0, s1, s6			; GFX10-NEXT: s_lshr_b32 s10, s2, 24
	; GFX10-NEXT: s_and_b32 s6, s12, s5			; GFX10-NEXT: s_and_b32 s16, s2, s5
	; GFX10-NEXT: s_lshr_b32 s14, s2, 24			; GFX10-NEXT: s_lshl_b32 s0, s17, 8
	; GFX10-NEXT: s_and_b32 s2, s2, s5			; GFX10-NEXT: s_bfe_u32 s2, s2, s7
	; GFX10-NEXT: s_lshl_b32 s6, s6, 8			; GFX10-NEXT: s_lshl_b32 s9, s9, 24
	; GFX10-NEXT: s_and_b32 s7, s13, s5			; GFX10-NEXT: s_or_b32 s1, s13, s1
	; GFX10-NEXT: s_lshl_b32 s1, s11, 24			; GFX10-NEXT: s_or_b32 s0, s16, s0
	; GFX10-NEXT: s_or_b32 s2, s2, s6			; GFX10-NEXT: s_lshl_b32 s2, s2, 16
	; GFX10-NEXT: s_lshr_b32 s15, s3, 8			; GFX10-NEXT: s_or_b32 s9, s1, s9
	; GFX10-NEXT: s_lshl_b32 s6, s7, 16			; GFX10-NEXT: s_or_b32 s0, s0, s2
	; GFX10-NEXT: s_or_b32 s9, s0, s1			; GFX10-NEXT: s_bfe_u32 s2, s3, s6
	; GFX10-NEXT: s_or_b32 s0, s2, s6			; GFX10-NEXT: s_lshl_b32 s1, s10, 24
	; GFX10-NEXT: s_and_b32 s2, s15, s5
	; GFX10-NEXT: s_lshl_b32 s1, s14, 24
	; GFX10-NEXT: s_lshr_b32 s16, s3, 16
	; GFX10-NEXT: v_mov_b32_e32 v1, s9			; GFX10-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-NEXT: s_lshr_b32 s17, s3, 24
	; GFX10-NEXT: s_or_b32 s10, s0, s1			; GFX10-NEXT: s_or_b32 s10, s0, s1
	; GFX10-NEXT: s_and_b32 s1, s16, s5			; GFX10-NEXT: s_bfe_u32 s1, s3, s7
	; GFX10-NEXT: s_and_b32 s3, s3, s5			; GFX10-NEXT: s_and_b32 s6, s3, s5
	; GFX10-NEXT: s_lshl_b32 s2, s2, 8			; GFX10-NEXT: s_lshl_b32 s2, s2, 8
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s0, s3, s2			; GFX10-NEXT: s_or_b32 s0, s6, s2
	; GFX10-NEXT: v_cndmask_b32_e32 v1, s8, v1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, s8, v1, vcc_lo
	; GFX10-NEXT: s_or_b32 s1, s0, s1			; GFX10-NEXT: s_or_b32 s1, s0, s1
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v4			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v4
	; GFX10-NEXT: s_lshl_b32 s2, s17, 24			; GFX10-NEXT: s_lshr_b32 s11, s3, 24
				; GFX10-NEXT: v_xor_b32_e32 v2, -1, v2
				; GFX10-NEXT: s_lshl_b32 s2, s11, 24
				; GFX10-NEXT: s_mov_b32 s3, 8
	; GFX10-NEXT: s_or_b32 s11, s1, s2			; GFX10-NEXT: s_or_b32 s11, s1, s2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v4
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, s10, s0			; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, s10, s0
				; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v4
	; GFX10-NEXT: s_and_b32 s2, s4, s5			; GFX10-NEXT: s_and_b32 s2, s4, s5
	; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s2			; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v4			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v4
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, s11, s1			; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, s11, s1
	; GFX10-NEXT: v_and_or_b32 v5, v1, v2, v0			; GFX10-NEXT: v_and_or_b32 v5, v1, v2, v0
	; GFX10-NEXT: v_mov_b32_e32 v0, s8			; GFX10-NEXT: v_mov_b32_e32 v0, s8
	; GFX10-NEXT: v_mov_b32_e32 v1, s9			; GFX10-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-NEXT: v_mov_b32_e32 v2, s10			; GFX10-NEXT: v_mov_b32_e32 v2, s10
	; GFX10-NEXT: v_mov_b32_e32 v3, s11			; GFX10-NEXT: v_mov_b32_e32 v3, s11
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v5, s2			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v5, s2
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v5, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v5, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s1			; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s1
	; GFX10-NEXT: s_mov_b32 s2, 8			; GFX10-NEXT: s_mov_b32 s2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v10, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v6, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v6, v0, s5, v6
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v9, v1, s5, v9
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v9, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX10-NEXT: v_and_or_b32 v4, v0, s5, v4			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v0, v0, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX10-NEXT: v_and_or_b32 v6, v1, s5, v6			; GFX10-NEXT: v_and_or_b32 v11, v2, s5, v11
	; GFX10-NEXT: v_and_or_b32 v8, v2, s5, v8			; GFX10-NEXT: v_and_or_b32 v10, v3, s5, v10
	; GFX10-NEXT: v_and_or_b32 v9, v3, s5, v9			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v12, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_and_b32_sdwa v2, v2, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v12, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_and_b32_sdwa v3, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v0, v6, v0, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX10-NEXT: v_or3_b32 v1, v9, v1, v5
	; GFX10-NEXT: v_or3_b32 v0, v4, v0, v5
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_or3_b32 v1, v6, v1, v7			; GFX10-NEXT: v_or3_b32 v2, v11, v2, v7
	; GFX10-NEXT: v_or3_b32 v2, v8, v2, v10			; GFX10-NEXT: v_or3_b32 v3, v10, v3, v8
	; GFX10-NEXT: v_or3_b32 v3, v9, v3, v11
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_s_v16i8_v_v(<16 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_s_v16i8_v_v(<16 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_s_v16i8_v_v:			; GFX9-LABEL: insertelement_s_v16i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX9-NEXT: s_movk_i32 s17, 0xff			; GFX9-NEXT: s_mov_b32 s12, 0x80008
				; GFX9-NEXT: s_movk_i32 s10, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 2, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 2, v1
	; GFX9-NEXT: v_and_b32_e32 v1, 3, v1			; GFX9-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b32 s4, s0, 8			; GFX9-NEXT: s_bfe_u32 s13, s0, s12
	; GFX9-NEXT: s_and_b32 s4, s4, s17			; GFX9-NEXT: s_and_b32 s11, s0, s10
	; GFX9-NEXT: s_lshr_b32 s5, s0, 16			; GFX9-NEXT: s_lshl_b32 s13, s13, 8
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_or_b32 s11, s11, s13
	; GFX9-NEXT: s_and_b32 s0, s0, s17			; GFX9-NEXT: s_mov_b32 s13, 0x80010
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s4			; GFX9-NEXT: s_bfe_u32 s0, s0, s13
	; GFX9-NEXT: s_and_b32 s4, s5, s17			; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_or_b32 s0, s11, s0
	; GFX9-NEXT: s_or_b32 s0, s0, s4			; GFX9-NEXT: s_lshl_b32 s4, s4, 24
	; GFX9-NEXT: s_lshl_b32 s4, s6, 24			; GFX9-NEXT: s_bfe_u32 s11, s1, s12
	; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_or_b32 s4, s0, s4			; GFX9-NEXT: s_or_b32 s4, s0, s4
	; GFX9-NEXT: s_lshr_b32 s9, s1, 16			; GFX9-NEXT: s_lshr_b32 s5, s1, 24
	; GFX9-NEXT: s_lshr_b32 s10, s1, 24			; GFX9-NEXT: s_and_b32 s0, s1, s10
	; GFX9-NEXT: s_and_b32 s0, s1, s17			; GFX9-NEXT: s_bfe_u32 s1, s1, s13
	; GFX9-NEXT: s_and_b32 s1, s7, s17			; GFX9-NEXT: s_lshl_b32 s11, s11, 8
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_or_b32 s0, s0, s11
	; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s9, s17
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s10, 24			; GFX9-NEXT: s_lshl_b32 s1, s5, 24
	; GFX9-NEXT: s_lshr_b32 s11, s2, 8
	; GFX9-NEXT: s_or_b32 s5, s0, s1			; GFX9-NEXT: s_or_b32 s5, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s11, s17			; GFX9-NEXT: s_bfe_u32 s1, s2, s12
	; GFX9-NEXT: s_lshr_b32 s12, s2, 16			; GFX9-NEXT: s_and_b32 s0, s2, s10
	; GFX9-NEXT: s_and_b32 s0, s2, s17
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s12, s17			; GFX9-NEXT: s_bfe_u32 s1, s2, s13
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_lshr_b32 s13, s2, 24			; GFX9-NEXT: s_lshr_b32 s6, s2, 24
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s13, 24			; GFX9-NEXT: s_lshl_b32 s1, s6, 24
	; GFX9-NEXT: s_lshr_b32 s14, s3, 8
	; GFX9-NEXT: s_or_b32 s6, s0, s1			; GFX9-NEXT: s_or_b32 s6, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s14, s17			; GFX9-NEXT: s_bfe_u32 s1, s3, s12
	; GFX9-NEXT: s_lshr_b32 s15, s3, 16			; GFX9-NEXT: s_and_b32 s0, s3, s10
	; GFX9-NEXT: s_and_b32 s0, s3, s17
	; GFX9-NEXT: s_lshl_b32 s1, s1, 8			; GFX9-NEXT: s_lshl_b32 s1, s1, 8
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_and_b32 s1, s15, s17			; GFX9-NEXT: s_bfe_u32 s1, s3, s13
	; GFX9-NEXT: s_lshr_b32 s16, s3, 24			; GFX9-NEXT: s_lshr_b32 s7, s3, 24
	; GFX9-NEXT: s_lshl_b32 s1, s1, 16			; GFX9-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9-NEXT: s_or_b32 s0, s0, s1			; GFX9-NEXT: s_or_b32 s0, s0, s1
	; GFX9-NEXT: s_lshl_b32 s1, s16, 24			; GFX9-NEXT: s_lshl_b32 s1, s7, 24
	; GFX9-NEXT: v_mov_b32_e32 v2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, s4
	; GFX9-NEXT: v_mov_b32_e32 v3, s5			; GFX9-NEXT: v_mov_b32_e32 v3, s5
				; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX9-NEXT: s_or_b32 s7, s0, s1			; GFX9-NEXT: s_or_b32 s7, s0, s1
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX9-NEXT: v_mov_b32_e32 v5, s6			; GFX9-NEXT: v_mov_b32_e32 v5, s6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s17			; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s10
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: v_mov_b32_e32 v6, s7
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]
	; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX9-NEXT: v_and_or_b32 v5, v2, v1, v0			; GFX9-NEXT: v_and_or_b32 v5, v2, v1, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s5
	; GFX9-NEXT: v_mov_b32_e32 v2, s6			; GFX9-NEXT: v_mov_b32_e32 v2, s6
	; GFX9-NEXT: v_mov_b32_e32 v3, s7			; GFX9-NEXT: v_mov_b32_e32 v3, s7
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
	; GFX9-NEXT: s_mov_b32 s8, 8			; GFX9-NEXT: s_mov_b32 s8, 8
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: s_mov_b32 s9, 16
				; GFX9-NEXT: v_and_or_b32 v8, v0, s10, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX9-NEXT: v_or3_b32 v0, v8, v0, v4
				; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, s8, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v4, v1, s10, v4
	; GFX9-NEXT: v_and_or_b32 v4, v0, s17, v4			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s9, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v0, v0, s17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX9-NEXT: v_or3_b32 v0, v4, v0, v5			; GFX9-NEXT: v_or3_b32 v1, v4, v1, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NEXT: v_mov_b32_e32 v4, 8			; GFX9-NEXT: v_mov_b32_e32 v4, 8
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX9-NEXT: v_and_or_b32 v5, v1, s17, v5			; GFX9-NEXT: v_mov_b32_e32 v8, 16
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v5, v2, s10, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX9-NEXT: v_or3_b32 v1, v5, v1, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_or_b32 v5, v2, s17, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX9-NEXT: v_and_b32_sdwa v2, v2, s17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v9
	; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6			; GFX9-NEXT: v_or3_b32 v2, v5, v2, v6
	; GFX9-NEXT: v_and_or_b32 v4, v3, s17, v4			; GFX9-NEXT: v_and_or_b32 v4, v3, s10, v4
	; GFX9-NEXT: v_and_b32_sdwa v3, v3, s17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5			; GFX9-NEXT: v_or3_b32 v3, v4, v3, v5
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i8_v_v:			; GFX8-LABEL: insertelement_s_v16i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX8-NEXT: s_movk_i32 s16, 0xff			; GFX8-NEXT: s_mov_b32 s10, 0x80008
				; GFX8-NEXT: s_movk_i32 s8, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 2, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 2, v1
	; GFX8-NEXT: v_and_b32_e32 v1, 3, v1			; GFX8-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_lshr_b32 s4, s0, 8			; GFX8-NEXT: s_bfe_u32 s11, s0, s10
	; GFX8-NEXT: s_and_b32 s4, s4, s16			; GFX8-NEXT: s_and_b32 s9, s0, s8
	; GFX8-NEXT: s_lshr_b32 s5, s0, 16			; GFX8-NEXT: s_lshl_b32 s11, s11, 8
	; GFX8-NEXT: s_lshr_b32 s6, s0, 24			; GFX8-NEXT: s_or_b32 s9, s9, s11
	; GFX8-NEXT: s_and_b32 s0, s0, s16			; GFX8-NEXT: s_mov_b32 s11, 0x80010
	; GFX8-NEXT: s_lshl_b32 s4, s4, 8			; GFX8-NEXT: s_lshr_b32 s4, s0, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s4			; GFX8-NEXT: s_bfe_u32 s0, s0, s11
	; GFX8-NEXT: s_and_b32 s4, s5, s16			; GFX8-NEXT: s_lshl_b32 s0, s0, 16
	; GFX8-NEXT: s_lshl_b32 s4, s4, 16			; GFX8-NEXT: s_or_b32 s0, s9, s0
	; GFX8-NEXT: s_or_b32 s0, s0, s4			; GFX8-NEXT: s_lshl_b32 s4, s4, 24
	; GFX8-NEXT: s_lshl_b32 s4, s6, 24			; GFX8-NEXT: s_bfe_u32 s9, s1, s10
	; GFX8-NEXT: s_lshr_b32 s7, s1, 8
	; GFX8-NEXT: s_or_b32 s4, s0, s4			; GFX8-NEXT: s_or_b32 s4, s0, s4
	; GFX8-NEXT: s_lshr_b32 s8, s1, 16			; GFX8-NEXT: s_lshr_b32 s5, s1, 24
	; GFX8-NEXT: s_lshr_b32 s9, s1, 24			; GFX8-NEXT: s_and_b32 s0, s1, s8
	; GFX8-NEXT: s_and_b32 s0, s1, s16			; GFX8-NEXT: s_bfe_u32 s1, s1, s11
	; GFX8-NEXT: s_and_b32 s1, s7, s16			; GFX8-NEXT: s_lshl_b32 s9, s9, 8
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_or_b32 s0, s0, s9
	; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s8, s16
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s9, 24			; GFX8-NEXT: s_lshl_b32 s1, s5, 24
	; GFX8-NEXT: s_lshr_b32 s10, s2, 8
	; GFX8-NEXT: s_or_b32 s5, s0, s1			; GFX8-NEXT: s_or_b32 s5, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s10, s16			; GFX8-NEXT: s_bfe_u32 s1, s2, s10
	; GFX8-NEXT: s_lshr_b32 s11, s2, 16			; GFX8-NEXT: s_and_b32 s0, s2, s8
	; GFX8-NEXT: s_and_b32 s0, s2, s16
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_lshl_b32 s1, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s11, s16			; GFX8-NEXT: s_bfe_u32 s1, s2, s11
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_lshr_b32 s12, s2, 24			; GFX8-NEXT: s_lshr_b32 s6, s2, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s12, 24			; GFX8-NEXT: s_lshl_b32 s1, s6, 24
	; GFX8-NEXT: s_lshr_b32 s13, s3, 8
	; GFX8-NEXT: s_or_b32 s6, s0, s1			; GFX8-NEXT: s_or_b32 s6, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s13, s16			; GFX8-NEXT: s_bfe_u32 s1, s3, s10
	; GFX8-NEXT: s_lshr_b32 s14, s3, 16			; GFX8-NEXT: s_and_b32 s0, s3, s8
	; GFX8-NEXT: s_and_b32 s0, s3, s16
	; GFX8-NEXT: s_lshl_b32 s1, s1, 8			; GFX8-NEXT: s_lshl_b32 s1, s1, 8
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s14, s16			; GFX8-NEXT: s_bfe_u32 s1, s3, s11
	; GFX8-NEXT: s_lshr_b32 s15, s3, 24			; GFX8-NEXT: s_lshr_b32 s7, s3, 24
	; GFX8-NEXT: s_lshl_b32 s1, s1, 16			; GFX8-NEXT: s_lshl_b32 s1, s1, 16
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_lshl_b32 s1, s15, 24			; GFX8-NEXT: s_lshl_b32 s1, s7, 24
	; GFX8-NEXT: v_mov_b32_e32 v2, s4			; GFX8-NEXT: v_mov_b32_e32 v2, s4
	; GFX8-NEXT: v_mov_b32_e32 v3, s5			; GFX8-NEXT: v_mov_b32_e32 v3, s5
				; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX8-NEXT: s_or_b32 s7, s0, s1			; GFX8-NEXT: s_or_b32 s7, s0, s1
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX8-NEXT: v_mov_b32_e32 v5, s6			; GFX8-NEXT: v_mov_b32_e32 v5, s6
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s16			; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s8
	; GFX8-NEXT: v_mov_b32_e32 v6, s7			; GFX8-NEXT: v_mov_b32_e32 v6, s7
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_and_b32_e32 v1, v2, v1			; GFX8-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX8-NEXT: v_or_b32_e32 v5, v1, v0			; GFX8-NEXT: v_or_b32_e32 v5, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_mov_b32_e32 v2, s6			; GFX8-NEXT: v_mov_b32_e32 v2, s6
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX8-NEXT: v_mov_b32_e32 v8, 8
	; GFX8-NEXT: v_mov_b32_e32 v12, 8			; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v12, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_mov_b32_e32 v10, 16
	; GFX8-NEXT: v_mov_b32_e32 v12, s16			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX8-NEXT: v_or_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX8-NEXT: v_or_b32_e32 v0, v9, v0
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
				; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX8-NEXT: v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v4, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v0, v0, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v10, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v0, v4, v0			; GFX8-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX8-NEXT: v_mov_b32_e32 v4, 8			; GFX8-NEXT: v_mov_b32_e32 v4, 8
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: v_and_b32_sdwa v1, v1, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX8-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v7
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v4, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v3, v3, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_e32 v2, v5, v2			; GFX8-NEXT: v_or_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v3			; GFX8-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v5			; GFX8-NEXT: v_or_b32_e32 v2, v2, v5
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i8_v_v:			; GFX7-LABEL: insertelement_s_v16i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
	; GFX7-NEXT: s_movk_i32 s16, 0xff			; GFX7-NEXT: s_mov_b32 s10, 0x80008
				; GFX7-NEXT: s_movk_i32 s8, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v1
	; GFX7-NEXT: v_and_b32_e32 v1, 3, v1			; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_lshr_b32 s4, s0, 8			; GFX7-NEXT: s_bfe_u32 s11, s0, s10
	; GFX7-NEXT: s_and_b32 s4, s4, s16			; GFX7-NEXT: s_and_b32 s9, s0, s8
	; GFX7-NEXT: s_lshr_b32 s5, s0, 16			; GFX7-NEXT: s_lshl_b32 s11, s11, 8
	; GFX7-NEXT: s_lshr_b32 s6, s0, 24			; GFX7-NEXT: s_or_b32 s9, s9, s11
	; GFX7-NEXT: s_and_b32 s0, s0, s16			; GFX7-NEXT: s_mov_b32 s11, 0x80010
	; GFX7-NEXT: s_lshl_b32 s4, s4, 8			; GFX7-NEXT: s_lshr_b32 s4, s0, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s4			; GFX7-NEXT: s_bfe_u32 s0, s0, s11
	; GFX7-NEXT: s_and_b32 s4, s5, s16			; GFX7-NEXT: s_lshl_b32 s0, s0, 16
	; GFX7-NEXT: s_lshl_b32 s4, s4, 16			; GFX7-NEXT: s_or_b32 s0, s9, s0
	; GFX7-NEXT: s_or_b32 s0, s0, s4			; GFX7-NEXT: s_lshl_b32 s4, s4, 24
	; GFX7-NEXT: s_lshl_b32 s4, s6, 24			; GFX7-NEXT: s_bfe_u32 s9, s1, s10
	; GFX7-NEXT: s_lshr_b32 s7, s1, 8
	; GFX7-NEXT: s_or_b32 s4, s0, s4			; GFX7-NEXT: s_or_b32 s4, s0, s4
	; GFX7-NEXT: s_lshr_b32 s8, s1, 16			; GFX7-NEXT: s_lshr_b32 s5, s1, 24
	; GFX7-NEXT: s_lshr_b32 s9, s1, 24			; GFX7-NEXT: s_and_b32 s0, s1, s8
	; GFX7-NEXT: s_and_b32 s0, s1, s16			; GFX7-NEXT: s_bfe_u32 s1, s1, s11
	; GFX7-NEXT: s_and_b32 s1, s7, s16			; GFX7-NEXT: s_lshl_b32 s9, s9, 8
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_or_b32 s0, s0, s9
	; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s8, s16
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s9, 24			; GFX7-NEXT: s_lshl_b32 s1, s5, 24
	; GFX7-NEXT: s_lshr_b32 s10, s2, 8
	; GFX7-NEXT: s_or_b32 s5, s0, s1			; GFX7-NEXT: s_or_b32 s5, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s10, s16			; GFX7-NEXT: s_bfe_u32 s1, s2, s10
	; GFX7-NEXT: s_lshr_b32 s11, s2, 16			; GFX7-NEXT: s_and_b32 s0, s2, s8
	; GFX7-NEXT: s_and_b32 s0, s2, s16
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_lshl_b32 s1, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s11, s16			; GFX7-NEXT: s_bfe_u32 s1, s2, s11
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_lshr_b32 s12, s2, 24			; GFX7-NEXT: s_lshr_b32 s6, s2, 24
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s12, 24			; GFX7-NEXT: s_lshl_b32 s1, s6, 24
	; GFX7-NEXT: s_lshr_b32 s13, s3, 8
	; GFX7-NEXT: s_or_b32 s6, s0, s1			; GFX7-NEXT: s_or_b32 s6, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s13, s16			; GFX7-NEXT: s_bfe_u32 s1, s3, s10
	; GFX7-NEXT: s_lshr_b32 s14, s3, 16			; GFX7-NEXT: s_and_b32 s0, s3, s8
	; GFX7-NEXT: s_and_b32 s0, s3, s16
	; GFX7-NEXT: s_lshl_b32 s1, s1, 8			; GFX7-NEXT: s_lshl_b32 s1, s1, 8
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_and_b32 s1, s14, s16			; GFX7-NEXT: s_bfe_u32 s1, s3, s11
	; GFX7-NEXT: s_lshr_b32 s15, s3, 24			; GFX7-NEXT: s_lshr_b32 s7, s3, 24
	; GFX7-NEXT: s_lshl_b32 s1, s1, 16			; GFX7-NEXT: s_lshl_b32 s1, s1, 16
	; GFX7-NEXT: s_or_b32 s0, s0, s1			; GFX7-NEXT: s_or_b32 s0, s0, s1
	; GFX7-NEXT: s_lshl_b32 s1, s15, 24			; GFX7-NEXT: s_lshl_b32 s1, s7, 24
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
				; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: s_or_b32 s7, s0, s1			; GFX7-NEXT: s_or_b32 s7, s0, s1
	; GFX7-NEXT: v_mov_b32_e32 v5, s6			; GFX7-NEXT: v_mov_b32_e32 v5, s6
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s16, v0			; GFX7-NEXT: v_and_b32_e32 v0, s8, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s16, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, s8, v1
	; GFX7-NEXT: v_mov_b32_e32 v6, s7			; GFX7-NEXT: v_mov_b32_e32 v6, s7
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, v2, v1			; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_or_b32_e32 v5, v1, v0			; GFX7-NEXT: v_or_b32_e32 v5, v1, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v2, s6			; GFX7-NEXT: v_mov_b32_e32 v2, s6
	; GFX7-NEXT: v_mov_b32_e32 v3, s7			; GFX7-NEXT: v_mov_b32_e32 v3, s7
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX7-NEXT: v_and_b32_e32 v8, s8, v0
				; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
				; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
				; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
				; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_and_b32_e32 v4, s8, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v4			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v1, s16, v1			; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v4			; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v10			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v2			; GFX7-NEXT: v_and_b32_e32 v4, s8, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v11			; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v4			; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v3			; GFX7-NEXT: v_and_b32_e32 v4, s8, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v3			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s16, v14			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_s_v16i8_v_v:			; GFX10-LABEL: insertelement_s_v16i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
				; GFX10-NEXT: s_mov_b32 s7, 0x80008
	; GFX10-NEXT: s_movk_i32 s8, 0xff			; GFX10-NEXT: s_movk_i32 s8, 0xff
				; GFX10-NEXT: s_mov_b32 s9, 0x80010
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 2, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 2, v1
	; GFX10-NEXT: v_and_b32_e32 v1, 3, v1			; GFX10-NEXT: v_and_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_mov_b32_e32 v9, 8			; GFX10-NEXT: v_mov_b32_e32 v10, 8
				; GFX10-NEXT: v_mov_b32_e32 v12, 16
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v4			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GFX10-NEXT: v_lshlrev_b32_e64 v3, v1, s8			; GFX10-NEXT: v_lshlrev_b32_e64 v3, v1, s8
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_xor_b32_e32 v1, -1, v3
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_lshr_b32 s4, s0, 8			; GFX10-NEXT: s_bfe_u32 s12, s0, s7
	; GFX10-NEXT: s_lshr_b32 s5, s0, 16			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_lshr_b32 s7, s1, 8			; GFX10-NEXT: s_and_b32 s11, s0, s8
	; GFX10-NEXT: s_and_b32 s4, s4, s8			; GFX10-NEXT: s_bfe_u32 s0, s0, s9
	; GFX10-NEXT: s_lshr_b32 s6, s0, 24			; GFX10-NEXT: s_lshl_b32 s12, s12, 8
	; GFX10-NEXT: s_lshr_b32 s9, s1, 16			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_and_b32 s5, s5, s8			; GFX10-NEXT: s_or_b32 s11, s11, s12
	; GFX10-NEXT: s_and_b32 s7, s7, s8			; GFX10-NEXT: s_bfe_u32 s16, s2, s7
	; GFX10-NEXT: s_and_b32 s0, s0, s8			; GFX10-NEXT: s_lshl_b32 s4, s4, 24
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_or_b32 s0, s11, s0
	; GFX10-NEXT: s_and_b32 s9, s9, s8			; GFX10-NEXT: s_bfe_u32 s14, s1, s7
	; GFX10-NEXT: s_lshr_b32 s10, s1, 24			; GFX10-NEXT: s_or_b32 s4, s0, s4
	; GFX10-NEXT: s_and_b32 s1, s1, s8			; GFX10-NEXT: s_bfe_u32 s0, s2, s9
	; GFX10-NEXT: s_lshl_b32 s7, s7, 8			; GFX10-NEXT: s_and_b32 s15, s2, s8
	; GFX10-NEXT: s_lshl_b32 s5, s5, 16			; GFX10-NEXT: s_lshl_b32 s16, s16, 8
	; GFX10-NEXT: s_or_b32 s0, s0, s4			; GFX10-NEXT: s_lshr_b32 s5, s1, 24
	; GFX10-NEXT: s_lshr_b32 s11, s2, 8			; GFX10-NEXT: s_and_b32 s13, s1, s8
	; GFX10-NEXT: s_lshl_b32 s6, s6, 24			; GFX10-NEXT: s_bfe_u32 s1, s1, s9
	; GFX10-NEXT: s_or_b32 s0, s0, s5			; GFX10-NEXT: s_lshl_b32 s14, s14, 8
	; GFX10-NEXT: s_lshl_b32 s9, s9, 16			; GFX10-NEXT: s_lshr_b32 s6, s2, 24
	; GFX10-NEXT: s_or_b32 s1, s1, s7			; GFX10-NEXT: s_or_b32 s2, s15, s16
	; GFX10-NEXT: s_lshr_b32 s12, s2, 16			; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_or_b32 s4, s0, s6			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: s_or_b32 s0, s1, s9			; GFX10-NEXT: s_or_b32 s12, s13, s14
	; GFX10-NEXT: s_and_b32 s1, s11, s8			; GFX10-NEXT: s_or_b32 s0, s2, s0
	; GFX10-NEXT: s_lshr_b32 s13, s2, 24			; GFX10-NEXT: s_lshl_b32 s2, s6, 24
	; GFX10-NEXT: s_and_b32 s2, s2, s8			; GFX10-NEXT: s_or_b32 s1, s12, s1
	; GFX10-NEXT: s_lshl_b32 s1, s1, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 24
	; GFX10-NEXT: s_and_b32 s5, s12, s8			; GFX10-NEXT: s_or_b32 s6, s0, s2
	; GFX10-NEXT: s_or_b32 s1, s2, s1			; GFX10-NEXT: s_bfe_u32 s0, s3, s7
	; GFX10-NEXT: s_lshl_b32 s2, s5, 16			; GFX10-NEXT: s_or_b32 s5, s1, s5
	; GFX10-NEXT: s_lshl_b32 s5, s10, 24
	; GFX10-NEXT: s_lshr_b32 s14, s3, 8
	; GFX10-NEXT: s_or_b32 s5, s0, s5
	; GFX10-NEXT: s_and_b32 s0, s14, s8
	; GFX10-NEXT: s_or_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s2, s13, 24
	; GFX10-NEXT: s_lshr_b32 s15, s3, 16
	; GFX10-NEXT: s_or_b32 s6, s1, s2
	; GFX10-NEXT: s_and_b32 s1, s3, s8			; GFX10-NEXT: s_and_b32 s1, s3, s8
	; GFX10-NEXT: s_lshl_b32 s0, s0, 8			; GFX10-NEXT: s_lshl_b32 s0, s0, 8
	; GFX10-NEXT: v_mov_b32_e32 v2, s5			; GFX10-NEXT: v_mov_b32_e32 v2, s5
	; GFX10-NEXT: s_or_b32 s0, s1, s0			; GFX10-NEXT: s_or_b32 s0, s1, s0
	; GFX10-NEXT: s_and_b32 s1, s15, s8			; GFX10-NEXT: s_bfe_u32 s1, s3, s9
	; GFX10-NEXT: s_lshr_b32 s16, s3, 24			; GFX10-NEXT: s_lshr_b32 s10, s3, 24
	; GFX10-NEXT: s_lshl_b32 s1, s1, 16			; GFX10-NEXT: s_lshl_b32 s1, s1, 16
	; GFX10-NEXT: v_cndmask_b32_e32 v2, s4, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, s4, v2, vcc_lo
	; GFX10-NEXT: s_or_b32 s1, s0, s1			; GFX10-NEXT: s_or_b32 s1, s0, s1
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v4			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v4
	; GFX10-NEXT: s_lshl_b32 s2, s16, 24			; GFX10-NEXT: s_lshl_b32 s2, s10, 24
				; GFX10-NEXT: v_xor_b32_e32 v1, -1, v3
	; GFX10-NEXT: s_or_b32 s7, s1, s2			; GFX10-NEXT: s_or_b32 s7, s1, s2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v4			; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v4
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s6, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s6, s0
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v4			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v4
				; GFX10-NEXT: s_mov_b32 s3, 8
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s7, s1			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, s7, s1
	; GFX10-NEXT: v_and_or_b32 v5, v2, v1, v0			; GFX10-NEXT: v_and_or_b32 v5, v2, v1, v0
	; GFX10-NEXT: v_mov_b32_e32 v0, s4			; GFX10-NEXT: v_mov_b32_e32 v0, s4
	; GFX10-NEXT: v_mov_b32_e32 v1, s5			; GFX10-NEXT: v_mov_b32_e32 v1, s5
	; GFX10-NEXT: v_mov_b32_e32 v2, s6			; GFX10-NEXT: v_mov_b32_e32 v2, s6
	; GFX10-NEXT: v_mov_b32_e32 v3, s7			; GFX10-NEXT: v_mov_b32_e32 v3, s7
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v5, s2			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v5, s2
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v5, s0			; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v5, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s1			; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s1
	; GFX10-NEXT: s_mov_b32 s2, 8			; GFX10-NEXT: s_mov_b32 s2, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 8, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v6, s3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v10, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v4, s2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v6, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v6, v0, s8, v6
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v9, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v9, v1, s8, v9
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v9, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX10-NEXT: v_and_or_b32 v4, v0, s8, v4			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v0, v0, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX10-NEXT: v_and_or_b32 v6, v1, s8, v6			; GFX10-NEXT: v_and_or_b32 v11, v2, s8, v11
	; GFX10-NEXT: v_and_or_b32 v8, v2, s8, v8			; GFX10-NEXT: v_and_or_b32 v10, v3, s8, v10
	; GFX10-NEXT: v_and_or_b32 v9, v3, s8, v9			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v12, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_and_b32_sdwa v2, v2, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v3, v12, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_and_b32_sdwa v3, v3, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_or3_b32 v0, v6, v0, v4
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX10-NEXT: v_or3_b32 v1, v9, v1, v5
	; GFX10-NEXT: v_or3_b32 v0, v4, v0, v5
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: v_or3_b32 v1, v6, v1, v7			; GFX10-NEXT: v_or3_b32 v2, v11, v2, v7
	; GFX10-NEXT: v_or3_b32 v2, v8, v2, v10			; GFX10-NEXT: v_or3_b32 v3, v10, v3, v8
	; GFX10-NEXT: v_or3_b32 v3, v9, v3, v11
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(4)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v16i8_s_v(<16 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v16i8_s_v(<16 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v16i8_s_v:			; GFX9-LABEL: insertelement_v_v16i8_s_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
				; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, 8			; GFX9-NEXT: v_mov_b32_e32 v0, 8
	; GFX9-NEXT: s_movk_i32 s6, 0xff			; GFX9-NEXT: s_movk_i32 s6, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 2, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 2, v2
				; GFX9-NEXT: v_mov_b32_e32 v1, 16
	; GFX9-NEXT: v_and_b32_e32 v2, 3, v2			; GFX9-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX9-NEXT: s_and_b32 s1, s2, s6			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v7
				; GFX9-NEXT: s_and_b32 s2, s2, s6
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1			; GFX9-NEXT: v_lshlrev_b32_e64 v8, v2, s2
	; GFX9-NEXT: v_lshlrev_b32_e64 v7, v2, s1
	; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s6			; GFX9-NEXT: v_lshlrev_b32_e64 v2, v2, s6
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v1			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v7
	; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, s0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v16, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v16, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v17, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v17, v4, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v13
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v8			; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v15
				; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v6
				; GFX9-NEXT: v_lshlrev_b32_sdwa v18, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v19, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v5, v5, s6, v17
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v10			; GFX9-NEXT: v_or3_b32 v3, v3, v14, v9
	; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or3_b32 v4, v4, v16, v10
	; GFX9-NEXT: v_lshrrev_b32_e32 v15, 24, v6			; GFX9-NEXT: v_and_or_b32 v13, v6, s6, v19
	; GFX9-NEXT: v_and_b32_sdwa v18, v5, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_e32 v13, 24, v13			; GFX9-NEXT: v_lshlrev_b32_e32 v12, 24, v12
	; GFX9-NEXT: v_and_or_b32 v5, v5, s6, v12			; GFX9-NEXT: v_or3_b32 v5, v5, v18, v11
	; GFX9-NEXT: v_lshlrev_b32_sdwa v14, v0, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_cndmask_b32_e32 v9, v3, v4, vcc
	; GFX9-NEXT: v_or3_b32 v3, v3, v16, v9			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v7
	; GFX9-NEXT: v_or3_b32 v4, v4, v17, v11			; GFX9-NEXT: v_or3_b32 v6, v13, v6, v12
	; GFX9-NEXT: v_and_b32_sdwa v19, v6, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v5, s[0:1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v15, 24, v15			; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v6, s[2:3]
	; GFX9-NEXT: v_and_or_b32 v6, v6, s6, v14			; GFX9-NEXT: v_and_or_b32 v2, v9, v2, v8
	; GFX9-NEXT: v_or3_b32 v5, v5, v18, v13			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v2, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v1			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[4:5]
	; GFX9-NEXT: v_or3_b32 v6, v6, v19, v15
	; GFX9-NEXT: v_cndmask_b32_e64 v8, v8, v5, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v8, v8, v6, s[2:3]
	; GFX9-NEXT: v_and_or_b32 v2, v8, v2, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v2, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 8, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v0, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v1, v3, s6, v10
	; GFX9-NEXT: v_and_b32_sdwa v13, v1, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX9-NEXT: v_and_b32_sdwa v14, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX9-NEXT: v_and_b32_sdwa v15, v4, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v1, v1, s6, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX9-NEXT: v_and_b32_sdwa v16, v2, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v12
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX9-NEXT: v_and_or_b32 v5, v5, s6, v14
	; GFX9-NEXT: v_and_or_b32 v5, v2, s6, v0			; GFX9-NEXT: v_and_or_b32 v8, v2, s6, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX9-NEXT: v_or3_b32 v0, v1, v11, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v9			; GFX9-NEXT: v_or3_b32 v1, v4, v13, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX9-NEXT: v_or3_b32 v2, v5, v15, v7
	; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v7
	; GFX9-NEXT: v_or3_b32 v0, v1, v13, v6
	; GFX9-NEXT: v_or3_b32 v1, v3, v14, v8
	; GFX9-NEXT: v_or3_b32 v2, v4, v15, v10
	; GFX9-NEXT: v_or3_b32 v3, v5, v16, v11
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: v_or3_b32 v3, v8, v16, v9
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v16i8_s_v:			; GFX8-LABEL: insertelement_v_v16i8_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: v_mov_b32_e32 v7, 8
	; GFX8-NEXT: v_mov_b32_e32 v7, s0			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 2, v2			; GFX8-NEXT: v_mov_b32_e32 v8, 16
				; GFX8-NEXT: v_lshrrev_b32_e32 v9, 2, v2
	; GFX8-NEXT: v_and_b32_e32 v2, 3, v2			; GFX8-NEXT: v_and_b32_e32 v2, 3, v2
				; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_and_b32 s1, s2, s0			; GFX8-NEXT: s_and_b32 s1, s2, s0
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v9
	; GFX8-NEXT: v_lshlrev_b32_e64 v9, v2, s1			; GFX8-NEXT: v_lshlrev_b32_e64 v10, v2, s1
	; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0			; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v9
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v9
	; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX8-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v9
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v16, 8, v6			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v18, v3, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_or_b32_sdwa v3, v4, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v19, v4, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v5
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 24, v5			; GFX8-NEXT: v_lshlrev_b32_sdwa v18, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX8-NEXT: v_lshlrev_b32_sdwa v19, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v19			; GFX8-NEXT: v_or_b32_sdwa v4, v5, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v10, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_or_b32_sdwa v4, v5, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v12
	; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v1, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v18
	; GFX8-NEXT: v_lshrrev_b32_e32 v17, 24, v6
	; GFX8-NEXT: v_or_b32_sdwa v5, v6, v16 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v6, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v15
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v10
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v11
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v12
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v6
	; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v17
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v13
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v0, v3, vcc
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v14
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v2, v6, v2
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v9
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v2, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v15, v3, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v16, v4, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v14, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v7, v2, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v15
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v16
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX8-NEXT: v_or_b32_e32 v4, v1, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX8-NEXT: v_or_b32_e32 v3, v3, v16
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v9			; GFX8-NEXT: v_lshrrev_b32_e32 v14, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v11			; GFX8-NEXT: v_or_b32_sdwa v5, v6, v19 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v12			; GFX8-NEXT: v_lshlrev_b32_sdwa v6, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_or_b32_e32 v1, v4, v18
				; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v13
				; GFX8-NEXT: v_or_b32_e32 v3, v3, v11
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v12
				; GFX8-NEXT: v_or_b32_e32 v4, v5, v6
				; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v14
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v13
				; GFX8-NEXT: v_cndmask_b32_e32 v5, v3, v0, vcc
				; GFX8-NEXT: v_or_b32_e32 v4, v4, v14
				; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v1, s[0:1]
				; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
				; GFX8-NEXT: v_and_b32_e32 v2, v5, v2
				; GFX8-NEXT: v_or_b32_e32 v2, v2, v10
				; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[4:5]
				; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
				; GFX8-NEXT: v_cndmask_b32_e64 v2, v4, v2, s[2:3]
				; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
				; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
				; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v3, v3, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v2
				; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v2, v2, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_or_b32_sdwa v1, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v9
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX8-NEXT: v_or_b32_e32 v3, v3, v11
				; GFX8-NEXT: v_or_b32_e32 v9, v0, v13
				; GFX8-NEXT: v_or_b32_e32 v10, v1, v15
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v14			; GFX8-NEXT: v_or_b32_e32 v8, v2, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v3, v4
				; GFX8-NEXT: v_or_b32_e32 v1, v9, v5
				; GFX8-NEXT: v_mov_b32_e32 v4, 0
				; GFX8-NEXT: v_or_b32_e32 v2, v10, v6
				; GFX8-NEXT: v_or_b32_e32 v3, v8, v7
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v16i8_s_v:			; GFX7-LABEL: insertelement_v_v16i8_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_movk_i32 s6, 0xff			; GFX7-NEXT: s_movk_i32 s6, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: s_and_b32 s0, s2, s6			; GFX7-NEXT: s_and_b32 s0, s2, s6
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17
	; GFX7-NEXT: v_lshl_b32_e32 v18, s0, v2			; GFX7-NEXT: v_lshl_b32_e32 v18, s0, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v17			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v17
	; GFX7-NEXT: v_lshl_b32_e32 v2, s6, v2			; GFX7-NEXT: v_lshl_b32_e32 v2, s6, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v17			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v17
	; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2			; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v17			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v17
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v3			; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 8, v4			; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 8, v5			; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0			; GFX7-NEXT: v_and_b32_e32 v9, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v8, s6, v8			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3			; GFX7-NEXT: v_and_b32_e32 v11, s6, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v5
	; GFX7-NEXT: v_and_b32_e32 v9, s6, v9			; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v11, s6, v11			; GFX7-NEXT: v_and_b32_e32 v13, s6, v5
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v12, s6, v12
	; GFX7-NEXT: v_and_b32_e32 v14, s6, v14
	; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 24, v6
	; GFX7-NEXT: v_and_b32_e32 v15, s6, v15
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_and_b32_e32 v6, s6, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX7-NEXT: v_or_b32_e32 v1, v3, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 16, v12
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 24, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v12			; GFX7-NEXT: v_and_b32_e32 v15, s6, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 16, v15			; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v10			; GFX7-NEXT: v_or_b32_e32 v3, v9, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 24, v16			; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v13			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
				; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
				; GFX7-NEXT: v_or_b32_e32 v12, v15, v16
				; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
				; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
				; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
				; GFX7-NEXT: v_or_b32_e32 v3, v5, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
				; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
	; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
	; GFX7-NEXT: v_and_b32_e32 v2, v5, v2			; GFX7-NEXT: v_and_b32_e32 v2, v5, v2
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v18			; GFX7-NEXT: v_or_b32_e32 v2, v2, v18
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
				; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[0:1]
				; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
				; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
	; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[2:3]
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_and_b32_e32 v8, s6, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0			; GFX7-NEXT: v_and_b32_e32 v10, s6, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_and_b32_e32 v12, s6, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v3			; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v10
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
				; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
				; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
				; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
				; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
				; GFX7-NEXT: v_or_b32_e32 v2, v10, v3
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v12			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v4
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v4			; GFX7-NEXT: v_and_b32_e32 v3, s6, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v13			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v16i8_s_v:			; GFX10-LABEL: insertelement_v_v16i8_s_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v1, 8
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
				; GFX10-NEXT: v_mov_b32_e32 v1, 8
				; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: s_movk_i32 s3, 0xff			; GFX10-NEXT: s_movk_i32 s3, 0xff
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v2			; GFX10-NEXT: v_and_b32_e32 v0, 3, v2
				; GFX10-NEXT: v_mov_b32_e32 v7, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 2, v2
	; GFX10-NEXT: s_and_b32 s1, s2, s3
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v2
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, s0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v5
	; GFX10-NEXT: v_and_b32_sdwa v15, v3, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, s1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v16, v4, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v5			; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v12
	; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v7
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 8, v6			; GFX10-NEXT: v_lshlrev_b32_sdwa v16, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v9			; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v14
				; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
				; GFX10-NEXT: v_lshlrev_b32_sdwa v17, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v6
				; GFX10-NEXT: v_or3_b32 v3, v3, v13, v8
				; GFX10-NEXT: v_lshlrev_b32_sdwa v18, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_or3_b32 v4, v4, v15, v9
				; GFX10-NEXT: v_and_or_b32 v5, v5, s3, v16
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v17, v5, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v6, v6, s3, v18
	; GFX10-NEXT: v_lshrrev_b32_e32 v14, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v11
	; GFX10-NEXT: v_or3_b32 v3, v3, v15, v8			; GFX10-NEXT: v_cndmask_b32_e32 v9, v3, v4, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v12			; GFX10-NEXT: v_or3_b32 v5, v5, v17, v10
	; GFX10-NEXT: v_and_or_b32 v5, v5, s3, v11
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v1, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_or3_b32 v4, v4, v16, v10
	; GFX10-NEXT: v_and_b32_sdwa v18, v6, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v14
	; GFX10-NEXT: v_or3_b32 v5, v5, v17, v7
	; GFX10-NEXT: v_and_or_b32 v6, v6, s3, v9
	; GFX10-NEXT: v_cndmask_b32_e32 v7, v3, v4, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v2			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v2
	; GFX10-NEXT: v_lshlrev_b32_e64 v9, v0, s3			; GFX10-NEXT: s_and_b32 s1, s2, s3
				; GFX10-NEXT: v_lshlrev_b32_e64 v10, v0, s3
				; GFX10-NEXT: v_or3_b32 v6, v6, v12, v8
	; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s1			; GFX10-NEXT: v_lshlrev_b32_e64 v0, v0, s1
	; GFX10-NEXT: v_or3_b32 v6, v6, v18, v8			; GFX10-NEXT: v_cndmask_b32_e64 v8, v9, v5, s0
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v2			; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v2
	; GFX10-NEXT: v_cndmask_b32_e64 v7, v7, v5, s0			; GFX10-NEXT: v_xor_b32_e32 v9, -1, v10
	; GFX10-NEXT: v_xor_b32_e32 v8, -1, v9			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v2
	; GFX10-NEXT: v_cndmask_b32_e64 v7, v7, v6, s1			; GFX10-NEXT: v_cndmask_b32_e64 v8, v8, v6, s1
	; GFX10-NEXT: v_and_or_b32 v0, v7, v8, v0			; GFX10-NEXT: v_and_or_b32 v0, v8, v9, v0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, v0, s2			; GFX10-NEXT: v_cndmask_b32_e64 v2, v3, v0, s2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v4, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v4, v0, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, v0, s0			; GFX10-NEXT: v_cndmask_b32_e64 v4, v5, v0, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v6, v0, s1			; GFX10-NEXT: v_cndmask_b32_e64 v0, v6, v0, s1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v7, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v2, v2, s3, v10
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX10-NEXT: v_and_b32_sdwa v13, v2, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v14
	; GFX10-NEXT: v_and_b32_sdwa v14, v3, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_b32_sdwa v15, v4, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_and_or_b32 v2, v2, s3, v5
	; GFX10-NEXT: v_and_b32_sdwa v16, v0, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_and_or_b32 v5, v0, s3, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v7			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX10-NEXT: v_and_or_b32 v10, v0, s3, v1
	; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v9			; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v12
	; GFX10-NEXT: v_or3_b32 v0, v2, v13, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_or3_b32 v1, v3, v14, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_or3_b32 v3, v5, v16, v11			; GFX10-NEXT: v_or3_b32 v0, v2, v11, v5
	; GFX10-NEXT: v_or3_b32 v2, v4, v15, v10			; GFX10-NEXT: v_or3_b32 v2, v4, v15, v8
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
				; GFX10-NEXT: v_or3_b32 v1, v3, v13, v6
				; GFX10-NEXT: v_or3_b32 v3, v10, v7, v9
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v16i8_v_s(<16 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v16i8_v_s(<16 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_v_v16i8_v_s:			; GFX9-LABEL: insertelement_v_v16i8_v_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX9-NEXT: s_and_b32 s1, s2, 3
	; GFX9-NEXT: s_lshl_b32 s1, s1, 3
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
				; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, 8			; GFX9-NEXT: v_mov_b32_e32 v0, 8
	; GFX9-NEXT: s_movk_i32 s6, 0xff			; GFX9-NEXT: s_movk_i32 s6, 0xff
				; GFX9-NEXT: v_mov_b32_e32 v1, 16
	; GFX9-NEXT: s_lshr_b32 s4, s2, 2			; GFX9-NEXT: s_lshr_b32 s4, s2, 2
	; GFX9-NEXT: s_lshl_b32 s1, s6, s1			; GFX9-NEXT: s_and_b32 s2, s2, 3
				; GFX9-NEXT: s_lshl_b32 s2, s2, 3
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX9-NEXT: s_not_b32 s5, s1			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
				; GFX9-NEXT: s_lshl_b32 s2, s6, s2
				; GFX9-NEXT: s_not_b32 s5, s2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v4
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v5			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v5			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, s1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v14, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v2, v3, s6, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v11
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX9-NEXT: v_and_b32_sdwa v15, v4, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v13
				; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v6
				; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v17, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v5, v5, s6, v15
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_and_or_b32 v3, v4, s6, v8			; GFX9-NEXT: v_or3_b32 v3, v3, v12, v7
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or3_b32 v4, v4, v14, v8
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v6			; GFX9-NEXT: v_lshlrev_b32_sdwa v18, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v16, v5, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v6, v6, s6, v17
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX9-NEXT: v_and_or_b32 v4, v5, s6, v10			; GFX9-NEXT: v_or3_b32 v5, v5, v16, v9
	; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_cndmask_b32_e32 v7, v3, v4, vcc
	; GFX9-NEXT: v_or3_b32 v2, v2, v14, v7
	; GFX9-NEXT: v_or3_b32 v3, v3, v15, v9
	; GFX9-NEXT: v_and_b32_sdwa v17, v6, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_or_b32 v5, v6, s6, v12
	; GFX9-NEXT: v_lshlrev_b32_e32 v13, 24, v13
	; GFX9-NEXT: v_or3_b32 v4, v4, v16, v11
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v2, v3, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX9-NEXT: v_or3_b32 v5, v5, v17, v13			; GFX9-NEXT: v_or3_b32 v6, v6, v18, v10
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v5, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v6, s[2:3]
	; GFX9-NEXT: v_and_or_b32 v1, v6, s5, v1			; GFX9-NEXT: v_and_or_b32 v2, v7, s5, v2
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v5, v1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v5, 8, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 8, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v1			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v0, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_and_or_b32 v1, v3, s6, v10
	; GFX9-NEXT: v_and_b32_sdwa v13, v2, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX9-NEXT: v_and_b32_sdwa v14, v3, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX9-NEXT: v_and_b32_sdwa v15, v4, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_or_b32 v2, v2, s6, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX9-NEXT: v_and_b32_sdwa v16, v1, s6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v12
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX9-NEXT: v_and_or_b32 v5, v5, s6, v14
	; GFX9-NEXT: v_and_or_b32 v5, v1, s6, v0			; GFX9-NEXT: v_and_or_b32 v8, v2, s6, v0
	; GFX9-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX9-NEXT: v_or3_b32 v0, v1, v11, v3
	; GFX9-NEXT: v_and_or_b32 v3, v3, s6, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX9-NEXT: v_or3_b32 v1, v4, v13, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX9-NEXT: v_or3_b32 v2, v5, v15, v7
	; GFX9-NEXT: v_and_or_b32 v4, v4, s6, v9
	; GFX9-NEXT: v_or3_b32 v0, v2, v13, v6
	; GFX9-NEXT: v_or3_b32 v1, v3, v14, v8
	; GFX9-NEXT: v_or3_b32 v2, v4, v15, v10
	; GFX9-NEXT: v_or3_b32 v3, v5, v16, v11
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: v_or3_b32 v3, v8, v16, v9
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v16i8_v_s:			; GFX8-LABEL: insertelement_v_v16i8_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[3:6], v[0:1]
	; GFX8-NEXT: s_and_b32 s1, s2, 3			; GFX8-NEXT: s_and_b32 s1, s2, 3
	; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: v_mov_b32_e32 v8, s1
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_mov_b32_e32 v0, 8			; GFX8-NEXT: v_mov_b32_e32 v0, 8
	; GFX8-NEXT: v_mov_b32_e32 v1, 8			; GFX8-NEXT: s_lshl_b32 s1, s1, 3
	; GFX8-NEXT: v_mov_b32_e32 v7, s0			; GFX8-NEXT: v_mov_b32_e32 v7, 8
				; GFX8-NEXT: v_mov_b32_e32 v1, 16
				; GFX8-NEXT: v_mov_b32_e32 v9, s1
				; GFX8-NEXT: v_mov_b32_e32 v8, 16
				; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: s_lshr_b32 s4, s2, 2			; GFX8-NEXT: s_lshr_b32 s4, s2, 2
				; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_lshl_b32 s0, s0, s1			; GFX8-NEXT: s_lshl_b32 s0, s0, s1
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX8-NEXT: s_not_b32 s5, s0			; GFX8-NEXT: s_not_b32 s5, s0
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v8, 24, v9			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v5			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v5
				; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v10
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
				; GFX8-NEXT: v_or_b32_sdwa v5, v5, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v6
				; GFX8-NEXT: v_lshlrev_b32_sdwa v18, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9
				; GFX8-NEXT: v_or_b32_e32 v3, v3, v14
				; GFX8-NEXT: v_or_b32_sdwa v6, v6, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11			; GFX8-NEXT: v_lshlrev_b32_e32 v10, 24, v11
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX8-NEXT: v_or_b32_e32 v1, v5, v16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v12
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX8-NEXT: v_or_b32_e32 v5, v6, v18
	; GFX8-NEXT: v_and_b32_sdwa v16, v3, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v3, v3, v9
	; GFX8-NEXT: v_and_b32_sdwa v17, v4, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v4, v5, v11
	; GFX8-NEXT: v_or_b32_sdwa v3, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v1, v1, v10
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v16			; GFX8-NEXT: v_cndmask_b32_e32 v5, v3, v0, vcc
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v17			; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v1, s[0:1]
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
	; GFX8-NEXT: v_and_b32_sdwa v18, v5, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_e32 v5, s5, v5
	; GFX8-NEXT: v_or_b32_sdwa v4, v5, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v2, v5, v2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v18
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 24, v6
	; GFX8-NEXT: v_and_b32_sdwa v19, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v5, v6, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v8
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v10
	; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v15
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v19
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v12
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v0, v3, vcc
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v14
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v6, s5, v6
	; GFX8-NEXT: v_or_b32_e32 v2, v6, v2
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v4, v2, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v0			; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v7, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v7, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v2			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v15, v3, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX8-NEXT: v_and_b32_sdwa v16, v4, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v14, v0, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v7, v2, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v9
	; GFX8-NEXT: v_or_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v3, v3, v11
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v15			; GFX8-NEXT: v_or_b32_e32 v9, v0, v13
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v16			; GFX8-NEXT: v_or_b32_e32 v10, v1, v15
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX8-NEXT: v_or_b32_e32 v4, v1, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13
	; GFX8-NEXT: v_or_b32_e32 v1, v2, v9
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v11
	; GFX8-NEXT: v_or_b32_e32 v3, v4, v12
	; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v14			; GFX8-NEXT: v_or_b32_e32 v8, v2, v8
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v6			; GFX8-NEXT: v_or_b32_e32 v0, v3, v4
				; GFX8-NEXT: v_or_b32_e32 v1, v9, v5
				; GFX8-NEXT: v_mov_b32_e32 v4, 0
				; GFX8-NEXT: v_or_b32_e32 v2, v10, v6
				; GFX8-NEXT: v_or_b32_e32 v3, v8, v7
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v16i8_v_s:			; GFX7-LABEL: insertelement_v_v16i8_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_movk_i32 s6, 0xff			; GFX7-NEXT: s_movk_i32 s6, 0xff
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v2			; GFX7-NEXT: v_and_b32_e32 v0, s6, v2
	; GFX7-NEXT: s_and_b32 s0, s2, 3			; GFX7-NEXT: s_and_b32 s0, s2, 3
	; GFX7-NEXT: s_lshr_b32 s4, s2, 2			; GFX7-NEXT: s_lshr_b32 s4, s2, 2
	; GFX7-NEXT: s_lshl_b32 s0, s0, 3			; GFX7-NEXT: s_lshl_b32 s0, s0, 3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: s_lshl_b32 s0, s6, s0			; GFX7-NEXT: s_lshl_b32 s0, s6, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
	; GFX7-NEXT: s_not_b32 s5, s0			; GFX7-NEXT: s_not_b32 s5, s0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3			; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 8, v4			; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 8, v5			; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_and_b32_e32 v9, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v8, s6, v8			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3			; GFX7-NEXT: v_and_b32_e32 v11, s6, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v5
	; GFX7-NEXT: v_and_b32_e32 v9, s6, v9			; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v11, s6, v11			; GFX7-NEXT: v_and_b32_e32 v13, s6, v5
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v3			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 24, v5			; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v12, s6, v12
	; GFX7-NEXT: v_and_b32_e32 v14, s6, v14
	; GFX7-NEXT: v_or_b32_e32 v1, v3, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 24, v6
	; GFX7-NEXT: v_and_b32_e32 v15, s6, v15
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_and_b32_e32 v6, s6, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 16, v12
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 24, v13			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v12			; GFX7-NEXT: v_and_b32_e32 v15, s6, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 16, v15			; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v10			; GFX7-NEXT: v_or_b32_e32 v3, v9, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 24, v16			; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v13			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
				; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
				; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
				; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
				; GFX7-NEXT: v_or_b32_e32 v12, v15, v16
				; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
				; GFX7-NEXT: v_or_b32_e32 v1, v3, v1
				; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
				; GFX7-NEXT: v_or_b32_e32 v3, v5, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v5, v1, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v5, v1, v2, vcc
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
				; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
	; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
	; GFX7-NEXT: v_and_b32_e32 v5, s5, v5			; GFX7-NEXT: v_and_b32_e32 v5, s5, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v5, v0			; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
	; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v0, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
				; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v0, s[4:5]
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v0, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v0, s[0:1]
				; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8
				; GFX7-NEXT: v_bfe_u32 v11, v2, 8, 8
	; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v0, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v0, s[2:3]
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s6, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX7-NEXT: v_and_b32_e32 v8, s6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v2			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v1			; GFX7-NEXT: v_and_b32_e32 v10, s6, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_and_b32_e32 v1, s6, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX7-NEXT: v_and_b32_e32 v12, s6, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v2, v1			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v1, v8, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s6, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v10
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
				; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
				; GFX7-NEXT: v_or_b32_e32 v2, v9, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
				; GFX7-NEXT: v_or_b32_e32 v1, v2, v5
				; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
				; GFX7-NEXT: v_or_b32_e32 v2, v10, v3
				; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v12			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v4
	; GFX7-NEXT: v_and_b32_e32 v3, s6, v4			; GFX7-NEXT: v_and_b32_e32 v3, s6, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v13			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v5, s6, v5			; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s6, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v16i8_v_s:			; GFX10-LABEL: insertelement_v_v16i8_v_s:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v0, 8
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
				; GFX10-NEXT: v_mov_b32_e32 v0, 8
				; GFX10-NEXT: s_mov_b32 s1, 16
	; GFX10-NEXT: s_movk_i32 s3, 0xff			; GFX10-NEXT: s_movk_i32 s3, 0xff
				; GFX10-NEXT: v_mov_b32_e32 v1, 16
	; GFX10-NEXT: s_lshr_b32 s4, s2, 2			; GFX10-NEXT: s_lshr_b32 s4, s2, 2
	; GFX10-NEXT: s_and_b32 s1, s2, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s4, 1			; GFX10-NEXT: v_cmp_eq_u32_e64 vcc_lo, s4, 1
	; GFX10-NEXT: s_lshl_b32 s2, s1, 3
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, s4, 3
	; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: s_lshl_b32 s2, s3, s2
	; GFX10-NEXT: s_not_b32 s2, s2
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 8, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 8, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 8, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, s0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, s1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 8, v6			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v14, v3, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v11
	; GFX10-NEXT: v_and_or_b32 v1, v3, s3, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_and_or_b32 v3, v4, s3, v8			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_and_b32_sdwa v15, v4, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v13
				; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8
				; GFX10-NEXT: v_lshlrev_b32_sdwa v16, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v6
				; GFX10-NEXT: v_or3_b32 v3, v3, v12, v7
				; GFX10-NEXT: v_lshlrev_b32_sdwa v17, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_or3_b32 v4, v4, v14, v8
				; GFX10-NEXT: v_and_or_b32 v5, v5, s3, v15
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v0, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v16, v5, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v6, v6, s3, v17
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v10
	; GFX10-NEXT: v_or3_b32 v1, v1, v14, v7			; GFX10-NEXT: v_cndmask_b32_e32 v8, v3, v4, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 24, v11			; GFX10-NEXT: v_or3_b32 v5, v5, v16, v9
	; GFX10-NEXT: v_and_or_b32 v5, v5, s3, v10
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v0, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_or3_b32 v3, v3, v15, v9
	; GFX10-NEXT: v_and_b32_sdwa v17, v6, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v13
	; GFX10-NEXT: v_or3_b32 v4, v5, v16, v4
	; GFX10-NEXT: v_and_or_b32 v6, v6, s3, v8
	; GFX10-NEXT: v_cndmask_b32_e32 v5, v1, v3, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s4, 2			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, s4, 2
	; GFX10-NEXT: v_or3_b32 v6, v6, v17, v7			; GFX10-NEXT: s_and_b32 s1, s2, 3
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v5, v4, s0			; GFX10-NEXT: v_or3_b32 v6, v6, v11, v7
	; GFX10-NEXT: v_cndmask_b32_e64 v5, v5, v6, s1			; GFX10-NEXT: s_lshl_b32 s2, s1, 3
	; GFX10-NEXT: v_and_or_b32 v2, v5, s2, v2			; GFX10-NEXT: v_cmp_eq_u32_e64 s1, s4, 3
				; GFX10-NEXT: v_cndmask_b32_e64 v7, v8, v5, s0
				; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
				; GFX10-NEXT: s_lshl_b32 s2, s3, s2
				; GFX10-NEXT: s_not_b32 s2, s2
				; GFX10-NEXT: v_cndmask_b32_e64 v7, v7, v6, s1
				; GFX10-NEXT: v_and_or_b32 v2, v7, s2, v2
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, s4, 0			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, s4, 0
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v2, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v4, v4, v2, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v4, v4, v2, s0			; GFX10-NEXT: v_cndmask_b32_e64 v5, v5, v2, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v2, s2			; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v2, s2
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v6, v2, s1			; GFX10-NEXT: v_cndmask_b32_e64 v2, v6, v2, s1
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v0, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v16, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v13, v1, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v1, v3, s3, v10
	; GFX10-NEXT: v_and_b32_sdwa v14, v3, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX10-NEXT: v_and_b32_sdwa v15, v4, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v7
	; GFX10-NEXT: v_and_or_b32 v1, v1, s3, v5			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v8
	; GFX10-NEXT: v_and_b32_sdwa v16, v2, s3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v12
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_and_or_b32 v5, v5, s3, v14
	; GFX10-NEXT: v_and_or_b32 v5, v2, s3, v0			; GFX10-NEXT: v_and_or_b32 v8, v2, s3, v0
	; GFX10-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_or3_b32 v0, v1, v11, v3
	; GFX10-NEXT: v_and_or_b32 v4, v4, s3, v9			; GFX10-NEXT: v_or3_b32 v1, v4, v13, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v12			; GFX10-NEXT: v_or3_b32 v2, v5, v15, v7
	; GFX10-NEXT: v_and_or_b32 v3, v3, s3, v7
	; GFX10-NEXT: v_or3_b32 v0, v1, v13, v6
	; GFX10-NEXT: v_or3_b32 v2, v4, v15, v10
	; GFX10-NEXT: v_or3_b32 v1, v3, v14, v8
	; GFX10-NEXT: v_or3_b32 v3, v5, v16, v11
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
				; GFX10-NEXT: v_or3_b32 v3, v8, v16, v9
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v16i8_v_v(<16 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {			define amdgpu_ps void @insertelement_v_v16i8_v_v(<16 x i8> addrspace(1)* %ptr, i8 %val, i32 %idx) {
	; GFX9-LABEL: insertelement_v_v16i8_v_v:			; GFX9-LABEL: insertelement_v_v16i8_v_v:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off			; GFX9-NEXT: global_load_dwordx4 v[4:7], v[0:1], off
	; GFX9-NEXT: s_mov_b32 s0, 8			; GFX9-NEXT: s_mov_b32 s0, 8
				; GFX9-NEXT: s_mov_b32 s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v1, 8			; GFX9-NEXT: v_mov_b32_e32 v1, 8
	; GFX9-NEXT: s_movk_i32 s1, 0xff			; GFX9-NEXT: s_movk_i32 s2, 0xff
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 2, v3			; GFX9-NEXT: v_mov_b32_e32 v8, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, 0xff			; GFX9-NEXT: v_mov_b32_e32 v0, 0xff
				; GFX9-NEXT: s_waitcnt vmcnt(0)
				; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v4
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v5
				; GFX9-NEXT: v_lshlrev_b32_sdwa v13, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v15, s0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v6
				; GFX9-NEXT: v_lshlrev_b32_sdwa v14, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v16, s1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v5, v5, s2, v15
				; GFX9-NEXT: v_lshrrev_b32_e32 v15, 2, v3
				; GFX9-NEXT: v_and_or_b32 v4, v4, s2, v13
				; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
				; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX9-NEXT: v_lshlrev_b32_sdwa v17, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v7
	; GFX9-NEXT: v_and_b32_e32 v3, 3, v3			; GFX9-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX9-NEXT: v_lshlrev_b32_sdwa v18, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_sdwa v19, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX9-NEXT: v_and_or_b32 v6, v6, v0, v17
				; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11
				; GFX9-NEXT: v_or3_b32 v4, v4, v14, v9
				; GFX9-NEXT: v_or3_b32 v5, v5, v16, v10
				; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v15
				; GFX9-NEXT: v_and_or_b32 v13, v7, v0, v19
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 3, v3
				; GFX9-NEXT: v_lshlrev_b32_sdwa v7, v8, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v12, 24, v12
				; GFX9-NEXT: v_or3_b32 v6, v6, v18, v11
				; GFX9-NEXT: v_cndmask_b32_e32 v9, v4, v5, vcc
				; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v15
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, v3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v3, v3, v0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v8			; GFX9-NEXT: v_or3_b32 v7, v13, v7, v12
	; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8
	; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 8, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 8, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 8, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v15, 8, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 24, v5
	; GFX9-NEXT: v_lshlrev_b32_sdwa v9, s0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v11, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_b32_sdwa v17, v4, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_b32_sdwa v18, v5, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_or_b32 v5, v5, s1, v11
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v12
	; GFX9-NEXT: v_lshrrev_b32_e32 v14, 24, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v16, 24, v7
	; GFX9-NEXT: v_lshlrev_b32_sdwa v13, v1, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v1, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_and_or_b32 v4, v4, s1, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX9-NEXT: v_and_b32_sdwa v19, v6, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_or_b32 v6, v6, s1, v13
	; GFX9-NEXT: v_and_or_b32 v9, v7, v0, v15
	; GFX9-NEXT: v_lshlrev_b32_e32 v12, 24, v14
	; GFX9-NEXT: v_and_b32_sdwa v7, v7, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v13, 24, v16
	; GFX9-NEXT: v_or3_b32 v4, v4, v17, v10
	; GFX9-NEXT: v_or3_b32 v5, v5, v18, v11
	; GFX9-NEXT: v_or3_b32 v7, v9, v7, v13
	; GFX9-NEXT: v_or3_b32 v6, v6, v19, v12
	; GFX9-NEXT: v_cndmask_b32_e32 v9, v4, v5, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v6, s[0:1]
				; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v15
				; GFX9-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v7, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v7, s[2:3]
	; GFX9-NEXT: v_and_or_b32 v2, v9, v3, v2			; GFX9-NEXT: v_and_or_b32 v2, v9, v3, v2
				; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v15
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v7, v2, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v7, v2, s[2:3]
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 8, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 8, v5			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v5
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 8, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v13, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 24, v4			; GFX9-NEXT: v_lshlrev_b32_sdwa v15, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 24, v5			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v12, 8, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v10, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v11, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_lshlrev_b32_sdwa v10, v1, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_lshlrev_b32_sdwa v14, v8, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v3			; GFX9-NEXT: v_lshlrev_b32_sdwa v16, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_b32_sdwa v15, v4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX9-NEXT: v_and_b32_sdwa v16, v5, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_and_or_b32 v4, v4, v0, v13
	; GFX9-NEXT: v_lshlrev_b32_sdwa v6, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshrrev_b32_e32 v13, 24, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX9-NEXT: v_and_or_b32 v4, v4, v0, v8
	; GFX9-NEXT: v_and_or_b32 v5, v5, v0, v10
	; GFX9-NEXT: v_and_b32_sdwa v14, v3, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_and_or_b32 v3, v3, v0, v6
	; GFX9-NEXT: v_and_or_b32 v6, v2, v0, v1
	; GFX9-NEXT: v_and_b32_sdwa v17, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX9-NEXT: v_lshlrev_b32_e32 v12, 24, v13			; GFX9-NEXT: v_and_or_b32 v5, v5, v0, v15
	; GFX9-NEXT: v_or3_b32 v1, v4, v15, v9			; GFX9-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX9-NEXT: v_or3_b32 v2, v5, v16, v11			; GFX9-NEXT: v_lshlrev_b32_sdwa v12, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_and_or_b32 v3, v3, v0, v11
				; GFX9-NEXT: v_and_or_b32 v11, v2, v0, v1
				; GFX9-NEXT: v_lshlrev_b32_sdwa v8, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX9-NEXT: v_lshlrev_b32_e32 v6, 24, v6
				; GFX9-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX9-NEXT: v_or3_b32 v1, v4, v14, v7
				; GFX9-NEXT: v_or3_b32 v2, v5, v16, v9
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: v_or3_b32 v0, v3, v14, v7			; GFX9-NEXT: v_or3_b32 v0, v3, v12, v6
	; GFX9-NEXT: v_or3_b32 v3, v6, v17, v12			; GFX9-NEXT: v_or3_b32 v3, v11, v8, v10
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_v_v16i8_v_v:			; GFX8-LABEL: insertelement_v_v16i8_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[0:1]			; GFX8-NEXT: flat_load_dwordx4 v[4:7], v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 2, v3
	; GFX8-NEXT: v_mov_b32_e32 v1, 8
	; GFX8-NEXT: v_mov_b32_e32 v8, 8
	; GFX8-NEXT: v_mov_b32_e32 v9, s0
	; GFX8-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 2, v3
	; GFX8-NEXT: v_and_b32_e32 v3, 3, v3			; GFX8-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v10			; GFX8-NEXT: v_mov_b32_e32 v1, 8
				; GFX8-NEXT: v_mov_b32_e32 v9, 8
				; GFX8-NEXT: v_mov_b32_e32 v8, 16
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v10			; GFX8-NEXT: v_mov_b32_e32 v0, 0xff
				; GFX8-NEXT: v_lshlrev_b32_e32 v0, v3, v0
				; GFX8-NEXT: v_mov_b32_e32 v10, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v3, v3, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v11
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v10			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v11
	; GFX8-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX8-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v11
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v10			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
				; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v11
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 8, v5			; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 8, v4			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v15, 8, v6			; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v5
	; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v8, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v16, v8, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 24, v4			; GFX8-NEXT: v_or_b32_sdwa v4, v4, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v17, 8, v7			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v19, v4, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v14, 24, v5			; GFX8-NEXT: v_lshlrev_b32_sdwa v19, v9, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_or_b32_sdwa v4, v5, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v6
	; GFX8-NEXT: v_and_b32_sdwa v9, v5, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_e32 v14, 24, v7
	; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v8, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v18, v10, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshrrev_b32_e32 v16, 24, v6			; GFX8-NEXT: v_or_b32_sdwa v5, v6, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v14			; GFX8-NEXT: v_or_b32_sdwa v6, v7, v19 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v9			; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v10, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_and_b32_sdwa v11, v6, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: v_or_b32_sdwa v5, v6, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v4, v4, v16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v17, v8, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v12			; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v12
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v19			; GFX8-NEXT: v_or_b32_e32 v1, v1, v8
	; GFX8-NEXT: v_lshrrev_b32_e32 v18, 24, v7			; GFX8-NEXT: v_lshlrev_b32_e32 v13, 24, v13
	; GFX8-NEXT: v_or_b32_sdwa v6, v7, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v14
	; GFX8-NEXT: v_and_b32_sdwa v7, v7, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_e32 v5, v5, v18
	; GFX8-NEXT: v_lshlrev_b32_e32 v14, 24, v16			; GFX8-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v11
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v12
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v13
	; GFX8-NEXT: v_or_b32_e32 v6, v6, v7			; GFX8-NEXT: v_or_b32_e32 v6, v6, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v15, 24, v18			; GFX8-NEXT: v_or_b32_e32 v1, v1, v12
	; GFX8-NEXT: v_or_b32_e32 v5, v5, v14			; GFX8-NEXT: v_or_b32_e32 v4, v5, v13
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v1, v4, vcc			; GFX8-NEXT: v_or_b32_e32 v5, v6, v14
	; GFX8-NEXT: v_or_b32_e32 v6, v6, v15			; GFX8-NEXT: v_cndmask_b32_e32 v6, v3, v1, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v5, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v6, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
	; GFX8-NEXT: v_and_b32_e32 v3, v7, v3			; GFX8-NEXT: v_and_b32_e32 v0, v6, v0
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e64 v2, v3, v0, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v4, v0, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v5, v0, s[2:3]
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX8-NEXT: v_lshlrev_b32_sdwa v12, v9, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 8, v4			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v12, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX8-NEXT: v_lshlrev_b32_sdwa v5, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v11, v10, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX8-NEXT: v_lshlrev_b32_sdwa v7, v8, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v8, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v8, v8, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 24, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 24, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v13, 24, v2
	; GFX8-NEXT: v_and_b32_sdwa v14, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v15, v3, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v16, v4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v4, v4, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v2, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v2, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v13, v10, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v1, v1, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v14, v9, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshlrev_b32_sdwa v9, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v3
				; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v0
				; GFX8-NEXT: v_lshlrev_b32_sdwa v15, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v3, v3, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_sdwa v10, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
				; GFX8-NEXT: v_lshlrev_b32_e32 v4, 24, v4
				; GFX8-NEXT: v_lshlrev_b32_e32 v5, 24, v5
				; GFX8-NEXT: v_or_b32_e32 v1, v1, v13
				; GFX8-NEXT: v_or_b32_e32 v2, v2, v11
				; GFX8-NEXT: v_or_b32_e32 v8, v0, v10
	; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX8-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX8-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX8-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX8-NEXT: v_lshlrev_b32_e32 v11, 24, v11
	; GFX8-NEXT: v_lshlrev_b32_e32 v12, 24, v13
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v14
	; GFX8-NEXT: v_or_b32_e32 v5, v2, v0
	; GFX8-NEXT: v_or_b32_e32 v4, v4, v16
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v15			; GFX8-NEXT: v_or_b32_e32 v3, v3, v15
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v6			; GFX8-NEXT: v_or_b32_e32 v0, v2, v4
	; GFX8-NEXT: v_or_b32_e32 v1, v3, v9			; GFX8-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX8-NEXT: v_or_b32_e32 v2, v4, v11
	; GFX8-NEXT: v_or_b32_e32 v3, v5, v12
	; GFX8-NEXT: v_mov_b32_e32 v4, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
				; GFX8-NEXT: v_or_b32_e32 v2, v3, v6
				; GFX8-NEXT: v_or_b32_e32 v3, v8, v7
	; GFX8-NEXT: v_mov_b32_e32 v5, 0			; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v16i8_v_v:			; GFX7-LABEL: insertelement_v_v16i8_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_movk_i32 s0, 0xff
	; GFX7-NEXT: v_mov_b32_e32 v8, 0xff			; GFX7-NEXT: v_mov_b32_e32 v8, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v19, 2, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v19, 2, v3
	; GFX7-NEXT: v_and_b32_e32 v3, 3, v3			; GFX7-NEXT: v_and_b32_e32 v3, 3, v3
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v19			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v19
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v8			; GFX7-NEXT: v_and_b32_e32 v2, v2, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v8
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v19			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v19
	; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v19			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v19
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 8, v4			; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 8, v5			; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 8, v6			; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s0, v0			; GFX7-NEXT: v_and_b32_e32 v11, s0, v4
	; GFX7-NEXT: v_and_b32_e32 v10, s0, v10			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v4			; GFX7-NEXT: v_and_b32_e32 v13, s0, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v5			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
	; GFX7-NEXT: v_and_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6
	; GFX7-NEXT: v_and_b32_e32 v11, s0, v11			; GFX7-NEXT: v_bfe_u32 v18, v7, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v13, s0, v13			; GFX7-NEXT: v_and_b32_e32 v15, v6, v8
	; GFX7-NEXT: v_and_b32_e32 v4, s0, v4			; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-NEXT: v_or_b32_e32 v11, v11, v12
	; GFX7-NEXT: v_and_b32_e32 v5, s0, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 24, v6			; GFX7-NEXT: v_or_b32_e32 v12, v13, v14
	; GFX7-NEXT: v_lshrrev_b32_e32 v17, 16, v7
	; GFX7-NEXT: v_and_b32_e32 v14, v14, v8
	; GFX7-NEXT: v_and_b32_e32 v16, v16, v8
	; GFX7-NEXT: v_and_b32_e32 v6, s0, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 16, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v18, 24, v7
	; GFX7-NEXT: v_and_b32_e32 v17, v17, v8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
	; GFX7-NEXT: v_and_b32_e32 v7, v7, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 24, v12
	; GFX7-NEXT: v_or_b32_e32 v1, v4, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 16, v14
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v13
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 24, v15			; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v14			; GFX7-NEXT: v_and_b32_e32 v17, v7, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v17, 16, v17			; GFX7-NEXT: v_bfe_u32 v7, v7, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v6, v7, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v18, 8, v18
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v12			; GFX7-NEXT: v_or_b32_e32 v4, v11, v4
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v17			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v18, 24, v18			; GFX7-NEXT: v_or_b32_e32 v5, v12, v5
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
				; GFX7-NEXT: v_or_b32_e32 v13, v15, v16
				; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7
				; GFX7-NEXT: v_or_b32_e32 v14, v17, v18
				; GFX7-NEXT: v_or_b32_e32 v6, v13, v6
				; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
				; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
				; GFX7-NEXT: v_or_b32_e32 v4, v6, v9
				; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10
				; GFX7-NEXT: v_or_b32_e32 v7, v14, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v19			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v19
	; GFX7-NEXT: v_or_b32_e32 v5, v5, v18			; GFX7-NEXT: v_or_b32_e32 v5, v7, v10
	; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
	; GFX7-NEXT: v_and_b32_e32 v3, v6, v3			; GFX7-NEXT: v_and_b32_e32 v3, v6, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]			; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
				; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
				; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[2:3]
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v8			; GFX7-NEXT: v_and_b32_e32 v9, v0, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v8			; GFX7-NEXT: v_bfe_u32 v14, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_and_b32_e32 v11, v1, v8
				; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
				; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
				; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
				; GFX7-NEXT: v_and_b32_e32 v13, v3, v8
				; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
				; GFX7-NEXT: v_or_b32_e32 v0, v9, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
				; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_and_b32_e32 v2, v7, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_and_b32_e32 v1, v1, v8			; GFX7-NEXT: v_or_b32_e32 v1, v10, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v2, v9, v8			; GFX7-NEXT: v_or_b32_e32 v2, v11, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v10
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 16, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v2, v3, v8
	; GFX7-NEXT: v_and_b32_e32 v3, v11, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_and_b32_e32 v3, v12, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v13
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 8, v4
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v3			; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 24, v4
	; GFX7-NEXT: v_and_b32_e32 v3, v4, v8			; GFX7-NEXT: v_and_b32_e32 v3, v4, v8
	; GFX7-NEXT: v_and_b32_e32 v4, v14, v8			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v5, v5, v8			; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_and_b32_e32 v4, v15, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: insertelement_v_v16i8_v_v:			; GFX10-LABEL: insertelement_v_v16i8_v_v:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[4:7], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[4:7], v[0:1], off
	; GFX10-NEXT: v_mov_b32_e32 v8, 8
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_movk_i32 s1, 0xff			; GFX10-NEXT: v_mov_b32_e32 v8, 8
				; GFX10-NEXT: s_mov_b32 s1, 16
				; GFX10-NEXT: s_movk_i32 s2, 0xff
	; GFX10-NEXT: v_and_b32_e32 v0, 3, v3			; GFX10-NEXT: v_and_b32_e32 v0, 3, v3
				; GFX10-NEXT: v_mov_b32_e32 v9, 16
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 2, v3
	; GFX10-NEXT: v_mov_b32_e32 v1, 0xff			; GFX10-NEXT: v_mov_b32_e32 v1, 0xff
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v3
	; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v3
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 8, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 8, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v5			; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v5
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 8, v6			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, s0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v9, s0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v16, s0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v8, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshrrev_b32_e32 v12, 24, v6
	; GFX10-NEXT: v_and_b32_sdwa v17, v4, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, s1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v18, v5, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v17, s1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshrrev_b32_e32 v14, 24, v6			; GFX10-NEXT: v_and_or_b32 v4, v4, s2, v14
	; GFX10-NEXT: v_and_or_b32 v4, v4, s1, v9
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10			; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX10-NEXT: v_lshrrev_b32_e32 v15, 8, v7			; GFX10-NEXT: v_and_or_b32 v5, v5, s2, v16
	; GFX10-NEXT: v_and_or_b32 v5, v5, s1, v11			; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v11
				; GFX10-NEXT: v_lshlrev_b32_sdwa v18, v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_lshlrev_b32_sdwa v19, v9, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_lshrrev_b32_e32 v13, 24, v7
				; GFX10-NEXT: v_or3_b32 v4, v4, v15, v10
				; GFX10-NEXT: v_or3_b32 v5, v5, v17, v11
				; GFX10-NEXT: v_lshlrev_b32_sdwa v20, v8, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				; GFX10-NEXT: v_and_or_b32 v6, v6, v1, v18
	; GFX10-NEXT: v_lshlrev_b32_e32 v12, 24, v12			; GFX10-NEXT: v_lshlrev_b32_e32 v12, 24, v12
	; GFX10-NEXT: v_lshlrev_b32_sdwa v13, v8, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v9, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v19, v6, s1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v13
	; GFX10-NEXT: v_lshrrev_b32_e32 v16, 24, v7			; GFX10-NEXT: v_and_or_b32 v7, v7, v1, v20
	; GFX10-NEXT: v_or3_b32 v4, v4, v17, v10			; GFX10-NEXT: v_cndmask_b32_e32 v11, v4, v5, vcc_lo
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v14			; GFX10-NEXT: v_or3_b32 v6, v6, v19, v12
	; GFX10-NEXT: v_and_or_b32 v6, v6, s1, v13
	; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v8, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_or3_b32 v5, v5, v18, v12
	; GFX10-NEXT: v_and_b32_sdwa v20, v7, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v16
	; GFX10-NEXT: v_or3_b32 v6, v6, v19, v9
	; GFX10-NEXT: v_and_or_b32 v7, v7, v1, v11
	; GFX10-NEXT: v_cndmask_b32_e32 v9, v4, v5, vcc_lo
	; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v3			; GFX10-NEXT: v_cmp_eq_u32_e64 s0, 2, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, v0, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v12, v0, v1
				; GFX10-NEXT: v_or3_b32 v7, v7, v14, v10
	; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v3			; GFX10-NEXT: v_cmp_eq_u32_e64 s1, 3, v3
	; GFX10-NEXT: v_or3_b32 v7, v7, v20, v10
	; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX10-NEXT: v_cndmask_b32_e64 v9, v9, v6, s0			; GFX10-NEXT: v_cndmask_b32_e64 v10, v11, v6, s0
	; GFX10-NEXT: v_xor_b32_e32 v2, -1, v11			; GFX10-NEXT: v_xor_b32_e32 v2, -1, v12
	; GFX10-NEXT: v_cndmask_b32_e64 v9, v9, v7, s1			; GFX10-NEXT: v_cmp_eq_u32_e64 s2, 0, v3
	; GFX10-NEXT: v_and_or_b32 v0, v9, v2, v0			; GFX10-NEXT: v_cndmask_b32_e64 v10, v10, v7, s1
				; GFX10-NEXT: v_and_or_b32 v0, v10, v2, v0
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v4, v0, s2			; GFX10-NEXT: v_cndmask_b32_e64 v2, v4, v0, s2
	; GFX10-NEXT: v_cndmask_b32_e64 v4, v6, v0, s0			; GFX10-NEXT: v_cndmask_b32_e64 v4, v6, v0, s0
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v5, v0, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v5, v0, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v7, v0, s1			; GFX10-NEXT: v_cndmask_b32_e64 v0, v7, v0, s1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 8, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX10-NEXT: v_lshrrev_b32_e32 v10, 8, v4			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 8, v3			; GFX10-NEXT: v_lshlrev_b32_sdwa v11, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v12, 8, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v15, v8, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX10-NEXT: v_lshrrev_b32_e32 v9, 24, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v10, 24, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v11, 24, v4			; GFX10-NEXT: v_lshlrev_b32_sdwa v13, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v13, 24, v0			; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; GFX10-NEXT: v_lshlrev_b32_sdwa v5, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v12, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v7, v8, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_sdwa v16, v9, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_lshlrev_b32_sdwa v10, v8, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_and_or_b32 v2, v2, v1, v11
	; GFX10-NEXT: v_lshlrev_b32_sdwa v8, v8, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX10-NEXT: v_and_b32_sdwa v14, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v4, v4, v1, v15
	; GFX10-NEXT: v_and_b32_sdwa v15, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX10-NEXT: v_and_b32_sdwa v16, v4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v14, v9, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v2, v2, v1, v5			; GFX10-NEXT: v_lshlrev_b32_sdwa v9, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_sdwa v17, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_and_or_b32 v8, v0, v1, v8
				; GFX10-NEXT: v_and_or_b32 v3, v3, v1, v13
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX10-NEXT: v_and_or_b32 v5, v0, v1, v8			; GFX10-NEXT: v_lshlrev_b32_e32 v10, 24, v10
	; GFX10-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX10-NEXT: v_or3_b32 v0, v2, v12, v5
	; GFX10-NEXT: v_lshlrev_b32_e32 v11, 24, v11			; GFX10-NEXT: v_or3_b32 v2, v4, v16, v7
	; GFX10-NEXT: v_lshlrev_b32_e32 v12, 24, v13
	; GFX10-NEXT: v_and_or_b32 v3, v3, v1, v7
	; GFX10-NEXT: v_and_or_b32 v4, v4, v1, v10
	; GFX10-NEXT: v_or3_b32 v0, v2, v14, v6
	; GFX10-NEXT: v_or3_b32 v1, v3, v15, v9
	; GFX10-NEXT: v_or3_b32 v2, v4, v16, v11
	; GFX10-NEXT: v_or3_b32 v3, v5, v17, v12
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
				; GFX10-NEXT: v_or3_b32 v1, v3, v14, v6
				; GFX10-NEXT: v_or3_b32 v3, v8, v9, v10
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v5, 0
	; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off			; GFX10-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr			%vec = load <16 x i8>, <16 x i8> addrspace(1)* %ptr
	%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx			%insert = insertelement <16 x i8> %vec, i8 %val, i32 %idx
	store <16 x i8> %insert, <16 x i8> addrspace(1)* null			store <16 x i8> %insert, <16 x i8> addrspace(1)* null
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-sbfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=instruction-select -verify-machineinstrs -o - %s \| FileCheck %s

				# The only instruction selection cases for G_SBFX/G_UBFX are the 64-bit
				# vector versions. All other versions, scalar and 32-bit vector, are
				# expanded during register bank selection.

				---
				name: sbfx_s32_vii
				legalized: true
				regBankSelected: true
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0
				; CHECK-LABEL: name: sbfx_s32_vii
				; CHECK: liveins: $vgpr0
				; CHECK: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
				; CHECK: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 10, implicit $exec
				; CHECK: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[COPY]], [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_1]], implicit $exec
				; CHECK: S_ENDPGM 0, implicit [[V_BFE_I32_e64_]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = G_CONSTANT i32 2
				%2:vgpr(s32) = G_CONSTANT i32 10
				%3:vgpr(s32) = G_SBFX %0, %1(s32), %2
				S_ENDPGM 0, implicit %3
				...

				---
				name: sbfx_s32_vvv
				legalized: true
				regBankSelected: true
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK-LABEL: name: sbfx_s32_vvv
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK: [[V_BFE_I32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_I32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; CHECK: S_ENDPGM 0, implicit [[V_BFE_I32_e64_]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = COPY $vgpr1
				%2:vgpr(s32) = COPY $vgpr2
				%3:vgpr(s32) = G_SBFX %0, %1(s32), %2
				S_ENDPGM 0, implicit %3
				...
				arsenmUnsubmitted Not Done Reply Inline Actions Doesn't cover the scalar cases arsenm: Doesn't cover the scalar cases
				bcahoonAuthorUnsubmitted Done Reply Inline Actions Scalar cases are expanded in the RegBankSelect pass. bcahoon: Scalar cases are expanded in the RegBankSelect pass.

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-ubfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=instruction-select -verify-machineinstrs -o - %s \| FileCheck %s

				# The only simple instruction selection for G_SBFX/G_UBFX are the 64-bit
				arsenmUnsubmitted Done Reply Inline Actions There's no real reason to check both wave sizes here arsenm: There's no real reason to check both wave sizes here
				# vector versions. All other versions are expanded during register bank
				# selection.

				---
				name: ubfx_s32_vii
				legalized: true
				regBankSelected: true
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0
				; WAVE64-LABEL: name: ubfx_s32_vii
				; WAVE64: liveins: $vgpr0
				; WAVE64: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; WAVE64: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
				; WAVE64: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 10, implicit $exec
				; WAVE64: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_1]], implicit $exec
				; WAVE64: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				; WAVE32-LABEL: name: ubfx_s32_vii
				; WAVE32: liveins: $vgpr0
				; WAVE32: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; WAVE32: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
				; WAVE32: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 10, implicit $exec
				; WAVE32: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_1]], implicit $exec
				; WAVE32: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				; CHECK-LABEL: name: ubfx_s32_vii
				; CHECK: liveins: $vgpr0
				; CHECK: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
				; CHECK: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 10, implicit $exec
				; CHECK: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_1]], implicit $exec
				; CHECK: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = G_CONSTANT i32 2
				%2:vgpr(s32) = G_CONSTANT i32 10
				%3:vgpr(s32) = G_UBFX %0, %1(s32), %2
				S_ENDPGM 0, implicit %3
				...

				---
				name: ubfx_s32_vvv
				legalized: true
				regBankSelected: true
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				; WAVE64-LABEL: name: ubfx_s32_vvv
				; WAVE64: liveins: $vgpr0, $vgpr1, $vgpr2
				; WAVE64: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; WAVE64: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; WAVE64: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; WAVE64: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; WAVE64: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				; WAVE32-LABEL: name: ubfx_s32_vvv
				; WAVE32: liveins: $vgpr0, $vgpr1, $vgpr2
				; WAVE32: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; WAVE32: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; WAVE32: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; WAVE32: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; WAVE32: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				; CHECK-LABEL: name: ubfx_s32_vvv
				arsenmUnsubmitted Not Done Reply Inline Actions Doesn't cover the scalar cases arsenm: Doesn't cover the scalar cases
				bcahoonAuthorUnsubmitted Done Reply Inline Actions Scalar cases are expanded during the RegBankSelect pass. bcahoon: Scalar cases are expanded during the RegBankSelect pass.
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; CHECK: S_ENDPGM 0, implicit [[V_BFE_U32_e64_]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = COPY $vgpr1
				%2:vgpr(s32) = COPY $vgpr2
				%3:vgpr(s32) = G_UBFX %0, %1(s32), %2
				S_ENDPGM 0, implicit %3
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sbfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				...
				---
				name: test_sbfx_s32
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GCN-LABEL: name: test_sbfx_s32
				; GCN: %copy:_(s32) = COPY $vgpr0
				; GCN: %offset:_(s32) = COPY $vgpr1
				; GCN: %width:_(s32) = COPY $vgpr2
				; GCN: %sbfx:_(s32) = G_SBFX %copy, %offset(s32), %width
				; GCN: $vgpr0 = COPY %sbfx(s32)
				%copy:_(s32) = COPY $vgpr0
				%offset:_(s32) = COPY $vgpr1
				%width:_(s32) = COPY $vgpr2
				%sbfx:_(s32) = G_SBFX %copy, %offset(s32), %width
				$vgpr0 = COPY %sbfx(s32)
				...

				---
				name: test_sbfx_s64
				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $vgpr2, $vgpr3

				; GVN-LABEL: name: test_sbfx_s64
				; GVN: %copy:_(s64) = COPY $vgpr0_vgpr1
				; GVN: %offset:_(s32) = COPY $vgpr2
				; GVN: %width:_(s32) = COPY $vgpr3
				; GVN: %sbfx:_(s64) = G_SBFX %copy, %offset(s32), %width
				; GVN: $vgpr0_vgpr1 = COPY %sbfx(s64)
				%copy:_(s64) = COPY $vgpr0_vgpr1
				%offset:_(s32) = COPY $vgpr2
				%width:_(s32) = COPY $vgpr3
				%sbfx:_(s64) = G_SBFX %copy, %offset(s32), %width
				$vgpr0_vgpr1 = COPY %sbfx(s64)
				...

				---
				name: test_sbfx_s8
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GVN-LABEL: name: test_sbfx_s8
				; GVN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GVN: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; GVN: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; GVN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 255
				; GVN: [[COPY3:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
				; GVN: [[AND:%[0-9]+]]:_(s32) = G_AND [[COPY3]], [[C]]
				; GVN: [[COPY4:%[0-9]+]]:_(s32) = COPY [[COPY2]](s32)
				; GVN: [[AND1:%[0-9]+]]:_(s32) = G_AND [[COPY4]], [[C]]
				; GVN: [[COPY5:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
				; GVN: [[SBFX:%[0-9]+]]:_(s32) = G_SBFX [[COPY5]], [[AND]](s32), [[AND1]]
				; GVN: [[COPY6:%[0-9]+]]:_(s32) = COPY [[SBFX]](s32)
				; GVN: [[SEXT_INREG:%[0-9]+]]:_(s32) = G_SEXT_INREG [[COPY6]], 8
				; GVN: $vgpr0 = COPY [[SEXT_INREG]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%copy:_(s8) = G_TRUNC %0
				%offset:_(s8) = G_TRUNC %1
				%width:_(s8) = G_TRUNC %2
				%sbfx:_(s8) = G_SBFX %copy, %offset, %width
				%4:_(s32) = G_SEXT %sbfx
				$vgpr0 = COPY %4
				...

				---
				name: test_sbfx_s16
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GVN-LABEL: name: test_sbfx_s16
				; GVN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GVN: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; GVN: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; GVN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 65535
				; GVN: [[COPY3:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
				; GVN: [[AND:%[0-9]+]]:_(s32) = G_AND [[COPY3]], [[C]]
				; GVN: [[COPY4:%[0-9]+]]:_(s32) = COPY [[COPY2]](s32)
				; GVN: [[AND1:%[0-9]+]]:_(s32) = G_AND [[COPY4]], [[C]]
				; GVN: [[COPY5:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
				; GVN: [[SBFX:%[0-9]+]]:_(s32) = G_SBFX [[COPY5]], [[AND]](s32), [[AND1]]
				; GVN: [[COPY6:%[0-9]+]]:_(s32) = COPY [[SBFX]](s32)
				; GVN: [[SEXT_INREG:%[0-9]+]]:_(s32) = G_SEXT_INREG [[COPY6]], 16
				; GVN: $vgpr0 = COPY [[SEXT_INREG]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%copy:_(s16) = G_TRUNC %0
				%offset:_(s16) = G_TRUNC %1
				%width:_(s16) = G_TRUNC %2
				%sbfx:_(s16) = G_SBFX %copy, %offset, %width
				%4:_(s32) = G_SEXT %sbfx
				$vgpr0 = COPY %4
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-ubfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -O0 -run-pass=legalizer -global-isel-abort=0 %s -o - \| FileCheck --check-prefix=GCN %s
				...
				---
				name: test_ubfx_s32
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GCN-LABEL: name: test_ubfx_s32
				; GCN: %copy:_(s32) = COPY $vgpr0
				; GCN: %offset:_(s32) = COPY $vgpr1
				; GCN: %width:_(s32) = COPY $vgpr2
				; GCN: %ubfx:_(s32) = G_UBFX %copy, %offset(s32), %width
				; GCN: $vgpr0 = COPY %ubfx(s32)
				%copy:_(s32) = COPY $vgpr0
				%offset:_(s32) = COPY $vgpr1
				%width:_(s32) = COPY $vgpr2
				%ubfx:_(s32) = G_UBFX %copy, %offset(s32), %width
				$vgpr0 = COPY %ubfx(s32)
				...

				---
				name: test_ubfx_s64
				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $vgpr2, $vgpr3

				; GCN-LABEL: name: test_ubfx_s64
				; GCN: %copy:_(s64) = COPY $vgpr0_vgpr1
				; GCN: %offset:_(s32) = COPY $vgpr2
				; GCN: %width:_(s32) = COPY $vgpr3
				; GCN: %ubfx:_(s64) = G_UBFX %copy, %offset(s32), %width
				; GCN: $vgpr0_vgpr1 = COPY %ubfx(s64)
				%copy:_(s64) = COPY $vgpr0_vgpr1
				%offset:_(s32) = COPY $vgpr2
				%width:_(s32) = COPY $vgpr3
				%ubfx:_(s64) = G_UBFX %copy, %offset(s32), %width
				$vgpr0_vgpr1 = COPY %ubfx(s64)
				...

				---
				name: test_ubfx_s8
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GCN-LABEL: name: test_ubfx_s8
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; GCN: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 255
				; GCN: [[COPY3:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
				; GCN: [[AND:%[0-9]+]]:_(s32) = G_AND [[COPY3]], [[C]]
				; GCN: [[COPY4:%[0-9]+]]:_(s32) = COPY [[COPY2]](s32)
				; GCN: [[AND1:%[0-9]+]]:_(s32) = G_AND [[COPY4]], [[C]]
				; GCN: [[COPY5:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
				; GCN: [[UBFX:%[0-9]+]]:_(s32) = G_UBFX [[COPY5]], [[AND]](s32), [[AND1]]
				; GCN: [[COPY6:%[0-9]+]]:_(s32) = COPY [[UBFX]](s32)
				; GCN: [[AND2:%[0-9]+]]:_(s32) = G_AND [[COPY6]], [[C]]
				; GCN: $vgpr0 = COPY [[AND2]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%copy:_(s8) = G_TRUNC %0
				%offset:_(s8) = G_TRUNC %1
				%width:_(s8) = G_TRUNC %2
				%ubfx:_(s8) = G_UBFX %copy, %offset, %width
				arsenmUnsubmitted Not Done Reply Inline Actions Should also test s16 which is more interesting. Also some vectors, in particular <2 x s32>, <2 x s16>, <3 x s16> and <4 x s16> arsenm: Should also test s16 which is more interesting. Also some vectors, in particular <2 x s32>, <2…
				bcahoonAuthorUnsubmitted Done Reply Inline Actions Vector cases are disallowed for G_SBFX/G_UBFX by an explicit check in the MachineVerifier. bcahoon: Vector cases are disallowed for G_SBFX/G_UBFX by an explicit check in the MachineVerifier.
				arsenmUnsubmitted Not Done Reply Inline Actions That doesn't make much sense but OK arsenm: That doesn't make much sense but OK
				%4:_(s32) = G_ZEXT %ubfx
				$vgpr0 = COPY %4
				...

				---
				name: test_ubfx_s16
				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; GCN-LABEL: name: test_ubfx_s16
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; GCN: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 65535
				; GCN: [[COPY3:%[0-9]+]]:_(s32) = COPY [[COPY1]](s32)
				; GCN: [[AND:%[0-9]+]]:_(s32) = G_AND [[COPY3]], [[C]]
				; GCN: [[COPY4:%[0-9]+]]:_(s32) = COPY [[COPY2]](s32)
				; GCN: [[AND1:%[0-9]+]]:_(s32) = G_AND [[COPY4]], [[C]]
				; GCN: [[COPY5:%[0-9]+]]:_(s32) = COPY [[COPY]](s32)
				; GCN: [[UBFX:%[0-9]+]]:_(s32) = G_UBFX [[COPY5]], [[AND]](s32), [[AND1]]
				; GCN: [[COPY6:%[0-9]+]]:_(s32) = COPY [[UBFX]](s32)
				; GCN: [[AND2:%[0-9]+]]:_(s32) = G_AND [[COPY6]], [[C]]
				; GCN: $vgpr0 = COPY [[AND2]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%copy:_(s16) = G_TRUNC %0
				%offset:_(s16) = G_TRUNC %1
				%width:_(s16) = G_TRUNC %2
				%sbfx:_(s16) = G_UBFX %copy, %offset, %width
				%4:_(s32) = G_ZEXT %sbfx
				$vgpr0 = COPY %4
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.ubfe.ll

	Show First 20 Lines • Show All 977 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @lshr_and(i32 addrspace(1)* %out, i32 %a) #0 {			define amdgpu_kernel void @lshr_and(i32 addrspace(1)* %out, i32 %a) #0 {
	; GFX6-LABEL: lshr_and:			; GFX6-LABEL: lshr_and:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dword s0, s[0:1], 0xb			; GFX6-NEXT: s_load_dword s0, s[0:1], 0xb
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshr_b32 s0, s0, 6			; GFX6-NEXT: s_bfe_u32 s0, s0, 0x30006
	; GFX6-NEXT: s_and_b32 s0, s0, 7
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	%b = lshr i32 %a, 6			%b = lshr i32 %a, 6
	%c = and i32 %b, 7			%c = and i32 %b, 7
	store i32 %c, i32 addrspace(1)* %out, align 8			store i32 %c, i32 addrspace(1)* %out, align 8
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.workitem.id.ll

	Show All 30 Lines
	; MESA: .long 47180			; MESA: .long 47180
	; MESA-NEXT: .long 2180{{$}}			; MESA-NEXT: .long 2180{{$}}

	; ALL-LABEL: {{^}}test_workitem_id_y:			; ALL-LABEL: {{^}}test_workitem_id_y:
	; CO-V2: enable_vgpr_workitem_id = 1			; CO-V2: enable_vgpr_workitem_id = 1
	; CO-V2-NOT: v1			; CO-V2-NOT: v1
	; CO-V2: {{buffer\|flat}}_store_dword {{.*}}v1			; CO-V2: {{buffer\|flat}}_store_dword {{.*}}v1

	; PACKED-TID: v_lshrrev_b32_e32 [[ID:v[0-9]+]], 10, v0			; PACKED-TID: v_bfe_u32 [[ID:v[0-9]+]], v0, 10, 10
	; PACKED-TID: v_and_b32_e32 [[ID]], 0x3ff, [[ID]]
	; PACKED-TID: {{buffer\|flat\|global}}_store_dword {{.*}}[[ID]]			; PACKED-TID: {{buffer\|flat\|global}}_store_dword {{.*}}[[ID]]
	; PACKED-TID: .amdhsa_system_vgpr_workitem_id 1			; PACKED-TID: .amdhsa_system_vgpr_workitem_id 1
	define amdgpu_kernel void @test_workitem_id_y(i32 addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_workitem_id_y(i32 addrspace(1)* %out) #1 {
	%id = call i32 @llvm.amdgcn.workitem.id.y()			%id = call i32 @llvm.amdgcn.workitem.id.y()
	store i32 %id, i32 addrspace(1)* %out			store i32 %id, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; MESA: .section .AMDGPU.config			; MESA: .section .AMDGPU.config
	; MESA: .long 47180			; MESA: .long 47180
	; MESA-NEXT: .long 4228{{$}}			; MESA-NEXT: .long 4228{{$}}

	; ALL-LABEL: {{^}}test_workitem_id_z:			; ALL-LABEL: {{^}}test_workitem_id_z:
	; CO-V2: enable_vgpr_workitem_id = 2			; CO-V2: enable_vgpr_workitem_id = 2
	; CO-V2-NOT: v2			; CO-V2-NOT: v2
	; CO-V2: {{buffer\|flat}}_store_dword {{.*}}v2			; CO-V2: {{buffer\|flat}}_store_dword {{.*}}v2

	; PACKED-TID: v_lshrrev_b32_e32 [[ID:v[0-9]+]], 20, v0			; PACKED-TID: v_bfe_u32 [[ID:v[0-9]+]], v0, 20, 10
	; PACKED-TID: v_and_b32_e32 [[ID]], 0x3ff, [[ID]]
	; PACKED-TID: {{buffer\|flat\|global}}_store_dword {{.*}}[[ID]]			; PACKED-TID: {{buffer\|flat\|global}}_store_dword {{.*}}[[ID]]
	; PACKED-TID: .amdhsa_system_vgpr_workitem_id 2			; PACKED-TID: .amdhsa_system_vgpr_workitem_id 2
	define amdgpu_kernel void @test_workitem_id_z(i32 addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_workitem_id_z(i32 addrspace(1)* %out) #1 {
	%id = call i32 @llvm.amdgcn.workitem.id.z()			%id = call i32 @llvm.amdgcn.workitem.id.z()
	store i32 %id, i32 addrspace(1)* %out			store i32 %id, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	Show All 37 Lines
	; MESA-NEXT: v_and_b32_e32 v2, 0x3ff, v2			; MESA-NEXT: v_and_b32_e32 v2, 0x3ff, v2
	define void @test_workitem_id_x_func(i32 addrspace(1)* %out) #1 {			define void @test_workitem_id_x_func(i32 addrspace(1)* %out) #1 {
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	store i32 %id, i32 addrspace(1)* %out			store i32 %id, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; ALL-LABEL: {{^}}test_workitem_id_y_func:			; ALL-LABEL: {{^}}test_workitem_id_y_func:
	; HSA: v_lshrrev_b32_e32 v2, 10, v2			; HSA: v_bfe_u32 v2, v2, 10, 10
	; MESA: v_lshrrev_b32_e32 v2, 10, v2			; MESA: v_bfe_u32 v2, v2, 10, 10
	define void @test_workitem_id_y_func(i32 addrspace(1)* %out) #1 {			define void @test_workitem_id_y_func(i32 addrspace(1)* %out) #1 {
	%id = call i32 @llvm.amdgcn.workitem.id.y()			%id = call i32 @llvm.amdgcn.workitem.id.y()
	store i32 %id, i32 addrspace(1)* %out			store i32 %id, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; ALL-LABEL: {{^}}test_workitem_id_z_func:			; ALL-LABEL: {{^}}test_workitem_id_z_func:
	; HSA: v_lshrrev_b32_e32 v2, 20, v2			; HSA: v_bfe_u32 v2, v2, 20, 10
	; MESA: v_lshrrev_b32_e32 v2, 20, v2			; MESA: v_bfe_u32 v2, v2, 20, 10
	define void @test_workitem_id_z_func(i32 addrspace(1)* %out) #1 {			define void @test_workitem_id_z_func(i32 addrspace(1)* %out) #1 {
	%id = call i32 @llvm.amdgcn.workitem.id.z()			%id = call i32 @llvm.amdgcn.workitem.id.z()
	store i32 %id, i32 addrspace(1)* %out			store i32 %id, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind readnone }			attributes #0 = { nounwind readnone }
	attributes #1 = { nounwind }			attributes #1 = { nounwind }

llvm/test/CodeGen/AMDGPU/GlobalISel/postlegalizercombiner-sbfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck --check-prefix=GCN %s

				---
				name: bfe_sext_inreg_ashr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: bfe_sext_inreg_ashr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GCN: [[SBFX:%[0-9]+]]:_(s32) = G_SBFX [[COPY]], [[C]](s32), [[C1]]
				; GCN: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 4
				%2:_(s32) = G_ASHR %0, %1(s32)
				%3:_(s32) = COPY %2(s32)
				%4:_(s32) = G_SEXT_INREG %3, 16
				$vgpr0 = COPY %4(s32)
				...

				---
				name: bfe_sext_inreg_lshr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: bfe_sext_inreg_lshr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GCN: [[SBFX:%[0-9]+]]:_(s32) = G_SBFX [[COPY]], [[C]](s32), [[C1]]
				; GCN: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 4
				%2:_(s32) = G_LSHR %0, %1(s32)
				%3:_(s32) = COPY %2(s32)
				%4:_(s32) = G_SEXT_INREG %3, 16
				$vgpr0 = COPY %4(s32)
				...

				---
				name: bfe_sext_inreg_ashr_s64
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; GCN-LABEL: name: bfe_sext_inreg_ashr_s64
				; GCN: liveins: $vgpr0_vgpr1
				; GCN: [[COPY:%[0-9]+]]:_(s64) = COPY $vgpr0_vgpr1
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 4
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GCN: [[SBFX:%[0-9]+]]:_(s64) = G_SBFX [[COPY]], [[C]](s32), [[C1]]
				; GCN: $vgpr0_vgpr1 = COPY [[SBFX]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 4
				%2:_(s64) = G_ASHR %0, %1(s32)
				%3:_(s64) = COPY %2(s64)
				%4:_(s64) = G_SEXT_INREG %3, 16
				$vgpr0_vgpr1 = COPY %4(s64)
				...

				---
				name: toobig_sext_inreg_ashr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: toobig_sext_inreg_ashr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16
				; GCN: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[COPY]], [[C]](s32)
				; GCN: [[SEXT_INREG:%[0-9]+]]:_(s32) = G_SEXT_INREG [[ASHR]], 20
				; GCN: $vgpr0 = COPY [[SEXT_INREG]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 16
				%2:_(s32) = G_ASHR %0, %1(s32)
				%3:_(s32) = COPY %2(s32)
				%4:_(s32) = G_SEXT_INREG %3, 20
				$vgpr0 = COPY %4(s32)
				...

				---
				name: toobig_sext_inreg_ashr_s64
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; GCN-LABEL: name: toobig_sext_inreg_ashr_s64
				; GCN: liveins: $vgpr0_vgpr1
				; GCN: [[COPY:%[0-9]+]]:_(s64) = COPY $vgpr0_vgpr1
				; GCN: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[COPY]](s64)
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 31
				; GCN: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[UV1]], [[C]](s32)
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 8
				; GCN: [[ASHR1:%[0-9]+]]:_(s32) = G_ASHR [[UV1]], [[C1]](s32)
				; GCN: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[ASHR1]](s32), [[ASHR]](s32)
				; GCN: [[SEXT_INREG:%[0-9]+]]:_(s64) = G_SEXT_INREG [[MV]], 32
				; GCN: $vgpr0_vgpr1 = COPY [[SEXT_INREG]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 40
				%2:_(s64) = G_ASHR %0, %1(s32)
				%3:_(s64) = COPY %2(s64)
				%4:_(s64) = G_SEXT_INREG %3, 32
				$vgpr0_vgpr1 = COPY %4(s64)
				...

				---
				name: var_sext_inreg_ashr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1

				; GCN-LABEL: name: var_sext_inreg_ashr_s32
				; GCN: liveins: $vgpr0, $vgpr1
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; GCN: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[COPY]], [[COPY1]](s32)
				; GCN: [[SEXT_INREG:%[0-9]+]]:_(s32) = G_SEXT_INREG [[ASHR]], 10
				; GCN: $vgpr0 = COPY [[SEXT_INREG]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = G_ASHR %0, %1(s32)
				%3:_(s32) = COPY %2(s32)
				%4:_(s32) = G_SEXT_INREG %3, 10
				$vgpr0 = COPY %4(s32)
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/postlegalizercombiner-ubfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck --check-prefix=GCN %s
				# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck --check-prefix=GCN %s

				---
				name: bfe_and_lshr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: bfe_and_lshr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 5
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 8
				; GCN: [[UBFX:%[0-9]+]]:_(s32) = G_UBFX [[COPY]], [[C1]](s32), [[C]]
				; GCN: $vgpr0 = COPY [[UBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 8
				%2:_(s32) = G_LSHR %0, %1(s32)
				%3:_(s32) = G_CONSTANT i32 31
				%4:_(s32) = G_AND %2, %3
				$vgpr0 = COPY %4(s32)

				...

				---
				name: bfe_and_lshr_s64
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; GCN-LABEL: name: bfe_and_lshr_s64
				; GCN: liveins: $vgpr0_vgpr1
				; GCN: [[COPY:%[0-9]+]]:_(s64) = COPY $vgpr0_vgpr1
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 8
				; GCN: [[UBFX:%[0-9]+]]:_(s64) = G_UBFX [[COPY]], [[C1]](s32), [[C]]
				; GCN: $vgpr0_vgpr1 = COPY [[UBFX]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 8
				%2:_(s64) = G_LSHR %0, %1(s32)
				%3:_(s64) = G_CONSTANT i64 1023
				%4:_(s64) = G_AND %2, %3
				$vgpr0_vgpr1 = COPY %4(s64)

				...

				---
				name: toobig_and_lshr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: toobig_and_lshr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 28
				; GCN: [[LSHR:%[0-9]+]]:_(s32) = G_LSHR [[COPY]], [[C]](s32)
				; GCN: $vgpr0 = COPY [[LSHR]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 28
				%2:_(s32) = G_LSHR %0, %1(s32)
				%3:_(s32) = G_CONSTANT i32 511
				%4:_(s32) = G_AND %2, %3
				$vgpr0 = COPY %4(s32)

				...

				---
				name: bfe_and_ashr_s32
				legalized: true
				tracksRegLiveness: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; GCN-LABEL: name: bfe_and_ashr_s32
				; GCN: liveins: $vgpr0
				; GCN: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; GCN: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 8
				; GCN: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[COPY]], [[C]](s32)
				; GCN: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 31
				; GCN: [[AND:%[0-9]+]]:_(s32) = G_AND [[ASHR]], [[C1]]
				; GCN: $vgpr0 = COPY [[AND]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 8
				%2:_(s32) = G_ASHR %0, %1(s32)
				%3:_(s32) = G_CONSTANT i32 31
				%4:_(s32) = G_AND %2, %3
				$vgpr0 = COPY %4(s32)

				...

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-sbfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-fast -verify-machineinstrs -o - %s \| FileCheck %s
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-greedy -verify-machineinstrs -o - %s \| FileCheck %s

				...

				# Generate the 3 operand vector bitfield extract instructions for 32-bit
				# operations only.
				---
				name: test_sbfx_s32_vvv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_sbfx_s32_vvv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[COPY]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				---
				name: test_sbfx_s32_vii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; CHECK-LABEL: name: test_sbfx_s32_vii
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 4
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[COPY]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 10
				%2:_(s32) = G_CONSTANT i32 4
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				---
				name: test_sbfx_s32_vss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0, $sgpr0, $sgpr1

				; CHECK-LABEL: name: test_sbfx_s32_vss
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; CHECK: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[COPY]], [[COPY3]](s32), [[COPY4]]
				; CHECK: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $sgpr0
				%2:_(s32) = COPY $sgpr1
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				# Expand to a sequence that implements the 64-bit bitfield extract using
				# shifts and masks.
				---
				name: test_sbfx_s64_vvv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $vgpr2, $vgpr3

				; CHECK-LABEL: name: test_sbfx_s64_vvv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
				; CHECK: [[ASHR:%[0-9]+]]:vgpr(s64) = G_ASHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[ASHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[ASHR]], [[SUB]](s32)
				; CHECK: [[ASHR1:%[0-9]+]]:vgpr(s64) = G_ASHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = COPY $vgpr2
				%2:_(s32) = COPY $vgpr3
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_sbfx_s64_vss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $sgpr0, $sgpr1

				; CHECK-LABEL: name: test_sbfx_s64_vss
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[ASHR:%[0-9]+]]:vgpr(s64) = G_ASHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[ASHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[ASHR]], [[SUB]](s32)
				; CHECK: [[ASHR1:%[0-9]+]]:vgpr(s64) = G_ASHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				# If the offset and width are constants, use the 32-bit bitfield extract,
				# and merge to create a 64-bit result.
				---
				name: test_sbfx_s64_vii_small
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; CHECK-LABEL: name: test_sbfx_s64_vii_small
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 31
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 4
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[ASHR:%[0-9]+]]:vgpr(s64) = G_ASHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[ASHR]](s64)
				; CHECK: [[C2:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[UV]], [[C2]](s32), [[COPY2]]
				; CHECK: [[C3:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 31
				; CHECK: [[ASHR1:%[0-9]+]]:vgpr(s32) = G_ASHR [[SBFX]], [[C3]](s32)
				; CHECK: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[SBFX]](s32), [[ASHR1]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY [[MV]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 31
				%2:_(s32) = G_CONSTANT i32 4
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_sbfx_s64_vii_big
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; CHECK-LABEL: name: test_sbfx_s64_vii_big
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 8
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 40
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[ASHR:%[0-9]+]]:vgpr(s64) = G_ASHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[ASHR]](s64)
				; CHECK: [[C2:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
				; CHECK: [[C3:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 8
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[UV1]], [[C2]](s32), [[C3]]
				; CHECK: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UV]](s32), [[SBFX]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY [[MV]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 8
				%2:_(s32) = G_CONSTANT i32 40
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_sbfx_s64_svv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1, $vgpr0, $vgpr1

				; CHECK-LABEL: name: test_sbfx_s64_svv
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s64) = COPY [[COPY]](s64)
				; CHECK: [[ASHR:%[0-9]+]]:vgpr(s64) = G_ASHR [[COPY3]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[ASHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[ASHR]], [[SUB]](s32)
				; CHECK: [[ASHR1:%[0-9]+]]:vgpr(s64) = G_ASHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				# Expand to a sequence that combines the offset and width for the two operand
				# version of the 32-bit instruction.
				---
				name: test_sbfx_s32_svv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0, $vgpr0, $vgpr1

				; CHECK-LABEL: name: test_sbfx_s32_svv
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; CHECK: [[SBFX:%[0-9]+]]:vgpr(s32) = G_SBFX [[COPY3]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[SBFX]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				---
				name: test_sbfx_s32_sss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0, $sgpr1, $sgpr3

				; CHECK-LABEL: name: test_sbfx_s32_sss
				; CHECK: [[COPY:%[0-9]+]]:sreg_32(s32) = COPY $sgpr0
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[COPY1]], [[C]]
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[COPY2]], [[C1]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_I32_:%[0-9]+]]:sreg_32(s32) = S_BFE_I32 [[COPY]](s32), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0 = COPY [[S_BFE_I32_]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $sgpr2
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$sgpr0 = COPY %3(s32)
				...

				---
				name: test_sbfx_s32_sii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0

				; CHECK-LABEL: name: test_sbfx_s32_sii
				; CHECK: [[COPY:%[0-9]+]]:sreg_32(s32) = COPY $sgpr0
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[C]], [[C2]]
				; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[C1]], [[C3]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_I32_:%[0-9]+]]:sreg_32(s32) = S_BFE_I32 [[COPY]](s32), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0 = COPY [[S_BFE_I32_]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = G_CONSTANT i32 1
				%2:_(s32) = G_CONSTANT i32 10
				%3:_(s32) = G_SBFX %0, %1(s32), %2
				$sgpr0 = COPY %3(s32)
				...

				# Expand to a sequence that combines the offset and width for the two operand
				# version of the 64-bit scalar instruction.
				---
				name: test_sbfx_s64_sss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1, $sgpr0, $sgpr1

				; CHECK-LABEL: name: test_sbfx_s64_sss
				; CHECK: [[COPY:%[0-9]+]]:sreg_64(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[COPY1]], [[C]]
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[COPY2]], [[C1]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_I64_:%[0-9]+]]:sreg_64(s64) = S_BFE_I64 [[COPY]](s64), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0_sgpr1 = COPY [[S_BFE_I64_]](s64)
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = COPY $sgpr0
				%2:_(s32) = COPY $sgpr1
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				$sgpr0_sgpr1 = COPY %3(s64)
				...

				---
				name: test_sbfx_s64_sii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1

				; CHECK-LABEL: name: test_sbfx_s64_sii
				; CHECK: [[COPY:%[0-9]+]]:sreg_64(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[C]], [[C2]]
				; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[C1]], [[C3]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_I64_:%[0-9]+]]:sreg_64(s64) = S_BFE_I64 [[COPY]](s64), [[OR]](s32), implicit-def $scc
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = G_CONSTANT i32 1
				%2:_(s32) = G_CONSTANT i32 10
				%3:_(s64) = G_SBFX %0, %1(s32), %2
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-ubfx.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-fast -verify-machineinstrs -o - %s \| FileCheck %s
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect -regbankselect-greedy -verify-machineinstrs -o - %s \| FileCheck %s

				...

				# Generate the 3 operand vector bitfield extract instructions for 32-bit
				# operations only.
				---
				name: test_ubfx_s32_vvv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_ubfx_s32_vvv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[COPY]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[UBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				arsenmUnsubmitted Done Reply Inline Actions You can technically get away with this now, but I would prefer to have a use for all of the results. The other passes all tend to DCE instructions as they go, and someday regbankselect may start doing this arsenm: You can technically get away with this now, but I would prefer to have a use for all of the…
				...

				---
				name: test_ubfx_s32_vii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0

				; CHECK-LABEL: name: test_ubfx_s32_vii
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 4
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[COPY]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[UBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_CONSTANT i32 10
				%2:_(s32) = G_CONSTANT i32 4
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				---
				name: test_ubfx_s32_vss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0, $sgpr0, $sgpr1

				; CHECK-LABEL: name: test_ubfx_s32_vss
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; CHECK: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[COPY]], [[COPY3]](s32), [[COPY4]]
				; CHECK: $vgpr0 = COPY [[UBFX]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $sgpr0
				%2:_(s32) = COPY $sgpr1
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				# Expand to a sequence that implements the 64-bit bitfield extract using
				# shifts and masks.
				---
				name: test_ubfx_s64_vvv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $vgpr2, $vgpr3

				; CHECK-LABEL: name: test_ubfx_s64_vvv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
				; CHECK: [[LSHR:%[0-9]+]]:vgpr(s64) = G_LSHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[LSHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[LSHR]], [[SUB]](s32)
				; CHECK: [[LSHR1:%[0-9]+]]:vgpr(s64) = G_LSHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = COPY $vgpr2
				%2:_(s32) = COPY $vgpr3
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_ubfx_s64_vss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1, $sgpr0, $sgpr1

				; CHECK-LABEL: name: test_ubfx_s64_vss
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[LSHR:%[0-9]+]]:vgpr(s64) = G_LSHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[LSHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[LSHR]], [[SUB]](s32)
				; CHECK: [[LSHR1:%[0-9]+]]:vgpr(s64) = G_LSHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				# If the offset and width are constants, use the 32-bit bitfield extract,
				# and merge to create a 64-bit result.
				---
				name: test_ubfx_s64_vii_small
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; CHECK-LABEL: name: test_ubfx_s64_vii_small
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 31
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 4
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[LSHR:%[0-9]+]]:vgpr(s64) = G_LSHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[LSHR]](s64)
				; CHECK: [[C2:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[UV]], [[C2]](s32), [[COPY2]]
				; CHECK: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UBFX]](s32), [[C2]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY [[MV]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 31
				%2:_(s32) = G_CONSTANT i32 4
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_ubfx_s64_vii_big
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $vgpr0_vgpr1

				; CHECK-LABEL: name: test_ubfx_s64_vii_big
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s64) = COPY $vgpr0_vgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 8
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 40
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
				; CHECK: [[LSHR:%[0-9]+]]:vgpr(s64) = G_LSHR [[COPY]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[LSHR]](s64)
				; CHECK: [[C2:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
				; CHECK: [[C3:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 8
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[UV1]], [[C2]](s32), [[C3]]
				; CHECK: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UV]](s32), [[UBFX]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY [[MV]](s64)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s32) = G_CONSTANT i32 8
				%2:_(s32) = G_CONSTANT i32 40
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				---
				name: test_ubfx_s64_svv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1, $vgpr0, $vgpr1

				; CHECK-LABEL: name: test_ubfx_s64_svv
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s64) = COPY [[COPY]](s64)
				; CHECK: [[LSHR:%[0-9]+]]:vgpr(s64) = G_LSHR [[COPY3]], [[COPY1]](s32)
				; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[LSHR]](s64)
				; CHECK: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 64
				; CHECK: [[SUB:%[0-9]+]]:vgpr(s32) = G_SUB [[C]], [[COPY2]]
				; CHECK: [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[LSHR]], [[SUB]](s32)
				; CHECK: [[LSHR1:%[0-9]+]]:vgpr(s64) = G_LSHR [[SHL]], [[SUB]](s32)
				; CHECK: $vgpr0_vgpr1 = COPY %3:vgpr(s64)
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$vgpr0_vgpr1 = COPY %3(s64)
				...

				# Expand to a sequence that combines the offset and width for the two operand
				# version of the 32-bit instruction.
				---
				name: test_ubfx_s32_svv
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0, $vgpr0, $vgpr1

				; CHECK-LABEL: name: test_ubfx_s32_svv
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; CHECK: [[UBFX:%[0-9]+]]:vgpr(s32) = G_UBFX [[COPY3]], [[COPY1]](s32), [[COPY2]]
				; CHECK: $vgpr0 = COPY [[UBFX]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$vgpr0 = COPY %3(s32)
				...

				---
				name: test_ubfx_s32_sss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0, $sgpr1, $sgpr2

				; CHECK-LABEL: name: test_ubfx_s32_sss
				; CHECK: [[COPY:%[0-9]+]]:sreg_32(s32) = COPY $sgpr0
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[COPY1]], [[C]]
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[COPY2]], [[C1]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_U32_:%[0-9]+]]:sreg_32(s32) = S_BFE_U32 [[COPY]](s32), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0 = COPY [[S_BFE_U32_]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $sgpr2
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$sgpr0 = COPY %3(s32)
				...

				---
				name: test_ubfx_s32_sii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0, $sgpr1, $sgpr2

				; CHECK-LABEL: name: test_ubfx_s32_sii
				; CHECK: [[COPY:%[0-9]+]]:sreg_32(s32) = COPY $sgpr0
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[C]], [[C2]]
				; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[C1]], [[C3]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_U32_:%[0-9]+]]:sreg_32(s32) = S_BFE_U32 [[COPY]](s32), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0 = COPY [[S_BFE_U32_]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = G_CONSTANT i32 1
				%2:_(s32) = G_CONSTANT i32 10
				%3:_(s32) = G_UBFX %0, %1(s32), %2
				$sgpr0 = COPY %3(s32)
				...

				# Expand to a sequence that combines the offset and width for the two operand
				# version of the 64-bit scalar instruction.
				---
				name: test_ubfx_s64_sss
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1, $sgpr2, $sgpr3

				; CHECK-LABEL: name: test_ubfx_s64_sss
				; CHECK: [[COPY:%[0-9]+]]:sreg_64(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[COPY1]], [[C]]
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[COPY2]], [[C1]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_U64_:%[0-9]+]]:sreg_64(s64) = S_BFE_U64 [[COPY]](s64), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0_sgpr1 = COPY [[S_BFE_U64_]](s64)
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = COPY $sgpr2
				%2:_(s32) = COPY $sgpr3
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$sgpr0_sgpr1 = COPY %3(s64)
				...

				---
				name: test_ubfx_s64_sii
				legalized: true

				body: \|
				bb.0.entry:
				liveins: $sgpr0_sgpr1

				; CHECK-LABEL: name: test_ubfx_s64_sii
				; CHECK: [[COPY:%[0-9]+]]:sreg_64(s64) = COPY $sgpr0_sgpr1
				; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
				; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
				; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 63
				; CHECK: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[C]], [[C2]]
				; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 16
				; CHECK: [[SHL:%[0-9]+]]:sgpr(s32) = G_SHL [[C1]], [[C3]](s32)
				; CHECK: [[OR:%[0-9]+]]:sreg_32(s32) = G_OR [[AND]], [[SHL]]
				; CHECK: [[S_BFE_U64_:%[0-9]+]]:sreg_64(s64) = S_BFE_U64 [[COPY]](s64), [[OR]](s32), implicit-def $scc
				; CHECK: $sgpr0_sgpr1 = COPY [[S_BFE_U64_]](s64)
				%0:_(s64) = COPY $sgpr0_sgpr1
				%1:_(s32) = G_CONSTANT i32 1
				%2:_(s32) = G_CONSTANT i32 10
				%3:_(s64) = G_UBFX %0, %1(s32), %2
				$sgpr0_sgpr1 = COPY %3(s64)
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

	Show First 20 Lines • Show All 598 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v4i8:			; GFX9-LABEL: v_saddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2			; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1
				; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7
				; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_pk_add_i16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_add_i16 v1, v2, v3 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s4, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_saddsat_v4i8:			; GFX10-LABEL: v_saddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX10-NEXT: s_mov_b32 s4, 8
				; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_and_or_b32 v3, v3, v5, v4			; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v2
				; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v6
				; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
				; GFX10-NEXT: v_and_or_b32 v3, v8, v7, v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_or_b32 v2, v8, v5, v2			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_add_i16 v1, v2, v3 clamp
				; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_i16 v1, v3, v1 clamp
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s4, v1			; GFX10-NEXT: v_and_b32_e32 v3, s4, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s3, s4			; GFX8-NEXT: s_and_b32 s1, s3, s4
	; GFX8-NEXT: s_lshl_b32 s1, s1, 24			; GFX8-NEXT: s_lshl_b32 s1, s1, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_saddsat_v4i8:			; GFX9-LABEL: s_saddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_lshr_b32 s3, s0, 8
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16
	; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX9-NEXT: s_lshr_b32 s4, s0, 16			; GFX9-NEXT: s_lshr_b32 s4, s0, 16
	; GFX9-NEXT: s_mov_b32 s3, 0x80008			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: s_lshr_b32 s5, s1, 8			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s6, s0, 16
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s4			; GFX9-NEXT: s_mov_b32 s4, 0x80008
	; GFX9-NEXT: s_lshr_b32 s4, s2, 16			; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_lshr_b32 s6, s1, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, s4
	; GFX9-NEXT: s_lshr_b32 s7, s1, 24			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s6
	; GFX9-NEXT: s_lshr_b32 s5, s1, 16			; GFX9-NEXT: s_lshr_b32 s6, s3, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshr_b32 s8, s1, 16
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s9, s1, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s2, s4			; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
	; GFX9-NEXT: s_pack_ll_b32_b16 s4, s6, s7			; GFX9-NEXT: s_lshr_b32 s7, s1, 16
	; GFX9-NEXT: s_lshl_b32 s1, s1, s3			; GFX9-NEXT: s_lshl_b32 s3, s3, s4
	; GFX9-NEXT: s_lshl_b32 s5, s5, 8			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s6
	; GFX9-NEXT: s_lshr_b32 s5, s4, 16			; GFX9-NEXT: s_pack_ll_b32_b16 s6, s8, s9
				; GFX9-NEXT: s_lshl_b32 s1, s1, s4
				; GFX9-NEXT: s_lshl_b32 s7, s7, 8
				; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
				; GFX9-NEXT: s_lshr_b32 s7, s6, 16
				; GFX9-NEXT: s_lshl_b32 s4, s6, s4
				; GFX9-NEXT: s_lshl_b32 s6, s7, 8
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshl_b32 s3, s4, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s5, 8
	; GFX9-NEXT: v_pk_add_i16 v0, s0, v0 clamp			; GFX9-NEXT: v_pk_add_i16 v0, s0, v0 clamp
	; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_pk_add_i16 v1, s3, v1 clamp
				; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_pk_add_i16 v1, s2, v1 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s0, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, s0, v1
				; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_saddsat_v4i8:			; GFX10-LABEL: s_saddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_lshr_b32 s2, s0, 8
	; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 16
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2
				; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
				; GFX10-NEXT: s_lshr_b32 s4, s0, 16
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
				; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s6, s1, 16			; GFX10-NEXT: s_lshr_b32 s6, s1, 16
	; GFX10-NEXT: s_lshr_b32 s7, s1, 24			; GFX10-NEXT: s_lshr_b32 s7, s1, 24
				; GFX10-NEXT: s_lshl_b32 s0, s0, s3
				; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s4
				; GFX10-NEXT: s_pack_ll_b32_b16 s4, s6, s7
				; GFX10-NEXT: s_lshr_b32 s8, s2, 16
	; GFX10-NEXT: s_lshr_b32 s5, s1, 16			; GFX10-NEXT: s_lshr_b32 s5, s1, 16
	; GFX10-NEXT: s_mov_b32 s2, 0x80008			; GFX10-NEXT: s_lshr_b32 s6, s4, 16
				; GFX10-NEXT: s_lshl_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s8, s8, 8
	; GFX10-NEXT: s_lshl_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s1, s1, s3
	; GFX10-NEXT: s_lshl_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX10-NEXT: s_lshl_b32 s3, s4, s3
	; GFX10-NEXT: s_pack_ll_b32_b16 s6, s6, s7			; GFX10-NEXT: s_lshl_b32 s4, s6, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s8			; GFX10-NEXT: s_pack_ll_b32_b16 s2, s2, s8
	; GFX10-NEXT: s_lshr_b32 s4, s3, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4
	; GFX10-NEXT: s_lshr_b32 s5, s6, 16
	; GFX10-NEXT: v_pk_add_i16 v0, s0, s1 clamp			; GFX10-NEXT: v_pk_add_i16 v0, s0, s1 clamp
	; GFX10-NEXT: s_lshl_b32 s3, s3, s2			; GFX10-NEXT: v_pk_add_i16 v1, s2, s3 clamp
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_lshl_b32 s0, s6, s2			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_lshl_b32 s1, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s1
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_i16 v1, s2, s0 clamp
	; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s0, v1			; GFX10-NEXT: v_and_b32_e32 v3, s1, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 24
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.sadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 5,233 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sbfx.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - < %s \| FileCheck --check-prefix=GCN %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - < %s \| FileCheck --check-prefix=GCN %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - < %s \| FileCheck --check-prefix=GFX10 %s

				; Test vector signed bitfield extract.
				define signext i8 @v_ashr_i8_i32(i32 %value) {
				; GCN-LABEL: v_ashr_i8_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_bfe_i32 v0, v0, 4, 8
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_ashr_i8_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_bfe_i32 v0, v0, 4, 8
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = ashr i32 %value, 4
				%2 = trunc i32 %1 to i8
				ret i8 %2
				}

				define signext i16 @v_ashr_i16_i32(i32 %value) {
				; GCN-LABEL: v_ashr_i16_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_bfe_i32 v0, v0, 9, 16
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_ashr_i16_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_bfe_i32 v0, v0, 9, 16
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = ashr i32 %value, 9
				%2 = trunc i32 %1 to i16
				ret i16 %2
				}

				define signext i8 @v_lshr_i8_i32(i32 %value) {
				; GCN-LABEL: v_lshr_i8_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_bfe_i32 v0, v0, 4, 8
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_lshr_i8_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_bfe_i32 v0, v0, 4, 8
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = lshr i32 %value, 4
				%2 = trunc i32 %1 to i8
				ret i8 %2
				}

				define signext i16 @v_lshr_i16_i32(i32 %value) {
				; GCN-LABEL: v_lshr_i16_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_bfe_i32 v0, v0, 9, 16
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_lshr_i16_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_bfe_i32 v0, v0, 9, 16
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = lshr i32 %value, 9
				%2 = trunc i32 %1 to i16
				ret i16 %2
				}

				; Test vector bitfield extract for 64-bits.
				define i64 @v_ashr_i64(i64 %value) {
				; GCN-LABEL: v_ashr_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_ashrrev_i64 v[0:1], 10, v[0:1]
				; GCN-NEXT: v_bfe_i32 v0, v0, 0, 4
				; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_ashr_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_ashrrev_i64 v[0:1], 10, v[0:1]
				; GFX10-NEXT: v_bfe_i32 v0, v0, 0, 4
				; GFX10-NEXT: v_ashrrev_i32_e32 v1, 31, v0
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = ashr i64 %value, 10
				%2 = shl i64 %1, 60
				%3 = ashr i64 %2, 60
				ret i64 %3
				}

				define i64 @v_lshr_i64(i64 %value) {
				; GCN-LABEL: v_lshr_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_ashrrev_i64 v[0:1], 10, v[0:1]
				; GCN-NEXT: v_bfe_i32 v0, v0, 0, 4
				; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_lshr_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_ashrrev_i64 v[0:1], 10, v[0:1]
				; GFX10-NEXT: v_bfe_i32 v0, v0, 0, 4
				; GFX10-NEXT: v_ashrrev_i32_e32 v1, 31, v0
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = lshr i64 %value, 10
				%2 = shl i64 %1, 60
				%3 = ashr i64 %2, 60
				ret i64 %3
				}

				; Test scalar signed bitfield extract.
				define amdgpu_ps signext i8 @s_ashr_i8_i32(i32 inreg %value) {
				; GCN-LABEL: s_ashr_i8_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_i32 s0, s0, 0x80004
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_ashr_i8_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_i32 s0, s0, 0x80004
				; GFX10-NEXT: ; return to shader part epilog
				%1 = ashr i32 %value, 4
				%2 = trunc i32 %1 to i8
				ret i8 %2
				}

				define amdgpu_ps signext i16 @s_ashr_i16_i32(i32 inreg %value) {
				; GCN-LABEL: s_ashr_i16_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_i32 s0, s0, 0x100009
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_ashr_i16_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_i32 s0, s0, 0x100009
				; GFX10-NEXT: ; return to shader part epilog
				%1 = ashr i32 %value, 9
				%2 = trunc i32 %1 to i16
				ret i16 %2
				}

				define amdgpu_ps signext i8 @s_lshr_i8_i32(i32 inreg %value) {
				; GCN-LABEL: s_lshr_i8_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_i32 s0, s0, 0x80004
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_lshr_i8_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_i32 s0, s0, 0x80004
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i32 %value, 4
				%2 = trunc i32 %1 to i8
				ret i8 %2
				}

				define amdgpu_ps signext i16 @s_lshr_i16_i32(i32 inreg %value) {
				; GCN-LABEL: s_lshr_i16_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_i32 s0, s0, 0x100009
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_lshr_i16_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_i32 s0, s0, 0x100009
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i32 %value, 9
				%2 = trunc i32 %1 to i16
				ret i16 %2
				}

				; Test scalar bitfield extract for 64-bits.
				define amdgpu_ps i64 @s_ashr_i64(i64 inreg %value) {
				; GCN-LABEL: s_ashr_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_i64 s[0:1], s[0:1], 0x40001
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_ashr_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_i64 s[0:1], s[0:1], 0x40001
				; GFX10-NEXT: ; return to shader part epilog
				%1 = ashr i64 %value, 1
				%2 = shl i64 %1, 60
				%3 = ashr i64 %2, 60
				ret i64 %3
				}

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

Show First 20 Lines • Show All 2,361 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @sdiv_i8(i8 addrspace(1)* %out0, i8 addrspace(1)* %out1, i8 %x, i8 %y) {		define amdgpu_kernel void @sdiv_i8(i8 addrspace(1)* %out0, i8 addrspace(1)* %out1, i8 %x, i8 %y) {
; GFX8-LABEL: sdiv_i8:		; GFX8-LABEL: sdiv_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 8		; GFX8-NEXT: s_bfe_i32 s1, s0, 0x80008
; GFX8-NEXT: s_sext_i32_i8 s1, s1
; GFX8-NEXT: s_ashr_i32 s6, s1, 31		; GFX8-NEXT: s_ashr_i32 s6, s1, 31
; GFX8-NEXT: s_add_i32 s1, s1, s6		; GFX8-NEXT: s_add_i32 s1, s1, s6
; GFX8-NEXT: s_xor_b32 s7, s1, s6		; GFX8-NEXT: s_xor_b32 s7, s1, s6
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX8-NEXT: s_sub_i32 s1, 0, s7		; GFX8-NEXT: s_sub_i32 s1, 0, s7
; GFX8-NEXT: s_sext_i32_i8 s0, s0		; GFX8-NEXT: s_sext_i32_i8 s0, s0
; GFX8-NEXT: s_ashr_i32 s8, s0, 31		; GFX8-NEXT: s_ashr_i32 s8, s0, 31
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 32 Lines
; GFX8-NEXT: flat_store_byte v[0:1], v3		; GFX8-NEXT: flat_store_byte v[0:1], v3
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdiv_i8:		; GFX9-LABEL: sdiv_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s0, 8		; GFX9-NEXT: s_bfe_i32 s1, s0, 0x80008
; GFX9-NEXT: s_sext_i32_i8 s1, s1
; GFX9-NEXT: s_ashr_i32 s6, s1, 31		; GFX9-NEXT: s_ashr_i32 s6, s1, 31
; GFX9-NEXT: s_add_i32 s1, s1, s6		; GFX9-NEXT: s_add_i32 s1, s1, s6
; GFX9-NEXT: s_xor_b32 s7, s1, s6		; GFX9-NEXT: s_xor_b32 s7, s1, s6
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX9-NEXT: s_sub_i32 s1, 0, s7		; GFX9-NEXT: s_sub_i32 s1, 0, s7
; GFX9-NEXT: s_sext_i32_i8 s0, s0		; GFX9-NEXT: s_sext_i32_i8 s0, s0
; GFX9-NEXT: s_ashr_i32 s8, s0, 31		; GFX9-NEXT: s_ashr_i32 s8, s0, 31
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 27 Lines
; GFX9-NEXT: global_store_byte v2, v0, s[0:1]		; GFX9-NEXT: global_store_byte v2, v0, s[0:1]
; GFX9-NEXT: global_store_byte v2, v1, s[2:3]		; GFX9-NEXT: global_store_byte v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdiv_i8:		; GFX10-LABEL: sdiv_i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 8		; GFX10-NEXT: s_bfe_i32 s1, s0, 0x80008
; GFX10-NEXT: s_sext_i32_i8 s0, s0		; GFX10-NEXT: s_sext_i32_i8 s0, s0
; GFX10-NEXT: s_sext_i32_i8 s1, s1
; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_ashr_i32 s6, s1, 31		; GFX10-NEXT: s_ashr_i32 s6, s1, 31
; GFX10-NEXT: s_add_i32 s0, s0, s8		; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_add_i32 s1, s1, s6		; GFX10-NEXT: s_add_i32 s1, s1, s6
; GFX10-NEXT: s_xor_b32 s0, s0, s8		; GFX10-NEXT: s_add_i32 s0, s0, s8
; GFX10-NEXT: s_xor_b32 s7, s1, s6		; GFX10-NEXT: s_xor_b32 s7, s1, s6
		; GFX10-NEXT: s_xor_b32 s0, s0, s8
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX10-NEXT: s_sub_i32 s1, 0, s7		; GFX10-NEXT: s_sub_i32 s1, 0, s7
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
Show All 26 Lines	; GFX10-NEXT: s_endpgm
%rem = srem i8 %x, %y		%rem = srem i8 %x, %y
store i8 %rem, i8 addrspace(1)* %out1		store i8 %rem, i8 addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @sdivrem_v2i8(<2 x i8> addrspace(1)* %out0, <2 x i8> addrspace(1)* %out1, <2 x i8> %x, <2 x i8> %y) {		define amdgpu_kernel void @sdivrem_v2i8(<2 x i8> addrspace(1)* %out0, <2 x i8> addrspace(1)* %out1, <2 x i8> %x, <2 x i8> %y) {
; GFX8-LABEL: sdivrem_v2i8:		; GFX8-LABEL: sdivrem_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s2, s[4:5], 0x10
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_bfe_i32 s0, s2, 0x80010
; GFX8-NEXT: s_sext_i32_i8 s1, s1		; GFX8-NEXT: s_ashr_i32 s3, s0, 31
; GFX8-NEXT: s_ashr_i32 s2, s1, 31		; GFX8-NEXT: s_add_i32 s0, s0, s3
; GFX8-NEXT: s_add_i32 s1, s1, s2		; GFX8-NEXT: s_xor_b32 s8, s0, s3
; GFX8-NEXT: s_xor_b32 s3, s1, s2		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX8-NEXT: s_sub_i32 s6, 0, s8
; GFX8-NEXT: s_sub_i32 s7, 0, s3		; GFX8-NEXT: s_bfe_i32 s1, s2, 0x80018
; GFX8-NEXT: s_lshr_b32 s1, s0, 24		; GFX8-NEXT: s_ashr_i32 s10, s1, 31
; GFX8-NEXT: s_sext_i32_i8 s6, s0
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_sext_i32_i8 s1, s1		; GFX8-NEXT: s_add_i32 s1, s1, s10
; GFX8-NEXT: s_ashr_i32 s8, s6, 31		; GFX8-NEXT: s_xor_b32 s11, s1, s10
; GFX8-NEXT: s_ashr_i32 s9, s1, 31		; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s11
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_add_i32 s6, s6, s8		; GFX8-NEXT: s_sext_i32_i8 s0, s2
; GFX8-NEXT: s_add_i32 s1, s1, s9		; GFX8-NEXT: s_ashr_i32 s9, s0, 31
; GFX8-NEXT: s_xor_b32 s11, s1, s9		; GFX8-NEXT: s_add_i32 s0, s0, s9
; GFX8-NEXT: v_mul_lo_u32 v1, s7, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s6, v0
; GFX8-NEXT: s_xor_b32 s10, s6, s8		; GFX8-NEXT: s_xor_b32 s0, s0, s9
; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s11		; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GFX8-NEXT: s_lshr_b32 s12, s0, 8
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s10, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v2		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
; GFX8-NEXT: v_mul_lo_u32 v2, v0, s3
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s10, v2		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s8
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s0, v2
		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s8, v2
; GFX8-NEXT: s_sub_i32 s1, 0, s11		; GFX8-NEXT: s_sub_i32 s1, 0, s11
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1		; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX8-NEXT: s_sext_i32_i8 s1, s12		; GFX8-NEXT: s_bfe_i32 s1, s2, 0x80008
; GFX8-NEXT: s_xor_b32 s0, s8, s2
; GFX8-NEXT: s_ashr_i32 s2, s1, 31		; GFX8-NEXT: s_ashr_i32 s2, s1, 31
; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: s_add_i32 s1, s1, s2		; GFX8-NEXT: s_add_i32 s1, s1, s2
		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: s_xor_b32 s1, s1, s2		; GFX8-NEXT: s_xor_b32 s1, s1, s2
		; GFX8-NEXT: s_xor_b32 s0, s9, s3
; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0		; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1
; GFX8-NEXT: v_xor_b32_e32 v2, s8, v2		; GFX8-NEXT: v_xor_b32_e32 v2, s9, v2
; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0		; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s8, v2		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s9, v2
; GFX8-NEXT: v_mul_lo_u32 v3, v1, s11		; GFX8-NEXT: v_mul_lo_u32 v3, v1, s11
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v3		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3
; GFX8-NEXT: s_xor_b32 s0, s2, s9		; GFX8-NEXT: s_xor_b32 s0, s2, s10
; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: v_and_b32_e32 v1, s0, v1		; GFX8-NEXT: v_and_b32_e32 v1, s0, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3		; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
Show All 9 Lines
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdivrem_v2i8:		; GFX9-LABEL: sdivrem_v2i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s6, s[4:5], 0x10
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s0, s6, 16		; GFX9-NEXT: s_bfe_i32 s0, s6, 0x80010
; GFX9-NEXT: s_sext_i32_i8 s0, s0
; GFX9-NEXT: s_ashr_i32 s7, s0, 31		; GFX9-NEXT: s_ashr_i32 s7, s0, 31
; GFX9-NEXT: s_add_i32 s0, s0, s7		; GFX9-NEXT: s_add_i32 s0, s0, s7
; GFX9-NEXT: s_xor_b32 s8, s0, s7		; GFX9-NEXT: s_xor_b32 s8, s0, s7
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_lshr_b32 s5, s6, 24		; GFX9-NEXT: s_bfe_i32 s5, s6, 0x80018
; GFX9-NEXT: s_sext_i32_i8 s5, s5
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_ashr_i32 s9, s5, 31		; GFX9-NEXT: s_ashr_i32 s9, s5, 31
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_add_i32 s5, s5, s9		; GFX9-NEXT: s_add_i32 s5, s5, s9
; GFX9-NEXT: s_xor_b32 s5, s5, s9		; GFX9-NEXT: s_xor_b32 s5, s5, s9
		; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s5
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_sub_i32 s10, 0, s8		; GFX9-NEXT: s_sub_i32 s10, 0, s8
; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s5		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX9-NEXT: s_lshr_b32 s4, s6, 8		; GFX9-NEXT: s_sext_i32_i8 s4, s6
; GFX9-NEXT: v_mul_lo_u32 v1, s10, v0		; GFX9-NEXT: v_mul_lo_u32 v2, s10, v0
; GFX9-NEXT: s_sext_i32_i8 s6, s6		; GFX9-NEXT: s_ashr_i32 s10, s4, 31
; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX9-NEXT: s_ashr_i32 s10, s6, 31
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: s_add_i32 s6, s6, s10
; GFX9-NEXT: s_xor_b32 s6, s6, s10
; GFX9-NEXT: s_sub_i32 s11, 0, s5
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s6, v0		; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX9-NEXT: s_sext_i32_i8 s4, s4		; GFX9-NEXT: s_add_i32 s4, s4, s10
; GFX9-NEXT: s_xor_b32 s7, s10, s7		; GFX9-NEXT: s_xor_b32 s4, s4, s10
; GFX9-NEXT: v_mul_lo_u32 v3, s11, v1		; GFX9-NEXT: s_sub_i32 s11, 0, s5
; GFX9-NEXT: v_mul_lo_u32 v2, v0, s8		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
		; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
		; GFX9-NEXT: v_mul_lo_u32 v2, s11, v1
		; GFX9-NEXT: s_bfe_i32 s6, s6, 0x80008
		; GFX9-NEXT: s_ashr_i32 s11, s6, 31
		; GFX9-NEXT: v_mul_lo_u32 v3, v0, s8
		; GFX9-NEXT: v_mul_hi_u32 v2, v1, v2
		; GFX9-NEXT: s_add_i32 s6, s6, s11
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
; GFX9-NEXT: v_sub_u32_e32 v2, s6, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX9-NEXT: s_ashr_i32 s6, s4, 31		; GFX9-NEXT: s_xor_b32 s4, s6, s11
; GFX9-NEXT: s_add_i32 s4, s4, s6		; GFX9-NEXT: v_add_u32_e32 v1, v1, v2
; GFX9-NEXT: s_xor_b32 s4, s4, s6
; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
; GFX9-NEXT: v_mul_hi_u32 v1, s4, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v3
; GFX9-NEXT: v_mul_lo_u32 v3, v1, s5		; GFX9-NEXT: v_mul_hi_u32 v1, s4, v1
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v3
; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3		; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_mul_lo_u32 v3, v1, s5
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
		; GFX9-NEXT: s_xor_b32 s6, s10, s7
		; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0
		; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: s_xor_b32 s4, s6, s9		; GFX9-NEXT: s_xor_b32 s4, s11, s9
; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3
; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1		; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1
; GFX9-NEXT: s_movk_i32 s4, 0xff		; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_xor_b32_e32 v0, s7, v0
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1		; GFX9-NEXT: v_and_b32_e32 v1, s4, v1
; GFX9-NEXT: v_xor_b32_e32 v3, s6, v3		; GFX9-NEXT: v_xor_b32_e32 v3, s11, v3
; GFX9-NEXT: v_subrev_u32_e32 v0, s7, v0		; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v3		; GFX9-NEXT: v_subrev_u32_e32 v3, s11, v3
; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2		; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_short v1, v0, s[0:1]		; GFX9-NEXT: global_store_short v1, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s4, v3		; GFX9-NEXT: v_and_b32_e32 v0, s4, v3
; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2		; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: global_store_short v1, v0, s[2:3]		; GFX9-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_v2i8:		; GFX10-LABEL: sdivrem_v2i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 24		; GFX10-NEXT: s_bfe_i32 s1, s0, 0x80018
; GFX10-NEXT: s_lshr_b32 s2, s0, 16		; GFX10-NEXT: s_bfe_i32 s2, s0, 0x80010
; GFX10-NEXT: s_sext_i32_i8 s1, s1
; GFX10-NEXT: s_sext_i32_i8 s2, s2
; GFX10-NEXT: s_ashr_i32 s3, s1, 31		; GFX10-NEXT: s_ashr_i32 s3, s1, 31
; GFX10-NEXT: s_ashr_i32 s8, s2, 31		; GFX10-NEXT: s_ashr_i32 s8, s2, 31
; GFX10-NEXT: s_add_i32 s1, s1, s3		; GFX10-NEXT: s_add_i32 s1, s1, s3
; GFX10-NEXT: s_add_i32 s2, s2, s8		; GFX10-NEXT: s_add_i32 s2, s2, s8
; GFX10-NEXT: s_xor_b32 s1, s1, s3		; GFX10-NEXT: s_xor_b32 s1, s1, s3
; GFX10-NEXT: s_xor_b32 s2, s2, s8		; GFX10-NEXT: s_xor_b32 s2, s2, s8
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s1		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s1
; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s2		; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s2
; GFX10-NEXT: s_sub_i32 s6, 0, s1		; GFX10-NEXT: s_sub_i32 s6, 0, s1
; GFX10-NEXT: s_sub_i32 s7, 0, s2		; GFX10-NEXT: s_sub_i32 s7, 0, s2
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0		; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0
; GFX10-NEXT: v_mul_lo_u32 v3, s7, v1		; GFX10-NEXT: v_mul_lo_u32 v3, s7, v1
; GFX10-NEXT: s_sext_i32_i8 s6, s0		; GFX10-NEXT: s_sext_i32_i8 s6, s0
; GFX10-NEXT: s_lshr_b32 s0, s0, 8		; GFX10-NEXT: s_bfe_i32 s0, s0, 0x80008
; GFX10-NEXT: s_ashr_i32 s9, s6, 31		; GFX10-NEXT: s_ashr_i32 s9, s6, 31
; GFX10-NEXT: s_sext_i32_i8 s0, s0
; GFX10-NEXT: s_add_i32 s6, s6, s9
; GFX10-NEXT: s_ashr_i32 s10, s0, 31		; GFX10-NEXT: s_ashr_i32 s10, s0, 31
		; GFX10-NEXT: s_add_i32 s6, s6, s9
		; GFX10-NEXT: s_add_i32 s0, s0, s10
; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX10-NEXT: s_add_i32 s0, s0, s10
; GFX10-NEXT: s_xor_b32 s6, s6, s9
; GFX10-NEXT: s_xor_b32 s0, s0, s10		; GFX10-NEXT: s_xor_b32 s0, s0, s10
		; GFX10-NEXT: s_xor_b32 s6, s6, s9
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3		; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
; GFX10-NEXT: v_mul_hi_u32 v0, s0, v0		; GFX10-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX10-NEXT: v_mul_hi_u32 v1, s6, v1		; GFX10-NEXT: v_mul_hi_u32 v1, s6, v1
; GFX10-NEXT: v_mul_lo_u32 v2, v0, s1		; GFX10-NEXT: v_mul_lo_u32 v2, v0, s1
; GFX10-NEXT: v_mul_lo_u32 v3, v1, s2		; GFX10-NEXT: v_mul_lo_u32 v3, v1, s2
; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v0		; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v0
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v1		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v1
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @sdiv_i16(i16 addrspace(1)* %out0, i16 addrspace(1)* %out1, i16 %x, i16 %y) {		define amdgpu_kernel void @sdiv_i16(i16 addrspace(1)* %out0, i16 addrspace(1)* %out1, i16 %x, i16 %y) {
; GFX8-LABEL: sdiv_i16:		; GFX8-LABEL: sdiv_i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_bfe_i32 s1, s0, 0x100010
; GFX8-NEXT: s_sext_i32_i16 s1, s1
; GFX8-NEXT: s_ashr_i32 s6, s1, 31		; GFX8-NEXT: s_ashr_i32 s6, s1, 31
; GFX8-NEXT: s_add_i32 s1, s1, s6		; GFX8-NEXT: s_add_i32 s1, s1, s6
; GFX8-NEXT: s_xor_b32 s7, s1, s6		; GFX8-NEXT: s_xor_b32 s7, s1, s6
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX8-NEXT: s_sub_i32 s1, 0, s7		; GFX8-NEXT: s_sub_i32 s1, 0, s7
; GFX8-NEXT: s_sext_i32_i16 s0, s0		; GFX8-NEXT: s_sext_i32_i16 s0, s0
; GFX8-NEXT: s_ashr_i32 s8, s0, 31		; GFX8-NEXT: s_ashr_i32 s8, s0, 31
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 32 Lines
; GFX8-NEXT: flat_store_short v[0:1], v3		; GFX8-NEXT: flat_store_short v[0:1], v3
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdiv_i16:		; GFX9-LABEL: sdiv_i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s0, 16		; GFX9-NEXT: s_bfe_i32 s1, s0, 0x100010
; GFX9-NEXT: s_sext_i32_i16 s1, s1
; GFX9-NEXT: s_ashr_i32 s6, s1, 31		; GFX9-NEXT: s_ashr_i32 s6, s1, 31
; GFX9-NEXT: s_add_i32 s1, s1, s6		; GFX9-NEXT: s_add_i32 s1, s1, s6
; GFX9-NEXT: s_xor_b32 s7, s1, s6		; GFX9-NEXT: s_xor_b32 s7, s1, s6
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX9-NEXT: s_sub_i32 s1, 0, s7		; GFX9-NEXT: s_sub_i32 s1, 0, s7
; GFX9-NEXT: s_sext_i32_i16 s0, s0		; GFX9-NEXT: s_sext_i32_i16 s0, s0
; GFX9-NEXT: s_ashr_i32 s8, s0, 31		; GFX9-NEXT: s_ashr_i32 s8, s0, 31
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 27 Lines
; GFX9-NEXT: global_store_short v2, v0, s[0:1]		; GFX9-NEXT: global_store_short v2, v0, s[0:1]
; GFX9-NEXT: global_store_short v2, v1, s[2:3]		; GFX9-NEXT: global_store_short v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdiv_i16:		; GFX10-LABEL: sdiv_i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 16		; GFX10-NEXT: s_bfe_i32 s1, s0, 0x100010
; GFX10-NEXT: s_sext_i32_i16 s0, s0		; GFX10-NEXT: s_sext_i32_i16 s0, s0
; GFX10-NEXT: s_sext_i32_i16 s1, s1
; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_ashr_i32 s6, s1, 31		; GFX10-NEXT: s_ashr_i32 s6, s1, 31
; GFX10-NEXT: s_add_i32 s0, s0, s8		; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_add_i32 s1, s1, s6		; GFX10-NEXT: s_add_i32 s1, s1, s6
; GFX10-NEXT: s_xor_b32 s0, s0, s8		; GFX10-NEXT: s_add_i32 s0, s0, s8
; GFX10-NEXT: s_xor_b32 s7, s1, s6		; GFX10-NEXT: s_xor_b32 s7, s1, s6
		; GFX10-NEXT: s_xor_b32 s0, s0, s8
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX10-NEXT: s_sub_i32 s1, 0, s7		; GFX10-NEXT: s_sub_i32 s1, 0, s7
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
Show All 27 Lines	; GFX10-NEXT: s_endpgm
store i16 %rem, i16 addrspace(1)* %out1		store i16 %rem, i16 addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @sdivrem_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %x, <2 x i16> %y) {		define amdgpu_kernel void @sdivrem_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %x, <2 x i16> %y) {
; GFX8-LABEL: sdivrem_v2i16:		; GFX8-LABEL: sdivrem_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x14		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x14
		; GFX8-NEXT: s_load_dword s8, s[4:5], 0x10
		; GFX8-NEXT: s_mov_b32 s9, 0x100010
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_sext_i32_i16 s1, s0		; GFX8-NEXT: s_sext_i32_i16 s1, s0
; GFX8-NEXT: s_ashr_i32 s2, s1, 31		; GFX8-NEXT: s_ashr_i32 s2, s1, 31
; GFX8-NEXT: s_add_i32 s1, s1, s2		; GFX8-NEXT: s_add_i32 s1, s1, s2
; GFX8-NEXT: s_xor_b32 s3, s1, s2		; GFX8-NEXT: s_xor_b32 s3, s1, s2
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX8-NEXT: s_sub_i32 s7, 0, s3		; GFX8-NEXT: s_sub_i32 s6, 0, s3
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x10		; GFX8-NEXT: s_sext_i32_i16 s1, s8
; GFX8-NEXT: s_lshr_b32 s0, s0, 16		; GFX8-NEXT: s_bfe_i32 s0, s0, s9
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_sext_i32_i16 s0, s0		; GFX8-NEXT: s_ashr_i32 s10, s1, 31
; GFX8-NEXT: s_ashr_i32 s9, s0, 31		; GFX8-NEXT: s_ashr_i32 s11, s0, 31
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_add_i32 s1, s1, s10
; GFX8-NEXT: s_sext_i32_i16 s6, s1
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_ashr_i32 s8, s6, 31		; GFX8-NEXT: s_add_i32 s0, s0, s11
; GFX8-NEXT: s_add_i32 s6, s6, s8		; GFX8-NEXT: s_xor_b32 s12, s0, s11
; GFX8-NEXT: s_add_i32 s0, s0, s9		; GFX8-NEXT: s_xor_b32 s1, s1, s10
; GFX8-NEXT: v_mul_lo_u32 v1, s7, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s6, v0
; GFX8-NEXT: s_xor_b32 s10, s6, s8		; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s12
; GFX8-NEXT: s_xor_b32 s11, s0, s9
; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s11
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: s_lshr_b32 s12, s1, 16
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s10, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s1, v0
; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v2		; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v2
; GFX8-NEXT: v_mul_lo_u32 v2, v0, s3		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s3
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s10, v2		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s1, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2
; GFX8-NEXT: s_sub_i32 s1, 0, s11		; GFX8-NEXT: s_sub_i32 s1, 0, s12
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1		; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX8-NEXT: s_sext_i32_i16 s1, s12		; GFX8-NEXT: s_bfe_i32 s1, s8, s9
; GFX8-NEXT: s_xor_b32 s0, s8, s2		; GFX8-NEXT: s_xor_b32 s0, s10, s2
; GFX8-NEXT: s_ashr_i32 s2, s1, 31		; GFX8-NEXT: s_ashr_i32 s2, s1, 31
; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: s_add_i32 s1, s1, s2		; GFX8-NEXT: s_add_i32 s1, s1, s2
; GFX8-NEXT: s_xor_b32 s1, s1, s2		; GFX8-NEXT: s_xor_b32 s1, s1, s2
; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0		; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1
; GFX8-NEXT: v_xor_b32_e32 v2, s8, v2		; GFX8-NEXT: v_xor_b32_e32 v2, s10, v2
; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0		; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s8, v2		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s10, v2
; GFX8-NEXT: v_mul_lo_u32 v3, v1, s11		; GFX8-NEXT: v_mul_lo_u32 v3, v1, s12
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v3		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s12, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s12, v3
; GFX8-NEXT: s_xor_b32 s0, s2, s9		; GFX8-NEXT: s_xor_b32 s0, s2, s11
; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1
; GFX8-NEXT: s_mov_b32 s0, 0xffff		; GFX8-NEXT: s_mov_b32 s0, 0xffff
; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3		; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3
; GFX8-NEXT: v_and_b32_e32 v1, s0, v1		; GFX8-NEXT: v_and_b32_e32 v1, s0, v1
; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3
Show All 16 Lines
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_sext_i32_i16 s0, s6		; GFX9-NEXT: s_sext_i32_i16 s0, s6
; GFX9-NEXT: s_ashr_i32 s7, s0, 31		; GFX9-NEXT: s_ashr_i32 s7, s0, 31
; GFX9-NEXT: s_add_i32 s0, s0, s7		; GFX9-NEXT: s_add_i32 s0, s0, s7
; GFX9-NEXT: s_xor_b32 s8, s0, s7		; GFX9-NEXT: s_xor_b32 s8, s0, s7
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_load_dword s9, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s9, s[4:5], 0x10
; GFX9-NEXT: s_lshr_b32 s4, s6, 16		; GFX9-NEXT: s_mov_b32 s4, 0x100010
; GFX9-NEXT: s_sext_i32_i16 s4, s4		; GFX9-NEXT: s_bfe_i32 s6, s6, s4
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_sub_i32 s10, 0, s8		; GFX9-NEXT: s_ashr_i32 s10, s6, 31
; GFX9-NEXT: s_ashr_i32 s6, s4, 31		; GFX9-NEXT: s_add_i32 s6, s6, s10
; GFX9-NEXT: s_add_i32 s4, s4, s6		; GFX9-NEXT: s_xor_b32 s6, s6, s10
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_xor_b32 s4, s4, s6		; GFX9-NEXT: s_sub_i32 s11, 0, s8
; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s4		; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s6
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_sext_i32_i16 s5, s9		; GFX9-NEXT: s_sext_i32_i16 s5, s9
; GFX9-NEXT: v_mul_lo_u32 v1, s10, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s11, v0
; GFX9-NEXT: s_ashr_i32 s10, s5, 31		; GFX9-NEXT: s_ashr_i32 s11, s5, 31
; GFX9-NEXT: s_add_i32 s5, s5, s10
; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
		; GFX9-NEXT: s_add_i32 s5, s5, s11
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: s_xor_b32 s5, s5, s10		; GFX9-NEXT: s_xor_b32 s5, s5, s11
; GFX9-NEXT: s_sub_i32 s11, 0, s4		; GFX9-NEXT: s_bfe_i32 s4, s9, s4
; GFX9-NEXT: s_lshr_b32 s9, s9, 16		; GFX9-NEXT: s_sub_i32 s9, 0, s6
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s5, v0
; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: s_xor_b32 s7, s10, s7		; GFX9-NEXT: v_mul_hi_u32 v0, s5, v0
		; GFX9-NEXT: s_xor_b32 s7, s11, s7
		; GFX9-NEXT: v_mul_lo_u32 v3, s9, v1
; GFX9-NEXT: v_mul_lo_u32 v2, v0, s8		; GFX9-NEXT: v_mul_lo_u32 v2, v0, s8
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_mul_lo_u32 v3, s11, v1		; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2		; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
		; GFX9-NEXT: s_ashr_i32 s5, s4, 31
		; GFX9-NEXT: s_add_i32 s4, s4, s5
		; GFX9-NEXT: s_xor_b32 s4, s4, s5
		; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
		; GFX9-NEXT: v_mul_hi_u32 v1, s4, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2
		; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX9-NEXT: s_sext_i32_i16 s5, s9
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v2
; GFX9-NEXT: s_ashr_i32 s8, s5, 31		; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
; GFX9-NEXT: s_add_i32 s5, s5, s8
; GFX9-NEXT: s_xor_b32 s5, s5, s8
; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_xor_b32_e32 v0, s7, v0
; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
; GFX9-NEXT: v_mul_lo_u32 v3, v1, s4
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_subrev_u32_e32 v0, s7, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2
; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s4, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s4, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: s_xor_b32 s4, s8, s6		; GFX9-NEXT: s_xor_b32 s4, s5, s10
		; GFX9-NEXT: v_xor_b32_e32 v0, s7, v0
		; GFX9-NEXT: v_xor_b32_e32 v2, s11, v2
; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
; GFX9-NEXT: v_xor_b32_e32 v3, s8, v3		; GFX9-NEXT: v_xor_b32_e32 v3, s5, v3
		; GFX9-NEXT: v_subrev_u32_e32 v0, s7, v0
		; GFX9-NEXT: v_subrev_u32_e32 v2, s11, v2
; GFX9-NEXT: v_sub_u32_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_sub_u32_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_sub_u32_sdwa v3, v3, s8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX9-NEXT: v_sub_u32_sdwa v3, v3, s5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9-NEXT: v_and_or_b32 v0, v0, v4, v1		; GFX9-NEXT: v_and_or_b32 v0, v0, v4, v1
; GFX9-NEXT: v_and_or_b32 v1, v2, v4, v3		; GFX9-NEXT: v_and_or_b32 v1, v2, v4, v3
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: global_store_dword v2, v0, s[0:1]		; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
; GFX9-NEXT: global_store_dword v2, v1, s[2:3]		; GFX9-NEXT: global_store_dword v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_v2i16:		; GFX10-LABEL: sdivrem_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x14		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x14
		; GFX10-NEXT: s_mov_b32 s1, 0x100010
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 16		; GFX10-NEXT: s_sext_i32_i16 s2, s0
; GFX10-NEXT: s_sext_i32_i16 s0, s0		; GFX10-NEXT: s_bfe_i32 s0, s0, s1
; GFX10-NEXT: s_sext_i32_i16 s1, s1		; GFX10-NEXT: s_ashr_i32 s3, s2, 31
; GFX10-NEXT: s_ashr_i32 s2, s0, 31		; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_ashr_i32 s3, s1, 31		; GFX10-NEXT: s_add_i32 s2, s2, s3
; GFX10-NEXT: s_add_i32 s0, s0, s2		; GFX10-NEXT: s_add_i32 s0, s0, s8
; GFX10-NEXT: s_add_i32 s1, s1, s3		; GFX10-NEXT: s_xor_b32 s2, s2, s3
; GFX10-NEXT: s_xor_b32 s8, s0, s2		; GFX10-NEXT: s_xor_b32 s9, s0, s8
; GFX10-NEXT: s_xor_b32 s1, s1, s3		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s8		; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s9
; GFX10-NEXT: v_cvt_f32_u32_e32 v1, s1
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_sub_i32 s6, 0, s8		; GFX10-NEXT: s_sub_i32 s6, 0, s2
; GFX10-NEXT: s_sub_i32 s7, 0, s1		; GFX10-NEXT: s_sub_i32 s7, 0, s9
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0		; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0
; GFX10-NEXT: v_mul_lo_u32 v3, s7, v1		; GFX10-NEXT: v_mul_lo_u32 v3, s7, v1
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_sext_i32_i16 s6, s0		; GFX10-NEXT: s_sext_i32_i16 s6, s0
; GFX10-NEXT: s_lshr_b32 s0, s0, 16		; GFX10-NEXT: s_bfe_i32 s0, s0, s1
; GFX10-NEXT: s_ashr_i32 s9, s6, 31		; GFX10-NEXT: s_ashr_i32 s1, s6, 31
; GFX10-NEXT: s_sext_i32_i16 s0, s0
; GFX10-NEXT: s_add_i32 s6, s6, s9
; GFX10-NEXT: s_ashr_i32 s10, s0, 31		; GFX10-NEXT: s_ashr_i32 s10, s0, 31
		; GFX10-NEXT: s_add_i32 s6, s6, s1
		; GFX10-NEXT: s_add_i32 s0, s0, s10
; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX10-NEXT: s_add_i32 s0, s0, s10		; GFX10-NEXT: s_xor_b32 s6, s6, s1
; GFX10-NEXT: s_xor_b32 s6, s6, s9
; GFX10-NEXT: s_xor_b32 s0, s0, s10		; GFX10-NEXT: s_xor_b32 s0, s0, s10
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3		; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
; GFX10-NEXT: v_mul_hi_u32 v0, s6, v0		; GFX10-NEXT: v_mul_hi_u32 v0, s6, v0
; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1
; GFX10-NEXT: v_mul_lo_u32 v2, v0, s8		; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2
; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1		; GFX10-NEXT: v_mul_lo_u32 v3, v1, s9
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1		; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
; GFX10-NEXT: v_sub_nc_u32_e32 v2, s6, v2		; GFX10-NEXT: v_sub_nc_u32_e32 v2, s6, v2
; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3		; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3
; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX10-NEXT: v_cmp_le_u32_e64 s0, s8, v2		; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s8, v2		; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s9, v3
; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3		; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s9, v3
; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0		; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0		; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
; GFX10-NEXT: v_cmp_le_u32_e64 s0, s8, v2		; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v2
; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1		; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v1
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v3		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s9, v3
; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3		; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v6, s8, v2		; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s9, v3
; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0		; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, v4, s0
; GFX10-NEXT: s_xor_b32 s1, s9, s2		; GFX10-NEXT: s_xor_b32 s2, s1, s3
; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0		; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, v6, s0
; GFX10-NEXT: s_xor_b32 s0, s10, s3		; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc_lo
; GFX10-NEXT: v_xor_b32_e32 v0, s1, v0		; GFX10-NEXT: s_xor_b32 s0, s10, s8
		; GFX10-NEXT: v_xor_b32_e32 v0, s2, v0
; GFX10-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX10-NEXT: v_xor_b32_e32 v1, s0, v1
		; GFX10-NEXT: v_xor_b32_e32 v2, s1, v2
; GFX10-NEXT: v_xor_b32_e32 v3, s10, v3		; GFX10-NEXT: v_xor_b32_e32 v3, s10, v3
; GFX10-NEXT: v_xor_b32_e32 v2, s9, v2
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_subrev_nc_u32_e32 v0, s1, v0		; GFX10-NEXT: v_subrev_nc_u32_e32 v0, s2, v0
; GFX10-NEXT: v_sub_nc_u32_sdwa v1, v1, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: v_sub_nc_u32_sdwa v1, v1, s0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s1, v2
; GFX10-NEXT: v_sub_nc_u32_sdwa v3, v3, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: v_sub_nc_u32_sdwa v3, v3, s10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s9, v2
; GFX10-NEXT: v_and_or_b32 v0, v0, v4, v1		; GFX10-NEXT: v_and_or_b32 v0, v0, v4, v1
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: v_and_or_b32 v2, v2, v4, v3		; GFX10-NEXT: v_and_or_b32 v2, v2, v4, v3
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: global_store_dword v1, v0, s[4:5]		; GFX10-NEXT: global_store_dword v1, v0, s[4:5]
; GFX10-NEXT: global_store_dword v1, v2, s[6:7]		; GFX10-NEXT: global_store_dword v1, v2, s[6:7]
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
%div = sdiv <2 x i16> %x, %y		%div = sdiv <2 x i16> %x, %y
store <2 x i16> %div, <2 x i16> addrspace(1)* %out0		store <2 x i16> %div, <2 x i16> addrspace(1)* %out0
%rem = srem <2 x i16> %x, %y		%rem = srem <2 x i16> %x, %y
store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1		store <2 x i16> %rem, <2 x i16> addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @sdivrem_i3(i3 addrspace(1)* %out0, i3 addrspace(1)* %out1, i3 %x, i3 %y) {		define amdgpu_kernel void @sdivrem_i3(i3 addrspace(1)* %out0, i3 addrspace(1)* %out1, i3 %x, i3 %y) {
; GFX8-LABEL: sdivrem_i3:		; GFX8-LABEL: sdivrem_i3:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 8		; GFX8-NEXT: s_bfe_i32 s1, s0, 0x30008
; GFX8-NEXT: s_bfe_i32 s1, s1, 0x30000
; GFX8-NEXT: s_ashr_i32 s6, s1, 31		; GFX8-NEXT: s_ashr_i32 s6, s1, 31
; GFX8-NEXT: s_add_i32 s1, s1, s6		; GFX8-NEXT: s_add_i32 s1, s1, s6
; GFX8-NEXT: s_xor_b32 s7, s1, s6		; GFX8-NEXT: s_xor_b32 s7, s1, s6
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX8-NEXT: s_sub_i32 s1, 0, s7		; GFX8-NEXT: s_sub_i32 s1, 0, s7
; GFX8-NEXT: s_bfe_i32 s0, s0, 0x30000		; GFX8-NEXT: s_bfe_i32 s0, s0, 0x30000
; GFX8-NEXT: s_ashr_i32 s8, s0, 31		; GFX8-NEXT: s_ashr_i32 s8, s0, 31
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 32 Lines
; GFX8-NEXT: flat_store_byte v[0:1], v3		; GFX8-NEXT: flat_store_byte v[0:1], v3
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdivrem_i3:		; GFX9-LABEL: sdivrem_i3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s0, 8		; GFX9-NEXT: s_bfe_i32 s1, s0, 0x30008
; GFX9-NEXT: s_bfe_i32 s1, s1, 0x30000
; GFX9-NEXT: s_ashr_i32 s6, s1, 31		; GFX9-NEXT: s_ashr_i32 s6, s1, 31
; GFX9-NEXT: s_add_i32 s1, s1, s6		; GFX9-NEXT: s_add_i32 s1, s1, s6
; GFX9-NEXT: s_xor_b32 s7, s1, s6		; GFX9-NEXT: s_xor_b32 s7, s1, s6
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX9-NEXT: s_sub_i32 s1, 0, s7		; GFX9-NEXT: s_sub_i32 s1, 0, s7
; GFX9-NEXT: s_bfe_i32 s0, s0, 0x30000		; GFX9-NEXT: s_bfe_i32 s0, s0, 0x30000
; GFX9-NEXT: s_ashr_i32 s8, s0, 31		; GFX9-NEXT: s_ashr_i32 s8, s0, 31
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
Show All 27 Lines
; GFX9-NEXT: global_store_byte v2, v0, s[0:1]		; GFX9-NEXT: global_store_byte v2, v0, s[0:1]
; GFX9-NEXT: global_store_byte v2, v1, s[2:3]		; GFX9-NEXT: global_store_byte v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_i3:		; GFX10-LABEL: sdivrem_i3:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 8		; GFX10-NEXT: s_bfe_i32 s1, s0, 0x30008
; GFX10-NEXT: s_bfe_i32 s0, s0, 0x30000		; GFX10-NEXT: s_bfe_i32 s0, s0, 0x30000
; GFX10-NEXT: s_bfe_i32 s1, s1, 0x30000
; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_ashr_i32 s6, s1, 31		; GFX10-NEXT: s_ashr_i32 s6, s1, 31
; GFX10-NEXT: s_add_i32 s0, s0, s8		; GFX10-NEXT: s_ashr_i32 s8, s0, 31
; GFX10-NEXT: s_add_i32 s1, s1, s6		; GFX10-NEXT: s_add_i32 s1, s1, s6
; GFX10-NEXT: s_xor_b32 s0, s0, s8		; GFX10-NEXT: s_add_i32 s0, s0, s8
; GFX10-NEXT: s_xor_b32 s7, s1, s6		; GFX10-NEXT: s_xor_b32 s7, s1, s6
		; GFX10-NEXT: s_xor_b32 s0, s0, s8
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX10-NEXT: s_sub_i32 s1, 0, s7		; GFX10-NEXT: s_sub_i32 s1, 0, s7
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

	Show First 20 Lines • Show All 598 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v4i8:			; GFX9-LABEL: v_ssubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2			; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1
				; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7
				; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_pk_sub_i16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_i16 v1, v2, v3 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s4, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_ssubsat_v4i8:			; GFX10-LABEL: v_ssubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX10-NEXT: s_mov_b32 s4, 8
				; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_and_or_b32 v3, v3, v5, v4			; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v2
				; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v6
				; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
				; GFX10-NEXT: v_and_or_b32 v3, v8, v7, v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_or_b32 v2, v8, v5, v2			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_sub_i16 v1, v2, v3 clamp
				; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_i16 v1, v3, v1 clamp
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s4, v1			; GFX10-NEXT: v_and_b32_e32 v3, s4, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: s_and_b32 s1, s3, s4			; GFX8-NEXT: s_and_b32 s1, s3, s4
	; GFX8-NEXT: s_lshl_b32 s1, s1, 24			; GFX8-NEXT: s_lshl_b32 s1, s1, 24
	; GFX8-NEXT: s_or_b32 s0, s0, s1			; GFX8-NEXT: s_or_b32 s0, s0, s1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_ssubsat_v4i8:			; GFX9-LABEL: s_ssubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_lshr_b32 s3, s0, 8
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16
	; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX9-NEXT: s_lshr_b32 s4, s0, 16			; GFX9-NEXT: s_lshr_b32 s4, s0, 16
	; GFX9-NEXT: s_mov_b32 s3, 0x80008			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: s_lshr_b32 s5, s1, 8			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s6, s0, 16
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s4			; GFX9-NEXT: s_mov_b32 s4, 0x80008
	; GFX9-NEXT: s_lshr_b32 s4, s2, 16			; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_lshr_b32 s6, s1, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, s4
	; GFX9-NEXT: s_lshr_b32 s7, s1, 24			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s6
	; GFX9-NEXT: s_lshr_b32 s5, s1, 16			; GFX9-NEXT: s_lshr_b32 s6, s3, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshr_b32 s8, s1, 16
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s9, s1, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s2, s4			; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
	; GFX9-NEXT: s_pack_ll_b32_b16 s4, s6, s7			; GFX9-NEXT: s_lshr_b32 s7, s1, 16
	; GFX9-NEXT: s_lshl_b32 s1, s1, s3			; GFX9-NEXT: s_lshl_b32 s3, s3, s4
	; GFX9-NEXT: s_lshl_b32 s5, s5, 8			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s6
	; GFX9-NEXT: s_lshr_b32 s5, s4, 16			; GFX9-NEXT: s_pack_ll_b32_b16 s6, s8, s9
				; GFX9-NEXT: s_lshl_b32 s1, s1, s4
				; GFX9-NEXT: s_lshl_b32 s7, s7, 8
				; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
				; GFX9-NEXT: s_lshr_b32 s7, s6, 16
				; GFX9-NEXT: s_lshl_b32 s4, s6, s4
				; GFX9-NEXT: s_lshl_b32 s6, s7, 8
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshl_b32 s3, s4, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s5, 8
	; GFX9-NEXT: v_pk_sub_i16 v0, s0, v0 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, s0, v0 clamp
	; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_pk_sub_i16 v1, s3, v1 clamp
				; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_pk_sub_i16 v1, s2, v1 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s0, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, s0, v1
				; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_ssubsat_v4i8:			; GFX10-LABEL: s_ssubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_lshr_b32 s2, s0, 8
	; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 16
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2
				; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
				; GFX10-NEXT: s_lshr_b32 s4, s0, 16
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
				; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s6, s1, 16			; GFX10-NEXT: s_lshr_b32 s6, s1, 16
	; GFX10-NEXT: s_lshr_b32 s7, s1, 24			; GFX10-NEXT: s_lshr_b32 s7, s1, 24
				; GFX10-NEXT: s_lshl_b32 s0, s0, s3
				; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s4
				; GFX10-NEXT: s_pack_ll_b32_b16 s4, s6, s7
				; GFX10-NEXT: s_lshr_b32 s8, s2, 16
	; GFX10-NEXT: s_lshr_b32 s5, s1, 16			; GFX10-NEXT: s_lshr_b32 s5, s1, 16
	; GFX10-NEXT: s_mov_b32 s2, 0x80008			; GFX10-NEXT: s_lshr_b32 s6, s4, 16
				; GFX10-NEXT: s_lshl_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s8, s8, 8
	; GFX10-NEXT: s_lshl_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s1, s1, s3
	; GFX10-NEXT: s_lshl_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX10-NEXT: s_lshl_b32 s3, s4, s3
	; GFX10-NEXT: s_pack_ll_b32_b16 s6, s6, s7			; GFX10-NEXT: s_lshl_b32 s4, s6, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s8			; GFX10-NEXT: s_pack_ll_b32_b16 s2, s2, s8
	; GFX10-NEXT: s_lshr_b32 s4, s3, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4
	; GFX10-NEXT: s_lshr_b32 s5, s6, 16
	; GFX10-NEXT: v_pk_sub_i16 v0, s0, s1 clamp			; GFX10-NEXT: v_pk_sub_i16 v0, s0, s1 clamp
	; GFX10-NEXT: s_lshl_b32 s3, s3, s2			; GFX10-NEXT: v_pk_sub_i16 v1, s2, s3 clamp
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_lshl_b32 s0, s6, s2			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_lshl_b32 s1, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s1
	; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_i16 v1, s2, s0 clamp
	; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s0, v1			; GFX10-NEXT: v_and_b32_e32 v3, s1, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 24
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.ssub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 5,275 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

	Show First 20 Lines • Show All 427 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_uaddsat_v4i8:			; GFX9-LABEL: v_uaddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2			; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1
				; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7
				; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_pk_add_u16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_add_u16 v1, v2, v3 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s4, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_uaddsat_v4i8:			; GFX10-LABEL: v_uaddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX10-NEXT: s_mov_b32 s4, 8
				; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_and_or_b32 v3, v3, v5, v4			; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v2
				; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v6
				; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
				; GFX10-NEXT: v_and_or_b32 v3, v8, v7, v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_or_b32 v2, v8, v5, v2			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_add_u16 v1, v2, v3 clamp
				; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_u16 v1, v3, v1 clamp
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s4, v1			; GFX10-NEXT: v_and_b32_e32 v3, s4, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_uaddsat_v4i8:			; GFX9-LABEL: s_uaddsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_lshr_b32 s3, s0, 8
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16
	; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX9-NEXT: s_lshr_b32 s4, s0, 16			; GFX9-NEXT: s_lshr_b32 s4, s0, 16
	; GFX9-NEXT: s_mov_b32 s3, 0x80008			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: s_lshr_b32 s5, s1, 8			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s6, s0, 16
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s4			; GFX9-NEXT: s_mov_b32 s4, 0x80008
	; GFX9-NEXT: s_lshr_b32 s4, s2, 16			; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_lshr_b32 s6, s1, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, s4
	; GFX9-NEXT: s_lshr_b32 s7, s1, 24			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s6
	; GFX9-NEXT: s_lshr_b32 s5, s1, 16			; GFX9-NEXT: s_lshr_b32 s6, s3, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshr_b32 s8, s1, 16
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s9, s1, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s2, s4			; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
	; GFX9-NEXT: s_pack_ll_b32_b16 s4, s6, s7			; GFX9-NEXT: s_lshr_b32 s7, s1, 16
	; GFX9-NEXT: s_lshl_b32 s1, s1, s3			; GFX9-NEXT: s_lshl_b32 s3, s3, s4
	; GFX9-NEXT: s_lshl_b32 s5, s5, 8			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s6
	; GFX9-NEXT: s_lshr_b32 s5, s4, 16			; GFX9-NEXT: s_pack_ll_b32_b16 s6, s8, s9
				; GFX9-NEXT: s_lshl_b32 s1, s1, s4
				; GFX9-NEXT: s_lshl_b32 s7, s7, 8
				; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
				; GFX9-NEXT: s_lshr_b32 s7, s6, 16
				; GFX9-NEXT: s_lshl_b32 s4, s6, s4
				; GFX9-NEXT: s_lshl_b32 s6, s7, 8
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshl_b32 s3, s4, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s5, 8
	; GFX9-NEXT: v_pk_add_u16 v0, s0, v0 clamp			; GFX9-NEXT: v_pk_add_u16 v0, s0, v0 clamp
	; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_pk_add_u16 v1, s3, v1 clamp
				; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_pk_add_u16 v1, s2, v1 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s0, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, s0, v1
				; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_uaddsat_v4i8:			; GFX10-LABEL: s_uaddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_lshr_b32 s2, s0, 8
	; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 16
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2
				; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
				; GFX10-NEXT: s_lshr_b32 s4, s0, 16
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
				; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s6, s1, 16			; GFX10-NEXT: s_lshr_b32 s6, s1, 16
	; GFX10-NEXT: s_lshr_b32 s7, s1, 24			; GFX10-NEXT: s_lshr_b32 s7, s1, 24
				; GFX10-NEXT: s_lshl_b32 s0, s0, s3
				; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s4
				; GFX10-NEXT: s_pack_ll_b32_b16 s4, s6, s7
				; GFX10-NEXT: s_lshr_b32 s8, s2, 16
	; GFX10-NEXT: s_lshr_b32 s5, s1, 16			; GFX10-NEXT: s_lshr_b32 s5, s1, 16
	; GFX10-NEXT: s_mov_b32 s2, 0x80008			; GFX10-NEXT: s_lshr_b32 s6, s4, 16
				; GFX10-NEXT: s_lshl_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s8, s8, 8
	; GFX10-NEXT: s_lshl_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s1, s1, s3
	; GFX10-NEXT: s_lshl_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX10-NEXT: s_lshl_b32 s3, s4, s3
	; GFX10-NEXT: s_pack_ll_b32_b16 s6, s6, s7			; GFX10-NEXT: s_lshl_b32 s4, s6, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s8			; GFX10-NEXT: s_pack_ll_b32_b16 s2, s2, s8
	; GFX10-NEXT: s_lshr_b32 s4, s3, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4
	; GFX10-NEXT: s_lshr_b32 s5, s6, 16
	; GFX10-NEXT: v_pk_add_u16 v0, s0, s1 clamp			; GFX10-NEXT: v_pk_add_u16 v0, s0, s1 clamp
	; GFX10-NEXT: s_lshl_b32 s3, s3, s2			; GFX10-NEXT: v_pk_add_u16 v1, s2, s3 clamp
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_lshl_b32 s0, s6, s2			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_lshl_b32 s1, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s1
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_add_u16 v1, s2, s0 clamp
	; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s0, v1			; GFX10-NEXT: v_and_b32_e32 v3, s1, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 24
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.uadd.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 3,131 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ubfx.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - < %s \| FileCheck --check-prefix=GCN %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - < %s \| FileCheck --check-prefix=GCN %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - < %s \| FileCheck --check-prefix=GFX10 %s

				; Test vector bitfield extract.
				define i32 @v_srl_mask_i32(i32 %value) {
				; GCN-LABEL: v_srl_mask_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_bfe_u32 v0, v0, 8, 5
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_srl_mask_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_bfe_u32 v0, v0, 8, 5
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = lshr i32 %value, 8
				%2 = and i32 %1, 31
				ret i32 %2
				}

				; Test scalar bitfield extract.
				define amdgpu_ps i32 @s_srl_mask_i32(i32 inreg %value) {
				; GCN-LABEL: s_srl_mask_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_u32 s0, s0, 0x50008
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_srl_mask_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_u32 s0, s0, 0x50008
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i32 %value, 8
				%2 = and i32 %1, 31
				ret i32 %2
				}

				; Don't generate G_UBFX if the offset + width is too big.
				define amdgpu_ps i32 @s_srl_big_mask_i32(i32 inreg %value) {
				; GCN-LABEL: s_srl_big_mask_i32:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_lshr_b32 s0, s0, 30
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_srl_big_mask_i32:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_lshr_b32 s0, s0, 30
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i32 %value, 30
				%2 = and i32 %1, 31
				ret i32 %2
				}

				; Test vector bitfield extract for 64-bits.
				define i64 @v_srl_mask_i64(i64 %value) {
				; GCN-LABEL: v_srl_mask_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_lshrrev_b64 v[0:1], 25, v[0:1]
				; GCN-NEXT: v_mov_b32_e32 v1, 0
				; GCN-NEXT: v_bfe_u32 v0, v0, 0, 10
				; GCN-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: v_srl_mask_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_lshrrev_b64 v[0:1], 25, v[0:1]
				; GFX10-NEXT: v_mov_b32_e32 v1, 0
				; GFX10-NEXT: v_bfe_u32 v0, v0, 0, 10
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				%1 = lshr i64 %value, 25
				%2 = and i64 %1, 1023
				ret i64 %2
				}

				; Test scalar bitfield extract for 64-bits.
				define amdgpu_ps i64 @s_srl_mask_i64(i64 inreg %value) {
				; GCN-LABEL: s_srl_mask_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_bfe_u64 s[0:1], s[0:1], 0xa0019
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_srl_mask_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_bfe_u64 s[0:1], s[0:1], 0xa0019
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i64 %value, 25
				%2 = and i64 %1, 1023
				ret i64 %2
				}

				; Don't generate G_UBFX if the offset + width is too big.
				define amdgpu_ps i64 @s_srl_big_mask_i64(i64 inreg %value) {
				; GCN-LABEL: s_srl_big_mask_i64:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_lshr_b32 s0, s1, 28
				; GCN-NEXT: s_mov_b32 s1, 0
				; GCN-NEXT: ; return to shader part epilog
				;
				; GFX10-LABEL: s_srl_big_mask_i64:
				; GFX10: ; %bb.0:
				; GFX10-NEXT: s_lshr_b32 s0, s1, 28
				; GFX10-NEXT: s_mov_b32 s1, 0
				; GFX10-NEXT: ; return to shader part epilog
				%1 = lshr i64 %value, 60
				%2 = and i64 %1, 63
				ret i64 %2
				}

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

Show First 20 Lines • Show All 1,890 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
%rem = urem <2 x i64> %x, %y		%rem = urem <2 x i64> %x, %y
store <2 x i64> %rem, <2 x i64> addrspace(1)* %out1		store <2 x i64> %rem, <2 x i64> addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @udiv_i8(i8 addrspace(1)* %out0, i8 addrspace(1)* %out1, i8 %x, i8 %y) {		define amdgpu_kernel void @udiv_i8(i8 addrspace(1)* %out0, i8 addrspace(1)* %out1, i8 %x, i8 %y) {
; GFX8-LABEL: udiv_i8:		; GFX8-LABEL: udiv_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s1, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s2, s1, 8		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x80008
; GFX8-NEXT: s_and_b32 s6, s2, s0
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_sub_i32 s2, 0, s6		; GFX8-NEXT: s_sub_i32 s1, 0, s6
; GFX8-NEXT: s_and_b32 s7, s1, s0		; GFX8-NEXT: s_and_b32 s7, s0, 0xff
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0		; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6		; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6
Show All 11 Lines
; GFX8-NEXT: v_mov_b32_e32 v0, s2		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_mov_b32_e32 v1, s3		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_store_byte v[0:1], v3		; GFX8-NEXT: flat_store_byte v[0:1], v3
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udiv_i8:		; GFX9-LABEL: udiv_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s1, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: s_movk_i32 s0, 0xff
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s2, s1, 8		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x80008
; GFX9-NEXT: s_and_b32 s6, s2, s0
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_sub_i32 s2, 0, s6		; GFX9-NEXT: s_sub_i32 s1, 0, s6
; GFX9-NEXT: s_and_b32 s7, s1, s0		; GFX9-NEXT: s_and_b32 s7, s0, 0xff
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s2, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0
; GFX9-NEXT: v_mul_lo_u32 v1, v0, s6		; GFX9-NEXT: v_mul_lo_u32 v1, v0, s6
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_sub_u32_e32 v1, s7, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s7, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_byte v2, v0, s[0:1]		; GFX9-NEXT: global_store_byte v2, v0, s[0:1]
; GFX9-NEXT: global_store_byte v2, v1, s[2:3]		; GFX9-NEXT: global_store_byte v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udiv_i8:		; GFX10-LABEL: udiv_i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_movk_i32 s1, 0xff
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s2, s0, 8		; GFX10-NEXT: s_bfe_u32 s6, s0, 0x80008
; GFX10-NEXT: s_and_b32 s0, s0, s1		; GFX10-NEXT: s_and_b32 s0, s0, 0xff
; GFX10-NEXT: s_and_b32 s6, s2, s1
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX10-NEXT: s_sub_i32 s2, 0, s6		; GFX10-NEXT: s_sub_i32 s1, 0, s6
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s2, v0		; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
; GFX10-NEXT: v_mul_hi_u32 v0, s0, v0		; GFX10-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, v0, s6		; GFX10-NEXT: v_mul_lo_u32 v1, v0, s6
; GFX10-NEXT: v_add_nc_u32_e32 v2, 1, v0		; GFX10-NEXT: v_add_nc_u32_e32 v2, 1, v0
; GFX10-NEXT: v_sub_nc_u32_e32 v1, s0, v1		; GFX10-NEXT: v_sub_nc_u32_e32 v1, s0, v1
; GFX10-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX10-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s6, v1		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s6, v1
Show All 15 Lines	; GFX10-NEXT: s_endpgm
%rem = urem i8 %x, %y		%rem = urem i8 %x, %y
store i8 %rem, i8 addrspace(1)* %out1		store i8 %rem, i8 addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @udivrem_v2i8(<2 x i8> addrspace(1)* %out0, <2 x i8> addrspace(1)* %out1, <2 x i8> %x, <2 x i8> %y) {		define amdgpu_kernel void @udivrem_v2i8(<2 x i8> addrspace(1)* %out0, <2 x i8> addrspace(1)* %out1, <2 x i8> %x, <2 x i8> %y) {
; GFX8-LABEL: udivrem_v2i8:		; GFX8-LABEL: udivrem_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
		; GFX8-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x0
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_movk_i32 s2, 0xff
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_bfe_u32 s2, s0, 0x80010
; GFX8-NEXT: s_and_b32 s3, s1, s2		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s3
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: v_cvt_f32_ubyte3_e32 v1, s0		; GFX8-NEXT: v_cvt_f32_ubyte3_e32 v1, s0
; GFX8-NEXT: s_sub_i32 s1, 0, s3
; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1
		; GFX8-NEXT: s_sub_i32 s1, 0, s2
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_lshr_b32 s8, s0, 24
; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
		; GFX8-NEXT: s_lshr_b32 s3, s0, 24
; GFX8-NEXT: v_mul_lo_u32 v2, s1, v0		; GFX8-NEXT: v_mul_lo_u32 v2, s1, v0
; GFX8-NEXT: s_and_b32 s1, s0, s2		; GFX8-NEXT: s_sub_i32 s1, 0, s3
; GFX8-NEXT: s_sub_i32 s9, 0, s8		; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX8-NEXT: v_mul_lo_u32 v3, s9, v1		; GFX8-NEXT: s_and_b32 s1, s0, 0xff
; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX8-NEXT: s_lshr_b32 s0, s0, 8		; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80008
; GFX8-NEXT: s_and_b32 s9, s0, s2		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
; GFX8-NEXT: v_mul_hi_u32 v0, s1, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s1, v0
; GFX8-NEXT: v_mul_hi_u32 v2, v1, v3		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_lo_u32 v3, v0, s3		; GFX8-NEXT: v_mul_hi_u32 v1, s4, v1
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v0		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s2
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v3		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s1, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s2, v2
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v2		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_mul_hi_u32 v1, s9, v1		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_add_u32_e32 v2, vcc, 1, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
		; GFX8-NEXT: v_mul_lo_u32 v3, v1, s3
		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s2, v2
		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s4, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_mul_lo_u32 v2, v1, s8
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s9, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_and_b32_e32 v1, s2, v1		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s8, v2		; GFX8-NEXT: s_movk_i32 s0, 0xff
		; GFX8-NEXT: v_and_b32_e32 v1, s0, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_mov_b32_e32 v0, s8
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_mov_b32_e32 v1, s9
; GFX8-NEXT: flat_store_short v[0:1], v4		; GFX8-NEXT: flat_store_short v[0:1], v4
; GFX8-NEXT: v_and_b32_e32 v0, s2, v2		; GFX8-NEXT: v_and_b32_e32 v0, s0, v3
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s10
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s11
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udivrem_v2i8:		; GFX9-LABEL: udivrem_v2i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: s_movk_i32 s6, 0xff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s0, 16		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x80010
; GFX9-NEXT: s_and_b32 s7, s1, s6		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, s6
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, s7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_cvt_f32_ubyte3_e32 v1, s0
; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX9-NEXT: s_sub_i32 s1, 0, s7		; GFX9-NEXT: v_cvt_f32_ubyte3_e32 v0, s0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: s_sub_i32 s1, 0, s6
; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: s_lshr_b32 s8, s0, 24		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_mul_lo_u32 v2, s1, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_sub_i32 s1, 0, s8		; GFX9-NEXT: s_lshr_b32 s7, s0, 24
; GFX9-NEXT: v_mul_lo_u32 v3, s1, v1		; GFX9-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX9-NEXT: s_and_b32 s9, s0, s6		; GFX9-NEXT: s_sub_i32 s2, 0, s7
; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0
; GFX9-NEXT: s_lshr_b32 s1, s0, 8		; GFX9-NEXT: s_and_b32 s8, s0, 0xff
; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX9-NEXT: s_and_b32 s10, s1, s6		; GFX9-NEXT: s_bfe_u32 s9, s0, 0x80008
		; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
		; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
		; GFX9-NEXT: v_mul_hi_u32 v1, s8, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v2		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0
; GFX9-NEXT: v_add_u32_e32 v1, v1, v3		; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_mul_hi_u32 v1, s10, v1		; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_mul_lo_u32 v2, v0, s7		; GFX9-NEXT: v_mul_lo_u32 v2, v0, s7
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3
; GFX9-NEXT: v_mul_lo_u32 v3, v1, s8		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
; GFX9-NEXT: v_sub_u32_e32 v2, s9, v2		; GFX9-NEXT: v_sub_u32_e32 v2, s9, v2
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
		; GFX9-NEXT: v_and_b32_e32 v0, s4, v0
; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2
; GFX9-NEXT: v_sub_u32_e32 v3, s10, v3		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_and_b32_e32 v1, s6, v1
; GFX9-NEXT: v_subrev_u32_e32 v4, s8, v3
; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_short v1, v0, s[0:1]		; GFX9-NEXT: global_store_short v1, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s6, v3		; GFX9-NEXT: v_and_b32_e32 v0, s4, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: global_store_short v1, v0, s[2:3]		; GFX9-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udivrem_v2i8:		; GFX10-LABEL: udivrem_v2i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_clause 0x1
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_movk_i32 s1, 0xff		; GFX10-NEXT: s_nop 0
		; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: v_cvt_f32_ubyte3_e32 v0, s0		; GFX10-NEXT: v_cvt_f32_ubyte3_e32 v0, s0
; GFX10-NEXT: s_lshr_b32 s2, s0, 16		; GFX10-NEXT: s_bfe_u32 s1, s0, 0x80010
; GFX10-NEXT: s_lshr_b32 s3, s0, 24		; GFX10-NEXT: s_lshr_b32 s2, s0, 24
; GFX10-NEXT: s_and_b32 s2, s2, s1		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, s1
; GFX10-NEXT: s_sub_i32 s6, 0, s3		; GFX10-NEXT: s_sub_i32 s3, 0, s2
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX10-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX10-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX10-NEXT: v_mul_lo_u32 v2, s6, v0		; GFX10-NEXT: v_mul_lo_u32 v2, s3, v0
; GFX10-NEXT: s_sub_i32 s6, 0, s2		; GFX10-NEXT: s_sub_i32 s3, 0, s1
; GFX10-NEXT: v_mul_lo_u32 v3, s6, v1		; GFX10-NEXT: v_mul_lo_u32 v3, s3, v1
; GFX10-NEXT: s_lshr_b32 s6, s0, 8		; GFX10-NEXT: s_bfe_u32 s3, s0, 0x80008
; GFX10-NEXT: s_and_b32 s0, s0, s1		; GFX10-NEXT: s_and_b32 s0, s0, 0xff
; GFX10-NEXT: s_and_b32 s6, s6, s1
; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX10-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX10-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v2
; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3		; GFX10-NEXT: v_add_nc_u32_e32 v1, v1, v3
; GFX10-NEXT: v_mul_hi_u32 v0, s6, v0		; GFX10-NEXT: v_mul_hi_u32 v0, s3, v0
; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, s0, v1
; GFX10-NEXT: v_mul_lo_u32 v2, v0, s3		; GFX10-NEXT: v_mul_lo_u32 v2, v0, s2
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
; GFX10-NEXT: v_mul_lo_u32 v3, v1, s2		; GFX10-NEXT: v_mul_lo_u32 v3, v1, s1
; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1		; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1
; GFX10-NEXT: v_sub_nc_u32_e32 v2, s6, v2		; GFX10-NEXT: v_sub_nc_u32_e32 v2, s3, v2
; GFX10-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3		; GFX10-NEXT: v_sub_nc_u32_e32 v3, s0, v3
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v2		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s3, v2		; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s2, v2
; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v3		; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3
		; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo
; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s2, v3
; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0		; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0
; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v0		; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v7, s0
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v2		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v0
; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v4, s0		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v4, s3, v2		; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s2, v2
; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1		; GFX10-NEXT: v_add_nc_u32_e32 v6, 1, v1
; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc_lo		; GFX10-NEXT: v_cmp_le_u32_e64 s0, s1, v3
; GFX10-NEXT: v_cmp_le_u32_e64 s0, s2, v3		; GFX10-NEXT: v_subrev_nc_u32_e32 v7, s1, v3
; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s2, v3		; GFX10-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo
; GFX10-NEXT: v_and_b32_sdwa v0, v0, s1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: s_movk_i32 s1, 0xff
; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0		; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, v6, s0
; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v5, s0		; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, v7, s0
		; GFX10-NEXT: v_and_b32_sdwa v0, v0, s1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: v_and_b32_sdwa v2, v2, s1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; GFX10-NEXT: v_and_b32_sdwa v2, v2, s1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX10-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX10-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: global_store_short v1, v0, s[4:5]		; GFX10-NEXT: global_store_short v1, v0, s[4:5]
; GFX10-NEXT: global_store_short v1, v2, s[6:7]		; GFX10-NEXT: global_store_short v1, v2, s[6:7]
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
%div = udiv <2 x i8> %x, %y		%div = udiv <2 x i8> %x, %y
store <2 x i8> %div, <2 x i8> addrspace(1)* %out0		store <2 x i8> %div, <2 x i8> addrspace(1)* %out0
%rem = urem <2 x i8> %x, %y		%rem = urem <2 x i8> %x, %y
store <2 x i8> %rem, <2 x i8> addrspace(1)* %out1		store <2 x i8> %rem, <2 x i8> addrspace(1)* %out1
ret void		ret void
▲ Show 20 Lines • Show All 316 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @udivrem_i3(i3 addrspace(1)* %out0, i3 addrspace(1)* %out1, i3 %x, i3 %y) {		define amdgpu_kernel void @udivrem_i3(i3 addrspace(1)* %out0, i3 addrspace(1)* %out1, i3 %x, i3 %y) {
; GFX8-LABEL: udivrem_i3:		; GFX8-LABEL: udivrem_i3:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX8-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_lshr_b32 s1, s0, 8		; GFX8-NEXT: s_bfe_u32 s6, s0, 0x30008
; GFX8-NEXT: s_and_b32 s6, s1, 7
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_sub_i32 s1, 0, s6		; GFX8-NEXT: s_sub_i32 s1, 0, s6
; GFX8-NEXT: s_and_b32 s7, s0, 7		; GFX8-NEXT: s_and_b32 s7, s0, 7
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
Show All 21 Lines
; GFX8-NEXT: flat_store_byte v[0:1], v3		; GFX8-NEXT: flat_store_byte v[0:1], v3
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udivrem_i3:		; GFX9-LABEL: udivrem_i3:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX9-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_lshr_b32 s1, s0, 8		; GFX9-NEXT: s_bfe_u32 s6, s0, 0x30008
; GFX9-NEXT: s_and_b32 s6, s1, 7
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_sub_i32 s1, 0, s6		; GFX9-NEXT: s_sub_i32 s1, 0, s6
; GFX9-NEXT: s_and_b32 s7, s0, 7		; GFX9-NEXT: s_and_b32 s7, s0, 7
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
Show All 16 Lines
; GFX9-NEXT: global_store_byte v2, v0, s[0:1]		; GFX9-NEXT: global_store_byte v2, v0, s[0:1]
; GFX9-NEXT: global_store_byte v2, v1, s[2:3]		; GFX9-NEXT: global_store_byte v2, v1, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udivrem_i3:		; GFX10-LABEL: udivrem_i3:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_lshr_b32 s1, s0, 8		; GFX10-NEXT: s_bfe_u32 s6, s0, 0x30008
; GFX10-NEXT: s_and_b32 s0, s0, 7		; GFX10-NEXT: s_and_b32 s0, s0, 7
; GFX10-NEXT: s_and_b32 s6, s1, 7
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, s6		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, s6
; GFX10-NEXT: s_sub_i32 s1, 0, s6		; GFX10-NEXT: s_sub_i32 s1, 0, s6
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX10-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1		; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
▲ Show 20 Lines • Show All 140 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

	Show First 20 Lines • Show All 415 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_usubsat_v4i8:			; GFX9-LABEL: v_usubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, 8			; GFX9-NEXT: s_mov_b32 s4, 8
	; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, v8, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX9-NEXT: v_lshrrev_b32_sdwa v5, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2			; GFX9-NEXT: v_and_or_b32 v2, v3, v8, v2
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v1
				; GFX9-NEXT: v_and_or_b32 v1, v1, v8, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v7
				; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: v_and_or_b32 v3, v6, v8, v3
	; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_pk_sub_u16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_u16 v1, v2, v3 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s4, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_usubsat_v4i8:			; GFX10-LABEL: v_usubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_mov_b32 s4, 8
	; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v4, 24, v0
				; GFX10-NEXT: v_lshrrev_b32_e32 v5, 24, v1
				; GFX10-NEXT: s_mov_b32 s4, 8
				; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v2, s4, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX10-NEXT: v_lshrrev_b32_sdwa v6, s4, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: v_and_or_b32 v0, v0, v5, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v7
	; GFX10-NEXT: s_movk_i32 s4, 0xff			; GFX10-NEXT: s_movk_i32 s4, 0xff
	; GFX10-NEXT: v_and_or_b32 v3, v3, v5, v4			; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v2
				; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v6
				; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
				; GFX10-NEXT: v_and_or_b32 v3, v8, v7, v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 24
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_and_or_b32 v2, v8, v5, v2			; GFX10-NEXT: v_pk_lshlrev_b16 v2, 8, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshlrev_b16 v3, 8, v3 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX10-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX10-NEXT: v_pk_lshlrev_b16 v1, 8, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_sub_u16 v1, v2, v3 clamp
				; GFX10-NEXT: v_mov_b32_e32 v2, 8
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_u16 v1, v3, v1 clamp
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s4, v1			; GFX10-NEXT: v_and_b32_e32 v3, s4, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX10-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_usubsat_v4i8:			; GFX9-LABEL: s_usubsat_v4i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8			; GFX9-NEXT: s_lshr_b32 s3, s0, 8
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16
	; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX9-NEXT: s_lshr_b32 s4, s0, 16			; GFX9-NEXT: s_lshr_b32 s4, s0, 16
	; GFX9-NEXT: s_mov_b32 s3, 0x80008			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: s_lshr_b32 s5, s1, 8			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s6, s0, 16
	; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s4			; GFX9-NEXT: s_mov_b32 s4, 0x80008
	; GFX9-NEXT: s_lshr_b32 s4, s2, 16			; GFX9-NEXT: s_lshr_b32 s7, s1, 8
	; GFX9-NEXT: s_lshr_b32 s6, s1, 16			; GFX9-NEXT: s_lshl_b32 s0, s0, s4
	; GFX9-NEXT: s_lshr_b32 s7, s1, 24			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s6
	; GFX9-NEXT: s_lshr_b32 s5, s1, 16			; GFX9-NEXT: s_lshr_b32 s6, s3, 16
	; GFX9-NEXT: s_lshl_b32 s2, s2, s3			; GFX9-NEXT: s_lshr_b32 s8, s1, 16
	; GFX9-NEXT: s_lshl_b32 s4, s4, 8			; GFX9-NEXT: s_lshr_b32 s9, s1, 24
	; GFX9-NEXT: s_pack_ll_b32_b16 s2, s2, s4			; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
	; GFX9-NEXT: s_pack_ll_b32_b16 s4, s6, s7			; GFX9-NEXT: s_lshr_b32 s7, s1, 16
	; GFX9-NEXT: s_lshl_b32 s1, s1, s3			; GFX9-NEXT: s_lshl_b32 s3, s3, s4
	; GFX9-NEXT: s_lshl_b32 s5, s5, 8			; GFX9-NEXT: s_lshl_b32 s6, s6, 8
	; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s6
	; GFX9-NEXT: s_lshr_b32 s5, s4, 16			; GFX9-NEXT: s_pack_ll_b32_b16 s6, s8, s9
				; GFX9-NEXT: s_lshl_b32 s1, s1, s4
				; GFX9-NEXT: s_lshl_b32 s7, s7, 8
				; GFX9-NEXT: s_pack_ll_b32_b16 s1, s1, s7
				; GFX9-NEXT: s_lshr_b32 s7, s6, 16
				; GFX9-NEXT: s_lshl_b32 s4, s6, s4
				; GFX9-NEXT: s_lshl_b32 s6, s7, 8
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshl_b32 s3, s4, s3			; GFX9-NEXT: s_pack_ll_b32_b16 s4, s4, s6
	; GFX9-NEXT: s_lshl_b32 s4, s5, 8
	; GFX9-NEXT: v_pk_sub_u16 v0, s0, v0 clamp			; GFX9-NEXT: v_pk_sub_u16 v0, s0, v0 clamp
	; GFX9-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_pk_sub_u16 v1, s3, v1 clamp
				; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_pk_sub_u16 v1, s2, v1 clamp
	; GFX9-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
				; GFX9-NEXT: s_movk_i32 s0, 0xff
				; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, s0, v1
				; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_usubsat_v4i8:			; GFX10-LABEL: s_usubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s0, 8			; GFX10-NEXT: s_lshr_b32 s2, s0, 8
	; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 16
	; GFX10-NEXT: s_lshr_b32 s4, s0, 24			; GFX10-NEXT: s_lshr_b32 s4, s0, 24
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s2
				; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
				; GFX10-NEXT: s_lshr_b32 s4, s0, 16
				; GFX10-NEXT: s_mov_b32 s3, 0x80008
				; GFX10-NEXT: s_lshr_b32 s5, s1, 8
	; GFX10-NEXT: s_lshr_b32 s6, s1, 16			; GFX10-NEXT: s_lshr_b32 s6, s1, 16
	; GFX10-NEXT: s_lshr_b32 s7, s1, 24			; GFX10-NEXT: s_lshr_b32 s7, s1, 24
				; GFX10-NEXT: s_lshl_b32 s0, s0, s3
				; GFX10-NEXT: s_lshl_b32 s4, s4, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_lshr_b32 s8, s0, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s4
				; GFX10-NEXT: s_pack_ll_b32_b16 s4, s6, s7
				; GFX10-NEXT: s_lshr_b32 s8, s2, 16
	; GFX10-NEXT: s_lshr_b32 s5, s1, 16			; GFX10-NEXT: s_lshr_b32 s5, s1, 16
	; GFX10-NEXT: s_mov_b32 s2, 0x80008			; GFX10-NEXT: s_lshr_b32 s6, s4, 16
				; GFX10-NEXT: s_lshl_b32 s2, s2, s3
	; GFX10-NEXT: s_lshl_b32 s8, s8, 8			; GFX10-NEXT: s_lshl_b32 s8, s8, 8
	; GFX10-NEXT: s_lshl_b32 s0, s0, s2			; GFX10-NEXT: s_lshl_b32 s1, s1, s3
	; GFX10-NEXT: s_lshl_b32 s1, s1, s2
	; GFX10-NEXT: s_lshl_b32 s5, s5, 8			; GFX10-NEXT: s_lshl_b32 s5, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4			; GFX10-NEXT: s_lshl_b32 s3, s4, s3
	; GFX10-NEXT: s_pack_ll_b32_b16 s6, s6, s7			; GFX10-NEXT: s_lshl_b32 s4, s6, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5			; GFX10-NEXT: s_pack_ll_b32_b16 s1, s1, s5
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s8			; GFX10-NEXT: s_pack_ll_b32_b16 s2, s2, s8
	; GFX10-NEXT: s_lshr_b32 s4, s3, 16			; GFX10-NEXT: s_pack_ll_b32_b16 s3, s3, s4
	; GFX10-NEXT: s_lshr_b32 s5, s6, 16
	; GFX10-NEXT: v_pk_sub_u16 v0, s0, s1 clamp			; GFX10-NEXT: v_pk_sub_u16 v0, s0, s1 clamp
	; GFX10-NEXT: s_lshl_b32 s3, s3, s2			; GFX10-NEXT: v_pk_sub_u16 v1, s2, s3 clamp
	; GFX10-NEXT: s_lshl_b32 s4, s4, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	; GFX10-NEXT: s_lshl_b32 s0, s6, s2			; GFX10-NEXT: s_movk_i32 s1, 0xff
	; GFX10-NEXT: s_lshl_b32 s1, s5, 8
	; GFX10-NEXT: s_pack_ll_b32_b16 s2, s3, s4
	; GFX10-NEXT: s_pack_ll_b32_b16 s0, s0, s1
	; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_sub_u16 v1, s2, s0 clamp
	; GFX10-NEXT: s_movk_i32 s0, 0xff
	; GFX10-NEXT: v_and_b32_sdwa v2, v0, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v2, s0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX10-NEXT: v_and_b32_e32 v3, s0, v1			; GFX10-NEXT: v_and_b32_e32 v3, s1, v1
	; GFX10-NEXT: v_and_b32_sdwa v1, v1, s0 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: s_mov_b32 s0, 24
	; GFX10-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX10-NEXT: v_lshlrev_b32_sdwa v1, s0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
				; GFX10-NEXT: v_and_or_b32 v0, v0, s1, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX10-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%lhs = bitcast i32 %lhs.arg to <4 x i8>			%lhs = bitcast i32 %lhs.arg to <4 x i8>
	%rhs = bitcast i32 %rhs.arg to <4 x i8>			%rhs = bitcast i32 %rhs.arg to <4 x i8>
	%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)			%result = call <4 x i8> @llvm.usub.sat.v4i8(<4 x i8> %lhs, <4 x i8> %rhs)
	%cast.result = bitcast <4 x i8> %result to i32			%cast.result = bitcast <4 x i8> %result to i32
	▲ Show 20 Lines • Show All 3,017 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFXClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 354870

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

llvm/include/llvm/Target/GlobalISel/Combine.td

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp

llvm/lib/Target/AArch64/AArch64Combine.td

llvm/lib/Target/AArch64/GISel/AArch64PostLegalizerCombiner.cpp

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.h

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-sbfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-ubfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sbfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-ubfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.ubfe.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.workitem.id.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/postlegalizercombiner-sbfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/postlegalizercombiner-ubfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-sbfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-ubfx.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sbfx.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ubfx.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

[AMDGPU][GlobalISel] Legalize and select G_SBFX and G_UBFX
ClosedPublic